国工数据大脑之变量聚类与国工销售预测系统的融合应用

新闻资讯

2021-09-25

作者：国工智能项目部—林锋

前言

面对市场竞争的日益激烈，制造企业想要得到客户的认可，不得不从价格优势转向高质量的产品优势。产品质量的高低已经关系到企业核心竞争力的重要一环。如何有效地管理和利用这些从企业生产和经营中产生的庞杂的质量数据，是企业迫切需要解决的问题。
将数据挖掘技术应用于生产过程质量管理中，挖掘出生产过程中影响质量的关键因素及其内在联系，有针对性地采取预防措施，从而提高产品质量，为企业持续改善质量提供决策支持。在实际工作中，为了避免漏掉某些重要因素，往往在一开始选取指标的时候尽可能考虑所有的相关因素，而这样做的结果，则是变量过多，变量间的相关度较高，给统计分析与建模带来极大不便，因此人们希望能够研究变量间的相似关系，按照变量的相似关系把他们聚合成若干类，进而找出影响系统的主要因素，引入了变量聚类方法。

含义

根据不同变量之间相关程度高低进行分类。研究中，若变量较多且相关较强时，可以使用变量聚类法把变量聚为几个大类，同一类变量之间有较强相关性，不同类变量之间相关程度低，并可以从同类变量中找出一典型性变量作为代表，最终减少变量个数达到降维目的。

案例

有10种500毫升啤酒的成分和价格等数据，试用变量聚类对变量进行聚类以达到缩减变量的目的，筛选出预测变量。数据的变量包括热量、钠含量、酒精含量、价格、麦芽浓度。

分析过程

从数据大脑中的组件面板查找变量聚类组件，拖到到工作面板，配置数据源以及变量聚类组件参数，点击运行。

分析结果

如何筛选聚类变量？现在我们有5个变量用来对啤酒分类，是否有必要将5个变量都纳入作为分类变量呢？热量、钠含量、酒精含量，麦芽浓度这4个指标是要通过化验员的辛苦努力来测定，而且还有花费不少成本，如果都纳入分析的话，岂不太麻烦太浪费？所以，有必要对5个变量进行聚类处理。
从结果树状图中可以看出酒精含量与麦芽浓度两个变量距离为0.0683，二者之间相关系数最大（相关系数等于1 - 距离）选其一即可，没有必要都作为预测变量，导致成本增加。至于酒精含量和麦芽浓度选择哪一个作为典型指标来代替原来的两个变量，可以根据专业知识或测定的难易程度决定。(与因子分析不同，是完全踢掉其中一个变量以达到降维的目的。)这里选用酒精含量，至此，确定出用于预测的变量为：酒精含量，钠含量，热量，价格。

与国工销售预测系统相融合

在国工销售预测系统中，对预测因素的整理就用到了变量聚类的算法。通过变量聚类算法对影响因素的归纳整理确定最终影响系统的主要因素，降低预测的成本。

适用范围

变量聚类可以用来：分析特征相关性，对指标进行分类等。