分享:
作者:国工智能项目部—林锋
前言
面对市场竞争的日益激烈,制造企业想要得到客户的认可,不得不从价格优势转向高质量的产品优势。产品质量的高低已经关系到企业核心竞争力的重要一环。如何有效地管理和利用这些从企业生产和经营中产生的庞杂的质量数据,是企业迫切需要解决的问题。
将数据挖掘技术应用于生产过程质量管理中,挖掘出生产过程中影响质量的关键因素及其内在联系,有针对性地采取预防措施,从而提高产品质量,为企业持续改善质量提供决策支持。在实际工作中,为了避免漏掉某些重要因素,往往在一开始选取指标的时候尽可能考虑所有的相关因素,而这样做的结果,则是变量过多,变量间的相关度较高,给统计分析与建模带来极大不便,因此人们希望能够研究变量间的相似关系,按照变量的相似关系把他们聚合成若干类,进而找出影响系统的主要因素,引入了变量聚类方法。
含义
根据不同变量之间相关程度高低进行分类。研究中,若变量较多且相关较强时,可以使用变量聚类法把变量聚为几个大类,同一类变量之间有较强相关性,不同类变量之间相关程度低,并可以从同类变量中找出一典型性变量作为代表,最终减少变量个数达到降维目的。
案例
有10种500毫升啤酒的成分和价格等数据,试用变量聚类对变量进行聚类以达到缩减变量的目的,筛选出预测变量。数据的变量包括热量、钠含量、酒精含量、价格、麦芽浓度。
分析过程
从数据大脑中的组件面板查找变量聚类组件,拖到到工作面板,配置数据源以及变量聚类组件参数,点击运行。
分析结果
如何筛选聚类变量?现在我们有5个变量用来对啤酒分类,是否有必要将5个变量都纳入作为分类变量呢?热量、钠含量、酒精含量,麦芽浓度这4个指标是要通过化验员的辛苦努力来测定,而且还有花费不少成本,如果都纳入分析的话,岂不太麻烦太浪费?所以,有必要对5个变量进行聚类处理。
从结果树状图中可以看出酒精含量与麦芽浓度两个变量距离为0.0683,二者之间相关系数最大(相关系数等于1 - 距离)选其一即可,没有必要都作为预测变量,导致成本增加。至于酒精含量和麦芽浓度选择哪一个作为典型指标来代替原来的两个变量,可以根据专业知识或测定的难易程度决定。(与因子分析不同,是完全踢掉其中一个变量以达到降维的目的。)这里选用酒精含量,至此,确定出用于预测的变量为:酒精含量,钠含量,热量,价格。
与国工销售预测系统相融合
在国工销售预测系统中,对预测因素的整理就用到了变量聚类的算法。通过变量聚类算法对影响因素的归纳整理确定最终影响系统的主要因素,降低预测的成本。
适用范围
变量聚类可以用来:分析特征相关性 ,对指标进行分类等。
精馏回收工艺是医药化工行业中的最为重要的典型单元操作之一,在原料药、精细化工、轻工业等各个领域都有极其广泛的应用。由于精馏过程的复杂性,精馏工艺过程的终点现阶段仍需要生产工人每隔一定时间取样送实验室检测,通过气相色谱测定含量,卡尔费休滴定法
中秋节是中国传统节日之一,也是一年中最重要、最盛大的节日之一。在这一天,以明亮的月亮和家人团聚为特点,承载着人们无尽的思念和美好的祝福。 国庆、中秋两节遇, 合家团圆精神俱。 团团圆圆过中秋, 欢欢喜喜
2023年8月28日,国工智能与镁伽科技举行战略合作签约仪式,国工智能董事长柳彦宏与镁伽科技创始人兼首席执行官黄瑜清先生代表双方签订正式战略合作协议,标志着AI辅助化工研发领先者、智能自动化实验室引领者开启强强联合发展之路。&n
创新是一个民族进步的灵魂,是一个国家兴旺发达的不竭动力,也是中华民族最深沉的民族禀赋。在激烈的国际竞争中,惟创新者进,惟创新者强,惟创新者胜。 5月27日