GOGETTER
案例与数据
国工智能数据大脑是一个基于人工智能数据分析决策平台,内置关联分析是一种重要的人工智能组件,他可以寻找出事物之间的隐含规则,寻找事物的发生规律。像经典的啤酒尿布的销售分析和抖音、头条中对于用户兴趣推荐的分析都有关联分析的影子。
关联分析作为一种知识发现算法,在制造业中也有广泛的用途,随着制造业信息化的建设,制造类企业积累了大量的数据,其中生产中不合格品数量关系企业的生存与发展,如何从以往大量的不合格品数据中发现问题,分析原因,以便于有关部门及领导采取相应对策,降低不合格率。
这里使用某汽车模具公司中影响产品不合格因素为例,从引起产品不合格的各原因中发现它们之间的内在联系,进行人为控制和干预,以减少不合格产品数量,从而提高企业的竞争力。
我们使用了一张质量判定EXCEL表来进行分析的原料。里面描述了每一个生产批次质量检测项目的检验结果,分别是合格与不合格。
表1 产品不合格原因统计表
这里YES代表此批次产品产生不合格的原因,NO不是此批次产品产生的原因。
图1 关联分析处理流程
我们使用数据大脑系统,对存有待分析数据的Excel文件进行读取,然后按需进行算法组件的相关参数进行配置,如图2--图4所示
图2 模具数据模型
图3 配置Excel读取组件
图4 配置关联分析FPGrowth组件
图5关联分析分析结果
通过关联分析FPGrowth组件生成算法分析结果,展示该类数据之间存在的潜在联系,上述数据分析结果转换如下图
所示。
图6关联分析分析结果转换
通过上述规则可以看出,当产品不合格原因不存在冲件高低,而存在屑料阻塞时,有92.8571%的概率不会出现下料偏位,其确信度为1.9264,存在一定的关联性。
当产品不合格原因不存在冲件高低,而存在卡料和折弯变形时,有91.0327%的概率会出现凸模断裂崩刃,其确信度为6.8523333,存在较强的关联性,需要对卡料和折弯变形这两个不合格原因进行重点管理。
当产品不合格原因只存在卡料和折弯变形时,有90.6976%的概率会出现凸模断裂崩刃,其确信度为6. 440444,存在较强的关联性。
由上所述,在整个生产过程中,关于质量管理方面,需要对卡料和折弯变形这两个不合格原因进行重点管理,对其生产中的弱点进行改进,降低不合格率,从而降低企业的运作成本,取得一定的经济效益。
度量类型是设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(Lift),杠杆率(Leverage),确信度(Conviction)。
置信度也称为可靠度,或置信水平、置信系数,表示在先决条件X发生的情况下,由关联规则“X→Y”推出Y的概率。即在含有X的项集中,含有Y的可能性,公式为: Confidence(X→Y) = P(Y|X) = P(X,Y) / P(X) = P(XUY) / P(X)。
提升度(Lift)表示含有X的条件下,同时含有Y的概率,与Y总体发生的概率之比。公式为:Lift(X→Y) = P(Y|X) / P(Y)。Lift=1时表示A和B独立。这个数越大(>1),越表明A和B存在于一个集合中不是偶然现象,有较强的关联度.
杠杆率(Leverage)公式为: Leverage=P(A,B)-P(A)P(B)。Leverage=0时,A和B独立,Leverage越大A和B的关系越密切。
确信度(Conviction)公式为: Conviction =P(A)P(!B)/P(A,!B) 。!B表示B没有发生, Conviction也是用来衡量A和B的独立性。从它和Lift的关系(对B取反,代入Lift公式后求倒数)可以看出,这个值越大, A、B越关联。
利用关联分析的方法可以发现联系,如关联规则或频繁项集。目前应用于穿衣搭配推荐、依据用户轨迹的商户精准营销、地点推荐系统、气象关联分析、交通事故成因分析、银行金融客户交叉销售分析、电子商务搭配购买推荐、基于兴趣的实时新闻推荐等领域。