言论
前沿快报
它山之石
观点视角
技术
专业知识
项目
项目管理
制造
第一现场
精益生产
质量
质量体系
质量工具
登录
注册
关于
搜索
言论
前沿快报
它山之石
观点视角
技术
专业知识
项目
项目管理
制造
第一现场
精益生产
质量
质量体系
质量工具
登录
注册
关于
首页
观点视角
正文
关于属性数据MSA中Kappa的对话——与图老师的讨论
253
次阅读
没有评论
前言
:在7月29日本号发表了拙作《我为什么反对在属性数据MSA中用Kappa分析(上)》以后,图老师认真阅读了拙作,指出了文章的不足之处,并提出了一些值得探讨的问题。针对图老师所提意见,我核对了原文,并仔细阅读了AIAG的《测量系统分析参考手册》第四版(以下简称手册),发现所发文章确实存在诸多不足,也有一些遗漏,因此于8月5日进行了修改。除此之外,我们还进行了很有趣的讨论,对比了手册中属性数据MSA部分与minitab、六西格玛的不同之处,并与詹志炜老师进行了交流,澄清了一些概念,达成了一些共识。
我们共同认为,有必要把讨论的内容发表出来,以引起更广泛的讨论,获得更大的共识。为此特将我们讨论的内容整理发表,供大家参考,也欢迎大家提出不同意见。
图老师:
2019.7.30 18:02
张老师好, 今天得空再次拜读Kappa大作, 有以下疑问想和您核实, 以下均基于AIAG的MSA手册第4版本。
1. Kappa法也就是针对属性类数据测量系统研究的假设风险分析法, 可用时评价考虑2个维度:
一是一致性, 也就是各评价人之间的一致程度[和基准值无关]. 用Cohen的Kappa来评价, 通用的比例规则是Kappa>0.75表示有良好的一致性.
二是有效性,(您的表格翻译成了一致性, 请核实)由于一致性只能反应各评价人之间的一致程度, 但不能反应区分好坏零件的能力, 所以引入相对于零件参考值的有效性。
在评估有效性之前, 同样使用Kappa来确定每个评价者和参考之间的一致性, 如果满足上面的要求, 则继续分析评估.
2. 手册中给出的有效性评价表作为指南仅供参考,实际是否接受要取决于顾客的要求, 组织对当前过程情况的了解程度,样本的选择。测量系统的变差来源以及错误决定对后续过程和顾客的影响。
3. 上面的2是英文原版的意思。很搞笑的是,正版的英文和中文在这里有着巨大的分歧,内容和意思完全不一样。这里不作评论。
4.不可否认,Kappa法研究的过程中,取样的结构范围和数量对于结果几乎有着决定性的引向作用,如果不了解过程和研究的目的,难以得到预期的结果。
5.关于您发现的Kappa和”一致率”结论不一的案例, 可否提供类似手册表格中的原始模拟数据, 我用不同于Minitab的软件来分析一下, 说不定有另外的发现可供您参考。
张自达的答复
2019.8.1 17:33
非常感谢图老师如此认真地看了我的文章,并对其中的不足提出了自己的意见。
在发这篇文章时,我心里也不是特别有底,毕竟其中的观点与大多数人的认知是相反的,你的意见会使文章的观点更加完善,也会更有指导意义。
在回应你的7个问题之前,我想先说一下写这篇文章的初衷。我的想法很简单,就是要简化。随着五大工具以及六西格玛越来越普及,工具也变得越来越复杂,做出判断的依据也越来越多,以至于当多个判据出现矛盾时,人们会无所适从。在MSA现有的判据中有的直接明了,如%P/T、一致性、有效性,有些则物理含义并不那么清晰,如ndc、Kappa。可笑的是,%R&R和ndc本来是一回事,但因为是两个指标,结果判据上出现不一致,这也是我反对ndc的原因。一致性、有效性与Kappa之间的问题类似(虽然原理上不同),过多类似的判据会造成人们认识上的混乱。我更担心的是在实际使用中将判据僵化,变成死的教条。我们用泥巴造了一座神像,然后我们对这块泥巴顶礼膜拜,言听计从。走得太远,我们不知道为什么出发。
来啊!拜神啊!
基于以上考虑,我强烈建议将判据简化,丢掉那些含义不明的判据,这样做更有现实意义。
下面讨论图老师提出的问题:
1.你说的对,我忽略了一致性和有效性两个概念的差异,这个会在下一篇里指出来。检验员一致性反过来就是minitab中的mixed,如果是重复测2次,可以用Cohen’ Kappa,如果是3次及以上,就要用到Fleiss’ Kappa了。假设是2次,我大致算了一下,0.75的Kappa值所对应的一致性范围越为0.87~1,这个范围比较宽,跨越了好与不好的界限。一致性是有效性的基础,如果一致性是0.87,那么有效性肯定不会好,所以这个0.75我持保留意见。如果取0.8,覆盖的范围在0.9~1,这个还可以接受。
这张图发文的时候漏掉了,看来还是发急了,这张图说的是在不同样本组合下,一致率从0.5~1对应的Kappa值,看来要重发一次了。
有效性的计算方法没什么特别的,就是将标准与评价放在一起计算Fleiss’ Kappa,在计算中标准和评价一视同仁,没什么特别优待。我没有特别计算2次评价加1次标准计算的Kappa值,而是计算了3个人6次评价加1次标准共7次评价的Kappa值。假设样本结构是合格/不合格为25/25,在不同的有效率下Kappa的表现是这样的
可以看到0.75的Kappa值基本覆盖了0.6~0.8的有效率。
2.我同意,其实我就是怕僵化运用才提出这种比较极端的意见的。
3.建议图老师亲自翻译一版,我可以打打下手。
4.完全同意,计量数据又何尝不是呢,单单一个抽样就出现了各种千奇百怪的方法,微信群里时不时就要对此来一番唇枪舌战,可见其流毒之广。
5.这是我的短板,我是用很笨的方法来做模拟的,就是穷举各种不一致的情况,比如50个样6次评价只有1个样不一致有5种情况,有2个样不一致是就有25种错误组合,我是一一计算各种情况的Kappa值,然后选出最大值和最小值来获得其范围,如果能够编程来计算的话,那就太方便了。
微信中的讨论
张自达的答复(包括图老师对部分内容的修改)
2019.8.4 22:07
图老师,这几天我把手册属性测量系统分析部分仔细看了,手册里的分析方法与minitab(包括红皮书、蓝皮书)有很大差异,下面我直接使用手册中的例子做一个对比,理解不到位的地方请你批评指正。
在进入对比之前,我不得不说手册的中译本简直太差了,满分100分的话,我给59分,其它部分可以给60分算是勉强及格,仔细琢磨一下可以理解,胡乱翻译的那一段要扣掉1分。我还没对比全部手册,说不定其它部分也有扣分项。
两种方法的对比
1.分析对象有差别
手册的分析对象实质还是连续数据,在连续数据的基础上来分析类似通止规这样的量仪,所研究的对象与minitab相比要窄不少,我在六西格玛中学习到的以及在minitab中属性数据还包括分类数据(包括两分类和多分类),这些数据不一定是将连续数据离散化,如在客服电话中将客户来电区分为投诉、咨询、业务办理等类别,客户投诉应该转发给哪些部门来处理等,在这里判断的准确性对处理的效率有很重要的影响。还有一类是顺序数据,比如给电影评星、给工程师评级等等。分析对象的不同带来的分析方法上的差异。
2.分析方法上的差异
1) minitab首先分析检验员自身的一致性,即对同一个部件的三次判断是否一致,因为是3次测量,所以无法计算Cohen’s Kappa,而只能计算Fleiss’ Kappa。
这个计算我一般解释为重复性,即相同的人测量相同的东西所表现出的差异,重复性不好,后面的分析就不可能好了。
手册对此也有计算,见下面的贴图,但没有计算Kappa值。
2)每个检验员的有效性
minitab结果
这个表给出了每个检验员的误检率和漏检率,混合是重复性不好的数量。表中还给出了每个检验员的Kappa值,可以看到,即使有效性不是很好,Kappa值依然很高。
手册也给出了类似的表
手册假设检验给出的结论是三个检验员之间没有显著差异,因为置信区间是相交的。
对此我有两点疑问:
a.虽然手册中的案例采用随机抽样,但在实践中,大量的实验采用非随机抽样,比如零件外观检验,实验中会特意挑选样件,而不是随机抽样,此时计算置信区间就没有意义了。
手册里也提到了所谓的“咸鱼样本”。
b.置信区间是基于二项分布建立的,如果样本量较小的话,置信区间会很宽,其参考意义也就不大了。
因此我建议在属性数据MSA中放弃基于置信区间的假设检验。
在手册中,下面表格中的错误率(应翻译为漏判率,即坏件被判为好件)和错误报警率(应翻译为误判率,即好件被判为坏件)的计算也与minitab不同。手册中错误率是某检验员的错误次数/总测量次数,如A,“1”(合格)部件有34个,测量102次,判断错误5次,因此误检率为4.9%。“0”(不合格)部件有16个,测量48次,错误3个,因此漏检率为3/48=6.3%。
手册翻译要再扣1分,表格中的数据写错了。
3)检验员之间的一致性
在minitab中,用3个检验员判断完全一致的部件数计算总体的一致性,可以理解为再现性。显然3个检验员判断错误的部件不完全一致,因此总的一致率比单个检验员的一致率低。另外每个部件的9次检验当作9个样本来计算Kappa值。可以看出,即使一致率很低,但Kappa仍然比较高,这样会让人产生疑惑。
手册因为只用Cohen’s Kappa,所以不能把3个检验员放到一起来计算,而只是做了两两一致性的分析。但两两一致性也有问题,因为两个人每个部件有6次测量,手册因此把每人三次测量按次一一对应,将50个样3次测量变成150次测量组成下面的交叉表
采用这种方法计算出来的Kappa值如下表
看起来都还不错,但我对此也有两个疑问
a.这样建立的交叉表很牵强,首先两个检验员的每一次测量不一定存在对应关系,其次这个表可以理解为150个部件单次测量的一致性,这就造成了交叉表的含义不明。
b.两两对应的一致性仍然不能表达总体的一致性,因此计算出的Kappa值也没有什么意义。
4)总体有效性
minitab中总体有效性是总体一致性与标准的对比,本例的计算结果如下
手册中对此没有分析。
总的来说,我还是推荐minitab的分析方法,原因有2点:
a. minitab适应性广,不仅可以分析这个案例(1或0, ok或nok)的属性类数据,还可以分析分类数据和分级顺序类数据。
b. minitab分析更全面客观一些,当然我还是不建议用Kappa。
手册中关于“偏倚”和“重复性”的分析在minitab中也能实现,我会另文介绍。
以上意见请图老师及各位老师指正。
微信中的讨论
这是一次非常愉快的讨论,不仅在于澄清了以前很模糊的概念,发现本本中存在的问题,更在于讨论中良好的交流氛围,在交流中获得新知的愉悦感,这是单纯看书体会不到的。
期待以后会有更多这样的讨论与交流。
转自:张老师漫谈六西格玛
正文完
0
SQE:“盐雾测试”是检验电镀工艺是否达标的最好方法
Rule of 1-10-100:质量人必知之法则
为什么越优秀的人越勤奋
戴明:质量无须惊人之举,句句箴言
一名德国生产总监,7年时间总结了中国工厂的151种浪费
上一篇
体系内审流程及现场审核技巧
下一篇
评论(没有评论)
文章搜索
即刻尝鲜
结构设计公差分析
8D报告总是做不好,问题到底出在哪
8D报告作为一种常见的质量问题解决工具,很多企业在面对客户投诉或质量问题时都会用它。然而,写好8D报告并不容易...
橡胶硬度如何精确计算?
橡胶胶料的理论计算是指通过对各个成分的质量、体积及其在配方中的比例进行计算,从而预测橡胶的物理性能,尤其是硬度...
质量红线:质量的底线与最后一道防线
01 什么是质量红线? 宋老师一直以来对质量的定义是:质量即价值,在成本相当的前提下,质量价值感知的提升直接关...
超全SQE培训教材
热门文章
汽车零部件特殊特性(CC/SC)识别与控制方法
在APQP中,特殊特性(SpecialCharacteristics)指由顾客指定的产品和过程特性,包括政府法...
一文读懂控制计划 | Control Plan
Hi 伙伴们!今天一鸣打算跟大家聊聊控制计划。 一、什么是控制计划? 控制计划又叫 Control Plan,...
ISO16232清洁度代码CCC code的解读
随着对机动车产品安全性、可靠性的日趋严苛,以及对其环保和节能方面越来越高的要求,产品的“清洁度”这一质量监控环...
制造业和工厂内不可不知的英文缩写集合
开发流程类: EVT(Engineering Verification Test)工程验证测试阶段 DVT(D...
CPK、Sigma和PPM的换算关系
过程能力指数(Cp和Cpk)表示的是过程在稳定(即没有特殊原因干扰产出品的特性或者说是在可控(under co...
最新评论
infinite cui
需求VDA6.3 表格,谢谢
准备与BMW配套?这些要求都知道了吗 – 汽车质量管理笔记
[…] 《看看宝马是怎么培训供应商的~》(点击可查看)。 […]
大师兄
说的挺有道理的,从现实看到的大部分情况,做技术的人都比较直,对技术的一丝不苟,容易在遇到需要展现管理能力的时候,就会表现出短板来。管理需要授权,更多应该思考团队、部门间,人员发展,对未来的变化做出应对等的能力。
大师兄
抱歉,暂无PPT可供下载。
john
如何获得这个PPT文件
大师兄
里面确实有一些叫法和我们平时不一样
大师兄
这个案例来自一本教科书,短短一页不到的案例描述,有可能漏掉某些细节。我想马自达的员工不会不知道这点,很可能是案例没有提到。马自达的员工更愿意偏离规范不过是这本教科书的猜测罢了。因为象传输系统这么复杂的产品,做得好与做得不好都可能有多个原因。我从另一个案例分析中发现,马自达的最终产品还是比福特的更满足规范要求。 变更控制是必要的。
PeriMasto
这个写的不错,很实用,谢谢!
生产、质量及技术三个难兄难弟的关系 | 汽车质量人小馆
[…] 附:《生产质量管理十六字精髓》(点击可查具体讲解) […]
除尘
文章写的很好,对于摩擦系数测定这些基础知识介绍很详细,是个好读物。