7类常见的统计分析错误

2024年9月19日 15点热度 0人点赞 0条评论
前段时间,一招聘平台发布《2023中国女性职场现状调查报告》,从薪酬来看,2023年,女性的平均薪酬为8689元/月,与男性的9942元/月相差1253元,报告发布后,立马引起网友热议。
640-108
640-109
大部分民众对平均工资、平均年终奖、人均GDP是不买账的,为什么?这就是犯了统计上滥用平均值的错误。
01
滥用平均值
问题:
  • 对于偏态数据大多数样本达不到/或远超过平均值水平;
  • 平均值没有代表意义;只看平均值会忽略波动。

原因:

  • 平均值的信息量有限;不能告诉你分布形态和波动;
  • 平均值容易被极端值拉偏;
  • 不同性质的数据被放一起机械的被平均了(需要分层进行分析)。

应对策略:

  • 明确平均值使用的前提条件;正确的应用平均值;
  • 除了关注平均值外,还要搞清楚数据的分布形态;
  • 结合其它指标一起分析(如中位数,极差,标准差等)
滥用平均值的其他案例
1. 专家说,今年全国平均降雨量和去年同期相同,气候正常。(但专家不告诉你北方大旱南方大涝);
2. 武汉常年平均温度17.2°C,昆明常年平均温度17°C,所以武汉和昆明一样气候宜人;
3. A产品不良率为2%,B产品的不良率为0%;AB两个产品的平均不良率是1%?
4. 去年我们一共有50个客诉,平均结案时间是58天,公司规定的目标是60天内要结案;所以我们的结案很准时。
对于偏态分布,平均值不等于中位数
640-110
某产品寿命服从正态分布,平均值为10000小时,有50%的产品寿命会大于10000小时。
640-111
某产品寿命服从指数分布,平均值为10000小时,只有36.79%的产品寿命会大于10000小时。
计算平均值不要忽略权重
例:已知某产品每个季度的不良率,求全年度平均不良率。
640-112
错误答案1:(1.25%+1.14%+1.15%+1.05)/4
错误答案2:(1.25%*1.14%*1.15%*1.05%)^1/4
正确答案1:
(250+240+300+199)/(20000+21000+26000+19000)
正确答案2:
(1.25%*20000+1.14%*21000+1.15%*2
6000+1.05%*19000)/ (20000+210000+26000+19000)
02
接拿样本统计量代替总体参数
问题:
  • 直接拿样本统计量代替总体参数可能会得出错误结论。

分析:

  • 由于抽样误差存在,样本统计量和总体参数之间通常会存在差异;
  • 样本均值通常不会刚好等于总体均值,样本不良率通常不会刚好等于总体不良率
  • 样本标准差通常不会刚好等于总体标准差……

应对策略:

  • 根据样本来推断总体时通常需要用到置信区间或假设检验。
案例一
640-114
案例二
640-118
03
样本量不足
样本量较小时样本均值或比率波动较大
640-113
QE:你看,7号这天原材料不良率太高了,达到停线标准了!你必须把库存都退给供应商!SQE:这几天使用的原材料都是同一供应商同一批次的,平均不良率为0.13%,质量没问题!

案例
现象:

  • 在美国,肾癌发生率最低的县往往位于中西部、南部和西部的农村地区;但肾癌发生率最高的县也往往位于中西部、南部和西部的农村地区。

真实原因:

  • 美国中西部、南部、西部的区域的县的人数很少,以县为单位统计肾癌发生率时样本量较小,发生率波动很大。
640-116
04
p>0.05就接受原假设
案例
20世纪70年代,美国为减少红灯时汽车在路口等待造成的汽油浪费,决定评估是否允许红灯时右转。弗吉尼亚公路与运输局研究后报告声称,允许红灯右转后事故发生率没有显著增加(p>0.05)。若干年后研究发现,允许红灯右转后汽车撞毁的频率比以前提高了20%,行人被撞的频率比以前提高了60%。
05
盲目套用正态分布
场景:
  • 我在进行正态性检验时发现我的数据不服从正态分布,怎么办?
  • 我的数据不服从正态分布,我用BOX-COX转换或用Johonson变换后还是不服从正态分布,怎么办?
  • 拿到数据就用正态分布来进行过程能力分析。

问题:

  • 并非所有数据都服从正态分布。

原因:

  • 有很多原因导致数据不服从正态分布;
  • 数据不正态不等于过程不受控;
  • 数据不正态不等于数据造假。

应对对策

  • 数据不服从正态分布时先要分析清楚不服从正态分布的原因,再采取合适对策;
  • 认识到除正态分布外,还有很多可能的分布。
►►►
数据不正态的常见原因
640-115
►►►
非正态分布数据过程能力分析
640-117
06
错把相关当因果
相关不等于因果,但因果必相关;因果关系是相关关系的子集;相关关系可以为寻找因果关系提供指引和线索;采取改善措施要针对真正的原因来改善,而不是针对相关关系采取措施。
640-119
07
回归分析过度外推
错误案例
  • 刚出生的婴儿一个月可以长5cm;如果按这个速度预测,他30岁时可以长到多高?
  • 某公司前年销量增长了10%;去年增长了10%,今年也增长了10%;你能用这个增长速度去预测它20年后的销量吗?
640-120

大师兄

这个人很懒,什么都没留下

文章评论

您需要 登录 之后才可以评论