博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
读书笔记:《思考的乐趣:Matrix67数学笔记》第4章 统计数据的陷阱
阅读量:7224 次
发布时间:2019-06-29

本文共 782 字,大约阅读时间需要 2 分钟。

《思考的乐趣:Matrix67数学笔记》第4章讲了几个统计学上的陷阱,由于现在流行的大数据与统计学很有渊源,所以认真读了这一章,在中指出只考虑相关性就够了,而不考虑因果关系,从这几个例子上可以看出这种观点是非常的可怕。

1)因果关系颠倒:

去救火的消防员越多,火灾损失越大。

实际是因为火灾损失大,才会派很多的人去救火。

2)第三个因素影响2个事件显出了相关性

例一:冰淇淋销量增加,鲨鱼食人事件也会同时增加。

如果根据这个相关性,政府部门把冰淇淋销售点全部取缔就太可笑了,真实情况只是因为夏天来了(第三个因素)。

例二:足球队的获胜率与队员的到球袜长度成正比。

根据这个相关性,不会有愚蠢的教练给球员都换上长袜子吧,实际上只是球员的身高(第三个因素)对比赛有影响。

例三:手指发黄的人,得肺癌的可能性越大。

医生不会让你把指头染成粉色吧?实际原因很可能手指发黄和得肺癌都是因为吸烟造成的。

例四:按这种道理,吸烟和肺癌有没有相关性?

可能癌症引起了烟瘾,也可能是存在某种基因同时引起了癌症和烟瘾。

3)统计学中的辛普森悖论

 
男性有效
男性无效
女性有效
女性无效
新药
35
15
45
105
旧药
90
60
10
40

对男性来说,新药对70%的男性有效,而旧药只有60%;对女性来说,新药对30%女性有效,而旧药只有20%;但合起来就出现悖论了,新药对40%的人类,而旧药为50%。新药对男性有效,对女性也有效,而对整个人类则无效!

问题出在了样本没有随机选取,新药主要试验在了女性身上,这个例子也说明了统计时所用的样本一定要随机。

本文转自
博客园博文,原文链接:http://www.cnblogs.com/speeding/p/3383128.html,如需转载请自行联系原作者

http://www.cnblogs.com/speeding/ 

你可能感兴趣的文章
Apache2.2.17源码编译安装以及配置虚拟主机
查看>>
2017年开发语言排名
查看>>
读二进制表的显示 Binary Watch
查看>>
我的友情链接
查看>>
linux基础:10、基础命令(4)
查看>>
linux中强大的screen命令
查看>>
放开那个程序员
查看>>
构建高性能数据库缓存之Redis(一)
查看>>
测试驱动开发
查看>>
解决MySQL不允许从远程访问
查看>>
puppet介绍及基于httpd实例部署
查看>>
UML常用工具之三--RSA
查看>>
iis7 appcmd的基础命令及简单用法
查看>>
用脚本实现移动某目录下文件名符合指定规则的文件到另一个目录的功能
查看>>
关于SQL镜像配置报错
查看>>
终于找到解决方案了,Qt的Model/View Framework解析
查看>>
线程信息的获取和设置
查看>>
Databricks Scala 编程风格指南
查看>>
Tkinter,label内容随多选框变化
查看>>
PHP开发中的数据类型 ( 第3篇 ) :Heaps
查看>>