《**的统计学》，作者[美]查尔斯·韦兰，2013年出版，豆瓣评分8.1分，可以作为统计学入门读物很好的一本书，知识点浅显易懂，对小白非常友好，有统计专业知识的人可能会觉得干货略少。总的来说，值得一读，推荐指数4颗星。文章末尾有关于这本书的知识图谱。

一、统计学是大数据时代最炙手可热的学问

第一章开头提出了几个有意思的问题：

基尼系数是否是衡量社会分配公平程度最完美的指标？（描述性统计学）
视频网站是如何知道你喜欢的电影类型（相关性）
祈祷真的能让病人的术后康复状况改善吗（随机控制实验）
是什么导致自闭症发病率一直走高（相关性）

这些问题的背后都是一个一个统计学知识点，相信看完本书，你也就能得出答案。

二、描述统计学

第二章一开始其实就回答了第一章中的那个问题：

基尼系数是否是衡量社会分配公平程度最完美的指标？

先说答案：不是。统计学很少提供唯一正确的方法，基尼系数就是一种描述性数据的指标，将一系列复杂数据浓缩成一个单一数字工具，它不是一个衡量社会分配公平程度的最完美的指标，但它确实以一种便捷易懂的方式提供了一些关于社会分配公平程度的信息，同时也需要注意，任何一种简化的数据都有被滥用的危险，这是描述性统计量的优势与缺点。

说起描述性统计，就不可避免的要提到平均值、中位数、分位数、标准差、方差，这一章对这些概念都有详细的描述和深入的理解。

这一章开头还提出了一个小学数学问题：

你一直想买的一条连衣裙，商场售价为4999元，先降价25%后再提价25%，最终售价是多少？

答案是93.75，你算对了吗？忘记怎么计算的童鞋可以百度一下，这是一个很简单的百分比的问题，以及增长率的计算。

三、统计数字会撒谎

Q3：:1950年人们的平均时薪是1美元，2012年人们的平均时薪是5美元，你觉得我们的工资水平涨了吗？

这个问题先抛出来，关于统计数字会撒谎，相信大家感触很深了，数据是真实的，它本身并没有撒谎，只是解释的角度、分析的单位不同而已。一个被举烂了的例子还是要再次被拿出来说道说道，就是中位数和平均数，（3,4,5,6,102）的平均数是24，中位数是5，这两个数字差异还是很大的，这也是工资被平均高了的原因。要分清分析单位，描述的对象以及不同的人**的谁或什么是不是存在差异。判断比数学更重要

再回到开头的问题，工资水平涨了吗？其实大家都懂，不能简单地关注数字的增幅，因为有通货膨胀嘛，得将两个值统一换算成一个相同单位，如全部换算成2011年的美元再进行比较。

四、相关性与相关系数

这一章回答了第一章提出的那个问题：

视频网站是如何知道你喜欢的电影类型

答案就是相关性。描述相关性的一个指标是相关系数，关于相关系数是如何解释相关性的，这里就不过多赘述了，关于相关性，你最需要知道的一点其实是，相关关系并不等于因果关系。学生的成绩和家里电视机的数量成正相关，并不是说只要家长多买5台电视机，孩子的成绩就能提高。

五、概率与期望值

Q5：买福利**，去**豪赌、投资股票或期货，哪种方式让你跻身《福布斯》富豪榜的可能性更大。

这是一个概率问题。概率是一门研究不确定事件和结果的学问，概率不会明确地告诉我们会发生什么，但我们可以通过计算概率知道可能发生什么、不太可能发生什么。

期望值是所有事件的和，不仅是一个数字，更是我们进行判断的指标。

大数定理，随着试验次数的增多，结果的平均值会越来越接近期望值。比如1元**的回报期望值是0.56元，长远来看，这是一项低于成本的糟糕投资，但我今天却运气不错的中了5元钱，但根据大数定律，假如我长年累月地买下去，无疑是一件赔钱的事情。

六、蒙提·霍尔悖论

Q6：主持人打开的3号门后面是一头羊，在剩下的1和2号门中必定有一扇门后面是汽车，你该如何选择才能中大奖？

这是著名的车、山羊、门的概率难题，叫蒙提·霍尔悖论，在一个综艺节目中，有3扇门，1扇门后面是汽车，其他的是羊，参赛者选择一扇门，主持人会在剩下的两扇门中打开一扇有羊的门，然后问参赛者，是否改变最初的选择？

这还是一个概率问题，通过计算得知，改变最初的选择中奖的概率会大一些。这个问题也引申出了很多不同的解释和回答，感兴趣的朋友可以自行查找。

七、黑天鹅事件

Q7：1%的小概率风险如何在2008年成为击垮美国华尔街的黑天鹅，并毁了全球金融体系？

这个问题归根溯源要说到风险价值模型，简单点说就是用一个简洁的指标表示一项投资在一个特定周期内可能让公司蒙受的最大损失，出现这种结果的概率为1%，也就是说，这项投资在99%的情况下都是安全的，但真正把事情搞砸的正是剩下的那1%。

一些概率的误区，如果感兴趣可以好好阅读下书本身：

想当然地认为事件之间不存在联系
对两个事件的统计独立一无所知：如赌徒谬论
成群病例的发生：可能只是巧合
检方谬误
回归平均数
统计性歧视

5、6、7这三章都是在讲概率，尽管概率有再多的简洁特性和精准优点，也不能代替人类作为行为主体对其所进行的计算、进行计算的原因所作思考。

八、数据与偏见

如果想要准确反映整个人口的特点，抽样无疑是最便捷公平的方式，但如果人口组成本身存在问题，即存在所谓的“偏见”，那么无论样本容量多大，都无法改变这一“偏见”情况。这告诉我们如果数据本身就有问题，那么再严谨的分析也是徒劳，

下面就举几个统计方法无误，数据本身有问题的例子：
ü 选择性偏见
ü 发表性偏见
ü 记忆性偏见
ü 幸存者偏见
ü 健康用户偏见

九、中心极限定理

Q9：一辆坐满肥胖乘客的抛锚客车停在你家附近的路上，你推断一下，它的目的地市马拉松比赛现场还是国家香肠节展厅。

这个问题我们看一眼似乎就能得出结论，肯定是国家香肠节展厅啊，这种一概而论的能力，往往就是中心极限定理，中心极限定理的要义是，一个大型样本的正确抽样与其所代表的群体存在相似关系。正是中心极限定理的逻辑告诉我们，大多数马拉松运动员是比较瘦的，因此如此之多的“重量级”运动员被安排到一辆车上的概率是很低的，所以判定这辆车的目的地是香肠节展厅。