女士品茶

《The Lady Taste Tea》,翻译中文叫女士品茶,如果只看这个题目,相信没有多少人会想到这本书是讲统计学的。其实它有一个小题目:20世纪统计学怎样变革了科学。我记得上学期童老师和金老师的第一节课都向我们推荐过这本书。其实我在悠闲的大四时,从cos大牛们的博客上知道有这本书,但是下载过来只是马马虎虎看了看。这次寒假终于花了点时间认真看了看,以下是一些零星片段:

  1. 年轻的Carl Pearson到德国学习政治学,非常崇拜Karl Marx,索性就把自己的第一个名字Carl改为Karl. Pearson提出了卡方分布,卡方拟合优度检验,不过他给出的自由度是错的(Fisher大神为之完善)。他发明了四参数(均值,方差,对称性,峰度)的偏斜分布族。后来他接管了Galton的生物统计实验室,创办了Biometrika杂志。
  2. Galton 是达尔文的表弟。我们知道“回归”这个概念就是他在研究父代与子代身高关系时提出的。其实他还发现每个人的指纹不同,是第一个利用指纹方法识别个体的学者。他在伦敦设立了生物统计实验室,这是世界上第一个统计实验室(后来Fisher,Neyman,许宝騄先生都在此学习过)。
  3. William SealyGosset在23岁获得牛津大学化学数学双学士学位,毕业后开始在一家酿酒厂担任酿酒化学技师。他在从事试验和数据分析工作时,提出了著名的t分布以及t检验,开创了小样本方法的研究。用笔名“student”发表文章,在Biometrika 上留下了很多重要的文献。为人温和,后来成为Karl Pearson和Fisher争论的调停人。
  4. Ronald Aylmer Fisher比Karl Pearson小33岁,天才级别的人物。Fisher打造了F分布这柄利剑,在一片荒芜之地开辟了方差分析这片沃土,F分布就是以他名字的第一个字母命名的。他提出了极大似然估计,显著性检验p值,还建议用相容性,无偏性,有效性来作为统计量的优良性准则。年轻的Fisher 指出Pearson以前的很多工作是错的,在Biometrika上发表文章和Pearson争论。他们对于统计分布在哲学上的认识有很大的分歧,Pearson认为统计分布就是描述他分析的真实数据,Fisher认为统计分布是一个抽象的数学公式,收集的数据仅仅是用来估计真实分布的参数。虽然当时Pearson是统计界的权威,但和Fisher的论战常常处于下风,因为Fisher的那些证明他有些看不懂,再加上Fisher年少气盛,Pearson就故意打压Fisher(Fisher 一辈子攻击Neyman,但Neyman态度友好)。即便后来Pearson答应在生物统计实验室给Fisher一个职位,但Fisher还是到Rothamsted种庄稼去了。天才就是天才,种庄稼也种出了心得。他在种庄稼期间发明了方差分析和实验设计,为后来出版《实验设计》奠定了基础。
  5. Tippett在Pearson的实验室学习是发现了极值分布,后经Emil ]. Gumbel完善发表在Statistics of Extreme这本书上。Chester Bliss提出了probit模型。
  6. Jerzy Neyman和Egon Pearson(Karl Pearson的儿子)提出了假设检验Neyman-Pearson公式,简称NP定理。Neyman还提出了置信区间的概念,不过让人找不到北(概率的北),至今人们对其仍有很深的误解。年轻的Neyman很崇拜Lebesgue,他虚心向Lebesgue请教问题,但Lebesgue不友好,他的冷漠浇灭了Neyman的热情,深深地伤害了Neyman的心。后来Neyman到美国UCB创建统计系,礼贤下士,鼓励和提拔后起之秀,使得UCB成为无数统计学子的终极Dream School(统计学界最高奖—考普斯总统奖获得者吴建福和范剑青均在UCB拿的统计博士学位)
  7. 我们知道凯恩斯是现代宏观经济学之父,但他的博士论文是概率方面。夜晚,月亮的光芒使得很多星光黯然失色。同样,凯恩斯在经济学方面的巨大贡献使得我们忽略了他在概率方面的贡献。
  8. 贝叶斯定理的提出让统计学家们很恐慌,由后验概率推前验类似与逆概率的方法,而逆概率一直被统计学家所回避,所以开始贝叶斯定理被称之为异端学说。贝叶斯思想其实有两种:一种是我们所学的贝叶斯定理,另一种是个人概率,后者为凯恩斯所力挺。
  9. Andrei NikolaevichKolmogorov是数学界的莫扎特,兴趣异常广泛。他在数学,气象学,流体力学,历史,语言学,教育学方面均有卓越贡献。他建立了概率的公理化体系,使统计理论有严格的数学基础。(曾经在网上看到有人将20世纪的数学家所做的贡献排名,Kolmogorov高居第一位,我们的数学大师陈省身排在30,他还培养了几位世界一流的数学家,我们数科院的王梓坤先生当年留学苏联,导师就是Kolmogorov)。
  10. Florence Nightingale发明了拼图。Frank Wilcoxon是一名化学家,由于他在化学实验中的那点苦恼,打开了非参数估计和检验的窗户。
  11. George Snedecor在爱荷华州立大学创办了美国大学的第一个统计系,Gertrude Cox毛遂自荐担任北卡统计系的第一届主任。二战期间,普林斯顿大学大学的Samuel S. Wilks坚信用实验设计的方法可以提高军火炮弹的准确性,在国防调查委员会下成立了普林斯顿-统计研究小组,在他的帮助下在哥伦比亚大学又成立了一个统计研究小组。时序分析是他们小组的创新工作,Wilks将统计推进实践应用方面做出了很大的贡献。
  12. John Tukey被誉为统计学界的毕加索。他早期做的是抽象理论,拓扑学研究的很深。因为二战,从事军工项目,转向统计应用。他提出的FFT(快速傅里叶变换)是一种高效的算法,不仅在50,60年代计算机运行很慢且存储很小的时候非常有用,在21世纪的今天仍然发挥巨大功能,发掘出探索性数据分析(EDA)这一统计领域。他提出了很多原创的统计思想和方法,从时间序列到线性模型,从Fisher遗忘的工作到稳健统计等等。他的思维非常活跃,David Salsburg(女士品茶的作者)在普林斯顿做他的论文讲座,Tukey在最后一排看他的论文。当他完成报告时,Tukey用另外一种方法证明了论文中的一个重要理论,这个定理Salsburg花了几个月的时间才证明出来。(ps:考普斯总统奖获得者吴建福认为John Tukey和Fisher是至今为止统计界最伟大的两个天才, 谢老大认为John Tukey是小宇宙中最强的统计学家)。
  13. George Box是Fisher的女婿,提出了鲁棒性的概念。后来与David Cox合作,提出了Box-Cox变换。David Cox也是一位了不起的统计学家,在1972年提出的比例风险模型成为生物统计领域的一个里程碑。W. Edwards.Deming率先在日本倡导质量控制,使得日本的工业界发生巨变,80年代的日本产品横扫美国。1979年,Bradley Efron提出了bootstrap。 书的最后提出了三个哲学层面的统计问题,有兴趣的看官不妨思考思考:
    • Can statistical models be used to make decisions?
    • What is the meaning of probability when applied to real life?
    • Do people really understand probability?
 
comments powered by Disqus