这些年,我们赶上了大数据

断断续续地把美国科学院今年发布的《The Mathematical Sciences in 2025》这篇报告看完了,大体讲未来数学的哪些方向可能会很热,具有巨大的应用价值。同时特别强调数学在实际中的重要性,建议学应用数学的人多学点概率统计,可以少学点微积分。事实上,概率统计可以算是大家在生活中能用到的最多的数学知识。里面还提到,随着大数据的到来,计算以及编程能力是统计工作者必备的技能之一。

又是大数据!这个词从去年开始在中国频繁被提起。新浪微博上有传言说中科院几个院士向国务院提议中国应该抓住机遇,制定大数据战略。我是去年在统计之都上第一次听到大数据这个词,今年年初看了一本叫《大数据时代》的书,大概了解了我们现在已经处于大数据时代这个事实。不料在短短的一年,大数据在中国各行各业倍受重视,各大企业都想抓住大数据机遇分一杯羹。既然大家都在讲大数据,什么是大数据?我在8月底听中科院的齐博士对武汉一家想做传感器大数据方面的公司说,其实到目前为止无论是学术界还是工业界都还没有一个统一的定义。至于云计算,作为一种商业运作模型,其基础原理是有限元剖分。云计算也常常和大数据连在一起,像今年国际SAS大会的主题就是“大数据,云计算,可视化”。

上周在心理学院参加了一个“大数据与行为科学”的研讨会,会上邀请了几个大公司的CEO或者首席技术官介绍他们公司目前做大数据的一些情况。其中有个老总就说他们公司利用新浪微博数据,研究人们的情绪与股票大盘走势的关系,发现确定(sure)情绪与大盘走势的相关关系达到了80%。这个结论的得出当然要靠大数据支持,在大数据时代,相关关系就已经很有用了。

大数据的兴起首先是在互联网业,运用较为成功的有推荐系统。像亚马逊的在线推荐图书是较早的应用,当然现在很多公司也做出了推荐系统,利用网民在网上的浏览记录分析他们的消费行为,进而有针对性地推荐。如今不止是互联网,还有大型超市利用关联规则算法进行购物篮分析,将一些物品放在一起就能提高销售,比如尿布和啤酒。金融业也关注了大数据,上周一个毕业在工行总行工作的师姐说她们工行也在做大数据。。。

虽然很多行业现在在努力地做大数据,但网上也有不少黑大数据的。比如下面这段

Big data is like sex: everyone talks about it ,nobody really knows how to do it, everyone thinkseveryone else is doing it, so everyone claims they are doing it…

不管怎么说,如今各行如此重视大数据对统计专业来说毫无疑问是好事,这说明各个公司现在很看重统计分析的工作。谢老大在数据科学家的崛起这篇文章中认为“统计教育需要轻微改革,我们需要增强数据和编程方面的教育”。我觉得说的很对,既然统计的角色是要到实际应用中去,在如今这个数据丰富的时代,统计应用工作者必须要有很强的数据处理能力。因为现实中的数据很多是非结构化的,诸如从新浪微博上读入的文本数据,恶心的要死,各种不整齐。知识在一代代积累更新,不能要求每个学生都从盘古开天地时的知识学起,除了励志投身学术界的之外,个人觉得实变函数、测度论之类的课程可以改为选修。

WilliamEdwards Deming在《统计学精要》中的前言写到

In God we trust, all others bring data。

随着时代的发展,让我觉得当初随机选的这个统计专业越来越有用。总之,在这个大数据时代,重要的不是数据本身,而是我们通过在海量数据中的分析,能得到哪些有用的信息价值。

 
comments powered by Disqus