BICMR deputy director Weinan E delivered the 108th CaiZhai Lecture on Big Data
11月19日晚,北京国际数学研究中心副主任、北京大学元培学院院长、美国普林斯顿大学教授、中国科学院院士鄂维南做客才斋讲堂,围绕“数据科学”的主题,结合自己对大数据的研究实例,带领大家进入了“大数据”的世界。
鄂维南以全球最大的搜索引擎谷歌为例,分析了数据计算在广告推送领域中的应用。谷歌自成立以来,一直面临着搜索引擎同行的激烈竞争,但其依然在不到十年的上市时间内实现了市值增加十倍的壮举。搜索引擎面对的是庞杂的网络数据,如何探索出合理的算法,从而准确、高效地从中提取有效信息,促使搜索行业将目光纷纷转向大数据背景下的“云计算”。谷歌也不例外,但其在不断发展完善搜索功能的同时,独辟蹊径地将广告推送与用户搜索偏好相结合,在2012年就实现了搜索广告3.47%的点击率和5.63%的转换率,从而获得了每天一亿美元的广告收益。谷歌这一将数据计算与广告推送相结合的策略甚至催生了一门新的学科——计算广告学。
在网络时代之前,数据计算早就已经在许多领域大展身手了。17世纪,德国天文学家开普勒发现了“行星运动三大定律”,这些定律的发现,正是建立在对前人观察、搜集到的大量天文资料进行数据计算的基础上。后来,牛顿利用他的第二定律和万有引力定律,在数学上严格地证明了开普勒定律,也让人们了解了其中的物理意义,做到了“不仅知其然,而且知其所以然”。
图像数据处理与识别技术是目前的研究热门,这种技术同样是数据计算在现实领域中的应用。鄂维南指出,图像识别技术更多依赖的是基于模型的数学运算,而非面向对象的计算机算法。可惜的是,目前的图像识别与搜索技术仍然“没有超过谷歌出现之前网页搜索的水平”。
专家推荐系统是数据计算应用的另一个主要方向,鄂维南通过在线影片租赁提供商Netflix的例子来说明这一点。Netflix公司会记录并分析用户的观影习惯,并利用精妙复杂的算法对用户数据进行分析计算,进而根据用户偏好进行细致、个性化的视频推荐,用户可以通过PC、TV或者移动终端如iPad、iPhone收看“量身打造”的视频节目。除了在线影片租赁外,购物网站如Amazon、淘宝网等,以及婚恋网站如世纪佳缘等也依赖于专家推荐系统。
除此之外,大数据还在视频处理、社交网络分析和舆情分析上大有建树。
讲座现场
最后,鄂维南介绍了数据科学相关的基本概念。数据科学需要解决的基本问题是根据给定数据,找出产生数据的模型,所以说数据分析的本质是反问题。网络时代,数据庞杂纷繁、噪音充斥,那么如何为这些数据建立模型呢?鄂维南给出了方案——针对数据点集,贝叶斯(Bayes)模型、高斯混合模型(Gaussian mixture model)等可以帮助解决;对于广义的时间序列数据,如文本和生物大分子等,可以使用隐式马尔可夫模型(hidden Markov model)来计算;诸如图像之类的二维场数据,可以使用条件随机场的模型进行解决。鄂维南将这种方案总结为“极大似然估计,极大后验概率估计”。
计算科学的基本方法有三个维度:赋予数据数学结构、建立统计模型、寻找算法。鄂维南特别强调,计算数学是针对函数的算法,也就是针对连续的问题的算法,有函数逼近、微分、积分、优化、微分方程和数值代数等算法;而计算机科学是针对计算机系统(包括网络)的算法,是通过数值和矩阵运算、网络算法、排序和组合优化的方法进行计算的。数据的算法居于以上两者中间,集中了两者的优势。
数据的普遍性和复杂性赋予了数据科学问题多、困难大的特点。数据科学还具备跨学科性:一方面,数据科学涉及到很多学科,如统计、机器学习、生物信息学、天体信息学、计算广告学和计算社会学等;另一方面,不同的学科之间又有统一性,例如自然语言处理和基因序列分析都用到隐式马尔可夫模型。北京大学已经设立了数据科学本科和研究生的专业。
“大数据”是近来媒体争论不休的话题之一,也被广泛运用到各行各业中,惠及寻常百姓,但如何才能使“大数据”落地,仍然是需要社会各界思考的问题。鄂维南指出,只有建立和完善数据科学学科,并和实体产业密切配合,才能最终实现“大数据”落地,真正把握住“大数据”时代的历史机遇。
听众提问
讲座结束后,鄂维南与现场师生关于数据科学的话题进行了热烈的互动。(编转自北京大学新闻网)