数据科学与信息产业研讨会顺利召开
数据科学与信息产业研讨会11月17日至19日在北京国际数学研究中心举行。来自学术界、企业界和基金委八十多位代表受邀参加了会议。会议由两部分组成:报告和讨论会。来自企业界的报告人包括:上海证券交易所的总工白硕,亿赞普科技集团公司的总工糜万军,京东商城的副总裁李曦,北京拓尔思信息技术股份有限公司的总裁施水才,用友软件的CTO邓适宜,百度多媒体部门负责人余凯,国金证券股份有限公司的首席分析师易欢欢和高级分析师赵国栋,瑞尼尔技术有限公司的总裁柯兆明,启明星辰公司的首席战略官潘柱廷,超图软件的总架构师王尔琪,美国虹软公司(杭州)的王进,华院技术有限公司的执行董事宣晓华。来自学术界的报告人有:中科院袁亚湘院士,上海交通大学致远学院的汪小帆教授,重庆大学的曾理教授,新加坡国立大学的沈佐伟教授,上海交通大学数学系的张小群教授,中国科技大学数学系的陈发来教授,微软亚洲研究院的马毅博士和刘铁岩博士,清华大学数学科学中心的孙剑教授,北大信息科学技术学院的林宙辰教授,北大数学学院的耿直教授和姚远教授,大连理工大学的刘日升博士,中科院数学与系统科学研究院的陈敏教授。
十七号从下午三点到六点是讨论会。参加会议的代表围绕着怎样发展数据科学以及信息产业展开了热烈的讨论。李国杰院士谈到在怎样利用数据这个问题上,企业界走的是一条捷径,从数据直接到价值。他强调现在是到了学术界应该向Google学习的时候了。石钟慈院士谈到,数据科学是一个新的学科。新的学科的发展有的是机会,问题是我们愿不愿意做,做事也不是很随意地做,那也不是谁想做就能做的。所以大家应该合作起来,特别是跟企业家联系起来,他们知道价值所在。白硕先生把目前对数据所做的事情分为三类:(1)数据处理:包括数据库沿袭下来的一些技术,包括信息检索沿袭下来的一系列技术。它的逻辑是确定的,领域是固定的,要拼的是效率、是容量、是体量。随着技术的进步,目前这一类有突破。(2)数据发掘,就是找规律、预测、拟合。(3)基于数据的智能,一般来说智能要基于知识,但是现在看到的是,跳过知识,直接依靠数据和简单的逻辑实现智能。他说:所有的推荐都是基于数据的智能的一种表现形式。前两个是传统的研究,但是是一个新兴的研究,而且有表现的萌芽,后面应该有更深的理论研究,我认为是有潜力可挖的。李曦先生在发言中强调了数据质量的问题。李大潜院士提出基于基本原理的牛顿模式也可能在数据科学的研究中发挥很大作用。应该注意把它和基于数据的研究模式结合在一起。他进一步强调了坚持的重要性。他说:真正能坚持到最后的人,才是能够成功的人。我们数据科学恐怕也要经历这样一个大浪淘沙的过程。它是一个艰苦创业的过程。郭雷院士结合他对控制论研究的体会,对反馈的概念,模型的作用和与决策的联系等等在数据科学中可能产生的影响提出了令人深思的想法。马志明院士谈到,数据科学应该怎么建立,不用去想。现在就是数据时代,而且我想过去做数学习惯去想函数,其实数据本身就是数据,数据本身有它的结构、有它的逻辑。数据科学涉及到方方面面,现在要是对数据科学感兴趣,不要说我的方向跟这个不是一回事,人人都可以进来。但是一定要明白,围绕这个数据科学一定不是单向的,一定是双向的。张恭庆院士从数学整体发展的观点谈到:我们的数学不是多了,是少了。现有的数学远远没有用过去。但还有许多数学还有待于发展。相当多数学家注意到了数据科学,注意到了数据的发展,需要把以前很多学的东西进行改造以适应这一方面的发展。我觉得现在需要融合,需要数学家关心,进入数据科学。数学家把这个学科往前推动,同时把好多问题提出来,企业家遇到什么问题,与数学家一起解决,也许在这个过程中,我们发展出了自己的科学。林群院士,崔俊芝院士,袁亚湘院士,宣晓华,柯兆明,潘柱廷,陈叔平,魏文斌,张海,孙毓忠,张哲,刘光,沈佐伟,许跃生也作了发言。最后,汲培文主任做了总结发言。
这次会议的最大亮点之一是与会人员的热情,尤其是企业界的代表所表现出来的热情。他们通过多种方式表达了与学术界合作的愿望。马志明院士,郭雷院士和高文院士基本参加了会议的全程。大家都认识到,“数据科学是个既有科学意义,又有巨大应用价值的新方向”(余凯,百度多媒体部门负责人)。由于这个学科还处在萌芽状态,加上我国在数据和信息方面需求的特殊性,我们应该积极争取尽快走在世界的前沿。
怎样发展为数据科学?通过讨论,与会人员基本上达成了以下几点共识。
一是要加强合作,这个合作是多方面的,包括学术界和企业界之间的合作,数学界(包括统计界)与计算机科学界之间的合作,以及数据拥有者与数据分析者之间的合作。二是建立起一个适合数据科学发展的人才培养模式。这样的人才应具有坚实的统计和算法基础,并且对数据库,数据结构的知识有基本的了解,同时还具备较强的编程和实现能力。
为了方便更进一步地开展数据科学方面的工作,根据李大潜院士和郭雷院士的建议,并考察到实际操作的可能,建议先在中国工业与应用数学学会下建立数据科学专业委员会(筹),积极开展并推动有关的工作,在上级单位正式批准后,再成立正式的数据科学专业委员会。专业委员会下将设立一些兴趣小组。初步考虑可以设立以下几个小组。
1、统计学习,包括统计,机器学习,数据挖掘,以及相应的算法。
2、图像处理,包括视频图像,三维几何图形,医学成像等。
3、网络科学,包括社交网络,计算社会学等。
有兴趣的同事请与我或刘艳云女士联系,电子邮箱为:
weinan@math.pku.edu.cn
yyliu@pku.edu.cn
我们计划针对各专题每年组织一次学术界与企业界之间的学术交流活动。
如何做好数据科学,是我们大家的事情。希望大家多思考,多交流。我们集思广益,争取把事情做好。