X

KDD 2018 即将召开,先来一波 Keynote 预览

一年一度的 ACM SIGKDD (知识发现与数据挖掘会议)今年将于 8 月 19 日至 23 日在英国伦敦召开,届时,雷锋网 AI 科技评论也将紧密追踪,并为大家带来一线精彩报道。

作为这一会议的最重要的组成部分之一,KDD 今年的 Keynote 邀请了 4 位嘉宾,将分别对数据挖掘的应用场景和方式、最新进展以及未来发展趋势进行解读。

雷锋网对本届 KDD Keynote 嘉宾介绍及演讲主题整理如下:

David Hand:伦敦帝国理工大学数学系名誉教授、高级研究员

David Hand 教授是一位高级研究员,也是伦敦帝国理工大学数学系的名誉教授,曾任伦敦帝国理工大学统计学院院长。他是英国科学院院士、英国精算师协会的荣誉研究员,曾担任过两届皇家统计学会主席。此外,他也是英国统计局的非执行董事、欧洲统计咨询委员会成员、加拿大统计科学研究所国际科学咨询委员会成员、剑桥信息数学研究所顾问委员会成员。

David Hand 教授已经发表了 300 篇论文、出版了 29 本图书,涵盖数据挖掘原理、信息生成、测量理论与实践、不可能性原理以及国家福利等主题。在 2002 年,他被授予皇家统计学会的 Guy 奖章。2012 年,他和他的研究小组为信贷业的贡献赢得了信用收藏和风险奖。2013 年,他又因对研究与创新的服务获得大英帝国官佐勋章。2016 年,他还被授予 George Box 奖章。

主题:数据科学在金融中的应用

数据科学在金融中的应用为主观决策到数据和事实驱动决策的转变所带来的力量提供了一种完美的阐释。在 50 多年的时间里,整个金融行业都历经了颠覆性的变革。数据科学的金融应用主要集中于三个宽泛的领域:精算和保险、消费金融和金融投资。精算和保险是最早一批采用数据科学理念的工作,在这一概念出现之前,甚至在电脑被发明出来之前,数据就在这一领域得到应用。然而现在,最先进的数据科学技术并没有在这些领域中得到应用,这也意味着现代数据分析理念在金融行业的应用具备相当大的潜力。

消费金融被视为数据革命中最早也是最成功的案例之一。早在 20 世纪 60 年代第一张信用卡出现的时候,针对客户在金融交易中产生的庞杂数据的分析技术就极大地推动了数据挖掘和数据科学概念的发展。但如今,新模型类型以及新数据来源,正为数据科学的重大发展带来诸多机遇。

在金融投资中,经典经济学中的「有效市场假说」认为金融市场具有不可预测性。这一说法虽然看起来很像真的,但本质上还是错误的。这意味着使用先进的数据分析方法去发掘传统理论与实际现状间的细微差异成为可能。其他的数据科学问题,如数据质量、道德与安全,以及对模型局限性的了解的需求,在金融应用的情境中变得尤其突出。

Alvin E. Roth:诺贝尔经济学奖获得者、斯坦福大学经济学教授

Alvin E. Roth 是斯坦福大学的 Craig & Susan McCaw 经济学教授、哈佛大学经济学和工商管理的 Gund 教授。他从事于博弈论、实验经济学和市场设计等领域的研究,并曾与其他人共同获得了 2012 年诺贝尔经济学奖。

主题:市场设计和计算机化市场

交易和集市是历史悠久的人类活动产物,但近年来,它们变得越来越重要,部分原因为当今市场日益计算机化。而智能手机的出现,也使得它们无处不在。我们可以通过智能手机预订前往机场的汽车、抵达伦敦的飞机以及到达后需要住宿的酒店房间。当我们这样做时,我们留下了一条很容易与其他数据流结合的数据轨迹。这不仅改变了我们与市场的互动方式,也改变了我们看待和管理隐私的方式。我将讨论计算机化市场的一些最新进展,并推测未来的一些发展趋势。

郑宇怀:牛津大学统计学系数据机器学习教授、DeepMind 研究科学家

郑宇怀是牛津大学统计学系的统计机器学习教授,也是 DeepMind 的研究科学家。他在多伦多大学获得博士学位(师从 Geoffrey Hinton),在加州大学伯克利分校(与 Michael Jordan 共事)和新加坡国立大学(获得李光耀博士后奖学金)负责博士后工作。在来到牛津大学之前,他曾在加州大学洛杉矶分校盖茨比计算神经科学系任讲师,也曾任牛津大学学院的辅导研究员。

他是 ICML(国际机器学习大会)2017 、AISATS(人工智能与统计国际会议) 2010 的 programme co-chair,也曾在 NIPS(神经信息处理系统大会)2017 上进行了特邀大会演讲。他的研究领域是数据和智能的计算基础,也从事规模化的机器学习、概率模型、无参数贝叶斯以及 DeepMind 的研究工作。

主题:面向一些小数据问题的大数据学习

机器学习的诸多新进展,都是由可用数据在数量和多样性方面的爆发式增长和数据处理所使用的大幅增长的计算资源所推动。这就引出了一个问题,即机器学习系统是否一定需要大量的数据才能顺利完成任务。在元学习、终身学习、学会学习、多任务学习等问题的研究中,一项重大的新进展便是发现身边的数据集往往具有异构性,并且事实上,一个大数据集比每一组都面向不同任务的很多更小的数据集,看上去更具生产力。例如,在推荐系统中,每个用户都可被当做一组小的相关数据集对应的不同任务,并且 AI 的一个圣杯就是如何开发从少量数据中就能够快速学会完成新任务的系统。

这种情景下,问题就变成了如何利用任务之间的相似性来「学会快速学习」。实现这个目标的一个视角是,所有的任务都可以看作是从这个世界中取样得到的,让系统完成大量任务以使其学到丰富的关于这个世界的先验知识,并借助丰富的知识来快速解决未来遇到的新任务。

这是一个非常活跃、充满生机和多样性的研究领域,最近也有许多不同的研究方法被提出。在本次交流中,我将从概率和 DeepMind 的角度来表达我对这个问题的看法,并介绍我在最近参与的这个方向上的一些努力。

周以真:哥伦比亚大学数据科学研究所所长

周以真教授是哥伦比亚大学数据科学研究所所长和计算机科学教授。她是卡耐基梅隆大学的计算机科学顾问教授,自 1985 年起就在学校担任教职,曾两度担任计算机科学系的负责人。2013-2017 年,她曾担任微软研究院的副总裁。2007-2010 年,她曾担任国家科学基金会计算机与信息科学与工程理事会的副主任。她获得了麻省理工学院的本科、硕士和博士学位。

她主要研究高可信计算、规范和验证,并行和分布式系统,程序设计语言以及软件工程等领域的课题。她目前的兴趣点是安全和隐私的基础,高可信人工智能则是她的另一个关注点。迄今为止,她共曾担任 ACM 月刊与 ACM 通讯等 12 个期刊的编委。

她现在还是以下机构的成员:医学蓝丝带专家组国家图书馆、美国艺术与科学学院所属的科学、工程和技术咨询委员会、纯粹与应用数学研究所理事会、数学界女性协会指导委员会、阿里巴巴达摩院技术咨询委员会。此外,她还是美国艺术与科学院、美国科学促进协会、国际计算机协会(ACM)以及电气与电子工程师协会(IEEE)的 Fellow。她曾于 2011 年获得 CRA 杰出服务奖,于 2014 年获得 ACM 杰出服务奖。

主题:数据,为美好

我用「数据,为美好」这一口号来表达我们整个数据科学界该如何促进数据科学的发展,尤其是如何培养未来几代的数据科学家。

首先,我们应该使用数据科学来为人类和社会造福。数据科学应该用以改善人们的生活,以及人、组织和机构之间的关系。数据科学在与其他学科协作时,应该用以帮助解决例如气候变化、教育、能源、环境、医疗保健、不平等以及社会公正等社会层面的巨大挑战。

其次,我们应该以良好的方式使用数据。首字母缩写词 FATES 可以看做是「good」意义的详细解释。Fairness(公正)意味着我们建立的模型可用来做出无偏见的决策或预测。Accountability(责任)指的是为机器所做出的的决策,确定和匹配人或物的责任。Transparency(透明)指向最终用户保持开放和透明,让他们了解到例如分类、决策、预测等结果是如何得出的。Ethics(伦理)是说需要关注伦理和隐私保护相关数据的采集和使用,以及我们所建立的自动系统做出的的伦理决策。Safty(安全)和 Security(防护)则是指要确保我们所建立的系统是安全的(没有任何危害)和防护性的(能抵御恶意行为)。

接下来就请大家关注雷锋网对 KDD 的持续报道吧。