百度NLP团队在微软MARCO阅读理解数据集上获得第一

雷锋网 AI 科技评论消息，2 月 21 日，百度 NLP 团队提交的 V-Net 模型以 46.15 的 Rouge-L 得分位列微软的 MS MARCO 机器阅读理解测试第一名。目前人类评测 Rouge-L 得分为 47；BLEU-1 得分为 46。

据了解，百度提交的 V-NET 模型使用了一种新的多候选文档联合建模表示方法，通过注意力机制使不同文档产生的答案之间能够产生交换信息，互相印证，从而更好的预测答案。

雷锋网 AI 科技评论了解到，除了百度位列第一外，凭借 Microsoft AI and Research 提交的 S-Net、R-Net、ReasoNet，二、三、四名均由微软摘得。此外，新加坡管理大学与德国人工智能研究中心也紧随其后。

MS MARCO 全称为 Microsoft MAchine Reading Comprehension，即「微软机器阅读理解」，官网资料显示其正式发布于 NIPS 2016。这是一套由 10 万个问答和 20 万篇不重复的文档组成的数据集。

在机器阅读理解领域，想必大家更为熟悉的是斯坦福大学发起的 SQuAD（Stanford Question Answering Dataset），雷锋网 AI 科技评论此前也有过不少相关报道。SQuAD 是行业内公认的机器阅读理解领域的顶级水平测试，它构建了一个包含十万个问题的大规模机器阅读理解数据集，选取超过 500 篇的维基百科文章。在阅读数据集内的文章后，机器需要回答若干与文章内容相关的问题，并通过与标准答案的比对，得到 EM（精确匹配）和 F1（模糊匹配）的结果。讯飞与哈工大联合实验室、微软、阿里巴巴、腾讯等国内外知名研究企业及机构都是 SQuAD 榜单上的常客。

与 SQuAD 的最大不同之处在于，MARCO 数据集中的问题全都基于来自微软必应搜索（BING）引擎和微软小娜人工智能助手（Cortana）的已匿名处理的真实查询。此外，相关回答是由真人参考真实网页编写的，并对其准确性进行了验证。可以说，数据集的建立完全是根据用户在 BING 中输入的真实问题模拟搜索引擎中的真实应用场景，其研发团队也曾表示，「MS MARCO 是目前同类型中最有用的数据集，因为它建立在经过匿名处理的真实世界数据基础之上。」

目前搜索引擎只能针对用户的提问回答一些简单问题，可以回答复杂问题的系统仍然处于起步阶段，而普通人日常想获取一些琐碎复杂问题的答案，则需要在搜索引擎提供的结果中再次进行筛选、分析和整理。这些并无明确答案或存在多个可能答案的查询，是微软发布这一数据集希望攻克的阅读理解高堡。

在每一个问题中，MARCO 提供多篇来自搜索结果的网页文档，系统需要根据这些文档来回答给定的问题。就像人类在搜索引擎给定的结果中自行筛选信息一样，这些文档中是否有对应的答案、在哪一篇文章中，都需要系统自行判断，甚至还需要结合多篇文章做出提炼与总结，而这也对机器的阅读理解能力提出了更高的要求。

「此次在 MARCO 的测试中取得第一，只是百度机器阅读理解技术经历的一次小考，」百度自然语言处理首席科学家兼百度技术委员会主席吴华表示，「我们希望能够与领域内的其他同行者一起，推进机器阅读理解技术和应用的研究，使 AI 能够理解人类的语言、用自然语言与人类交流，让 AI 更『懂』人类。」

2019年即将过去，我很享受它

开放的六月主题展丨赵波：因为热爱，所以艺术不可辜负

西井科技COO章嵘：人工智能，赋能港口变革
2020年7月10日晚间，作为2020世界人工智能大会的分论坛之一，未来城市论坛顺利落下帷幕。本次论坛由北京亿欧网盟科技有限公司（以下简称：亿欧）主办，世界人工智能大会组委会办公室指导，上海市人工智能学会协办。论坛以“智联万物，慧城新篇”为主题，以“现代化、国际化、科技化、智能化”为特色，突出数据联动、智慧生活...
“钱”来了！新加坡淡马锡牵头财团救助太平船务（PIL）
此前信德海事网曾发布报道《政府出手！PIL即将走出困境》称，新加坡政府或将为陷入财务困境中的太平船务提供援助，帮其度过难关。如今，这一消息得到证实。最新消息称，新加坡国有背景的淡马锡控股(TemasekHoldings)旗下投资公司HeliconiaCapitalManagement正牵头一个投资财团与太平船务(PacificInternationalLin...
英国STEAM教育品牌MarcoPolo Learning与瑞思携手内容战略合作
近日，瑞思英语与英国STEAM在线教育公司MarcoPoloLearning(以下简称MarcoPolo)达成内容战略合作，共同开发全新数字化课程体系，双方已完成第一阶段的直播课程研发，课程内容将围绕儿童自然科学类的知识开发，课程首次运用了直播+3D动画+实景视频结合的方式为孩子们创造了全新数字化课堂体验。瑞思将继续以数字化为战略方向...
TikTok回应美议员安全质疑：美国用户数据全部存在美国
被视为抖音海外版的短视频分享平台TikTok，再度引发美国国会议员关注。 10月24日，美国参议院民主党领袖ChuckSchumer和共和党参议员TomCotton宣布，已经致信给美国国家情报部门执行责任人JosephMaguire，要求正式对TikTok进行国家安全风险评估。抖音海外版TikTokIC资料图 TikTok是字节跳动公司旗下应用，字节跳动旗下...