X

这可能是最酷的大数据创业公司!他们做出了预测分析版的“谷歌”

(《麻省理工科技评论》中英文版APP现已上线,年度订阅用户每周直播科技英语讲堂,还有科技英语学习社区哦~)

公司经常会雇用数据挖掘的数据科学家来收集规划建议,例如哪些客户想要某些服务,或者在哪里开设新的商店和存储产品。然而,通过分析数据来回答这其中的一或两个问题往往就需要数周甚至数月的时间。

现在,MIT 的 Endor 已经开发出一个预测-分析平台,使得任何人——不论技术娴熟与否——都可以通过接口上传未经处理的数据并输入任何关于商业的问题。这就像在用一个在线的搜索引擎,而你能在 15 分钟之内获得精准的答案。

这个平台基于“社会物理学”这一学科,由 Endor 的联合创始人,东芝媒体艺术业科学的教授 Alex“Sandy”Pentland 和前麻省理工博士后的 Yaniv Altshuler 在 MIT 的多媒体实验室共同开发。社会物理学一门是利用数学模型和机器学习来理解和预测群体行为的学科。

图丨 Yaniv Altshuler

这一新平台的用户可以上传关于用户或者其他个体的数据,比如说手机通话记录,信用卡购买记录或者网络活动记录。他们利用 Endor 的“查询建立者”向导来提问,比如“我们应该在哪里开设我们的下一个店铺?”或者“谁更可能尝试产品 X?”通过这些问题,平台识别数据中体现出的个体之前的行为模式,再通过社会物理模型来预测未来的行为。该平台还可以分析完全加密的数据流,允许银行或信用卡运营商等客户保护数据隐私。

“它就像谷歌一样,你不需要花时间思考‘我要花费时间去问谷歌这些问题吗?’,你直接能找到答案。”Altshuler 说道。

在谷歌母公司 Alphabet 的执行董事长 Eric Schmidt 的私人风险投资公司 Innovation Endeavors 的财政支持下,启动者们已经找到了像可口可乐,万事达和沃尔玛等零售和银行公司的大牌客户。

图丨 Eric Schmidt

最近,Endor 为一个防御机构分析 Twitter 数据侦查潜在的恐怖分子。根据元数据中的标识符,Endor 得到 1500 万个数据点,其中包含 50 个被识别的 ISIS 活动家的推特账户的作为例子。基于此,他们要求启动者检测出 74 个已经被确认的、标识符在元数据中隐藏得很好的账户。Endor 中有人用笔记本电脑在 24 分钟内完成了任务,发共现了 80 个“疑似”的 ISIS 账户,其中 45 个来自该机构命名的 74 个隐藏账户。误判率也非常低(35 个账户),这意味着人类分析师可以专门去调查这些账户。

群体的共性

机器学习用于相对静态的复杂计算问题,如图像识别和语音识别。例如书面和口语,几个世纪以来都实质上都没有什么变化。

另一方面,人类的行为却在不断变化。预测人类行为意味着分析很短的时间内,也许是几天或几周的大量微小的信号。传统的机器学习算法主要依赖于构建可以长时间分析数据的模型。

“一般来说,你需要大量的数据来建立描述人类行为的准确模型,这意味着你必须依赖过去。正因为你依赖过去,你无法察觉最近发生的事情,也就无法预测人的行为,”Altshuler 说道。

整个 2000 年代初期和中期,Pentland 和 Altshuler 在人类动态实验室发展了“社会物理学”,旨在捕捉和分析短期数据,以理解和预测群体动态。在研究中,他们发现所有大数据都包含一定的数学模式,表明社交互动如何传播和聚合的,这些模式可以帮助预测未来的行为。

利用这些数学模式,他们构建了一个平台——即 Endor 平台的核心技术——可以从数百万个原始数据点中提取具有共性行为的“集群”,比机器学习算法更快更准确。“大多数这样数据模式利用其他任何技术都无法与噪音区分开”,Altshuler 说。

但这些集群代表什么并不能马上弄清楚,只知道它们有很强的相关性。而对数据的查询则提供了上下文。例如,通过客户数据,有人可能会询问哪些客户最有可能购买特定产品。通过关键字,该平台将购买该产品的客户的行为特征,如位置和消费习惯,与未购买该产品的客户相匹配。这种重叠创建了可能的新客户清单,这些客户倾向于购买该产品。

简而言之,上传数据并提出正确的问题就向平台提出了一个基本的请求:这里是一个 X 的例子,更多地找到 X。“只要你能以这种方式来表述一个问题,你就会得到一个准确的答案,”Altshuler 说。

Endor 和 Endor-ish

为了测试这个平台,研究人员早先与美国国防高级研究计划局 (DARPA) 合作分析内乱时某些城市的移动数据,以显示新兴模式如何能够帮助预测未来的骚乱。Altshuler 还在新加坡花了几个月的时间分析出租车行驶数据,以预测该市的交通拥堵情况。

2014 年,Altshuler 通过他的朋友,斯坦福大学的毕业生 Doron Alter 与 Schmidt 建立了联系,他当时是 Innovation Endeavors 的合伙人。投资者问,这项技术是否可以被“包装成任何人都可以使用的产品”。

那一年,在 Schmidt 的经济支持下,连续创业者 Altshuler 和 Pentland 共同创立了 Endor,将平台转化为商业软件。Alter 和 Stav Grinshpon 加入了团队,他们是技术行业的老兵,也是以色列情报部门的前任技术专家。

该公司很快通过信用卡公司的 StartPath 计划赢得了 Mastercard 的早期合作伙伴。万事达要求 Altshuler 回答为数据科学家保留的问题,比如哪些人不久将要出国飞行,提取贷款或者增加信用卡活动。

在从以色列特拉维夫到纽约市的单程飞行中,Altshuler 处理了 100 万名持卡人的数十亿的金融交易数据点,并准确回答了 10 个问题。传统来讲,数据科学家需要花费数周或数月的时间来整理数据,并设计机器学习模型来分别回答每个问题。

公司可能聘请自己的精通分析得员工来使用 Endor。其他人将与 Endor 代表每周进行一次简短的会议,以确定最佳的问题措辞。“将英语翻译成我们所说的‘Endor-ish’,即我们的系统可以理解的方式,只需要大约五分钟。”Altshuler 表示。

该公司的网页提供了一个问题结果的例子,并与传统的机器学习引擎进行比较。一家银行营销部门问:“谁在未来六个月内会获得抵押贷款?”机器学习引擎可能会检测到拥有银行信用卡和高信用评分并且已结婚的 5000 名客户,但其中许多可能是误报。而 Endor 可以发现更多具体群体,比如,即将结婚或正在经历离婚的夫妻群体,最近将创业公司出售给 Facebook 的创业人,或最近从当地房地产课程毕业的客户。Endor 的结果中误报少得多,并且挖掘出了更多的潜在客户。

更重要的是,Altshuler 表示,Endor 并不是要取代数据科学家,它被设计成一个使他们更强大的工具。他说,数据科学家对组织的业务语义最为熟悉,可以将 Endor 纳入他们的工作流程。通过突破一个“瓶颈”——数据输入的速度比任何人得出结果的速度都快——Endor 旨在帮助数据科学家改善他们的公司。“数据科学家们明白我们将使他们成为英雄。”Altshuler 说道。

Endor 最近赢得了 Gartner 的“Cool Vendor”(卓越供应商)地位,并被世界经济论坛(World Economic Forum)封为“技术先锋”。随着好评的传播,Endor 现在正在美国积累更多客户,同时也在欧洲和拉丁美洲迎来了第一批客户。“这是令人兴奋的时刻”,Altshuler 表示。