维克托.迈尔-舍恩伯格被誉为“大数据时代的预言家”,现任牛津大学网络学院互联网治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人,哈佛国家电子商务研究中心网络监管项目负责人;曾任新加坡国立大学李光耀学院信息与创新策略研究中心主任。并担任耶鲁大学、芝加哥大学、弗吉尼亚大学、圣地亚哥大学、维也纳大学的客座教授。
他以大数据的全球视野,熟悉亚洲信息产业的发展与战略布局,先后担任新加坡商务部高层、文莱国防部高层、科威特商务部高层、迪拜及中东政府高层的咨询顾问。所著《大数据时代》一书是开国外大数据系统研究的先河之作,成为最早洞见大数据时代趋势数据科学家之一。维克托.迈尔-舍恩伯格在《大数据时代》中提出“量化一切,数据化的核心”和“世间万物皆可数据化”是大数据时代,最重要的方法论,给人教益与启迪。
一、量化一切,数据化的核心
记录信息的能力是原始社会和先进社会的分界线之一。早期文明最古老的抽象工具就是基础的计算以及长度和重量的计量。
计量和记录能够再现人类活动。比如通过记录建筑物的建筑方式和原材料,我们就能再建同样的建筑,或进行实验性的操作,比如通过改变一些方式保存其他部分而建造出新的建筑物,然后再记录这些新建筑物。交易情况一旦得到记录,我们就可以知道一块地丰收时稻谷的产量是多少、需要上缴多少『政府』税收。计量和记录为预测和计划奠定了基础,虽然这建立在假定明年的收成和今年一样的基础上。有了记录,交易双方才会知道他们赊账的情况,而如果没有这些凭证的支持,欠债的一方则完全可以不用还钱。
几百年来,计量从长度和重量不断扩展到了面积、体积和时间。公元前的最后一个千年,西方的计量方法已经基本准备就绪,但是还是有着比较严重的缺陷。
大约公元1世纪的时候,印度发明了一种自己的数字系统。它传播到了波斯,并在那里得到改善,而后传入阿拉伯国家,得到了极大的改进。这也就是今天使用的阿拉伯数字的前身。公元1000年,教皇西尔维斯特二世开始倡导使用阿拉伯数字。12世纪,介绍阿拉伯数字的书籍被翻译成拉丁文,传播到了整个欧洲地区。这也就开启了算术的腾飞。
算术赋予了数据新的意义,因为它现在不但可以被记录还可以被分析和再利用。阿拉伯数字从12世纪开始在欧洲出现,而直到16世纪晚期才被广泛采用。到16世纪的时候,数学家们大肆鼓吹他们使用阿拉伯数字计算能比使用计数板快6倍。但最终让阿拉伯数字广为采用的还是复式记账法的出现,它也是数据化的一种工具。
公元前3000年,会计手稿就出现了。但是,记账法在接下来的几百年里发展缓慢,基本上一直保持在记录某地的某个特定交易的阶段。记账人和他的雇主最关心的就是判断某个账户或者自己所从事的行业是否赚钱,而这正是当时的记账手法无法轻易做到的事情。到了14世纪,随着意大利的会计们开始使用两个账本记录交易明细,这种尴尬的境地开始发生改变。这种记账法的优势在于,人们只需要将借贷相加,就可进行制表并得知每个账户的盈亏情况。如此,数据骤然发声了,虽然仅限于读出盈亏情况。
如今,复式记账法通常被看成是会计业和金融业不断发展的成果。事实上,在数据利用的推进过程中,它也是一个里程碑似的存在。它的出现实现了相关账户信息的“分门别类”记录。它建立在一系列记录数据的规则之上,也是最早的信息记录标准化的例子,使得会计们能够读懂彼此的账本。复式记账法可以使查询每个账户的盈亏情况变得简单容易。它会提供交易的记账线索,这样就更容易找到需要的数据。它的设计理念中包含了“纠错”的思想,这也是今天的技术人才们应该学习的。如果一个账本看着不对劲,我们可以查询另一个相对应的账本。
但是,和阿拉伯数字一样,复式记账法也没有立即取得成功。直到200年之后,一个数学家和一个商业家族才让它大受欢迎,他们也改变了数据化的历史。
这个数学家就是方济各会的修士路萨·帕西奥利(luca pacioli)。1494年,他出版了一本为普通读者和商人所写的数学教材。这本书大获成功,成为盛行一时的数学教科书。这是第一本全书都使用阿拉伯数字的书籍,因此也促进了阿拉伯数字在欧洲的传播。当然,这本书最大的贡献在于它对复式记账法的详尽论述。接下来的几十年间,这个论述复式记账法的部分被分别译成了6种语言,并且成为几个世纪的通用范本。
而所谓的一个商业家族,就是指美第齐家族——威尼斯商人和艺术资助人。16世纪,这个家族能成为欧洲最有影响力的银行家族,很大一部分要归功于他们使用的一种高级数据记录方法——复式记账法。帕西奥利的著作和美第齐家族的成功奠定了复式记账法成为标准数据记录法的基础,也奠定了阿拉伯数字在此之后不可取代的地位。
伴随着数据记录的发展,人类探索世界的想法一直在膨胀,我们渴望能更精准地记录时间、距离、地点、体积和重量,等等。到了19世纪,随着科学家们发明了新工具来测量和记录电流、气压、温度、声频之类的自然科学现象,科学已经离不开定量化了。那是一个一切事物都需要被测量、划分和记录的时代,人们理解自然的热情甚至高涨到通过分析测量人的颅骨来试图分析人的心智能力。好在,对颅相学这类伪科学的热情最终淡去了,但是人类对于量化一切的热情却始终没有减退。
新工具和开放的思维促进了测量事物和记录数据的繁荣,而现代数据化就诞生于这片沃土之中。数据化的基础已经奠定完好,只是在模拟时代这依然是费时费力的。有时候似乎需要无穷无尽的热情和耐心,或者说,起码也要有奉献一生的准备,比如16世纪的第谷·布拉赫(tycho brahe)就夜夜细心观察天体运动。数据化在模拟时代成功的例子并不多,因为这需要很好的运气——一大串的偶然巧妙地结合在一起。中校莫里就很幸运,他因伤坐进了办公室,但是却在那里发现了珍贵的航海日志,可不是每个人都能这么幸运的。然而,数据化的实现有一点必不可少,那就是要从潜在的数据中挖掘出巨大的价值,然后揭示出新的深刻洞见。
计算机的出现带来了数字测量和存储设备,这样就大大提高了数据化的效率。计算机也使得通过数学分析挖掘出数据更大的价值变成了可能。简而言之,数字化带来了数据化,但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据,和数据化有本质的不同。
1.当文字变成数据
数字化和数据化的差异是什么?
2004年,谷歌发布了一个野心勃勃的计划:它试图把所有版权条例允许的书本内容进行数字化,让世界上所有的人都能通过网络免费阅读这些书籍。
刚开始,谷歌所做的是数字化文本,每一页都被扫描然后存入谷歌服务器的一个高分辨率数字图像文件中。书本上的内容变成了网络上的数字文本,所以任何地方的任何人都可以方便地进行查阅了。然而,这还是需要用户要么知道自己要找的内容在哪本书上,要么必须在浩瀚的内容中寻觅自己需要的片段。因为这些数字文本没有被数据化,所以它们不能通过搜索词被查找到,也不能被分析。谷歌所拥有的只是一些图像,这些图像只有依靠人的阅读才能转化为有用的信息。
谷歌知道,这些信息只有被数据化,它的巨大潜在价值才会被释放出来。因此谷歌使用了能识别数字图像的光学字符识别软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本。
如今,不仅人类可以使用这些文本信息,计算机也可以处理和分析这些文本数据了。通过检索和查询,我们可以对它进行无穷无尽的文本分析;也可以揭示一个词以及词组第一次出现的时间及其成为流行词的时间,据此发现几百年来人类思维发展和思想传播的轨迹。这种分析支持好几种语言。
15世纪中叶,人类发明了印刷机,在这之后大约出版了1.3亿册图书。到2010年为止,也就是谷歌的数字化图书计划实行7年之后,大约有2000万图书被扫描成了数字图书,这几乎相当于人类所有书写文明的15%,这是多么惊人的数字!这诱发了一个新的学术方向——文化组学。“文化组学”是一个计算机专业词汇,指的就是通过文本的定量分析来揭示人类行为和文化发展的趋势。
在一项研究中,哈佛大学的研究员们对几百万册书籍和超过5000亿个单词进行了深入研究,发现这些书中出现过的单词有一半以上在字典中是无法找到的。他们写道,这些因为不够规范而没有录入正规词典中的词汇如此之多,是一个巨大的宝藏。通过系统分析人们如何提及纳粹德国时期的犹太画家马克·夏加尔,他们发现对于思想或是个人的审查和压制会留下“可量化的痕迹”。词语就像是藏于书中而非沉积岩中的化石;信奉“文化组学”的人可以像考古学家一般,挖掘它们所蕴藏的财富。当然,这可能会导致一些可能的偏差,比如图书馆的书籍是不是真实地反映了现实呢?还是反映的只是作者和图书管理员看到的世界?尽管如此,“文化组学”还是会为人们带来很多惊喜的发现。
当文字变成数据,它就大显神通了——人可以用之阅读,机器也可用之分析。但是作为典型的大数据公司,谷歌自然知道收集信息并进行数据化的价值,因为这些数据有非常多的潜在用途。所以,谷歌精明地利用这些数据化了的文本来改进它的机器翻译服务。这个系统会自动扫描译本,然后找出译语的单词和词组在源语中的对应词和词组是什么。一旦得到答案,系统就可以把翻译看成是一个简单的数学问题,只需要用电脑找出两种语言之间最恰当的对等词和词组。
当然,谷歌并不是第一个梦想在计算机时代唤醒书写文明所蕴含的财富的公司,它也不是第一个吃螃蟹的人。1971年,一个志愿者提出倡议把公共领域的书籍放上网络,制成电子书,方便更多的人阅读,这就是古登堡计划。这是非常有意义的,但是这个计划没有把书籍数据化,也没有开发出书籍的其他功能;它关注的是阅读,而不是扩充书籍用途。他们没有看到数据化的需求,也意识不到书籍的数据化潜力。
现在很多公司都在电子书领域激烈地竞争着,亚马逊连同它的Kindle电子书就是这个领域的先驱者。同样在这里,亚马逊和谷歌的发展策略差异显而易见。
亚马逊拥有数据化的书籍,却不曾挖掘书籍数据化之后的附加价值。该公司创始人兼执行总裁贝索斯说服了上百家出版社在Kindle上发布它们的图书,所以Kindle的图书并不是数字图像,人们可以更改字体大小和用黑白以及彩色两种方式看书。这些书籍是数据化了的,不只是数字化。事实上,亚马逊把上百万的新书都数据化了,而谷歌却在费力地数据化很多旧版本的数据。然而,亚马逊把它的眼光聚焦于用来阅读的书籍内容上,而不是分析数据化文本上。当然,有可能它面对了来自传统出版社的压力,后者可能限制了书籍内容的使用方法,毕竟版权在人家手中。谷歌,作为一个喜欢跨界的叛逆的大数据公司,就没有这样的压力了,毕竟谷歌的资源来源于用户点击,而不关出版社什么事。至少现在,可以不失公允地说,亚马逊深谙数字化内容的意义,而谷歌触及了数据化内容的价值。
2.当方位变成数据
地球本身构成了世界上最基础的信息。但是,历史上它几乎从来没有被量化和数据化过。其实,人和事物的地理定位自然是信息的组成部分,不然我们如何能够吟唱“所谓伊人,在水一方”,但是,这些信息需要转变为数据。
对地理位置的数据化需要满足一些前提条件。简而言之,就是地理范围、标准、工具或者说量化、标准化、收集。只有具备了这些,我们才能把位置信息当成数据来存储和分析。
在西方,对位置信息的量化起源于希腊。公元前200年,埃拉托色尼发明了用格网线来划分区域的系统,类似于经纬度法。大约1500年之后,也就是公元1400年,托勒密著成的《地理学》的复印本从君士坦丁堡传到了佛罗伦萨,著作轰动一时,而书中提到的系统现在仍被用来解决航海导航的难题。从那以后,地图上标上了经纬度和比例尺。这套系统在1570年得到了佛兰德制图师墨卡托的改善,至此海员们就能利用它画出笔直的航线了。
虽然那时就出现了记录地理方位的方法,但却缺乏广为认可的标记标准,使得信息共享依然难以实现。人们急需一套标准的标记系统,直到1884年,在美国华盛顿召开的国际子午线会议上,25个与会国家中的24个国家一致同意将英格兰格林尼治定为本初子午线和零度经线所穿过的地方(只有自命不凡的法国投了弃权票)。20世纪40年代,墨卡托方位法把世界划分成了60个区域,提高了地理定位的精确性。
这样一来,地理定位信息终于能在标准化的数值范式下进行标记、记录、测量、分析和共享了。但发明能低成本测量地理方位的工具迫在眉睫。到20世纪70年代,进行地理位置定位还只能依靠地标、天文星座、航位推测法和尚显欠缺的无线电定位技术。
1978年见证了一个伟大的转变,当时构成全球定位系统(GPS)的24颗卫星第一次发射成功。无论是汽车上的导航系统还是智能手机,地面上的接收器都能通过计算接收信号所需时间的差异对它们进行三角定位,而这些信号就来自于距离我们20372千米的天空。
20世纪80年代,这个系统第一次对民用开放,到90年代才完全投入使用,而同时为了实现商业运用。如今,全球定位系统的地理定位能精确到米,就这样,它实现了自古以来无数航海家、制图家和数学家的梦想。通过与技术手段的融合,全球定位系统能够快速、相对低价地进行地理定位,而且不需要任何专业知识。
如今,GPS已经只是众多定位系统中的一种了。中国研发新的卫星定位系统来与之抗衡。这些新系统通过对电塔和无线路由器的信号强度进行三角测量来定位地理位置,从而弥补了GPS无法在室内和高楼之间进行定位的缺陷,这也是谷歌、苹果和微软需要自己研发地理定位系统来辅助GPS的原因。谷歌的街景车(Street View Cars)边拍照边收集无线路由器信息;iPhone本身就是一个“移动间谍”,一直在用户不知情的情况下收集位置和无线数据然后传回苹果公司;当然,谷歌的安卓手机和微软的手机操作系统也在收集这一类数据。
除了人以外,我们也可以跟踪事物的地理位置信息。随着汽车装上了无线传感器,地理位置信息的数据化深刻变革了保险的概念。这些数据提供了关于时间、地点和实际行驶路程的详细信息,使保险公司能更好地为车险定价。在英国,车主可以根据他的实际驾驶地点和时间购买汽车保险,而不是只能根据他的年龄、性别和履历来购买年险。这种保险定价法激励投保人产生更好的行为习惯。同时,这改变了保险的基础,从考虑一个群体的平均风险转变为个性化的分析。通过汽车定位每个人的地理方位也改变了一些固定资产投入的模式,比方说公路和其他基础设施可以让使用这些资源的司机和其他人分担一部分投入。当然,在实现对所有人和事以数据形式保持持续定位之前,这显然还无法实现,但这是我们的发展方向。
莱维斯说,“预测给我们知识,而知识赋予我们智慧和洞见。”他很确信,有一天,这个系统一定能在用户意识到问题之前预测到并且解决问题。
数据化实时位置信息在人身上的运用最为显著。多年来,无线运营商通过收集和分析这些信息来提升移动互联网的服务水平。不过,这些数据越来越多地被用于其他事情上,第三方也开始利用这些数据来提供新的服务。比方说,一些智能手机的应用程序也不管它本身是否具有定位功能,就收集位置信息;还有一些应用程序就是为了获得用户的位置信息而存在的,比如Foursquare,它让用户在最喜爱的地方“check in”,通过忠诚度计划、酒店推荐和“check in”地点附近的其他推荐而获得好处。
毋庸置疑,收集用户地理位置数据的能力已经变得极其具有价值。从个人层面上来说,根据他所居住的地点和他要去的地方的预测数据,可以为他提供定制广告。而且,这些信息汇集起来可能会揭示事情的发展趋势。公司可以利用大量的位置数据预测交通情况,你也许无法想象,这是通过高速公路上的手机而不是汽车的数量和移动速度预测出来的。AirSage每天通过处理来自上百万手机用户的150亿条位置信息,为超过100个美国城市提供实时交通信息。其他两个位置数据服务商Sense Networks和Skyhook使用位置数据揭示城市夜生活最繁荣的地方或者游行队伍聚集了多少人。
不过,位置数据在商业以外的用途或许才是最重要的。麻省理工学院媒体实验室人类动力学]实验室主任亚历山大·彭特兰(Alexander “Sandy”Pentland)和他的学生南森·伊格尔(Nathan Eagle)是所谓的“现实挖掘”研究的先驱。“现实挖掘”这里指的是通过处理大量来自手机的数据,发现和预测人类行为。在一项研究中,他们通过分析每个人去了哪里、见了谁,成功地区分出了感染了流感的人群,而且在感染者还完全不知道自己已经患病之前就做出了区分。如果出现非常严重的流感疫情,这可以挽救无数人的生命,因为我们会知道应该隔离谁,而且随时都知道去哪里找到他。
伊格尔是无线数据科技公司Jana的创始人,他使用了来自100多个国家的超过200个无线运营商的手机数据——覆盖了拉丁美洲、非洲、欧洲的大约35亿人口。伊格尔的研究既关注家庭主妇平均每周去几次洗衣店这样的肥皂问题,也试图回答关于疾病如何传播和城市如何繁荣这样的重大问题。在一项研究中,他和同事结合分析了非洲预付费用户的位置信息和他们账户的资费金额,发现资费与收入成正比:越富有的人一次性预付费越多。然而,他们还得出了一个与直觉判断相反的结果,那就是贫民窟不仅仅是永恒不变的贫困中心,还是经济繁荣的跳板。关键就在于,我们要意识到这都是手机所提供的位置信息的间接利用,而和移动通信自身业务没有丝毫关系,但是这些数据最初又是为了更好地开展移动通信而生成的。总之,位置信息一被数据化,新的用途就犹如雨后春笋般涌现出来,而新价值也会随之不断催生。
3.当沟通变成数据
数据化的另一个前沿更加个人化,直接触摸到了我们的关系、经历和情感。
数据化的构思是许多社交网络公司的脊梁。社交网络平台不仅给我们提供了寻找和维持朋友、同事关系的场所,也将我们日常生活的无形元素提取出来,再转化为可作新用途的数据。正因此,Facebook 将关系数据化——社交关系在过去一直被视作信息而存在,但从未被正式界定为数据,直到Facebook“社交图谱”的出现。Twitter通过创新,让人们能轻易记录以及分享他们零散的想法(这些在以前,都会成为遗忘在时光中的碎片),从而使情绪数据化得以实现。LinkedIn将我们过去漫长的经历进行了数据化处理,就像莫里转化旧航海日志那样,把信息转化为对现在和将来的预测:我们可以认识谁,或者哪里存在一份心仪的工作。
然而,数据的使用还远未成熟。就Facebook的情况来说,因为知道太早泄露用户数据的许多新用途会让用户反应过激,所以它精明地选择了忍耐。另外,公司仍然在为其收集的数据数量和类型,包括隐私问题进行商业模式和政策上的调整。目前,它所面对的指责都集中在能采集到什么,而并非它实际用这些数据干了什么。
不可否认,其潜在用途非比寻常。一些消费者信贷领域的创业公司正考虑开发以Facebook社交图谱为依据的信用评分。FICO,信用评分系统,利用15个变量来预测单个借贷者是否会偿还一笔债务。但一家获得了高额风险投资的创业公司(很遗憾这里必须匿名)的一项内部研究显示,个人会偿还债务的可能性和其朋友会偿还债务的可能性呈正相关。正应了一句老话:物以类聚,人以群分。因此,Facebook也可以成为下一个FICO。显然,社交媒体上的大量数据也许能形成放飞想象的新型商务基础,其意义远不止表面上我们看到的照片分享、状态上传以及“喜欢”按钮。
同样,Twitter也已经开辟了其数据的新用途。从某种程度上说,2012年超过1.4亿用户每天发送的4亿条微博几乎就和随意的口头零碎差不多。事实上,它们通常就是如此。然而,Twitter公司实现了人们想法、情绪和沟通的数据化,这些都是以前不曾实现的。Twitter与两家公司,DataSift和Gnip达成了一项出售数据访问权限的协议。[10]许多公司对微博做了句法分析,有时还会使用一项叫作情感分析的技术,以获得顾客反馈意见的汇总或对营销活动的效果进行判断。
数据被人类利用的频率远没有被计算机利用得多。以“金融工程师”而闻名的华尔街的数学奇才们,将数据传输到了他们的算法模式当中,来寻找能被有效利用并实现赢利的隐性联系。根据“社交网络分析之父”贝尔纳多·哈柏曼(Bernardo Huberman)[11]的分析,微博中单一主题出现的频率可以用来预测很多事情,比如好莱坞的票房收入。他和一位在惠普实验室工作的同事开发了一个程序,可以用来监听新微博的发布频率,基于此,他们就能预测一部电影的成败,这往往比其他传统评估预测方法还要准确。
这些数据的用途不胜枚举。Twitter微博限制在稀少的140个字符中,但与每条微博联系在一起的元数据是十分丰富的。Twitter的元数据,即“关于信息的信息”,其中包括33个分离的项。虽然一部分信息似乎并没多大用处,比如Twitter用户界面上的“墙纸”或用户用来访问这项服务的软件,但其他的元数据却很有意思,比如他们参与服务所使用的语言、所处的地理位置、关注的人以及粉丝的数量和名字。2011年《科学》杂志上的一项研究显示,来自世界上不同文化背景的人们每天、每周的心情都遵循着相似的模式,这项研究建立在两年多来对84个国家240万人的5.09亿条微博的数据分析上,这在以前是完全无法做到的。情绪真的已经被数据化了。
数据化不仅能将态度和情绪转变为一种可分析的形式,也可能转化人类的行为。这些行为难以跟踪,特别是在较大的社区和其中的子人群环境中。
这些早期的发现预示了数据化将走向何方。和谷歌一样,一些社交网络(如Facebook,Twitter,LinkedIn,Foursquare)坐拥了大型数据的宝藏,一旦这些数据信息得到了深入分析,它们就能轻易获得社会各行各业以及三教九流的几乎所有的动态信息。
二、世间万物的数据化
只要一点想象,万千事物就能转化为数据形式,并一直带给我们惊喜。ibm获得的“触感技术先导”专利与东京的越水重臣教授对『臀』部的研究工作具有相同理念。知识产权律师称那是一块触感灵敏的地板,就像一个巨大的智能手机屏幕。其潜在的用途十分广泛。它能分辨出放置其上的物品。它的基本用途就是适时地开灯和开门。然而更重要的是,它能通过一个人的体重、站姿和走路方式确认他的身份。它还能知道某人在摔倒之后是否一直没有站起来。有了它,零售商可以知道商店的人流量。当地板数据化了的时候,它能滋生无穷无尽的用途。
其实没有听上去那么荒谬。“自我量化”是一项由一群健身『迷』、医学疯子以及技术狂人发起的运动,通过测量身体的每一个部位和生活中的每一件事来让生活更美好——或者至少用量化的方式来获得新知。目前,自我量化运动规模还很小,但正在日益壮大。
随着智能手机和计算机技术的普及,对个人最重要的生活行为进行数据处理从未如现在这般容易。许多创业公司通过测量人们夜间的脑电波来试图找出他们的睡眠模式。zeo公司则早已制作出了世界上最大的睡眠活动数据库,揭示了男『性』与女『性』睡眠时快速眼动量的差异。asthmapolis公司将一个感应器绑定到哮喘病人佩戴的呼吸器上,通过gps定位,再汇总收集起来的位置数据,可以判断环境因素(如接近特定的农作物)对哮喘的影响。fitbit和jawbone公司让人们测量他们的体力活动和睡眠。basis公司用腕带来监测佩戴者的生命体征,包括其心率和皮肤电传导率,以此测试他们所承受的压力。2009年,苹果公司就申请了一项专利,通过音频耳塞收集关于血『液』氧合、心率和体温的数据。获取数据正变得比以往任何时候都简单而不受限制。
数据化能帮助我们获取到更多关于人体运作方式的信息。挪威耶维克大学的研究人员和derawi biometrics公司联合为智能手机开发了一款应用程序,可以分析人走路时的步伐并将其作为手机解锁的安全系统。同时,佐治亚理工学院的罗伯特·德拉诺(robert delano)和布莱恩·派尔思(brian parise)开发了一款叫做itrem的应用程序,用手机内置的测震仪监测人身体的颤动,以应对帕金森和其他神经系统疾病。这个程序给医生和病人都带来了好处;它让患者避免了在医院做昂贵的体检,也让医学专家们能远程监控人们的疾病以及治疗效果。据东京的调查人员说,用智能手机测量震动虽然没有三轴测震仪这种专门的医疗器械那么精确,但也只差了一点,所以完全可以放心使用。这再一次证明,一点点的不精确比完全精确更有效。
在大多数情况下,我们会采集信息并将之存储为数据形式再加以利用。几乎所有领域,任何事情都能这样处理。greengoose是一家创业公司,他们销售能放置在物品上的微型运动感应器,用它监测物品的使用次数。比如把它放置在一捆牙线、一个酒水壶或者一盒猫食上,就能数据化牙齿清洁、植物护理以及宠物喂养的信息。很多人对“物联网”有着宗教般的狂热,试图在一切生活中的事物中都植入芯片、传感器和通信模块。这个词听起来好像和互联网亲如姐妹,其实不过是一种典型的数据化手段罢了。
我们正在进行一个重大的基础设施项目,它在某种程度上与我们过去所做的都不一样,无论是罗马的水渠还是启蒙运动时期的百科全书。它如此的新颖,而我们又深处其中;同时,又因为它是无形的,不像水渠中能触『摸』到的水,所以我们并未意识到它的存在,这个它,就是无处不在的数据化。像其他的基础设施那样,它会给社会带来根本『性』的变革。
水渠让城市的发展成为可能,印刷机推进了启蒙运动,报纸为民族国家的兴起奠定了基础。但这些基础设施都侧重于流动——关于水、关于知识。电话和互联网也是如此。相比较而言,数据化代表着人类认识的一个根本『性』转变。有了大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的。
整整一个多世纪以来,物理学家们一直宣称情况应该是这样的——并非原子而是信息才是一切的本源。不可否认,这也许听上去无法理解。然而通过数据化,在很多情况下我们就能全面采集和计算有形物质和无形物质的存在,并对其进行处理。
将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。
当量化一切,成为数据的核心,当万物皆可数据化成为现实可能,数据也因此成为当今时代新的重要的生产要素之一,成为国家发展战略。