12月8-10日,36氪在北京国际会议中心举办了「WISE2020新经济之王大会——崛起与回归」。本次大会是WISE大会的第八届,2020年也是36氪成立的第十年。在企业服务分会场,我们以「十年企服:崛起与加速」为主题,聚合行业专家、专注企服赛道的知名投资人、行业代表企业,从行业市场环境分析到企业可持续发展战略,从宏观行业发展洞察到微观企业服务管理升级,共同探讨企服数字化发展趋势,在十年企服的崛起与加速中,远见企服赛道的新机遇。
有没有一种方法能够让安全合规和保护用户隐私的情况下,让我们的数据在企业和机构之间自由流通,并且发挥应有的价值?当我们的用户对于隐私数据保护的诉求越来越强烈时,科技公司到底应该怎样有所为,有所不为?
有关这个话题,今天我们有请到了四位嘉宾,他们分别是:清华交叉信息研究院副教授、华控清交首席科学家 徐葳先生;北京师范大学网络法治国际中心执行主任、中国互联网协会研究中心秘书长 吴沈括;锘崴科技创始人 王爽;360安全产品部总经理 邹贵强。我们还邀请了链兴资本的创始合伙人张明镜作为本场的圆桌论坛的主持人。
圆桌会议:个人隐私数据保护趋势下,科技公司做了哪些努力?
问题一:关于隐私计算行业近期热门起来其中的动因
王爽认为推动隐私计算发展的动因是多方面的,从市场的需求、技术的驱动,到法律的逐步健全、以及政策的促进,是多方因素共同作用的结果。传统的数据分享模式很难完全满足业务合规性和用户对于数据隐私机密保护的需求。而隐私计算技术能有效解决数据分享过程中的隐私保护痛点,实现数据“可用不可见”。
吴沈括认为这个问题不单是中国的问题,也是一个全球化的问题。从国际上来看,一方面随着数字化应用的生态在不断地拓展延伸,从一些基础设施到金融应用,场景越来越广泛。另一方面,目前不同的主体,包括国家企业对于数据资源的争夺和博弈也在不断升温。从国内来看,除了数据要素市场建设过程中所激发的更大的市场需求,随着我们国家关于数字经济、数字政府的建设,从政府到企业,到个人,各方主体都有非常旺盛的需求。
徐葳认为从技术角度来说,首先是需求拉动。获客、风控等实际需求一直存在,要在安全合规的情况下进行数据流通共享,就需要隐私计算,这就短期的需求拉动。从长期的需求来看,大数据的发展使得数据的价值越来越被大家重视,对于许多大数据公司和提供AI方案的公司来说,只有将多方数据融合共享才能产生更多的价值。其次,我觉得是技术的推动。互联网和大数据技术的发展使得数据流通的需求增加了,同时也使得隐私计算技术能够逐步落地了。
邹贵强:隐私数据被大家关注一方面是因为生产生活跟互联网结合越来越紧密,大家的生活中方方面面都会受到大数据计算的影响。另外一方面,隐私数据商业化的能力和技术的能力给大家产生了害怕的感觉,推动了一些相关机构的关注和国家的关注。
问题二:不同隐私计算的技术路线的异同点何在?在做项目的过程中效果如何?以及哪些点需要持续优化?
王爽:不同的子技术有不同的优缺点。需要根据具体的应用场景,通过优化组合不同的技术,来充分发挥不同项技术的优势,实现对于实际应用场景的赋能。我们需要叠加可信计算环境、多方安全计算、同态加密等隐私计算技术,实现数据应用从存储、通讯、计算到模型结果分发的全流程保护。可信计算环境拥有较高的执行效率、较强的灵活度,但是其依赖于硬件。
徐葳:在我看来,隐私计算是一个目的,而不是一个技术路径之争。没有任何一个技术路径能够完美的解决隐私计算的问题,而是需要不同技术的有效结合。隐私计算的基本需求是什么?第一,我觉得它的安全性应该是可分析可论证的。第二,技术要通用。我们需要的是数据科学家研究开发一个密文平台或系统,这个系统能够满足不同用户的性能需求和安全性需求,所以它应该是一个SDK,让一般人可用。任何的通用性都是靠性能。
问题三:今年国外的通用数据保护条例GDPR,以及国内的个人信息保护法草案,这两部法律法规的异同点体现在哪里?有哪些细则是国内的公司都需要格外关注的。
吴沈括:整体的趋势是从美国到欧洲,到中国,对于数据本身的重视从个人信息正在逐渐扩展到非个人数据。所以今后的数据治理环境是融合了个人信息和非个人数据的更为复杂的环境,这就是今天所讲的技术架构特别重要的原因。未来对于中国立法的关注和对于外国立法的关注,基本都是同步的状态。或者说在个人信息保护领域,在数据治理领域未来有一个很明显的趋势,就是全球一体化。个人认为基于现有的法律制度,其实我们的数据交易、数据要素市场是有了相对比较充分的法律基础的,在这个过程中通过技术的应用、研发,做出更好的匹配和适配之后,可能大家会看到更直观的场景,这也是我们后续可以交流的。
问题四:360作为国内老牌的安全厂商,在隐私计算和隐私数据的保护上面在这块做了哪些布局?
邹贵强:我们更多的是关注用户隐私数据方面的处理。首先存储方面,不会一下就脱库这种事情。另外一部分就是做到角色和流程上的审核。我们在做安全的同时提出了一些理念,包括用户的知情权和选择权。选择权不是选择用不用这个软件,而是用户可以选择哪些数据可以不上报,或者不想提交给这个厂商。在未来的规划方面,我们更多的还是关注于现在越来越深入到生活中的这部分隐私的数据。
以下是圆桌分享实录,36氪编辑整理:
张明镜:我是链兴资本的创始合伙人张明镜。我们链兴资本是专注于科技和企业服务的投行,过去这几年来我们在区块链、数据智能、新兴开源软件以及分布式加密隐私技术方面,都服务和投资过不少的项目。隐私计算这个行业是今年to B领域最火的热点(去年是RPA),今年是隐私计算。这是一个痛点足够明显、想象空间足够大,另外也是人工智能技术、区块链技术、大数据,以及信息安全高度综合的一个行业。今天我们非常高兴迎来了隐私计算行业里面四位顶尖专家,一起讨论一下这个行业的现状和未来。首先请四位嘉宾简单介绍一下自己。
王爽:我是锘崴科技的联合创始人王爽,我们公司主要是通过隐私计算技术,实现对于数据隐私的保护并赋能数据价值的高效、安全、合规流转。锘崴科技是一个技术型驱动的公司,团队在隐私计算方面有十多年的技术积累,并打造出了拥有自主知识产权的隐私计算底层平台架构。锘崴科技的产品服务于在隐私保护下的大数据的互联互通,协助医院、药厂、保险公司、政府、金融机构等在隐私保护下的高效合规的多方数据合作。
吴沈括:我是北京师范大学的吴沈括。我们的团队集中在数据治理、数据法治层面的政策战略和法律法规的研究。在这几年支撑国家立法机关和司法机关的过程中也形成了一些研究体会,也希望跟大家共同分享。
徐葳:我是清华大学的徐葳。我的研究方向主要是在大数据和分布式系统。同时我也是华控清交的联合创始人和首席科学家,这是一家专注于隐私计算的企业,是通过转化清华的科研成果而成立的公司,我们致力于开发一套通用的、易用的、高性能的隐私计算平台和一套SDK体系。
邹贵强:我是360的邹贵强。我们部门一直是维护开发360的安全产品,包括安全卫士、杀毒,在保护用户的隐私方面也做了很多的事情,非常高兴能和大家一起分享。
张明镜:第一个问题,过去这一年来隐私计算行业很火,讨论非常多。各位嘉宾都是来自于不同的行业——有老牌的安全厂商,有新锐的创业公司,也有大学里面的教授专家。作为VC投资人,我们常常会问这个问题:为什么这个行业早不火,晚不火,天时地利人和到底在哪儿?你们认为这个行业火起来的动因都有哪些?
王爽:我认为推动隐私计算发展的动因是多方面的,从市场的需求、技术的驱动,到法律的逐步健全、以及政策的促进,是多方因素共同作用的结果。比如从市场角度来说,现在越来越强调精准医疗、精准营销、千人千面,这些背后都是人工智能AI的支撑。但是精准的AI模型后面是需要依赖大数据来做模型训练的。比如,要基于数据对罕见病构建精准模型,需要很大的样本量和广维度的数据。对于罕见病,通常一家数据源很难满足模型训练对于数据量或数据维度的需求,在这种情况下就涉及到对于跨域或跨中心的数据联合分析的需求。然而传统的数据分享模式,比如脱敏由于涉及到脱敏后的个体数据的迁移,在数据隐私保护越来越成为焦点的情况下,单纯的数据脱敏很难完全满足业务合规性和用户对于数据隐私机密保护的需求。
因此,隐私计算技术应运而生,通过结合联邦学习、可信计算环境、多方安全计算等技术,能有效解决数据分享过程中的隐私保护痛点,实现数据“可用不可见”。从上世纪80年代,隐私计算相关技术被提出并理论上证明可行,到今天经过多年的发展,在很多场景下已经可以通过隐私计算技术来高效解决数据分享中的实际问题。比如锘崴团队从2014年开始举办全球的iDASH隐私计算大赛,包括12月7号刚刚结束的2020大赛,通过已经举办的7届大赛,以及对于全球隐私计算队伍方案的测评,我们也见证了隐私计算技术的发展,以及其在实际应用中不断提高的效率和解决问题的能力。我认为市场的需求和技术的加持,法律的监管,如今年颁布的《数据安全法(草案)》和《个人信息保护法(草案)》,以及政策的引导,如中国的数据要素化市场的政策,共同驱动了隐私计算的市场发展。
吴沈括:我觉得这个问题不单是中国的问题,也是一个全球化的问题。目前全球对于数据治理的需求,在不同的层面都有快速上升的过程。
从国际上来看,一方面随着数字化应用的生态在不断地拓展延伸,从一些基础设施到金融应用,场景越来越广泛。另一方面,目前不同的主体,包括国家企业对于数据资源的争夺和博弈也在不断升温,比如说一些管制、投资、审查,这些都在加速。在这个过程中,我们看到包括企业在出海的过程中对于技术支撑的需求也在不断地提升。尤其是像今年以来我们看到从欧盟到美国,甚至到日本、韩国、南非、迪拜、新加坡,这些国家不断在进行规范的更迭,非常注重对技术支撑的迭代和升级。
从国内来看,除了数据要素市场建设过程中所激发的更大的市场需求,随着我们国家关于数字经济、数字政府的建设,从政府到企业,到个人,各方主体都有非常旺盛的需求。尤其是现在随着五中全会的结束、中共中央关于“十四五”规划和2035远景目标当中提出的加快数字化转型的推动,可以想见在不同的场景当中,在不同的行业部门当中,它的需求的共性在不断地增多。这时候如何得到有效的最新的技术支撑,就成为大家共同的期待。这也形成了市场的发展前景非常良好的很重要的原因。
徐葳:从技术角度来说,首先我觉得是需求拉动。原来数据在黑市进行买卖,但是这种行为是不合规的,而实际上获客、风控等实际需求依然存在。要在安全合规的情况下进行数据流通共享,就需要隐私计算,这就短期的需求拉动。从长期的需求来看,大数据的发展使得数据的价值越来越被大家重视,对于许多大数据公司和提供AI方案的公司来说,只有将多方数据融合共享才能产生更多的价值。
其次,我觉得是技术的推动。互联网和大数据技术的发展使得数据流通的需求增加了,同时也使得隐私计算技术能够逐步落地了。多方安全计算这个理论是我们院长姚老师上个世纪80年代提出的,2014年我们开始研究隐私计算的的时候,大家都不知道这个可以干什么,2018年我们创立公司的时候,市场上知道的人也很少。今年大概有200家公司声称开始做隐私计算了,这也说明技术在不断的成熟。
邹贵强:隐私数据被大家关注一方面是因为生产生活跟互联网结合越来越紧密,大家的生活中方方面面都会受到大数据计算的影响。你可能被推送地更精准,或者说商业化的渠道,你会感受到对你生活的影响。另外一方面,的确是现在的数据处理能力的提高,原来泄露了电话号码就是被骚扰电话打一下,如果现在泄露的话带来的就是生活和工作方面精准的影响,这种商业化的能力和技术的能力给大家产生了害怕的感觉,推动了一些相关机构的关注和国家的关注。
张明镜:各位专家都从各个角度说了一下这个行业火起来的驱动要素。在研究隐私计算行业的时候,我发现有很多的技术路线十分纷繁复杂,有多方安全计算、可信执行环境、联邦学习等,在多方安全计算里面可能还有很多子项,比如同态、混淆电路等等。大家在这方面对这些技术还是比较陌生,对这些技术的异同点不太清楚。另外,不同的工程化的能力、代码的质量也会影响效果;同样的技术水平,不同的场景也会影响公司的增长速度。基于上述原因,我想请教一下徐老师和王总两位专家,在你们创业的实践中,是否能够讲讲这些技术路线的异同点,以及在做项目的过程中效果如何,或者哪些点需要持续优化。
王爽:我分享一下锘崴科技这方面的经验。我们公司有十多年医疗领域隐私计算的实际经验。我们通过结合隐私计算中的联邦学习技术、可信计算环境、同态加密和安全多方计算等技术,实现了在隐私保护下的跨多个医院的数据互联互通,比如通过我们的技术实现了跨医疗机构间病人数据的安全分享。锘崴团队在2012年发表了全球第一篇基于安全联邦学习的论文,通过其底层技术,支持了多个跨中心的安全数据分享和互联互通应用。我们认为隐私计算是一个大的概念,下面包含了很多子技术。不同的子技术有不同的优缺点。需要根据具体的应用场景,通过优化组合不同的技术,来充分发挥不同项技术的优势,实现对于实际应用场景的赋能。
比如说从医学角度来讲,在数据检索应用中,需要匹配相似的病人,或药厂要查找一个变异位点和疾病的相关性,在数据检索的过程中,涉及到对于查找条件和被查找数据源双方的隐私保护需求。这里根据匹配条件的复杂性、数据源的大小、安全条件的假设和响应时间等需求,可以选择不同的隐私计算技术路径。在查找到数据以后,通常涉及到对于相关数据跨中心的联合分析,这里就要应用到联邦学习相关技术,在数据源的节点实现数据的“可用不可见”。在不需要分享个体数据,只交换模型参数等统计值的情况下,然后实现精准的全局模型构建。但在这一场景下,仅仅只有联邦学习也是不够的,因为联邦学习本身也是要交换一些明文的统计值,很多研究表明,这些明文统计值也会泄露敏感的隐私信息。因此,我们需要叠加可信计算环境、多方安全计算、同态加密等隐私计算技术,实现数据应用从存储、通讯、计算到模型结果分发的全流程保护。
模型训练好以后就到了模型使用的过程,通过隐私计算技术,把加密的模型跟加密的用户信息进行推理运算,可以输出相关加密的结果给授权的用户使用,比如预测相关疾病的风险,或推荐用药物,又或提供临床决策支持,优化临床路径等。这些都需要根据不同的应用来优化隐私计算技术路线。
总结下来,可信计算环境拥有较高的执行效率、较强的灵活度,但是其依赖于硬件。多方安全计算只能有效服务于两方或者三方的应用,其计算所需的通讯带宽较高,计算复杂度也比较高,计算的灵活性有限,这是多方安全计算的缺点。优点是其可以是纯软件的解决方案。同态加密可以支持加密数据上的某些特定运算,但是问题在于其所用的公钥和私钥在多方计算中需要被共用,需要一个中心化的节点负责密钥的管理和分发,如何选择一个共同信任的密钥节点,给多中心合作中带来一定挑战。锘崴科技通过融合不同的隐私计算技术,在用户无感知的情况下,根据具体的应用场景,提供一体化的隐私计算解决方案。
张明镜:所以你这是技术中性的,根据不同的场景来选择技术。徐老师呢?
徐葳:在我看来,隐私计算是一个目的,而不是一个技术路径之争。没有任何一个技术路径能够完美的解决隐私计算的问题,而是需要不同技术的有效结合。
隐私计算的基本需求是什么?第一,我觉得它的安全性应该是可分析可论证的。世界上没有绝对的安全,但它的安全性应该是可分析可理喻的,也就是说你能够清晰的说明这个系统或程序的安全性到底在哪里,哪里安全、哪里不安全,这需要能够被验证。这里面包含理论的安全,以及理论落地之后是否安全。有些密码学的理论很好,但由于它的安全假设很难实现而难以落地;还有一些虽然落地了但是和监管不兼容,例如区块链上用的零币(zero-cash),虽然密码理论上很安全,在任何情况下都无法恢复数据,这就变成了黑盒子,最后演变成黑市交易。所以隐私计算技术最重要的是需要说明它的安全性到底在哪里,且它为什么能够合规,能够被监管。
第二,技术要通用。以数据库为例,hash index、B-tree以及其他几种技术在数据库里都在用,但到底这几个有什么区别,一般人很难说清楚。为什么?因为数据库是个平台,它用声明式的语言告诉你怎么查,至于平台背后用什么技术,数据库已经替你解决了,隐私计算也需要这样的平台。我们需要的是数据科学家研究开发一个密文平台或系统,这个系统能够满足不同用户的性能需求和安全性需求,所以它应该是一个SDK,让一般人可用。任何的通用性都是靠性能。我们这些年研发核心就在于通过工程化不断地提升它的通用性和性能,我们有非常漂亮的编程接口、有400种不同的函数,以及密文计算引擎,能够让大家直接在上面写程序并跑出满意的性能,这是隐私计算技术的核心。至于说到底有多少种协议,我们的隐私计算平台里起码得有几十种不同的协议和方法手段,在平台里面供系统选择。
张明镜:感谢徐老师,也是给了大家一个正确看待这个行业正确的价值观。接下来我想有关法律法规和政策方面向吴老师请教一下。政策是推动整个行业进步的因素,今年国外的通用数据保护条例GDPR,以及国内的个人信息保护法草案,都非常引起关注。根据您的观察,这两部法律法规的异同点体现在哪里?有哪些细则是国内的公司都需要格外关注的。
吴沈括:应该说对于欧盟的通用数据保护条例大家都非常关注,从2018年开始一直是讨论的热点,在这个过程中我们一方面看到欧盟的立法对于中国的立法,其实还是产生了一定的要求,包括在方法论上面。另一方面,我们也特别需要关注欧盟的立法不止于这个GDPR,从非个人数据自由流动条例,到欧盟网络安全法案,到数据服务法案,数据治理法案,还有明年的欧盟数据法案。整体的趋势是从美国到欧洲,到中国,对于数据本身的重视从个人信息正在逐渐扩展到非个人数据。所以今后的数据治理环境是融合了个人信息和非个人数据的更为复杂的环境,这就是今天所讲的技术架构特别重要的原因。
如果从两个立法比较而言,对比中国的个人信息保护法草案,以及同期的美国和欧盟的立法。一方面从个人信息保护的角度来说,大家会看到以知情同意为核心的基本流程。在这个过程中同时也注重和国家利益、公共利益,以及其他的利益之间的平台。所以如何把立法所要求的权益平衡的机制落实到技术层面,是很多公司、很多企业,包括美国的大型的龙头企业,包括欧盟的企业以及中国的企业都在努力追赶的一个高峰。
另外,随着数据要素越来越重视,各国都加强了对于监管的力度,比如以前我们都会讲现在不单是数据监管机构的监管,还会强调数据垄断问题,比如说平台垄断问题、进出口管制问题。从这个角度上来说一方面中国企业和美国企业、欧洲企业的技术合作非常广泛,非常深刻。去年在疫情以前,我在美国斯坦福大学跟美国的企业讲中国的人工智能的时候,会场来了300家企业。他们关心一个问题是中国的立法是否会对现有中美企业的合作产生影响,而他们想做的其实更想进一步推进和中国企业在技术层面、市场层面、应用的转化层面更多的合作。未来对于中国立法的关注和对于外国立法的关注,基本都是同步的状态。或者说在个人信息保护领域,在数据治理领域未来有一个很明显的趋势,就是全球一体化。
在这样的情况下,具有全球一体化的技术方案、法律方案、政策方案之间的融合就非常重要。国家的部门研究的时候发现中国的场景当中,目前的数据业务的发展当中比较突出的几个现象,一是数据爬取问题,二是流量截取问题,三是个性化推送的问题,四是人脸识别和新技术的应用所造成的新的影响。
从目前来看中国的立法也会非常强调对于中国的数字生态的回应。比如说以数据交易为例,我们非常关注数据交易、数据共享和融通的问题。有很多业内的朋友说个人信息保护法、数据安全法,怎么没有对数据交易、数据产权、数据权属做出规定呢?事实上这里面有个转变,立法者根据现有的一系列规范,其实是给我们提供了数据交易、数据共享融通的制度的渠道,但是在解释上面大家可能没有看到,它不一定要用“交易”这两个字。个人认为基于现有的法律制度,其实我们的数据交易、数据要素市场是有了相对比较充分的法律基础的,在这个过程中通过技术的应用、研发,做出更好的匹配和适配之后,可能大家会看到更直观的场景,这也是我们后续可以交流的。
张明镜:我想请教一下邹总,360作为国内老牌的安全厂商,在隐私计算和隐私数据的保护上面在这块做了哪些布局?
邹贵强:其实360做的隐私数据跟前面几位讲的不太一样,我们更多的是关注用户隐私数据方面的处理。360是一家安全公司,更是一家大数据公司,所以我们在大数据的收集和存储、使用方面,都有很严格的安全的保障和要求。首先存储方面,不会一下就脱库这种事情。我们是分布式的存储,相对来说各个业务有自己的单元去存储自己的数据。在用户关键性的隐私数据,需要脱敏处理的,每个业务访问的权限也是有限的。另外一部分就是做到角色和流程上的审核。一个业务需要使用什么样的数据,要有合理的要求,或者从用户那儿获取什么样的数据,都是有一定的流程,我们不必要去收取或者说提交用户不需要的那部分数据,以最小化的原则来收集。
我们在做安全的同时提出了一些理念。一个是用户的知情权。知情权是指一个软件不管是安全软件还是其他软件,包括手机上的APP,我们做任何数据上面的提交或者跟用户获取数据的时候,需要有用户的知情权,到底会被这个软件提交什么样的数据上去。这个知情权很重要,用户对自己比较敏感的部分你是不是有触碰到。另外就是选择权,不是选择用不用这个软件,而是用户可以选择哪些数据可以不上报,或者不想提交给这个厂商。我们在实际的业务开发还有实际的业务流程上面,也做了一些相关的工作,保护用户隐私更多的是工具化的产品,通过数据的隐私情理还有浏览器的无痕模式,让关心隐私的一部分用户能够很放心地在互联网上浏览。
在未来的规划方面,我们更多的还是关注于现在越来越深入到生活中的这部分隐私的数据。大家在互联网访问的时候,或者做跟业务有关的,包括办公领域也是一样,这里面有的数据其实已经超出隐私的范围了,而是安全领域了,因为这些数据一旦被攻击者或者说不良的商家收取之后,可能会产生的不是个人的影响,而是对整个业务和公司,以及整个行业的影响。
张明镜:非常感谢大家的分享,希望大家关注数据隐私和隐私计算的行业发展,关注各位专家的动态。我们期待有机会再深入的交流,谢谢。