1987年,《纽约时报》杂志曾将人类基因组计划描述为“历史上最大、最昂贵、最激进的生物医学研究计划。”
但此后三十年时间,测序技术的进步,却让基因组学这一技术,成为这个世纪最主要的医学科研进展之一。
其不仅改变了医学研究的性质,也让科学家能够进行全面且强大的探索,据美国银行预测,到2025年,与基因组学直接相关的研究产业就会达到410亿美元。
而今,同样的故事也在蛋白质组学研究出现,在人类基因组计划完成之后,就有科学家在《Science》和《Nature》杂志兴奋预言,蛋白质组学时代即将到来,并将取代基因组学成为生命科学研究的焦点。
西湖大学特聘研究员、西湖欧米创始人郭天南表示:一切生命的表现形式,本质上主要就是以蛋白质为主的生物分子的体现,而蛋白质被认为是一切生命活动的齿轮,也是药物作用的最主要靶点。完整意义上的蛋白质组学,能够对健康和疾病的发生、发展、转归等过程有一个全面的认识,把握疾病诊治的关键,提高药物开发的效率。
近些年,随着蛋白质组大数据和人工智能技术的出现,这一研究领域获得了极大的加速,并展现出非常广阔的前景。
近日,雷锋网《医健AI掘金志》以“AI制药·下一个现象级赛道”为主题,邀请燧坤智能、英飞智药、宇道生物、西湖欧米、华为云,五家先锋企业,举办了一场云峰会分享。
作为此次论坛的嘉宾,西湖欧米联合创始人、董事长郭天南以《蛋白质组大数据联合AI在药物开发中的潜在应用》为题,进行了演讲。
郭天南表示:目前,微观生物世界数据仍是一个黑盒子,成年人身体大约有30万亿个细胞,即使一个非常简单的真菌细胞也有4千万个以上蛋白质,而且这些细胞里面蛋白质数量也是目前难以估量的复杂存在。
虽然,我们看不到这些微观世界的数据,但这与我们的生命和健康都有重要的意义。
以甲状腺结节良、恶性判断为例,大约50%以上成年人都有甲状腺结节,其中绝大多数结节都是良性,但同时也有30%结节无法诊断,如果不切除可能危及生命,如果切除发现是良性可能过度治疗,因为患者并不需要在当前这个阶段切掉甲状腺。
过去四年,郭天南的团队和多国合作者一起,从蛋白质组数据出发,引入神经网络等技术开发了判断甲状腺结节良、恶性的新方法。
该方法通过和新加坡、西湖大学等科研机构合作,对超过6000多个蛋白质组数据做了测试和鉴定,得到新型甲状腺结节鉴定方法ThyroProt (version1),使甲状腺结节良恶性诊断特异性达到93%以上。
目前,该技术和方法正在通过西湖大学校办企业西湖欧米进行临床转化。
以下是演讲全部内容,《医健AI掘金志》做了不改变原意的整理和编辑:
大家晚上好,我是郭天南,是西湖大学特聘研究员、博士生导师,西湖大学蛋白质组大数据实验室负责人,西湖实验室iMarker实验室主任,西湖欧米创始人。
很高兴跟大家进行分享,今天的演讲题目是“蛋白质组大数据联合AI在药物开发中的潜在应用”。
大数据实际上是目前我们数字经济时代的“石油”,它的价值甚至比石油更加昂贵。
观察家们预计,数字经济将成为全球经济与国家竞争力的又一个分水岭。
新冠疫情全球爆发,更是加速这一进程,我国计划总投入50万亿元来推动“新基建”的建设。
据统计,4年之后,全世界的数据量将达到175ZB,相当于1750亿TB,90%以上的数据是过去5年产生,所以今后5年产生的数据可能会更快。
而几个主要存储数据的公司都是科技企业。例如Google、Facebook、Microsoft和Mmazon都存储了至少1200PB信息,数据应该是目前经济数据及科研的一个制高点。
我们发现这些数据很多来自于旅行、教育、通讯、购物平台等,主要是文本、视频、声音、图片等形式,普遍都是宏观世界数据,也有一些健康和生命相关数据,例如什么病应该挂哪一科室,找哪一个医生等等。
前面提到全部都是人类宏观世界数据。地球约有70亿人,像杭州、苏州常住人口有1000多万人,每天产生大量宏观世界数据。但我们还缺乏微观世界的数据。
我们看不到的微观世界目前像是一个黑盒子,一个成年人大约有30万亿个细胞,即使一个非常简单的真菌细胞也有4000万个以上蛋白质。
我们人类一个细胞蛋白质数量远远高于4000万个蛋白质。每个细胞都有独特特征,每个细胞里面蛋白质数量是目前无法估量的复杂存在。
虽然我们肉眼看不到,但可以通过一些模拟,一个视频感受我们体内的蛋白质机器。例如新冠病毒入侵,将会引起人肺内细胞蛋白质反应。这是我们看不到的过程。
但如果我们有技术把细胞放大几万倍,就可以看到里面存在一个全新世界,各种各样蛋白质机器有条不紊的运动、变化。我们虽然看不到它们存在,但蛋白质组世界同我们健康息息相关。
再举一个例子,这是一个ATP合成酶动画。1997年,获得诺贝尔化学奖的三位科学家发现了这样一个蛋白质机器。
这个机器可以不断旋转,可以让我们吃的食物变成以ATP为主的能量分子,这些红色、绿色、黄色、蓝色就是分子马达不同部件,他们的运作同我们宏观世界的汽车和机械表里面的零件很相似。只是生命活动分子马达不需要电流作为能源来源,是通过我们生物能量来运作。
现在我们有技术可以将这些蛋白质动态变成数据,即蛋白质组大数据。
这里举一个例子,图中每一个像素点都是一个蛋白质片段和一个多肽片段,红色表示片段强度比较高,黑色表示片段强度比较低。
如果我们将动画平铺到一张图上,大家可以看到像竹简一样一列一列,这就是微量组织产生的蛋白质组大数据视觉化呈现。
将其中4条挑出来横着放,可以看到它们具有高度复杂的内容,如果再将其中很小一个区域放大,可以看到像宇宙一样的星空图。
宇宙里有很多点红的、绿的、灰色的,像浩瀚宇宙一样神秘,这里每一个点对应都是体内蛋白质信息,目前人类对蛋白质组了解非常少。
我们团队现在建立了蛋白质大数据新数据结构,叫DIAtensor (DIAT)。有了这样数据结构,就可以很方便将蛋白质大数据进行视觉化、转换为各种格式,并且进行深度学习,回答生物医学健康相关问题。
下面列举几个案例,第一是新冠疫情刚开始阶段,我们与浙江省恩泽医院、迪安凯莱谱一起合作的项目。
武汉疫情报道出来之后,大家非常关注,怎么样鉴定哪些新冠患者是重症,因为大部分成年人感染新冠病毒之后没有任何症状,我们体内免疫力可以杀死新冠病毒。
据统计大概80%感染新冠是轻症,绝大部分轻症患者只要居家隔离,吃简单抗病毒药物,就可以得到有效治疗,直至自愈,甚至不经过治疗也可以痊愈。
但有20%症状新冠患者会出现非常不好情况,呼吸困难,如果不吸氧、不用呼吸机就可能死亡。如果能够及早发现重症患者,就可以很有效地利用宝贵的 ICU病房等资源。
当时,要判断患者是否为重症,只有当患者呼吸困难、血氧指数下降非常严重、进入ICU时才能够得到鉴定。
我们去年和医院合作,做了一个基于蛋白质组学和AI的新诊断方法,可以从血液里的蛋白质、代谢等特征建立模型,提前预判哪些病人会出现重症,准确度有93.5%。
但其中有两个患者经常不准确,我们发现其中一个患者模型跟临床不相符,是XG3患者,他是一个轻症患者,但模型认为他是一个重症。
后来发现这位轻症患者是一个70岁男性,虽然是轻症,但他是整个研究队列里年龄最大,所以虽然是轻症,但他的血液分子特征却提示和重症患者更相似。
上图中,是一个独立训练验证集,共有10个病人,其中1个患者是XG45,临床诊断是重症患者,但模型把他划在虚线左边,认为他和轻症患者更相似。
后来临床审核发现,这位患者是一位62岁男性,入院之前经过20多天中药和抗病毒治疗,所以临床上虽然表现为重症,但实际其分子特征和轻症更加相似,所以通过分子检测可以看到临床表现之外的一些蛛丝马迹和预兆。
在图中下方是一位XG22轻症患者,但模型认为是重症,和临床医生反复的核实临床资料,发现患者有乙肝传染史、糖尿病,虽然是轻症,但住院时间是所有患者最久,甚至我们至今也不知道他为什么50多天才转阴。
此外,在后续训练中,我们也发现还有十几位病人经过分子检测和AI预测,和临床诊断也不太相符,最终才知道来自底层的分子诊断可能会更加精准。
例如,样本X2-22在患者里分数最低,甚至比重症患者打分更低,但临床认为他是轻症。
临床审核这个患者是一位66岁女性,在采血当天血糖达到27.8mmol/L,正常应该不超过6.1mmol/L,她当时处于非常危险的高血糖危象,好在恩泽医院对她进行了救治,如果晚一些,患者有可能就会因为高血糖危象而失去生命。
所以我们如果提前有分子检测模型,就可以预测哪些患者更严重,使用蛋白质检测和AI模型监测病人病情,可以达到非常好效果。
宏观世界上看不到一些分子机理也可以通过蛋白质检测来实现,例如找到药物靶点。
例如,我们今年完成的一篇发表在CELL上的工作,将当时在武汉协和医院因为新冠而不幸离世的患者进行尸检,观察死亡患者的心、肝、脾、肺、肾、甲状腺、睾丸等组织器官的细胞层面改变。
过去对类似新冠疾病等未知疾病的理解,通常是宏观世界症状为基础,将组织用显微镜放大,通过病理技术检测了解疾病对人体影响,但这样的检测并不能知道什么病因导致患者死亡,也不能告诉我们什么样药物,让病人病情逆转,降低死亡率。
我们通过蛋白质检测可以获得底层信息,对每一个器官蛋白质发生的改变进行鉴定。
图中标色的蛋白质都是在心、肝、脾、肺、肾、甲状腺、睾丸等里面死亡患者的高蛋白表达,这可能是他们治疗的靶点。
这两个案例说明对于人体所有组织器官、液体、体液等都可以进行蛋白质分析,只要有生命就有蛋白质,有人体活动就有蛋白质变化。
我们可以从血、尿、眼泪等体液中鉴定到大量蛋白质,例如眼泪里有数千个蛋白质、脑积液、唾液、活检组织、肿瘤组织、冰冻组织、石蜡组织细胞、头发、牙齿、指甲、骨骼、粪便也含有大量蛋白质。
极小量样品,小到一个芝麻的1/10或者是一滴血的1/10,或者是几滴尿液,可以进行有效蛋白质组分析。
大多数人认为蛋白质鉴定比较贵、慢。但现在随着技术改进,实验室每天可以快速处理数百个蛋白质组,产生大量用于AI分析的数据。
图中一个石蜡组织里大部分都是石蜡,肿瘤组织极少,从这么小组织中提取的蛋白质可以进行几十次蛋白质组分析,实现定量组织的蛋白质组全面分析。
例如这张图,是目前广州健康营养队列以及西湖大学郑钜圣团队一起合作的蛋白质组项目,项目分析大约18000个血清蛋白质组,进行了代谢综合征预测。
代谢综合症就是三高,高血压、高血糖、高血脂患者和亚健康状态患者。
他们从2008年开始,对大约两千个人进行监测,通过临床资料,采集血、尿、粪便等,2014年又随访了1800多人继续研究,2018年还有1179位仍然在参与这个项目。
目前的设备用1微升血提出的蛋白质,就足够做几百次蛋白质组分析,20分钟就可以分析一个样品蛋白质组。
现在分析速度提高,5~10分钟就可以做一个样品,分析成本又降低数倍。
我们一共鉴定300多个蛋白质组,建立了机器学习模型,准确度差不多达到80%,这个数据是几个月前的,最近我们又取得新进展,可以达到约90%准确度。
仅仅通过不到一滴血的12个蛋白质,就可以预测一个人10年当中是否会出现代谢综合征,这样技术对健康状态监测有非常好的应用前景。
此外,新冠病毒研究也有了新发现,通过尿液里蛋白质结合鉴定新冠轻症和重症。
医院检测尿蛋白是比较传统的方法,尿蛋白非常高的时候才能测出,而我们通过灵敏蛋白质组技术,发现健康人尿里也有数千个蛋白。
血液蛋白质基本都可以在尿里检测出,肾小球重吸收导致血高丰度蛋白大大降低,所以可以看到更多蛋白质。
我们通过分子量分析发现,尿液蛋白质分子量大小同血液没有明显区别。
而且,我们的多个研究还发现细胞因子风暴、免疫治疗或其他疾病中,尿蛋白都有非常重要指示作用。
尿蛋白质组数据结合机器学习可以进行新冠轻重症判断。如图所示,红色颜色越深代表预测效果越好,准确度越高。
最后列举一个甲状腺结节分析案例,甲状腺每个人都有,在脖子下面像蝴蝶一样的小器官,只有十几克。
甲状腺结节也常见,50%以上成年人都有甲状腺结节,年纪越大发生率越高,大部分经常吃海鲜的人甲状腺结节概率高达90%以上。
甲状腺结节分恶性和良性,恶性医生会建议全切或半切除,但甲状腺是非常重要的激素器官,患者切除后需要终身服药,情绪上也会有变化。
目前,有30%结节是无法诊断良恶性,当出现无法诊断结节,病人和医生都会感到巨大压力,如果切除可能是过度治疗。
因为患者并不需要在当前阶段切掉甲状腺,所以就涉及到精准诊断问题。
从十几年前开始,基因测序技术成熟之后,美国FDA就已经批准多个基因诊断试剂盒,通常测量几十,甚至一百多个基因DNA和RNA来诊断甲状腺结节良恶性。
经过权威杂志Nature Reviews Endocrinology 在2018年评估,这些基因测序检测结果灵敏度可以达到83%~100%,即如果结节是恶性,检测试剂盒基本可以判断出来,但特异性只有10%~52%。
换句话说试剂盒判断是恶性结节实际有大约50%~90%是良性,最后会让最高达90%的患者有过度治疗危险。
过去四年,我们首次用蛋白质组大数据结合神经网络,开发了判断甲状腺结节良、恶性的新方法,前面所有诊断方法都是基于基因,而基因跟蛋白质相比疾病相关性相对弱一些。
基因会有很多改变,如果不在蛋白质水平得到体现,很难影响到疾病发生和进展。
而蛋白质检测难点在于,如何处理小量组织,鉴定更多蛋白,稳定进行蛋白质定量,我们已经有效解决这些技术难点,也开展多中心临床研究。
我们同新加坡Gopal和Kon教授等团队合作建立训练集,采集了578个患者样品。
新加坡是海边城市,人吃海鲜比较多,甲状腺结节也非常多,我们做了1700多个蛋白质组,同时在中国也做了回顾性研究,有3个中心纳入271个患者;后来又做了前瞻性研究,纳入255个患者,目前这些还都是尚未公开发表的前期数据。
我们用微量组织高通量蛋白质定量方法,总共鉴定6000多个蛋白,其中神经网络分析是西湖大学李子青教授团队完成的。
新加坡样品得到这个模型,在回顾性队列和前瞻性队列综合都达到90%以上准确度。
将蛋白质组织更多用于药物开发,是后续非常有信心要做的一件事,药物开发是大家非常关注的焦点。
ThyroProt v1基于蛋白质检测方法,同发表在New England Journal of Medicine的基因诊断方法相比,灵敏度要稍弱一些。
这因为目前蛋白质诊断甲状腺诊断主要问题是特异性,基因检测特异性在50%~81%左右,蛋白质可以达到93%,综合准确度蛋白质是90%以上,基因最高是84%,这是2018年结果。
这个研究说明我们可以对数以千计微量临床样品进行有效蛋白组学分析,并且联合AI改善疾病诊断。
将蛋白质组技术更多用于药物开发,是我们下一步非常有决心和信心要做的方向,药物开发是大家非常关注的焦点,所有疾病都希望通过药物进行有效治疗。
将三个步骤进行分析,会发现蛋白质组学在药物开发中每一个步骤都有非常大潜作用,几乎所有药物都针对蛋白质发挥作用。
药物临床结果预测,通常需要几个疗程,每个疗程可能需要几个月时间甚至更久。
新冠研究里发现,急性期可能在血液已经出现一些征兆,这和后来反应都有一些复杂关联。已有研究发现,血液里尿蛋白质改变,同几天或几周后临床表现有非常密切关联。
所以我们有信心通过临床试验,加上蛋白质数据,加上模型建立,更快更准确的判断。
目前非常受到关注的两种新型药物,研究历史都有十年或十几年,这些药物得到国内、外非常多关注。
第一类是ADC药物(Antibody-Drug conjugates),它的设计非常巧妙,一个抗体可以结合肿瘤细胞表面一些特异性蛋白,而尾巴上有一些传统毒素,这使得它具有杀伤力同时又具有特异性。
但特异性前提是能够找到只在肿瘤细胞表面的高表达蛋白。
我们团队做了简单调研,自2000年以来,全球共有11个ADC产品在FDA获批上市,主要以癌症为主。
国内ADC稍晚一些,目前ADC药物研发处于初级阶段,有一款药物今年刚刚获得批准。
可以看到Nature Reviews Drug Discovery预测结果,今后5年ADC销量在国外销量会出现非常大提升。
ADC研发及蛋白质组学应用难点,重要就是靶向抗原选择,抗体结合哪些蛋白很重要,这是ADC开发的起点,也是ADC研发企业竞争的热点。
目前,国内已公开研发药物中大部分都是靶向HER2,未来预期会有越来越多ADC药物靶点有待发掘。
蛋白质组学可能有非常巨大作用,团队也在这方面综述,现有蛋白质数据可以看到大肠癌、胃癌、肺癌等等,有非常多潜在药物靶点存在数据当中,我们团队后面会和一些ADC公司合作,寻找新差异化靶点提供支持。
此外是临床试用者选择,这和前面一样,虽然已经找到有效药物,但药物并不对所有人有效。
通过蛋白质组学、质谱检测,可以有效确定患者肿瘤组织里有没有蛋白质高表达,在疾病进展当中有没有改变,通过蛋白质检测针对不同个体情况,提供相对应治疗方案,为助力精准医疗落地提供有效指导。
第二类创新药是PROTAC技术,这个技术可以使以前没有药物的蛋白靶点有效降解,是非常巧妙的体内泛素化系统。
这个药物有两端,一端连接E3连接酶,另外一端连接降解蛋白质,将两端连接到一起后,靶向蛋白就会被泛素化。
泛素化也被称为死亡之吻,蛋白质结合这样一个泛素化蛋白,就会被一个Proteasome机器将蛋白质变成碎片实现降解,这比小分子结合阻断蛋白功能更加直接有效。
目前PROTAC相关药物,国内、外临床研究还比较早期,人类基因组里面有600多个E3连接酶,其中只有非常少数被用于PROTAC设计,这个领域还有广泛开发空间。
表格总结了小分子成功靶向关键靶点,这些靶点不是特别多,据不完全统计全球基于PROTAC技术研发管线有60多个,国内也有好多正在启动。
PROTAC如果成功靶点选择非常重要。哪些蛋白可以被泛素化或者泛素化效率如何?用了药物之后被修饰效率有没有提高?降解程度如何?肿瘤组织和非肿瘤组织有什么区别?哪些蛋白质降解可以全局通过蛋白质组进行系统检测,都是全新的领域。
下图是2015年的文章,文章发现基因组生命科学时代,基因组数据增长更快,把蛋白质加进来增长可能会更快,因为蛋白质比基因更多信息,和生命科学更加相关。
蛋白质组大数据距离我们还有多远?
现在我们拥有将临床样品转化为蛋白质大数据的技术,今后几年我们将产生更多蛋白质组大数据,联合AI可以对生命奥妙和调控有更加深刻的理解。
问答环节
Q1:蛋白质组大数据联合AI诊断疾病准确率高吗?
郭天南:这是一个非常大的问题,应该针对每一个疾病而定。蛋白质大数据可以理解为一个新兴领域,一个新技术,有独特的优势,也具有一些局限性。
我们目前在西湖大学做了几个例子,前面讲的甲状腺结节判断准确率还可以的。目前经过基因诊断准确度,尤其是特异度,都比不上目前基于蛋白质的诊断方法,对于前面代谢综合征预测模型也非常好。
但这种方法是不是对所有疾病都非常好,目前尚没有数据证实或证伪,从理论上看,蛋白质分析应该是任何疾病都需要的。
Q2:蛋白质组中是否含有人类疾病的生物标志物(Biomarker)?
郭天南:肯定是含有的,人类疾病甚至健康状态改变都会涉及蛋白质改变。
说话、休息、吃饭都有蛋白质改变,当然这些改变是背景改变,蛋白质改变可能是正常改变,有些蛋白质在疾病状态下改变。
我们需要通过复杂计算方法挑出疾病有影响的蛋白质。
Q3:BCR-ABL融合基因是什么?
郭天南:这是伊马替尼(imatinib)的药物靶点,《我不是药神》电影原型就是这个。
针对慢性髓系白血病,BCR和ABL本来是两个蛋白,不同染色体编码两个蛋白在某一些白血病当中会融合形成新蛋白,具有非常强酶活性,打破生理平衡引发慢性白血病。
神药出现,实际也是蛋白质检测的一个成功,当然蛋白质水平源于基因表达,蛋白的融合源自基因融合。
Q4:请问针对不同组学方法得到的数据,该怎么整合?
郭天南:我们有很多尝试,没有统一方法可以用于所有多模态、多组学数据,但只要有这样一个临床问题,有这样数据相信一定可以找到方法。
例如甲状腺,我们用蛋白质组数据进行建模,实际我们还有一个正在进行的项目,是将蛋白质跟基因还有超声特征,包括人性别年龄等信息全部整合起来,进行AI建模,这是生命科学的新领域。
听众当中如果有计算机专家,也欢迎你们加入生命科学这个领域,现在是非常激动人心的时刻。
随着更多计算机专家加入,这些整合一定可以更加有效实现,前面提到宏观世界大数据,实际数据结构更加复杂,复杂性不亚于生命科学数据,但照样可以整合起来。
例如搜索Google,可以告诉我们是什么样网页,然后我们看抖音可以推荐喜欢看的视频,这都是通过算法可以实现,在有经验计算机专家看来,问题不是很大。
Q5:痕量样本蛋白检测的重复性能够保证吗?距离临床检测应用还有多远?
郭天南:衡量样品进行检测重复性让我觉得非常惊叹,可以看到我们的数据,训练集都是痕量样品,训练集是来自于新加坡,新加坡有各种人种,生活环境、经度、纬度跟中国都不太一样。
但我们从这些数据训练出的模型,在中国杭州、大连、沈阳患者居然可以适用。并且训练集样品是石蜡组织,在石蜡组织中建立模型,同时在前瞻性新鲜组织里也可以达到90%以上综合准确度。
这个准确度我们都觉得惊讶,非常稳定,但并不表示所有组织和数据都会这么稳定,这里面有很多考量,我们对质控、数据分析要求也非常高。
距离临床应用检测还有多远,我希望在保证质量同时尽快。我们在大学里建立这个模型尚不能直接应用于临床。
我们正在通过西湖大学校办企业西湖欧米进行临床转化,有可能明年会推出通过志愿者进行临床检测。
Q6:蛋白质组中怎么判断哪些蛋白不会相互作用?准确率多高?比判断相互作用困难吗?
郭天南:蛋白质相互作用分析,质谱是可以实现的,如果一个具体问题可以通过一个细胞模型,某个蛋白跟哪个蛋白结合或不结合,都可以通过实验数据以及后续对应分析方法进行监测。
Q7:计算蛋白质组学有哪些应用场景?
郭天南:这太多了,如果我们有蛋白质大数据,其在生命健康的应用场景不会亚于现在宏观世界大数据应用场景。
如果你问我宏观世界大数据有什么应用场景,我可以说它几乎无所不在。我们的衣、食、住、行都跟宏观世界大数据相关,但微观世界数据,一个人细胞数量和地球上所有人数量是同一个量级。
一个成年人有30~70万亿个细胞,很多细胞不断生成降解,像红细胞每隔120天就会生成降解,每个细胞里都有数亿万计蛋白质,这些蛋白质数据包含什么信息,有什么应用场景现在没有人可以估量。
举例说凡是跟生命健康相关的应用场景,都有可能通过蛋白质智能计算获得。
Q8:犹如体检之前会要求禁止饮食,可能会影响体检结果。患者是否有些行为会影响到蛋白质组学的检测结果?
郭天南:我们做了18000个血浆蛋白质组预测代谢综合征,代谢综合征是三高、高血糖、高血脂、高血压,是非常复杂的疾病,遗传因素,生活习惯因素,饮食因素等都会影响到。
我们测出蛋白质组数据,一定会受到各种各样因素的干扰,好在有大数据可以容忍一些变异,容忍噪音,在大数据层面,AI会自动剔除干扰因素,将好的信号提示出来。
虽然我们有几百个蛋白被检测,最后只找到12个最稳定跟疾病最相关,虽然肯定会有影响,但后面会挑出来。
甲状腺结节诊断也测到6000多个蛋白,最后AI模型只发现其中的20个,这种准确度和其它6000多个蛋白相比,还没有达到足够稳定性和信息含量。
Q9:疾病诊断中有没有采用RNA转录组进行判断的?相比蛋白质组哪个更有优势呢?
郭天南:像甲状腺结节的良、恶性判断,基因诊断试剂盒,很多依赖RNA,但为什么会出现很多问题?
因为RNA很容易降解,并且RNA绝大部分不具有生命活动和执行功能分子,目前已经有很多研究表明, RNA和蛋白质相关性并没有那么强。
我们之所以要测RNA,一方面是因为有这样技术很容易检测,另一方面因为希望通过RNA来预测蛋白质,越来越多研究发现RNA并不能完全预测蛋白质表达。
在临床应用中二者很容易降解,像甲状腺穿刺出来,一不小心RNA就会降解,或者测到跟他体内RNA表达并不一致,而蛋白质非常稳定。
研究石蜡组织可以很方便从新加坡接到中国,因为常温保存运输,而石蜡组织里是不能做RNA分析,即使能做测出来结果跟他体内状态也不一样。
我们团队前期做了很多工作,发现石蜡组织和新鲜冰冻组织蛋白质表达非常稳定。
Q10:AI+蛋白质预测这样的前沿技术,目前在产业落地中有哪些比较难的瓶颈?
郭天南:最大瓶颈就是人才队伍。听众里有很多非常优秀人员,可能大家都知道基因组,很多从事生命科学都去做基因相关研究和转化。
也有更多非常优秀年轻人去做AI,像隔壁的阿里或腾讯都有非常高的工资,而在蛋白质这样的领域,联合使用AI还需要进行一定探索,所以如果没有好的队伍,这个领域也很难发展起来。
领域重要性毋庸置疑,现在越来越多人关注这个领域,非常高兴有这么多人参与讨论,相信只要有优秀的人加入,就不会存在什么问题,只是时间的问题,或迟或早,人类总有一天会解密,黑匣子会被打开,我们对生命理解就会更加深刻。
Q11:请问欧米的质谱分析是自己做吗?跟其他做蛋白质谱的企业相比数据方面有哪些优势?
郭天南:我们质谱都是自己做,跟其他企业相比有什么优势这里不便回答。
Q12:郭老师,蛋白质检测技术和基因检测相比,区别和优势有哪些?
郭天南:针对一个难以诊断问题,大家第一想法就是做基因检测,目前基因检测学术上是如火如荼。
从产业上大家都可以做,一个基因突变,哪个公司都可以去检测,没有什么门槛,而蛋白质检测有门槛,蛋白质经过挑选之后只有20个蛋白质,在肿瘤和非肿瘤、良、恶性都有。
但基因突变良性没有恶性有,蛋白质是个连续不一样的变量,通过不一样建立模型,进行更加全面精准判断。
因为生命肯定不会这么简单,用学术术语来说蛋白质表达具有更高颗粒度,内涵更加的丰富,可以精准描述一个生命状态,生命肯定不会像基因突变一样简单,这就是蛋白质优势。
蛋白质检测也有缺点,例如现在没有技术可以很好扩增蛋白质,以前蛋白质检测需要大量组织,很多研究不能够进行,现在可以用比较小微量、痕量组织进行蛋白质分析,很大程度弥补蛋白质基因和蛋白质应用障碍。
很多时候我们能够分析蛋白质组织,基因测序做不了,但蛋白质可以做,像石蜡组织RNA做不了,而蛋白质可以做的非常好。
我们更喜欢用石蜡组织,还有头发,里面除了毛囊之外只有蛋白质,所以头发里面的蛋白质信息是非常丰富,还有牙齿等等。
最后,感谢大家参与这次的交流。雷锋网雷锋网