转译:人工智能正在改变药物开发的游戏规则
监管机构亟需跟进以适应这一变化
人工智能为科学突破提供了最令人震惊的证据之一,那就是 Google DeepMind 发布的 AlphaFold 程序。2016年,该公司研究人员凭借 AlphaGo 取得了巨大成就,这是一款 AI 系统,自学成才后不仅掌握了围棋的规则,还在对战中以前所未有的战术击败了顶尖的人类选手。这激励他们开发了一个新系统,解决了一个更复杂的问题:氨基酸序列如何决定蛋白质实际生成时的折叠形状。AlphaFold 解析出这套规则,并成功应用,成果令人震撼。
这项成就不仅令人赞叹,而且极具应用价值。赞叹之处在于,多年来无数聪明的科学家一直试图通过计算机模型来模拟氨基酸链折叠成蛋白质的过程,但 AlphaFold 的表现远超他们最好的成果,就如同它的前身系统在围棋比赛中战胜人类选手一样。其实用价值在于,蛋白质的形状决定了它的功能以及它能与哪些分子发生作用。所有生命基本过程的运行都依赖于特定蛋白质的功能。寻找能对蛋白质产生积极作用的分子,无论是抑制还是促进,是全球大多数药物开发计划的目标。
鉴于蛋白质三维结构的重要性,结构生物学成为一个专注于此领域的子学科。该学科利用各种技术,包括核磁共振和X射线晶体学,来观察蛋白质结构。AlphaFold 之前,结构生物学经过半个世纪的努力,通过这些方法确定了数十万个蛋白质结构。现在,AlphaFold 及其竞争对手(尤其是 Meta 开发的程序)已预测出超过 6 亿种蛋白质结构的详细形状。
作为一项让科学界瞠目结舌的成就,AlphaFold 的出现确实难以被超越。尽管其成果已经让全世界惊叹,但这些成果背后的原理,实际上是深度学习和生成式 AI 在生物学领域的典型应用。AlphaFold 训练了包括氨基酸序列和它们折叠形状的三维描述在内的两类数据,从而找到了一种模式,可以用一类数据预测另一类。这些预测并非完全无误。Recursion Pharmaceuticals 的 CEO Chris Gibson 表示,他的公司把 AlphaFold 的预测结果当作假设,通过实验来验证。虽然不是所有的假设都能得到证实,但 Gibson 博士也指出,这个模型的准确性在迅速提高。
开辟未知
目前,多个 AI 正在生物医学和药物研究领域中扮演着这样的角色:提出一些科学家可能未曾想到的新见解和方向。这些 AI 系统通过分析大量不同的数据集来寻找模式,从而揭示出可能对人类生物学和疾病有重要意义的数据间关系。面对新的数据,它们能够基于这些关系提出新的假设进行验证。
AI 提供的新思路不仅可以帮助研究人员确定药物靶点,预测新化合物的行为,有时还能揭示出前所未有的潜在药物。此外,AI 还被用于寻找已知药物的新用途、预测新药的可能副作用,以及区分哪些患者可能从特定药物中受益,哪些可能遭受伤害。
这种对计算能力的追求并非首次出现。Vijay Pande 表示,在 2000 年代,随着大规模计算、机器学习和药物设计的融合,这一趋势已经开始形成。这在某种程度上是对于生物学领域不断涌现的新发现的一种应对——目前每年的生物医学研究论文已超过一百万篇。
人工智能在早期被认为能够通过“知识图谱”的形式,帮助机器读取和理解大量信息,从而挖掘出例如哪些血液中的蛋白质可能成为揭示疾病存在或严重性的生物标记物的洞察。2020年,位于伦敦的Benevolentai利用这种方法探索了一种名为baricitinib的药物对治疗COVID-19的潜力,该药物原本由Eli Lilly销售,用于治疗类风湿性关节炎。
今年一月,《科学》杂志上的一项研究展示了一种不同类型的AI算法如何加快了在血液中寻找长期COVID生物标志物的过程。鉴于数据复杂性,传统的统计方法在发现这些生物标记物时可能会遇到挑战。AI提供了一种新的途径,能够穿透这些复杂性,加速对包括长期COVID和难以诊断病症,如阿尔茨海默病早期阶段,的研究。
现在是一个转折点
尽管过去取得了进展,但在Andreessen Horowitz工作、对AI寄予厚望的Dr Pande认为,最近的进展意味着研究将迎来质的飞跃。在新的基础模型展现出其能力之前,生物医学研究,尤其是生物技术和制药领域,已经逐渐增加了对自动化和工程的依赖;而现在,随着新基础模型的出现,这两者似乎相得益彰。新的基础模型不仅帮助处理庞大的数据量,它们还需要这样的数据。高度自动化的实验室能够大量生成的可靠数据,正是训练基础模型的理想材料。生物医学研究者们更需要借助所有可能的帮助,以解析他们现在能够生成的海量数据。
生物学被看作是一个信息处理系统,虽然它极其复杂
AI通过发现人类未能想到或无法单独发现的模式,为研究者们提供了新的探索和理解生命奥秘的方式。有人将这种能力称为掌握了“生物学语言”,即AI能够像处理大量真实语言数据并流畅生成前所未有的有意义句子一样,直接从数据中解读生命进化的奥秘。
DeepMind 的掌门人 Demis Hassabis 认为,生物学其实就是一个信息处理系统,只不过它异常复杂且变化多端。在 Medium 上,Seer Bio 的首席数据官 Serafim Batzoglou 预言,一种新型的开放基础模型将会出现,它能够综合处理从基因序列到医疗记录等广泛的数据。他相信,这将极大促进创新并推动精准医疗的发展。
像许多对 AI 抱有热情的人一样,Pande 博士认为我们正在经历一场“一切都在改变的工业革命”。但他也警告说,那些足以证明这种长期热情的成就不会一夜之间实现:“我们正处于一个转型期,虽然人们已经能看到变化,但仍有许多工作要做。”
在全球范围内,众多制药公司近年来对基础模型的开发投入了巨大的资金。与此同时,一批以 AI 为核心的初创公司如硅谷的 Genesis Therapeutics、香港和纽约的 Insilico、马萨诸塞州剑桥的 Relay Therapeutics 正在崭露头角。南旧金山的 AI 重点生物技术公司 Insitro 的负责人 Daphne Koller 表示,现在她不再需要向人们解释什么是大语言模型和自监督学习了,这是一个时代的象征。同时,专门生产基础模型核心动力——图形处理单元的 Nvidia 对此也表现出极大的兴趣。过去一年中,它已经投资或与至少六家专注于 AI 的生物技术公司,包括纽约的 Schrodinger、Genesis、Recursion 以及罗氏集团下属的 Genentech 建立了合作关系。
众多公司正在研发的药物发现模型能够从基因序列、细胞和组织的图像、相关蛋白的结构、血液中的生物标志物、特定细胞产生的蛋白质以及疾病进程和治疗效果的临床数据等多方面学习。一经训练,这些 AI 就可以利用带标签的数据进行进一步的微调,以提升它们的性能。
使用患者数据在医疗领域尤其引人注目。显而易见,直接在人类身上通过实验探索疾病的具体机制往往是不可行的。因此,药物开发往往依赖于动物模型,尽管这些模型有时会误导研究方向。针对人类生物学进行训练和优化的人工智能有可能帮助我们避开那些妨碍药物开发进程的误区。
例如,Insitro 公司通过病理切片、基因序列、MRI 数据和血液蛋白等来训练其模型。该公司的一个模型能够关联细胞在显微镜下的外观变化、基因组的突变以及多种疾病的临床结果之间的联系。Insitro 希望借助这些技术,找出某些特定治疗方案特别有效的癌症患者子群。
Recursion 公司表示,其能通过实验室自动化机器人每周进行高达220万次实验。
有时,揭示人工智能关注数据的具体方面本身就非常有价值。2019年,一家位于巴黎的人工智能生物科技公司 Owkin 发表了一项研究,该研究通过训练深度神经网络预测装在切片上的组织样本中恶性间皮瘤患者的生存率。研究发现,人工智能预测重点关注的不是癌细胞本身,而是附近的非癌细胞。通过增加额外的细胞和分子数据,Owkin 团队识别出了一个新的药物靶点。去年八月,印第安纳大学布卢明顿分校的科学家们通过训练模型,结合癌细胞对药物的反应数据(包含基因信息)和药物的化学结构,预测了药物对特定癌症的治疗效果。
为了获得大量高质量数据,许多公司选择在药物开发过程中自行生成这些数据,而不是等待外部发布。Genentech 的计算科学部门采取了一种新方法,即“实验室内循环”策略,通过这种方式来训练其人工智能。系统的预测通过自动化实验室系统进行的大规模实验来验证。实验结果随后用于优化和提高人工智能的准确性。采用类似策略的 Recursion 公司声称,它的自动化实验室机器人每周能进行高达220万次实验。
重点是促成变革
随着制药企业对数据的渴望日益增长,对患者数据隐私的关注也日益上升。Owkin 等机构采用的一种解决方案是“联邦学习”,在此方法中,建立癌细胞类型图谱所需的训练数据始终不会离开存储必要组织样本的医院,即利用数据进行训练的过程中,数据本身得以保留。
人工智能的潜力不仅仅在于理解疾病本身,更在于探索如何进行干预。例如,多伦多大学的 Proteinsgm 等生成式 AI 模型现成为蛋白质设计的有力工具,它们不仅能描绘现有蛋白质,还能设计新的、具备期望特性的蛋白质,这些蛋白质虽然当前在自然界中不存在,却能够实现期望的功能。其他系统则让化学家能设计与目标以期望的方式互动的小分子药物。
每个阶段的 AI 假设都需经过现实检验。尽管如此,这样的方法似乎可以加速发现过程。bcg 的一项分析显示,来自“AI 密集型”公司的药物中,有五种在短于平均时间内进入了临床试验阶段。其他研究显示,在可以长达四至七年的药物开发前期阶段,AI 可以节省 25% 至 50% 的时间和成本。考虑到整个过程可能耗资数十亿美元,这样的改进能够大幅提升行业的生产力。然而,这种改变是否真正发生,还需要时间来验证。药物开发进程依旧缓慢,这些潜在的新药尚未面市。
Insilico Medicine 是众多期待变革的公司之一。它运用多种模型来推进药物开发进程,其中一种模型用于识别可能的疾病靶点蛋白质,另一种则能设计出潜在的新药化合物。该公司利用这种方法,在不到 18 个月、花费仅 300 万美元的情况下,识别出了一种可能对治疗肺纤维化有用的新药候选物。该药物已进入第二阶段的临床试验。
在中国,许多制药公司正与 Insilico 等 AI 驱动企业合作,期待触发更多相似的成功案例。有人期望,这类合作能够推动中国药物开发行业的增长,该行业的增速相对较慢。AI 在新分子研究领域的兴趣激增,让中国的合同研究机构已经开始收获其带来的益处。2021 年,中国在 AI 辅助药物发现方面的投资已超过 12.6 亿美元。
过去十年中,世界见证了多种突破性的新药和治疗方法的诞生:如改变糖尿病和肥胖治疗的 GLP-1 靶向药物;利用免疫系统对抗癌症的 CAR-T 疗法;以及基因组编辑技术的首次临床应用。然而,从揭示关键生物过程,确定可作为药物靶点的目标,到开发候选分子,再到进行临床前测试和临床试验的药物开发过程,通常都是缓慢且充满挑战的。据统计,从 2000 年到 2015 年间开发的所有药物候选物中,约 86% 未能在临床试验中达到预定的主要目标。一些专家认为,药物开发领域已经摘取了许多易于研发的成果,留下了难以攻克的疾病和所谓的“不可药用”靶点。
未来几年,AI 是否能够根本改变这一现状将得到验证。即便 AI 只能带来逐步的改进,这仍然是极大的进步。如果 AI 能够以全新的方式解读生物学,如一些乐观的预测所言,那么它可能会使药物开发过程变得更加成功和高效,甚至可以迅速地开发出针对那些被认为“不可药用”的靶点的药物。BCG 的分析师预见到,一波由 AI 推动的新药开发浪潮正迅速逼近。Pande 博士提醒,药物监管机构需要提升自己的能力,以应对这一挑战。这对世界来说,将是一个值得拥有的问题。
来源:https://t.co/qldmXFgvkY