Nature:多模态大模型LLMs如何驱动多组学与生命科学研究新范式?

article/2025/7/28 0:25:43

高通量组学技术的快速进步引发了生物数据的爆炸式增长,远超当前对分子层面规律的解析能力。在自然语言处理领域,大语言模型(LLMs)通过整合海量数据构建统一模型,已显现突破数据困境的潜力。

已生成图片

Nature的这篇文章中,多伦多大学华裔学者提出构建多模态基础模型(Multimodal Foundation Models, MFMs)的设想:

该类模型预训练于包含基因组学、转录组学、表观遗传学、蛋白质组学、代谢组学和空间组学等多种组学数据,具有前所未有的能力描绘细胞的分子状态,为构建细胞、基因和组织的整体图谱提供可能。通过特定情境下的迁移学习,MFMs可广泛应用于新型细胞类型识别、生物标志物发现、基因调控推断乃至模拟扰动实验。MFMs有望重构“数据—模型—实验”闭环,加速生命科学认知进程与精准医学转化。

(本文的思路不仅适用于生命科学,对于大数据驱动的其他领域的研究也非常有启发。) 

图片

1 背景

近年来,分析技术(如下一代测序、单细胞测序、冷冻电镜和质谱蛋白质组学)和大规模机器学习方法的突破,共同推动了新机遇的诞生。一方面,高通量测序技术带来关于DNA、RNA及蛋白质产物的大量知识,组学数据生成速度持续加快。全球协作项目如Human Cell Atlas(HCA)、Human Biomolecular Atlas Program(HuBMAP)和Human Tumor Atlas Network(HTAN)已在不同条件和数据模态下积累了数以百万计的细胞数据。此外,平行多组学测量技术使得在同一细胞内获得多模态数据成为可能,亟需能够跨多模态建模的工具。另一方面,预训练大型机器学习模型的发展,使得模型能够处理和解释多种类型的生物数据。

多模态基础模型(MFMs)的设想

我们设想,构建多模态基础模型(MFMs)是一种应对上述挑战的新途径。其核心策略是基于多模态大数据进行自监督预训练,从而获取基础知识和能力,即所谓的“foundation model”。该模型应能够接受不同类型的输入数据,完成多种任务,如健康和疾病状态下的细胞状态与基因功能表征、状态动态预测等。

基础模型的理念

基础模型是通过自监督学习方法在大规模数据集上训练的深度神经网络模型,可通过迁移学习高效适应多种下游任务。在自然语言处理领域,基于transformer的基础模型(如GPT和Llama系列)在海量文本语料上训练,能通过微调或上下文学习迅速适应不同任务。近年来,基础模型已拓展到自然图像、视频及语言-图像跨模态生成。在分子细胞生物学中,基础模型为统一表征复杂生物过程提供了新途径,通过对多组学数据的训练,挖掘不同模态下的隐含规律,有望揭示普适性的生物学原理。

MFMs的期望特性与架构

MFMs应当能够灵活整合多种数据类型和模态(如bulk与单细胞测序、转录组、蛋白组、代谢组和表观基因组等),并在大规模、涵盖多种状态和时点的聚合数据上进行自监督预训练。通过迁移学习(如微调、上下文学习),将所学分子嵌入应用于诸如细胞状态时序建模、新型细胞类型表征、扰动响应预测等多样化任务。transformer架构及其内部的attention机制已成为构建基础模型的主流。生命科学领域的多个开创性工作,如AlphaFold2、RoseTTA fold(蛋白结构预测)、ESM2、ESM3(蛋白生成)、Enformer(基因表达预测)、scGPT、GeneFormer、scBERT(单细胞RNA-seq数据预训练)等,都验证了transformer在分子层面建模的潜力。

“数据驱动+实验室循环”的工作流

MFMs预示着分子细胞生物学从传统假设驱动向数据驱动的范式转变。研究者可先通过高通量手段采集多模态数据,预训练模型,之后使用模型推演生物规律、设计高效实验。该流程即“lab-in-the-loop”理念:实验与模型相辅相成,模型辅助实验设计,实验反哺模型优化。

figure 2

图:“lab-in-the-loop”闭环流程:模型指导实验设计,实验结果反哺模型优化。

二、MFMs的应用前景

组织异质性表征

单细胞组学推动了细胞亚群高分辨率解析,揭示了肿瘤等复杂组织内的异质性。单细胞RNA测序揭示了不同胶质母细胞瘤亚群的转录组差异,表观基因组分析则基于染色质状态区分肿瘤亚克隆,蛋白质组方法通过质谱等技术揭示功能变异。MFMs能够将细胞状态嵌入连续谱中,实现细胞状态的情境化、对比与补全:1)通过整合多组学数据,MFMs可将细胞状态嵌入广阔的连续空间;2)支持不同样本和模态之间的高效整合与对比;3)对缺失模态可通过生成推断进行补全。

基因功能与调控预测

MFMs有望从异质性疾病数据中学习多组学特征,用于生物标志物发现。最新工作已证明单凭基因组序列即可预测基因功能,结合多组学(如染色质可及性、甲基化)能进一步提升推断能力。MFMs还可重建情境特异性的基因调控网络(GRNs),整合不同组学数据获得更全面、精细的调控视角,并可通过迁移学习灵活适应不同细胞类型、发育阶段和疾病状态。

计算扰动(in silico perturbation)

在多组学数据的基础上训练的MFMs可预测假想基因或药物扰动对细胞状态的影响。最新模型如scGPT、CellOracle、Geneformer等已初步实现对扰动后表达谱的预测。整合多模态数据、时空信息与通路、调控网络知识,将使MFMs在计算扰动、药物发现与基因调控机制研究中更具前景。

三、构建MFMs的关键要素

数据资源

构建高质量MFMs需大规模、多样化的多组学数据,包括bulk与单细胞、空间转录组、染色质可及性、蛋白组等。目前已有HuBMAP、ENCODE、IHEC、HCA等重要数据资源,但多模态配对数据仍稀缺。最新单细胞技术(如10X Multiome、CITE-seq、ASAP-seq)正推动配对数据增长。单细胞数据揭示个体层面异质性,将成为MFM训练的关键。

计算组件

  • 统一的多模态token:需将不同类型组学数据转化为统一token嵌入,可通过多层次(核苷酸、基因、蛋白)token化实现多分辨率建模。

  • 混合多层次注意力机制:结合局部(同模态)与全局(跨模态)自注意力,捕捉多尺度生物信息。

  • 自监督与交叉模态训练任务:采用mask、对比学习、跨模态预测等任务训练模型,结合提示(prompt)机制统一任务框架。

  • 人类知识整合:将数据库中结构化知识(如通路、基因本体、蛋白互作网络)与文献等非结构化知识嵌入模型,提升归纳偏好与泛化能力。

四、面临的挑战与未来方向

  • 数据维度:高质量、多模态配对数据仍稀缺,需推动标准化采集与共享机制;

  • 资源消耗:训练成本高,需发展高效模型(如LORA、Adapter-Transformer);

  • 评估体系:需开发更客观的无监督指标,用于新细胞状态或未知功能的验证;

  • 可解释性与幻觉风险:需引入不确定性量化机制,防止虚假推理结果;

  • 伦理与公平性:保证数据与模型覆盖多样性人群,确保医学应用的可推广性。

MFMs与传统机器学习模型的对比:

图片

总结:MFMs有望通过整合多组学数据,推动分子生物学及医学研究的变革,实现前所未有的规模与分辨率。其实现离不开生物学家、数据科学家、人工智能专家与伦理学家的跨界合作。面向未来,MFMs有望推动个性化医疗、疾病建模与新药研发,重塑生命科学与医学研究格局。

--- 

今天就介绍到这里。

如果觉得有用,欢迎在看、转发和点赞!娜姐继续输出有用的AI辅助科研写作、绘图相关技巧和知识。 


http://www.hkcw.cn/article/ctHgIXQngr.shtml

相关文章

ubuntu20.04安装教程(图文详解)

Ubuntu 24.04 LTS,代号 Noble Numbat,于 2024 年 4 月 25 日发布,现在可以从 Ubuntu 官方网站及其镜像下载。此版本将在 2029 年 4 月之前接收为期五年的官方安全和维护更新。 关于 Ubuntu 24.04 LTS 的一些关键点: 发布日期&am…

Linux中Shell脚本的常用命令

一、设置主机名称 1、通过修改系统文件来修改主机名称 [rootsakura1 桌面]# vim /etc/hostname sakura /etc/hostname:Linux 系统中存储主机名的配置文件。修改完文件后,在当前的shell中是不生效的,需要关闭当前shell后重新开启才能看到效…

Redisson学习专栏(二):核心功能深入学习(分布式锁,分布式集合,原子操作与计数器,事件与监听)

本文是“Redisson学习专栏”第二篇,聚焦其核心分布式功能实现原理与最佳实践 文章目录 前言:分布式系统核心能力实践一、分布式锁:高并发下的守卫者1.1 可重入锁 (Reentrant Lock)1.2 公平锁 (Fair Lock)1.3 联锁 (MultiLock)1.4 红锁 (RedLo…

学习路之PHP--easyswoole_panel安装使用

学习路之PHP--easyswoole_panel安装使用 一、新建文件夹二、安装三、改配置地址四、访问 IP:Port 自动进入index.html页面 一、新建文件夹 /www/wwwroot/easyswoole_panel 及配置ftp 解压easyswoole_panel源码 https://github.com/easyswoole-panel/easyswoole_panel 二、安…

基于分布式状态机的集装箱智能道口软件架构方法

集装箱码头对进出场道口的通过能力始终是要求最高的,衡量道口的直接指标为道口通行效率,道口通行效率直接体现了集装箱码头的作业效率以及对外服务水平,进而直接影响到码头的综合能力。所以,码头普遍使用智能道口实现24小时无人值…

2014药柜设计问题

1 题目描述 D题 储药柜的设计 储药柜的结构类似于书橱,通常由若干个横向隔板和竖向隔板将储药柜分割成若干个储药槽(如图1所示)。为保证药品分拣的准确率,防止发药错误,一个储药槽内只能摆放同一种药品。药品在储药槽中的排列方式如图2所示。…

c# 获取电脑 分辨率 及 DPI 设置

using System; using System.Collections.Generic; using System.Diagnostics; using System.IO; using System.Runtime.InteropServices;/// <summary> /// 这个可以 /// </summary> class Program {static void Main(){//设置DPI感知try{SetProcessDpiAwareness(…

2025年渗透测试面试题总结-匿名[校招]红队攻防工程师(题目+回答)

安全领域各种资源&#xff0c;学习文档&#xff0c;以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具&#xff0c;欢迎关注。 目录 匿名[校招]红队攻防工程师 1. 00截断的原理 2. Java回显通用思路及JDK差异 3. Redis利用姿势及环境差异 …

高级数据结构与算法期末考试速成记录

高级数据结构与算法期末考试速成记录 0.分治中的一些知识点 Master公式&#xff08;又称主定理&#xff0c;Master Theorem&#xff09;是一种用于快速求解分治递归算法时间复杂度 的数学工具&#xff0c;适用于递归式形如以下形式的算法&#xff1a; T ( n ) a T ( n b ) …

Telerik生态整合:Kendo UI for Angular组件在WinForms应用中的深度嵌入(一)

Telerik DevCraft包含一个完整的产品栈来构建您下一个Web、移动和桌面应用程序。它使用HTML和每个.NET平台的UI库&#xff0c;加快开发速度。Telerik DevCraft提供完整的工具箱&#xff0c;用于构建现代和面向未来的业务应用程序&#xff0c;目前提供UI for ASP.NET MVC、Kendo…

深入浅出程序设计竞赛(洛谷基础篇) 第十四章 搜索

文章目录 前言例14-1 四阶数独前置知识&#xff1a; 例14-2八皇后例14-3 kkksc03考前临时抱佛脚例14-4 马的遍历前置知识 例14-5 奇怪的电梯例14-6 Meteor Shower S习题14-1.1 选数例14-1 四阶数独前置知识&#xff1a; 例14-2八皇后例14-3 kkksc03考前临时抱佛脚例14-4 马的遍…

图书管理系统的设计与实现

湖南软件职业技术大学 本科毕业设计(论文) 设计(论文)题目 图书管理系统的设计与实现 学生姓名 学生学号 所在学院 专业班级 毕业设计(论文)真实性承诺及声明 学生对毕业设计(论文)真实性承诺 本人郑重声明:所提交的毕业设计(论文)作品是本人在指导教师的指导下,独…

【Java基础-环境搭建-创建项目】IntelliJ IDEA创建Java项目的详细步骤

在Java开发的世界里&#xff0c;选择一个强大的集成开发环境&#xff08;IDE&#xff09;是迈向高效编程的第一步。而IntelliJ IDEA无疑是Java开发者中最受欢迎的选择之一。它以其强大的功能、智能的代码辅助和简洁的用户界面&#xff0c;帮助无数开发者快速构建和部署Java项目…

医疗IT系统绝缘监测及故障定位,绝缘监测技术在医院关键区域的应用

医院作为重要的公共设施&#xff0c;其供配电系统的可靠性和安全性直接关系到患者的生命安全。为确保医院电力系统的稳定&#xff0c;GB/T 16895.24《建筑物电气装置》对医疗场所按用电的安全等级进行了细致的分类&#xff0c;并针对不同的类别推荐相应的电力系统配置。其中&am…

进程间通信及管道(理论)

目录 进程间通信介绍 进程间通信目的 进程间通信发展 进程间通信分类 管道 什么是管道 匿名管道 实例代码 用fork来共享管道原理 管道读写规则 管道特点 命名管道 创建一个命名管道 匿名管道与命名管道的区别 命名管道的打开规则 进程间通信介绍 进程间通信目的 数据传输&#…

如何安全地清洁 Windows10/11PC上的SSD驱动器

“我在 Windows 10 电脑上安装了新的 SSD&#xff0c;我要删除旧的 SSD 驱动器。但我不知道如何清洁电脑上的 SSD 驱动器。我想清除其中的所有内容。” 那么&#xff0c;您想知道如何在 Windows 10/11 PC 上清洁 SSD 驱动器吗&#xff1f;也许您只是想释放宝贵的空间并提高性能…

换ip是换网络的意思吗?怎么换ip地址

在数字化时代&#xff0c;IP地址作为我们在网络世界的"身份证"&#xff0c;其重要性不言而喻。许多人常将"换IP"与"换网络"混为一谈&#xff0c;实际上两者虽有联系却存在本质区别。本文将澄清这一概念误区&#xff0c;并详细介绍多种更换IP地址…

智能化能源管理系统在“双碳”背景下的新价值

安科瑞刘鸿鹏 摘要 2022年已并网的储能项目中,用户侧并网占比为8.36%,其中工商业储能规模为占比为98.6%。随着各省市的峰 谷价差拉大,部分省市可实现两充两放,工商业储能会更 加具有经济性,加上限电政策的影响,工商业储能将在 2023-2025年逐渐发展成主要的增长点&#xff…

带sdf 的post sim 小结

1.SDF文件主要内容 Delays&#xff08;module&#xff0c;device&#xff0c;interconnect&#xff0c;port&#xff09; Timing checks&#xff08;setup&#xff0c;hold&#xff0c;setuphold&#xff0c;recovery&#xff0c;removal&#xff0c;recrem&#xff09; Timing…

《JavaScript高级程序设计》读书笔记 34 - 代理基础

感谢点赞、关注和收藏! 上一篇类,这一篇进入书的第 9 章 - 代理与反射,首先是代理基础。 代理基础 代理是目标对象的抽象。从很多方面看,代理类似 C++指针,因为它可以用作目标对象的替身,但又完全独立于目标对象。目标对象既可以直接被操作,也可以通过代理来操…