目录
- 这个开源工具包使用简单的 YAML 配置文件,让搭建复杂、可复现的多模态生物学基础模型,从一项工程挑战,变成像搭乐高积木一样的探索。
- ChatMDV 将研究者的自然语言直接翻译成可执行代码,让复杂的生物信息学数据可视化,从少数专家的技能,变成每个实验室成员都能上手的工具。
- DiffGui 在生成原子的同时构建化学键,并以结合力和类药性作为引导,使 AI 生成的分子成为化学结构可信的实体,而非简单的原子云。
- 一个 AI 框架通过「达尔文式」进化循环优化分子,同时通过「哥德尔式」元学习循环优化自身的药物发现流程。
- 通用大模型能解决不少标准生信问题,但它们更像博览群书的学生,而非能独立思考的研究员。
1. AIDO.ModelGenerator:生物多模态模型开发的乐高
生物研究者常常被计算和工程问题所困。尤其在大模型时代,搭建一个融合 DNA、RNA 和蛋白质等多种数据的模型,过程复杂。研究者需要身兼机器学习工程师与软件运维专家,才能开始真正的生物学工作。整个过程繁琐,结果难以复现,拖慢了科学发现的进程。
AIDO.ModelGenerator 这款新工具直面这个痛点。它的核心思路是将复杂流程标准化、模块化,如同为生物基础模型开发的乐高积木。用户无需从零开始编写模型搭建、融合与训练的代码,只需准备一个 YAML 配置文件。
例如,要用一个 30 亿参数的 DNA 模型和一个 5 亿参数的 RNA 模型进行交叉注意力融合,只需在 YAML 文件中声明。想在单张 A100 显卡上,通过参数高效微调(PEFT, Parameter-Efficient Fine-Tuning)技术运行大模型,也只需几行配置。这把技术门槛从机器学习专家,降低到能编写配置文件的科学家。
在克罗恩病(Crohn’s disease)的案例中,该工具展现了它的能力。传统的差异表达分析,在近 19000 个基因中,将已知的临床靶点 SOX4 排在第 6068 位,如同大海捞针。AIDO.ModelGenerator 通过模拟基因敲除(in-silico knockout),将 SOX4 的排位提升至第 14 位。这种提升是质的飞跃,为寻找靶点提供了明确的线索。
在 RNA 剪接预测任务中,该工具同样表现出色。仅使用单一模态数据,好比依据静态地图预测实时交通。通过融合 DNA(基因组静态蓝图)与 RNA(动态表达信使)数据,模型的预测性能提升超过 10%,达到了新的业界最佳水平(SOTA, State-of-the-Art)。这种多模态方法为理解复杂生物系统提供了更全面的视角。
该工具对可复现性的重视解决了计算生物学的一个核心痛点。学术研究中,实验结果难以复现是一个普遍问题。AIDO.ModelGenerator 通过锁定的配置文件和确定性运行,保证了每次实验都能获得字节级别完全相同的结果。这使得研究发现可靠、可验证,也方便同行与审稿人重现整个工作流程,体现了科学研究的严谨性。
AIDO.ModelGenerator 本质上是一个加速器和工具集,它将生物学家从繁重的工程任务中解放出来。研究者可以因此专注于生物学问题本身——提出假说、设计实验、验证发现,无需在调试代码和配置环境上耗费过多时间。
📜Title: Rapid and Reproducible Multimodal Biological Foundation Model Development with AIDO.ModelGenerator
📜Paper: https://www.biorxiv.org/content/10.1101/2025.06.30.662437v1
💻Code: https://github.com/genbio-ai/ModelGenerator
2. ChatMDV:让生物信息学分析告别代码
生物信息学分析的门槛很高,要求研究者既懂生物又会编程,这拖慢了科研进度。ChatMDV 提供了一个解决方案。它如同一个翻译官,使用大语言模型(Large Language Model, LLM)和检索增强生成(Retrieval-Augmented Generation, RAG)技术,将一句「用 UMAP 图展示这些细胞簇的 A 基因表达情况」这样的自然语言,直接翻译成生成图表的 Python 代码。数据分析由此变成一场对话,湿实验科学家可以亲自、快速地探索数据、验证想法,无需再排队等待生物信息学家的协助。
生物学实验室里存在一道无形的鸿沟。一边是辛苦获得的单细胞测序数据,另一边是揭示生物学规律的图表和统计结果。横亘其间的是一堵由 Python、R 和复杂软件包砌成的高墙。
研究者想跨越这堵墙,要么花几年时间学习编程,要么将宝贵的数据交给那位日程永远排满的生物信息学家,然后开始等待。
ChatMDV 的目标,就是拆掉这堵墙。
AI 当翻译,你只管提问
ChatMDV 的思路很直接:让 AI 学习生物学家的语言。它把自己定位成一个顶级的同声传译。
它的工作流程如下:
研究者用简单的自然语言提出需求,例如,「用 UMAP 图显示这些细胞,并根据细胞类型给它们上色」。
ChatMDV 内部的「规划智能体」会将这句话拆解成一个清晰的行动计划:「用户需要一张 UMAP 图,按‘cell_type’列的数据进行着色。」
接着,一个「代码生成」模块开始工作。它并非凭空编写,而是通过检索增强生成(RAG)流程,在预设的「代码库」和「知识库」中查找最相关的代码片段和函数用法。这好比一个开卷考试的学生,他不需要记住所有知识点,只需知道去哪里查阅,然后正确地组合信息。
最后,它生成一段 Python 代码并自动执行,将你想要的 UMAP 图呈现在眼前。
不只是聊天,还能动手
ChatMDV 生成的图表呈现在一个交互式查看器(MDV)中。AI 完成初步绘图后,你还可以像使用普通软件一样,用鼠标点击、缩放、筛选,对图表进行微调。
这种「自然语言输入 + 图形界面微调」的组合,降低了使用门槛,也预示了未来科学软件的形态。
到底靠不靠谱?
研究团队用三个复杂度递增的真实数据集对 ChatMDV 进行了测试,从简单的 PBMC 数据到复杂的肺癌图谱,它都表现出很高的成功率。在最简单的任务上,成功率达到 100%。
这表明,它有能力处理真实科研中那些不完美的数据。
虽然 AI 还无法完全理解所有模糊的科研设想,但 ChatMDV 证明,科学家与数据之间无代码的对话式交互是可行的。
它会把生物信息学家从大量重复性的初级可视化任务中解放出来,使其能够专注于解决更需要智慧与创造力的科学问题。
📜Title: ChatMDV: Democratising Bioinformatics Analysis Using Large Language Models
📜Paper: https://www.biorxiv.org/content/10.1101/2025.08.26.671083v1
3. DiffGui:AI 造分子,先画骨再填肉
与 3D 分子生成模型打过交道的人都了解一个现实:这些 AI 擅长排列原子,却不精通化学。
给定一个蛋白质口袋,AI 能生成一团在三维空间中填充良好的原子云。但将这些原子云转换成带化学键的二维结构图时,问题便出现了:五配位碳、不存在的化学键等违反化学常识的结构屡见不鲜。这如同建筑师只标出柱子位置,却忽略了梁与楼板,使建筑无法成立。
Nature Communications 的一篇论文介绍的方法,旨在让 AI 在放置原子的同时,也构建起化学键的框架。
先画骨,再填肉
新模型名为 DiffGui,其核心是同步生成原子和化学键。
它属于扩散模型。传统扩散模型从一团模糊的原子「像素点」开始,逐步使其清晰。DiffGui 则从模糊的「像素点」与模糊的「连接线」同时开始。
在生成的每一步,模型同时确定原子的类型和位置,以及原子间的化学键。
这样,化学键成为生成过程的内在约束,而非后续添加的步骤,从根本上保证了最终分子的化学结构合理性。
给 AI 一个「指南针」
仅有化学上合理的骨架并不足够,目标是生成一个好的分子。
DiffGui 引入了属性引导 (property guidance) 机制。在分子生成的每一步,多个属性评估器会提供反馈。
例如,「结合亲和力」评估器判断当前步骤是否增强了分子与靶点的结合,并引导其朝结合更紧密的方向优化。「类药性」评估器则会审视分子的化学性质,如溶解度或氢键特征,并进行相应调整。
通过这种持续的多维度引导,生成过程从单纯模仿训练数据,转变为一个有目的、主动朝向「好分子」的优化过程。
这东西真的靠谱吗?
同时构建骨架并使用指南针引导,使 DiffGui 生成的分子质量得到提升。
在一系列基准测试中,DiffGui 的表现超过了现有方法。
在一个真实的药物设计案例中,研究者使用该工具,为一个发生突变的蛋白质口袋成功设计出能够适应性结合的新分子。这表明 DiffGui 能够理解并响应精细的化学环境变化,是一个实用的设计工具。
📜Title: Target-aware 3D Molecular Generation Based on Guided Equivariant Diffusion
📜Paper: https://www.nature.com/articles/s41467-025-63245-0
💻Code: https://github.com/QiaoyuHu89/DiffGui
4. AI 药物发现:一个能自我进化的机器
AI 药物发现工具能生成分子、预测性质,但它们大多是静态的。模型一旦建成,性能就固定了,改进需要人工干预并重新训练。如同有一辆好车,想提速,还得自己动手改装引擎。
一个名为达尔文 - 哥德尔药物发现机 (Darwin–Gödel Drug Discovery Machine, DGDM) 的新框架,目标是造出一辆能自己改装引擎的车。
两个循环,两种进化
该框架的核心是两个相互嵌套的循环。
内循环:达尔文的世界
内循环优化分子,其工作方式如同微缩的达尔文进化。
首先,生成模型创造一批多样的候选分子。这些分子随即进入模拟的「自然环境」接受筛选,包括分子对接、结合亲和力预测和 ADMET 性质分析等计算评估。表现最佳的分子被选为「亲代」,用于生成下一代。
循环往复,分子在一代代进化中,愈发符合预设目标,例如结合力更强。
外循环:哥德尔的幽灵
外循环优化的不是分子,而是发现流程本身。
其灵感源于数学家哥德尔构想的「哥德尔机」——一种理论上能检查并修改自身代码、从而实现自我完善的机器。
现实中,无法用严格的数学逻辑证明流程更优,因此该框架采用统计学方法。外循环周期性地对整个药物发现流程提出修改建议,例如更换对接打分函数或调整分子生成策略。系统会通过统计检验,评估这些修改是否能提升整体性能。只有数据证明修改有效时,才会被采纳。这是一种由数据驱动、带风险控制的自我进化。
结果怎么样?
研究人员用该系统进行了一次概念验证。
经过双循环系统优化后,候选分子的中位结合亲和力获得提升,同时分子的类药性和新颖性保持在 100%。这表明系统在优化性能的同时,遵守了化学基本规则。
这仍是一项针对单个靶点的小规模概念验证。将湿实验数据整合进闭环,是下一步的挑战。
DGDM 展示了 AI 药物发现的一种可能方向:从使用 AI 工具,到构建能够自我完善的自主 AI 科学家。
📜Title: The Darwin–Gödel Drug Discovery Machine (DGDM): A Self-Improving AI Framework
📜Paper: https://www.biorxiv.org/content/10.1101/2025.08.21.671415v1
💻Code: https://github.com/deep-geo/DGDM
5. AI 参加生信考试,结果令人大跌眼镜
Rosalind 平台,是生物信息学学生的「奥数」训练场。它有上百个经典的计算问题,从计算 DNA 的 GC 含量,到寻找 RNA 的二级结构。学习生信的人,大多都在上面刷过题。
一篇新论文的研究者,将三个主流大语言模型 (Large Language Models, LLMs)——GPT-3.5、Llama-3-70B 和 GPT-4o——带到这个考场,测试了 104 道题目。
结果出人意料。
姜还是老的辣?
GPT-3.5拔得头筹,答对了 58% 的题目。而 GPT-4o 和 Llama-3 这两个更新、更强的模型,正确率反而只有 47%。
这并不意味着 GPT-3.5 比 GPT-4o 更聪明。一种可能的解释是,Rosalind 的题目是有标准答案的「课本习题」,GPT-3.5 的训练数据可能恰好包含了更多现成解法。更新的模型面对这些问题,或许会过度思考,尝试用更通用却非最优的逻辑求解。
AI 擅长什么,不擅长什么?
这次考试画出了当前通用大模型的「能力圈」。
在规则明确、计算直接的任务上,它们表现很好,例如计算 DNA 的各种统计特性。这好比让学生去做套公式的数学题,只要背过公式,基本不会出错。
但涉及更高阶推理的开放问题,比如基因组组装和序列比对,AI 就集体不及格了。这就像让学生去做需要多种思路和创造力的证明题,他脑子里的孤立公式,就不知道该怎么组合了。
这篇论文有一个发现很能说明问题:AI 解决一个问题的表现,与人类在 Rosalind 平台上尝试该问题的次数高度相关。
这就像一个学生,他在模拟考里做得最好的题,恰好都是他过去在各种辅导书上见过无数遍的原题。
这揭示了这些 AI 的学习方式:它们更接近于在庞大的记忆库中进行高效的模式匹配和信息检索,而非从第一性原理出发进行生物信息学推理。
所以,这些通用大模型仍然有用。对于学习基本概念的学生,它们是很好的助教。对于需要为标准化分析任务快速生成模板代码的研究员,它们是高效率的实习生。
📜Title: Out-of-the-box bioinformatics capabilities of large language models (LLMs)
📜Paper: https://www.biorxiv.org/content/10.1101/2025.08.22.671610v1




