DiffGui:AI 造分子,先画骨再填肉

探索 AI 在生物医药领域的五项最新进展。了解 AIDO.ModelGenerator 如何用 YAML 简化多模态模型开发,ChatMDV 如何将自然语言转为可视化代码,以及 DiffGui 如何生成化学结构合理的分子。文章同时探讨了能自我进化的药物发现框架 DGDM,并分析了通用大模型在解决经典生物信息学问题时的真实能力。

AI 药物发现
生物信息学
大语言模型
生成式 AI
多模态
Author
Published

Wednesday, the 17th of September, 2025

目录

  1. 这个开源工具包使用简单的 YAML 配置文件,让搭建复杂、可复现的多模态生物学基础模型,从一项工程挑战,变成像搭乐高积木一样的探索。
  2. ChatMDV 将研究者的自然语言直接翻译成可执行代码,让复杂的生物信息学数据可视化,从少数专家的技能,变成每个实验室成员都能上手的工具。
  3. DiffGui 在生成原子的同时构建化学键,并以结合力和类药性作为引导,使 AI 生成的分子成为化学结构可信的实体,而非简单的原子云。
  4. 一个 AI 框架通过「达尔文式」进化循环优化分子,同时通过「哥德尔式」元学习循环优化自身的药物发现流程。
  5. 通用大模型能解决不少标准生信问题,但它们更像博览群书的学生,而非能独立思考的研究员。

1. AIDO.ModelGenerator:生物多模态模型开发的乐高

生物研究者常常被计算和工程问题所困。尤其在大模型时代,搭建一个融合 DNA、RNA 和蛋白质等多种数据的模型,过程复杂。研究者需要身兼机器学习工程师与软件运维专家,才能开始真正的生物学工作。整个过程繁琐,结果难以复现,拖慢了科学发现的进程。

AIDO.ModelGenerator 这款新工具直面这个痛点。它的核心思路是将复杂流程标准化、模块化,如同为生物基础模型开发的乐高积木。用户无需从零开始编写模型搭建、融合与训练的代码,只需准备一个 YAML 配置文件。

例如,要用一个 30 亿参数的 DNA 模型和一个 5 亿参数的 RNA 模型进行交叉注意力融合,只需在 YAML 文件中声明。想在单张 A100 显卡上,通过参数高效微调(PEFT, Parameter-Efficient Fine-Tuning)技术运行大模型,也只需几行配置。这把技术门槛从机器学习专家,降低到能编写配置文件的科学家。

在克罗恩病(Crohn’s disease)的案例中,该工具展现了它的能力。传统的差异表达分析,在近 19000 个基因中,将已知的临床靶点 SOX4 排在第 6068 位,如同大海捞针。AIDO.ModelGenerator 通过模拟基因敲除(in-silico knockout),将 SOX4 的排位提升至第 14 位。这种提升是质的飞跃,为寻找靶点提供了明确的线索。

在 RNA 剪接预测任务中,该工具同样表现出色。仅使用单一模态数据,好比依据静态地图预测实时交通。通过融合 DNA(基因组静态蓝图)与 RNA(动态表达信使)数据,模型的预测性能提升超过 10%,达到了新的业界最佳水平(SOTA, State-of-the-Art)。这种多模态方法为理解复杂生物系统提供了更全面的视角。

该工具对可复现性的重视解决了计算生物学的一个核心痛点。学术研究中,实验结果难以复现是一个普遍问题。AIDO.ModelGenerator 通过锁定的配置文件和确定性运行,保证了每次实验都能获得字节级别完全相同的结果。这使得研究发现可靠、可验证,也方便同行与审稿人重现整个工作流程,体现了科学研究的严谨性。

AIDO.ModelGenerator 本质上是一个加速器和工具集,它将生物学家从繁重的工程任务中解放出来。研究者可以因此专注于生物学问题本身——提出假说、设计实验、验证发现,无需在调试代码和配置环境上耗费过多时间。

📜Title: Rapid and Reproducible Multimodal Biological Foundation Model Development with AIDO.ModelGenerator
📜Paper: https://www.biorxiv.org/content/10.1101/2025.06.30.662437v1
💻Code: https://github.com/genbio-ai/ModelGenerator

2. ChatMDV:让生物信息学分析告别代码

生物信息学分析的门槛很高,要求研究者既懂生物又会编程,这拖慢了科研进度。ChatMDV 提供了一个解决方案。它如同一个翻译官,使用大语言模型(Large Language Model, LLM)和检索增强生成(Retrieval-Augmented Generation, RAG)技术,将一句「用 UMAP 图展示这些细胞簇的 A 基因表达情况」这样的自然语言,直接翻译成生成图表的 Python 代码。数据分析由此变成一场对话,湿实验科学家可以亲自、快速地探索数据、验证想法,无需再排队等待生物信息学家的协助。


生物学实验室里存在一道无形的鸿沟。一边是辛苦获得的单细胞测序数据,另一边是揭示生物学规律的图表和统计结果。横亘其间的是一堵由 Python、R 和复杂软件包砌成的高墙。

研究者想跨越这堵墙,要么花几年时间学习编程,要么将宝贵的数据交给那位日程永远排满的生物信息学家,然后开始等待。

ChatMDV 的目标,就是拆掉这堵墙。

AI 当翻译,你只管提问

ChatMDV 的思路很直接:让 AI 学习生物学家的语言。它把自己定位成一个顶级的同声传译。

它的工作流程如下:

研究者用简单的自然语言提出需求,例如,「用 UMAP 图显示这些细胞,并根据细胞类型给它们上色」。

ChatMDV 内部的「规划智能体」会将这句话拆解成一个清晰的行动计划:「用户需要一张 UMAP 图,按‘cell_type’列的数据进行着色。」

接着,一个「代码生成」模块开始工作。它并非凭空编写,而是通过检索增强生成(RAG)流程,在预设的「代码库」和「知识库」中查找最相关的代码片段和函数用法。这好比一个开卷考试的学生,他不需要记住所有知识点,只需知道去哪里查阅,然后正确地组合信息。

最后,它生成一段 Python 代码并自动执行,将你想要的 UMAP 图呈现在眼前。

不只是聊天,还能动手

ChatMDV 生成的图表呈现在一个交互式查看器(MDV)中。AI 完成初步绘图后,你还可以像使用普通软件一样,用鼠标点击、缩放、筛选,对图表进行微调。

这种「自然语言输入 + 图形界面微调」的组合,降低了使用门槛,也预示了未来科学软件的形态。

到底靠不靠谱?

研究团队用三个复杂度递增的真实数据集对 ChatMDV 进行了测试,从简单的 PBMC 数据到复杂的肺癌图谱,它都表现出很高的成功率。在最简单的任务上,成功率达到 100%。

这表明,它有能力处理真实科研中那些不完美的数据。

虽然 AI 还无法完全理解所有模糊的科研设想,但 ChatMDV 证明,科学家与数据之间无代码的对话式交互是可行的。

它会把生物信息学家从大量重复性的初级可视化任务中解放出来,使其能够专注于解决更需要智慧与创造力的科学问题。

📜Title: ChatMDV: Democratising Bioinformatics Analysis Using Large Language Models
📜Paper: https://www.biorxiv.org/content/10.1101/2025.08.26.671083v1

3. DiffGui:AI 造分子,先画骨再填肉

与 3D 分子生成模型打过交道的人都了解一个现实:这些 AI 擅长排列原子,却不精通化学。

给定一个蛋白质口袋,AI 能生成一团在三维空间中填充良好的原子云。但将这些原子云转换成带化学键的二维结构图时,问题便出现了:五配位碳、不存在的化学键等违反化学常识的结构屡见不鲜。这如同建筑师只标出柱子位置,却忽略了梁与楼板,使建筑无法成立。

Nature Communications 的一篇论文介绍的方法,旨在让 AI 在放置原子的同时,也构建起化学键的框架。

先画骨,再填肉

新模型名为 DiffGui,其核心是同步生成原子和化学键

它属于扩散模型。传统扩散模型从一团模糊的原子「像素点」开始,逐步使其清晰。DiffGui 则从模糊的「像素点」模糊的「连接线」同时开始。

在生成的每一步,模型同时确定原子的类型和位置,以及原子间的化学键。

这样,化学键成为生成过程的内在约束,而非后续添加的步骤,从根本上保证了最终分子的化学结构合理性。

给 AI 一个「指南针」

仅有化学上合理的骨架并不足够,目标是生成一个的分子。

DiffGui 引入了属性引导 (property guidance) 机制。在分子生成的每一步,多个属性评估器会提供反馈。

例如,「结合亲和力」评估器判断当前步骤是否增强了分子与靶点的结合,并引导其朝结合更紧密的方向优化。「类药性」评估器则会审视分子的化学性质,如溶解度或氢键特征,并进行相应调整。

通过这种持续的多维度引导,生成过程从单纯模仿训练数据,转变为一个有目的、主动朝向「好分子」的优化过程。

这东西真的靠谱吗?

同时构建骨架并使用指南针引导,使 DiffGui 生成的分子质量得到提升。

在一系列基准测试中,DiffGui 的表现超过了现有方法。

在一个真实的药物设计案例中,研究者使用该工具,为一个发生突变的蛋白质口袋成功设计出能够适应性结合的新分子。这表明 DiffGui 能够理解并响应精细的化学环境变化,是一个实用的设计工具。

📜Title: Target-aware 3D Molecular Generation Based on Guided Equivariant Diffusion
📜Paper: https://www.nature.com/articles/s41467-025-63245-0
💻Code: https://github.com/QiaoyuHu89/DiffGui

4. AI 药物发现:一个能自我进化的机器

AI 药物发现工具能生成分子、预测性质,但它们大多是静态的。模型一旦建成,性能就固定了,改进需要人工干预并重新训练。如同有一辆好车,想提速,还得自己动手改装引擎。

一个名为达尔文 - 哥德尔药物发现机 (Darwin–Gödel Drug Discovery Machine, DGDM) 的新框架,目标是造出一辆能自己改装引擎的车。

两个循环,两种进化

该框架的核心是两个相互嵌套的循环。

内循环:达尔文的世界

内循环优化分子,其工作方式如同微缩的达尔文进化。

首先,生成模型创造一批多样的候选分子。这些分子随即进入模拟的「自然环境」接受筛选,包括分子对接、结合亲和力预测和 ADMET 性质分析等计算评估。表现最佳的分子被选为「亲代」,用于生成下一代。

循环往复,分子在一代代进化中,愈发符合预设目标,例如结合力更强。

外循环:哥德尔的幽灵

外循环优化的不是分子,而是发现流程本身

其灵感源于数学家哥德尔构想的「哥德尔机」——一种理论上能检查并修改自身代码、从而实现自我完善的机器。

现实中,无法用严格的数学逻辑证明流程更优,因此该框架采用统计学方法。外循环周期性地对整个药物发现流程提出修改建议,例如更换对接打分函数或调整分子生成策略。系统会通过统计检验,评估这些修改是否能提升整体性能。只有数据证明修改有效时,才会被采纳。这是一种由数据驱动、带风险控制的自我进化。

结果怎么样?

研究人员用该系统进行了一次概念验证。

经过双循环系统优化后,候选分子的中位结合亲和力获得提升,同时分子的类药性和新颖性保持在 100%。这表明系统在优化性能的同时,遵守了化学基本规则。

这仍是一项针对单个靶点的小规模概念验证。将湿实验数据整合进闭环,是下一步的挑战。

DGDM 展示了 AI 药物发现的一种可能方向:从使用 AI 工具,到构建能够自我完善的自主 AI 科学家。

📜Title: The Darwin–Gödel Drug Discovery Machine (DGDM): A Self-Improving AI Framework
📜Paper: https://www.biorxiv.org/content/10.1101/2025.08.21.671415v1
💻Code: https://github.com/deep-geo/DGDM

5. AI 参加生信考试,结果令人大跌眼镜

Rosalind 平台,是生物信息学学生的「奥数」训练场。它有上百个经典的计算问题,从计算 DNA 的 GC 含量,到寻找 RNA 的二级结构。学习生信的人,大多都在上面刷过题。

一篇新论文的研究者,将三个主流大语言模型 (Large Language Models, LLMs)——GPT-3.5、Llama-3-70B 和 GPT-4o——带到这个考场,测试了 104 道题目。

结果出人意料。

姜还是老的辣?

GPT-3.5拔得头筹,答对了 58% 的题目。而 GPT-4o 和 Llama-3 这两个更新、更强的模型,正确率反而只有 47%。

这并不意味着 GPT-3.5 比 GPT-4o 更聪明。一种可能的解释是,Rosalind 的题目是有标准答案的「课本习题」,GPT-3.5 的训练数据可能恰好包含了更多现成解法。更新的模型面对这些问题,或许会过度思考,尝试用更通用却非最优的逻辑求解。

AI 擅长什么,不擅长什么?

这次考试画出了当前通用大模型的「能力圈」。

在规则明确、计算直接的任务上,它们表现很好,例如计算 DNA 的各种统计特性。这好比让学生去做套公式的数学题,只要背过公式,基本不会出错。

但涉及更高阶推理的开放问题,比如基因组组装和序列比对,AI 就集体不及格了。这就像让学生去做需要多种思路和创造力的证明题,他脑子里的孤立公式,就不知道该怎么组合了。

这篇论文有一个发现很能说明问题:AI 解决一个问题的表现,与人类在 Rosalind 平台上尝试该问题的次数高度相关。

这就像一个学生,他在模拟考里做得最好的题,恰好都是他过去在各种辅导书上见过无数遍的原题。

这揭示了这些 AI 的学习方式:它们更接近于在庞大的记忆库中进行高效的模式匹配和信息检索,而非从第一性原理出发进行生物信息学推理。

所以,这些通用大模型仍然有用。对于学习基本概念的学生,它们是很好的助教。对于需要为标准化分析任务快速生成模板代码的研究员,它们是高效率的实习生。

📜Title: Out-of-the-box bioinformatics capabilities of large language models (LLMs)
📜Paper: https://www.biorxiv.org/content/10.1101/2025.08.22.671610v1

Back to top