三大前沿 AI 助力药物化学：GP-MOBO、LABind 与 B3clf

GP-MOBO 利用高斯过程和 Tanimoto 核，在不牺牲分子指纹完整性的前提下，高效地进行多目标贝叶斯优化，为药物化学家提供了更靠谱的分子设计导航。
LABind 创新地在预测蛋白质结合口袋时，将配体信息也纳入考量，让预测不再是「盲猜」，而是能根据不同配体的「长相」来找到最适合它的「座位」。
B3clf 通过整合重采样技术来解决血脑屏障预测中常见的数据不平衡问题，最终打包成一个开箱即用的工具，为中枢神经系统药物研发提供了务实的帮助。

1. GP-MOBO：更懂化学家的多目标分子优化

在做药物发现时，分子优化是个永恒的主题。我们总是在玩一个「权衡」的游戏：活性要高，溶解度要好，毒性要低，代谢要稳定……这些目标常常是相互矛盾的。你把分子做得更脂溶一点，活性可能上去了，但溶解度又掉下来了。

贝叶斯优化（BO）是解决这类多目标优化问题的利器。你可以把它想象成一个勘探队员。它不会把整个山头都挖一遍，而是先在几个点打钻取样，然后根据这些样本，建立一个关于地下矿藏分布的「概率地图」（高斯过程模型）。接着，它会根据这个地图，去预测下一个最有可能挖到宝藏的点。

但传统的贝叶斯优化，在用到化学世界里时，经常会遇到一个问题：它不太「懂」化学。

问题的根源：高斯过程的「化学盲」

我们描述一个分子，最常用的方法是「分子指纹」（fingerprints）。这就像一个长长的 0 和 1 组成的条形码，记录了这个分子有哪些化学基团、哪些结构特征。这种表示方法有个特点：维度很高（几千维），而且极度稀疏（大部分都是 0）。

传统的高斯过程模型，在这种高维稀疏的数据上，表现往往不佳。它很难理解两个分子的「化学相似性」。在它眼里，两个指纹上只有几个比特位差异的分子，可能和差异巨大的分子没什么区别。这就导致它的「概率地图」画得不准，给出的下一步建议也常常不靠谱。

GP-MOBO 的解法：教高斯过程学化学

这篇论文的 GP-MOBO 算法，就是给高斯过程换了一个更懂化学的「大脑」——Tanimoto 核。

Tanimoto 系数是化学信息学里衡量分子相似性的金标准。把 Tanimoto 系数的思想做成一个「核函数」，再把它整合进高斯过程里，就相当于教会了那个勘探队员用化学家的眼光去看待分子。

现在，当模型看到两个分子的 Tanimoto 相似性很高时，它就会推断，这两个分子的性质也应该很接近。这样一来，它建立的「概率地图」就远比之前要精准。它能更好地理解 SAR（构效关系），从而给出更靠谱的优化方向。

实际效果如何？

作者们在 DockSTRING 这个真实世界的分子对接数据集上，把 GP-MOBO 和传统的 GP-BO 方法进行了对比。结果显示，在仅仅 20 轮的优化迭代中，GP-MOBO 找到的「帕累托前沿」上的分子，质量和多样性都显著更优。

「帕累托前沿」是什么？可以把它想象成所有「没有被完全碾压」的候选分子的集合。在这个集合里，任何一个分子，你都找不到另一个分子能在所有优化目标上都比它好。对于药物化学家来说，我们需要的不是一个「单项冠军」，而是这个前沿上的一系列各具特色的「全能选手」，以便我们根据其他未能量化的因素（比如合成难度）来做最终决策。

GP-MOBO 能给我们提供一个更丰富、更高质量的「候选名单」，这就是它最大的价值。它没有用什么复杂的深度学习模型，而是回归到经典的统计方法上，通过一个巧妙的、更符合化学原理的核函数，解决了分子优化中的一个关键痛点。

📜Paper: https://arxiv.org/abs/2508.14072

2. LABind：一个会看「配体脸色」的结合口袋预测 AI

在做药物发现时找到小分子配体在靶点蛋白上的结合口袋，是所有工作的第一步。过去，我们有很多方法来预测口袋，大部分方法是「配体无知」的（ligand-agnostic）。它们只分析蛋白质的表面，寻找那些形状和物理化学性质适合小分子结合的「坑」或「洞」。

这种方法在很多时候管用，但它有一个根本性的问题：它没有考虑到，不同的配体，可能喜欢待在同一个蛋白质的不同位置。一个又大又油腻的分子，和一个又小又带电的分子，它们心仪的「座位」可能完全不同。只看蛋白质而不看配体，就像一个餐厅服务员，不问客人喜欢什么口味，就随便给客人安排座位一样。

LABind 是怎么做到「看人下菜碟」的？

LABind 的核心，是一个叫「交叉注意力机制」（cross-attention mechanism）的东西。你可以把它想象成「服务员」的一双眼睛。

然后，最关键的一步来了。交叉注意力机制，会让模型去反复地比较这两个「编码」。它会学习去发现它们之间的「匹配模式」。比如，模型会慢慢学会：「哦，当配体上有个带负电的羧基时，蛋白质上那个带正电的赖氨酸附近，就是一个很好的结合位点。」

通过学习成千上万个已知的蛋白 - 配体复合物结构，LABind 就逐渐掌握了这种根据配体来动态调整口袋预测的「直觉」。

泛化能力才是硬道理

一个模型在训练集上表现好不稀奇，真正的考验是，当给它一个它从未见过的蛋白质，或者一个化学骨架全新的配体时，它还能不能给出靠谱的预测。这就是我们说的「泛化能力」。

LABind 在这方面的表现非常出色。在多个基准数据集的测试中，它都优于现有的其他方法，尤其是在预测全新配体的结合位落时。

更实用的一点是，我们现在有很多蛋白还没有实验解析出的三维结构。LABind 可以直接使用像 ESMFold 这类 AI 工具预测出的蛋白结构，依然能保持不错的预测精度。这就大大拓展了它的应用范围，让我们能去探索更多未知的靶点。

文章中还展示了一个非常及时的案例：预测新冠病毒 NSP3 蛋白与不同抑制剂的结合口袋。即使是对于那些全新的、模型在训练中没见过的抑制剂，LABind 也给出了准确的预测。

LABind 把口袋预测，从一个「静态的」找坑游戏，变成了一个「动态的」匹配问题。它让我们能更精准地回答「这个特定的分子，最有可能结合在这个蛋白的什么位置？」这个问题。这对于虚拟筛选、分子对接以及理解药物作用机制，都是一个非常强大的新工具。

📜Paper: https://www.nature.com/articles/s41467-025-62899-0
💻Code: https://github.com/ljquanlab/LABind

3. B3clf：一个更靠谱的血脑屏障预测开源工具

做 CNS 药物的绕不开血脑屏障（BBB）。合成一个新分子，除了要看它对靶点的活性，最头疼的就是问：「它到底能不能进脑？」这个问题要是没谱，后面全是白费功夫。

所以，多年来我们一直依赖各种计算模型来做预测。但用过的人都知道，这些模型的准确率时好时坏，有时候感觉还不如老药化专家的直觉靠谱。

为什么会这样？算法不够好吗？不全是。一个更根本的问题，出在训练模型用的数据上。

问题的根源：倾斜的数据天平

你想想看，在公开的数据库里，能顺利通过血脑屏障的分子是少数，大部分都惨遭拦截。这就造成了典型的「类别不平衡」问题。

这意味着什么？一个机器学习模型如果想偷懒，它可以学会一个最简单的策略：对所有分子都预测「不能通过」。这样做，它的整体准确率可能还挺高，比如能达到 80% 甚至 90%，因为它猜对了大部分情况。但这种模型对研发人员来说，一点用都没有。我们真正想找的，是那少数能进去的「天选之子」，而模型恰恰放弃了学习如何识别它们。

这篇论文直面了这个最 t 棘手的数据问题。

B3clf 是怎么做的？

他们的思路很直接：既然天平是斜的，那就想办法把它扶正。他们用的方法叫「重采样」（Resampling）。

你可以这么理解：对于数据量少的那一类（能通过 BBB 的分子），我们不能只是简单地把它们复制几遍，那样模型还是学不到新东西。像 ADASYN 或 SMOTE 这类更智能的过采样技术，它会在已有的「好学生」周围，创造出一些新的、看起来也很像「好学生」的「虚拟样本」。这样一来，模型就有了更丰富、更均衡的学习材料，能更好地理解一个分子到底需要具备哪些化学特征（比如合适的脂溶性、分子量、氢键数量等）才能拿到进入大脑的「通行证」。

不搞个人崇拜，让实力说话

作者们没有上来就认定哪个模型最好。他们做了一件事：搞了一场「模型大比武」。他们挑选了 24 种不同的机器学习模型，从简单的决策树到复杂的 XGBoost，让它们分别与不同的重采样技术配对组合，然后在同一个数据集上跑分。

结果显示，XGBoost（一种梯度提升树模型）在这次比赛中表现最突出，尤其是在和过采样技术结合后，无论是在准确率、灵敏性还是其他关键指标上，都名列前茅。XGBoost 本身就是机器学习领域里出了名的「优等生」，稳定又强大，这个结果并不意外，但通过这样系统性的比较，让结论更有说服力。

是骡子是马，拉出来遛遛

光说不练假把式。他们还从文献里整理了一个包含 175 个化合物的外部测试集，用来和其他已发表的 BBB 预测模型进行正面 PK。结果表明，B3clf 训练出的模型性能不输于，甚至优于现有的一些方法。

他们把训练好的模型打包成了一个开源的 Python 库和一个网页工具。这意味着，我们不需要自己去折腾代码和数据。开项目会的时候，我们可以直接把新设计的几个分子的 SMILES 串贴进去，几秒钟就能得到一个能否通过 BBB 的预测概率。这个概率值可以帮助我们决定，下一批该优先合成哪个分子。

📜Paper: https://doi.org/10.26434/chemrxiv-2025-xschc
💻Code: https://github.com/theochem/B3clf

目录