人工智能正在彻底改变科学研究的范式。它不仅加速了计算和预测,更开始模仿科学家的推理过程,跨越从“预测结果”到“解释原因”的关键鸿沟。最近发布的几项突破性研究,从动态结构模拟、不确定性评估、化学推理到数据基础设施和训练方法,共同描绘出AI赋能科研的未来图景。
从静态到动态:BioEmu让蛋白质“动”起来
AlphaFold为我们提供了蛋白质的静态快照,但生命活动依赖于动态变化。传统分子动力学(MD)模拟虽能揭示构象变化,但计算成本极高。BioEmu的出现改变了这一局面。它结合AlphaFold的序列特征提取能力和扩散模型,生成处于平衡态的构象集合,就像一台“高速摄像机”捕捉蛋白质的动态行为。
研究者用超过200毫秒的MD轨迹和50万个蛋白质稳定性数据训练模型,使其能够准确预测如激酶DFG翻转等构象变化,并在自由能预测中达到小于0.9 kcal/mol的平均误差。这不仅可用于快速筛选突变体,还能发现隐藏在动态结构中的变构结合位点,为新药研发开辟新路径。
AI学会说“我不知道”:在黑暗中寻找钥匙
AI药物发现长期受困于“路灯效应”——模型倾向于生成与训练集类似的分子,缺乏探索未知化学空间的能力。一项发表在ChemRxiv的研究提出了解决方案:联合分子模型(Joint Molecular Model)。该模型同时预测活性和重建分子结构,通过重建误差量化分子“陌生度”,从而在预测高活性分子的同时标识其不确定性。
研究团队针对两个激酶靶点,专门筛选被预测为活性高且“陌生”的分子,并在湿实验中验证出多个微摩尔级别的新抑制剂,其骨架与训练集分子截然不同。这项工作为AI在未知化学空间中的探索提供了“罗盘”,使研究人员能够更明智地评估AI的预测结果。
Mol-R1:显式推理让AI成为“临床搭子”
大语言模型(LLM)在化学任务中表现优异,但其“黑箱”特性限制了在药物研发中的可信度。Mol-R1致力于让AI的推理过程“透明化”,通过“思维链”(Chain-of-Thought, CoT)记录化学家的逻辑推理过程。
研究团队采用“通过上下文蒸馏的先验调节”(PRID)方法,利用少量专家标注引导模型生成高质量推理样本,解决了训练数据匮乏的问题。随后通过“分子迭代适应”(MoIA)策略,结合监督微调和强化学习,使模型在反复学习和练习中不断提升推理能力。结果显示,Mol-R1生成的分子不仅更准确,其推理步骤也更具逻辑性和可解释性,真正成为一个值得信赖的“科研伙伴”。
PEPBI数据库:为AI提供“情侣套餐”级数据
多肽药物设计面临数据短缺的挑战,尤其是同时包含三维结构和热力学数据的“配对样本”。PEPBI数据库应运而生,收录了符合严格标准(如分辨率<2.0 Å、肽长度5-20氨基酸)的蛋白-多肽复合物结构,并配套ITC实验测得的ΔG、ΔH、ΔS值。
此外,数据库还提供了40种预计算的界面特征,如氢键数量、形状互补性等,极大降低了AI建模的数据预处理成本。PEPBI为理解多肽-蛋白结合的“能量-结构”关系奠定了基础,推动AI从“看图说话”迈向“理解机制”。
rbiol:用“虚拟细胞”训练下一代生物学AI
生物实验成本高昂、周期长,限制了AI模型的数据获取。rbiol提出“软验证”范式,利用已有的生物学世界模型(如基因扰动-转录组响应模型)作为“虚拟老师”,通过问答形式将知识蒸馏到LLM中。
结果显示,经过“虚拟训练”的模型在真实基因扰动预测任务中表现优异,甚至媲美使用真实数据训练的模型。这种方法不仅降低了数据依赖,还提高了模型的可推广性和推理能力,为构建通用“虚拟细胞”推理引擎指明了方向。
结语:AI正在成为科学家的“共思者”
从动态结构模拟到不确定性评估,从显式推理到数据基础设施和训练方法的创新,AI正逐步融入科学研究的每一个环节。它不再只是一个工具,而是正在成为能够与科学家对话、协作甚至提出创见的“共思者”。未来的科学研究将愈发依赖于人与AI的深度融合,而这一变革已经悄然开始。