近日,一家名为 FutureHouse 的非营利组织宣布推出一款名为 Robin 的新型人工智能(AI)工具,声称其能够极大加速生物学等领域的科学研究进程,该系统不仅能够自主完成从假设提出、实验设计到数据分析等关键科研环节,更在实际应用中,仅历时约 2.5 个月便成功为干性年龄相关性黄斑变性(dAMD,dry age-related macular degeneration)这一复杂眼疾发现了一种新的潜在治疗药物。相关成果已通过预印本论文形式在arXiv平台发布,并引起了科研领域和 AI 界的广泛关注。
多个智能体构成的全自动科研流程
这家由前谷歌 CEO Eric Schmidt 支持的组织创立于 2023 年,总部位于美国加州旧金山市。由首席执行官 Sam Rodriques 和科学主管 Andrew White 联合创立,其宏伟愿景是构建能够自主进行科学研究的“AI 科学家”或 AI 系统,从而加速疾病治疗方法的发现、气候变化解决方案的探索以及其他推动人类社会发展的技术创新。
图丨FutureHouse 主要团队(来源:FutureHouse)此前,FutureHouse 已经推出了一系列专门用于自动化科学发现过程中特定环节的 AI 智能体(AI Agent),例如用于文献搜索与综合的 Crow、Falcon 和 Owl,用于化学合成设计的 Phoenix,以及用于复杂数据分析的 Finch。而近期推出的 Robin 系统的突破在于,它成功地将这些独立的 AI 智能体(在此次发布的版本中,主要是 Crow、Falcon 和 Finch)整合到一个统一的工作流程中,实现了整个科学研究过程中关键智力步骤的自动化。
Robin 系统通过协调其内部的 AI 智能体来工作,针对特定的人类疾病提出新的治疗方法并进行临床前验证。其核心运作模式是一个包含假设生成、实验设计和数据分析的迭代循环。科学家首先通过提供目标疾病的名称来引导系统。随后,Robin 利用 Crow 和 Falcon 等文献搜索智能体进行广泛的背景研究,并据此生成初步的科学假设。接着,系统会提出具体的实验方案,包括选择合适的体外检测模型来验证这些假设。
图丨Robin 系统的架构(来源:arXiv)不过,尽管 Robin 能够自主生成实验大纲,并完成所有假设的提出、实验方案的选择、数据分析以及研究手稿中主要图表的绘制,但具体的实验还是需要由人类研究员承担。
实验完成后,研究人员将原始或半处理数据上传至系统,Robin 随即便会部署像 Finch 这样的数据分析智能体,对数据进行自主分析与解读。Finch 擅长处理如 RNA 测序和流式细胞术等复杂实验所产生的数据,它通过在 Jupyter notebook 中执行分析代码,提供可解释且能够复现的分析结果与可视化图表。
为了有效应对生物数据解释本身固有的模糊性,以及语言智能体随机性可能导致的分析结果差异,Robin 设计了可以启动多个 Finch 分析轨迹的机制,让每个轨迹独立分析实验数据,最终通过元分析综合所有输出,从而形成基于共识的可靠结论。
根据这些分析结果,Robin 会从中提炼出具有实际应用价值的科学见解,并将这些见解用于指导下一轮的治疗假设生成,由此形成一个持续反馈和不断优化的闭环研究系统。这个迭代循环将持续进行,直至研究人员最终筛选出令人满意的新型候选药物为止。
Robin 的首个发现:为干性年龄相关性黄斑变性找到新疗法
为了验证 Robin 系统的实际能力,FutureHouse 将其应用于寻找干性年龄相关性黄斑变性的潜在新疗法。dAMD 是发达国家导致不可逆失明的主要原因,目前治疗方案有限。仅在美国,就有约 150 万人患有威胁视力的 dAMD,另有 60 万人因此法定失明,且随着人口老龄化,预计到 2050 年这一数字将增加近两倍。
在针对 dAMD 的研究中,Robin 首先通过识别和审查 151 篇论文,提出了 10 种与 dAMD 相关的生物学机制进行检测。在对疾病机制和相应实验策略进行排序后,Robin 提出通过增强视网膜色素上皮 (RPE) 细胞的吞噬作用来治疗 dAMD,并建议在流式细胞术检测中测试药物提高 RPE 细胞吞噬能力的效用。
(来源:arXiv)随后,Robin 利用 Crow 对大约 400 篇关于 RPE 吞噬作用和 dAMD 治疗前景的论文进行了文献综述,并综合结果提出了 30 种已有的候选药物进行实验测试。Falcon 智能体则为这些分子制作了综合评估报告,并通过一个由大语言模型评判的锦标赛机制对它们进行了排名。
研究团队选择了排名前五的候选药物进行实验测试,包括 Exendin-4、Fingolimod、MFGE8、Y-27632 以及 AICAR 和 TUDCA 的组合。实验采用了 pHrodo 微珠,这种微珠在溶酶体的低 pH 环境中会被荧光激活,从而可以通过流式细胞术检测单细胞的吞噬作用。
实验数据显示,ROCK 抑制剂 Y-27632 在细胞培养中显著增强了 RPE 的吞噬作用。这一发现与临床前模型的研究结果一致,即 Y-27632 可以恢复 RPE 细胞的吞噬效率,证实了 Robin 基于文献提出的候选方案的合理性。
为了更深入地探究其作用机制,Robin 接着提出进行一项 RNA 测序实验,目的是确定 Y-27632 是否通过诱导特定的基因表达变化来增强 RPE 细胞的吞噬功能。FutureHouse 的研究团队执行了该实验,随后 Finch 智能体对获取的 RNA 测序数据进行了细致分析,结果发现 Y-27632 能够显著上调 ABCA1 基因的表达。
(来源:arXiv)ABCA1 是 RPE 细胞中一种关键的脂质外排泵,对于健康的 RPE 功能至关重要,它能促进胆固醇和磷脂从质膜主动转运到受体蛋白,然后再将其排出细胞。有趣的是,ABCA1 与先前已被确定为黄斑变性发病机制中治疗靶点的 ABCA4 属于同一转运蛋白家族。
此外,ABCA1 的脂质受体——载脂蛋白 E (Apo-E),也已被确定为 dAMD 的潜在治疗靶点。这些由 Robin 提出实验、Finch 分析数据得出的机制性见解,不仅识别了有效的治疗化合物,还揭示了疾病通路中原本可能未被探索的新分子靶点。
在对 Y-27632 进行 RNA 测序分析的同时,Robin 还进行了后续的候选药物假设迭代。研究团队对其中 10 种药物进行了实验测试,并将数据再次交由 Finch 分析。Finch 的分析结果显示,利舒地尔 (ripasudil),一种在日本已获批用于治疗青光眼的 ROCK 抑制剂,其效果优于 Y-27632,与 DMSO 对照组相比,可使 RPE 细胞的吞噬作用增加 7.5 倍。尽管需要进一步在不同剂量和更长孵育时间下进行测试以获得最终比较,但利舒地尔相对于 Y-27632 的初步优越表现,证明了 Robin 通过迭代实验和反馈逐步完善治疗假设的能力。
AI For Science 也需要一个“星际之门”
Robin 系统的成功应用,特别是在 dAMD 治疗候选药物的发现上,或将是 AI 驱动科学发现的一个新范式。它首次将基于文献的假设生成与实验数据分析整合到一个持续的反馈系统中,实现了科学过程中关键智力步骤的自动化。
FutureHouse 认为,尽管 Robin 最初应用于药物研发领域,但其内置的 AI 智能体具有通用性,未来可应用于从材料科学到气候技术等多个不同领域的广泛发现。
为了推动该领域的进一步发展,FutureHouse 计划在当地时间 5 月 27 日将 Robin 的代码、数据和完整的智能体轨迹进行开源发布,希望通过这种简单工作流程编排智能体的方法能激励其他研究者构建自己的自动化发现系统。
然而,FutureHouse 的联合创始人兼 CEO Sam Rodriques 在最近的采访和此前的博客文章中也坦诚地指出了构建真正“AI 科学家”所面临的挑战。他认为,当前的 AI 系统,包括流行的聊天机器人如 ChatGPT 或 Claude,乃至此前走红的 Sakana 的“AI 科学家”,虽然可以在文献检索和数据分析方面提供帮助,甚至生成一些初步的脚本和图表,但这与真正的科学发现仍有距离。
图丨相关博文(来源:Sam Rodriques)Rodriques 强调,科学研究是一个高度开放性的问题,需要 AI 具备在无限的假设空间和观察空间中有效导航的能力,并能产生真正新颖的、甚至是颠覆性的概念,而不仅仅是增量式的想法。目前,AI 在假设生成方面仍存在主要差距,尤其是在产生具有“反向思维”的、未经测试的新颖假设方面(甚至也有人质疑 Robin 系统此次的发现也并不新颖)。为此,FutureHouse 计划训练自己的“反向”推理模型,以期弥补这一不足。
(来源:X)另一个关键挑战在于 AI 与物理实验的紧密结合。如何让 AI 理解哪些实验是可行的(构建“可供性模型”),如何评估实验结果的可靠性,识别潜在的偏见或混淆因素,并有效地利用这些多模态证据(如图像、测序数据等)来更新其对世界的认知,这些都是亟待解决的问题。
目前,实验室机器人的灵巧性尚不足以完成许多精细的实验操作,这成为了自动化科学研究的主要瓶颈之一。Rodriques 甚至呼吁政府支持一项类似“星际之门”的计划,投入巨资(他提议至少 1000 亿美元)来推动 AI 驱动的科学研究和实验自动化。
此外,对 AI 科学家系统的准确性和可靠性进行稳健且可扩展的评估至关重要。FutureHouse 内部已经建立了扩展人工评估的基础设施,并创建了 LAB-Bench,一个针对多种科学任务的开放评估集。同时,他也指出,不能期望大型语言模型在零样本情境下总能表现良好,需要创建能够模拟科学研究核心环节并提供高质量奖励信号的环境,以便大规模训练 AI 科学家智能体。这可能还需要强化学习领域的基础性突破,以适应高度复杂和开放的环境。
就 Robin 系统本身而言,FutureHouse 也认识到其仍有持续发展的空间。例如,虽然 Robin 能生成实验大纲,但未来的迭代版本旨在提供更详细、精确且可执行的实验方案,以最大限度地减少实验室执行所需的人工转译。
在数据分析方面,其核心智能体 Finch 目前在很大程度上仍需依赖领域专家的精心设计的提示工程来确保产生可靠且高质量的分析结果;未来的发展方向是赋予 Finch 更强的自主性,使其能够独立生成分析提示,或至少能够根据不同的数据模态智能调整现有提示,从而实现一个更为自主高效的科学发现流程。
最后,虽然 Robin 目前采用的是一种由大模型担当裁判的“锦标赛”机制来筛选和提名治疗相关的科学假设,但 FutureHouse 认为,未来的工作重点之一将是更好地将 AI 的假设生成和评估过程与人类顶尖科学家的专业判断和直觉进行深度对齐与融合,以期能够更稳定、更可靠地产生具有突破潜力的的高质量科学假设。
参考资料:
1.https://arxiv.org/pdf/2505.13400
2.https://www.linkedin.com/company/futurehouse/
3.https://techcrunch.com/2025/05/06/futurehouse-previews-an-ai-tool-for-data-driven-biology-discovery/
4.https://www.theinformation.com/articles/startup-building-ai-scientist?rc=qjiy7u
5.https://www.sam-rodriques.com/post/what-does-it-take-to-build-an-ai-scientist
6.https://x.com/SGRodriques/status/1925024623948902801
排版:初嘉实