核心论点
科学研究中,为计算实验编写高质量的实证软件指那些旨在最大化某个可衡量质量得分(如对观测数据的拟合度)的软件。是主要的瓶颈。本文提出了一个革命性的AI系统,它能系统性地、自动化地创建并优化专家级的科学软件,其性能在多个领域超越了人类顶尖水平。
核心创新:AI驱动的软件开发引擎
系统架构:大型语言模型 (LLM) + 树搜索 (TS) 软件工程
该系统将软件开发定义为一个可评分任务 (Scorable Task)任何可以通过实证软件来解决,并且其产出结果可以被一个质量分数来量化的任务。,其目标是找到能最大化质量分数的程序代码。
可评分任务
+ 研究思路
重写代码
提出候选方案
执行与评分
智能探索
决定下一步优化方向
关键突破:超越传统自动化编程 软件工程
- 智能“突变”:与传统遗传编程 (Genetic Programming)一种演化计算技术,通过模拟自然选择来自动演化计算机程序。的随机突变不同,本系统使用LLM进行具备语义感知能力的智能代码重写,能产生更复杂、更有意义的程序变体。
- 外部知识注入:系统可以灵活地整合领域知识和外部研究思路(如顶尖论文、教科书或AI搜索结果),指导LLM生成更具创新性的解决方案。这是实现专家级性能的关键。
- 系统性探索:树搜索算法系统地在巨大的解决方案空间中导航,有效平衡了对当前最优解的“利用”和对新路径的“探索”,避免了陷入局部最优。
跨领域实证:超越人类专家的性能
该系统在六个不同的科学与工程基准测试中,均取得了SOTA(State-of-the-Art)或超越人类专家的成果。
生物信息学:单细胞数据分析 事实
成果:在一个公开的排行榜上,发现了40种新方法,其性能超越了所有人类开发的顶尖方法。
AI创新:系统自主地将两种现有方法(ComBat和BBKNN)的优点进行思想重组系统通过LLM分析多个方法的原理,并创造性地将它们的核心思想结合起来,形成新的、更强大的混合方法。,创造出一种性能提升14%的新颖混合算法。
流行病学:新冠住院预测 事实
成果:生成了14种不同的模型,其预测准确性全面超越美国CDC的官方集成模型及所有其他独立模型。
AI能力:展示了强大的软件工程能力,包括:从简短描述中复现现有模型、重组不同模型范式(如将流行病学理论与机器学习模型结合)、以及通过AI研究工具生成全新的预测策略。
地理空间分析:遥感图像分割 事实
成果:在DLRSD遥感数据集上,mIoU(平均交并比)指标超过0.80,显著优于现有学术论文中的所有报告结果。
AI策略:系统自主探索并应用了多种SOTA架构(如UNet++, SegFormer),并结合了强大的预训练编码器和测试时增强(TTA)一种在推理阶段通过对输入数据进行多种变换(如翻转、旋转)并平均预测结果,以提高模型鲁棒性和准确性的技术。等高级技巧。
神经科学:斑马鱼全脑活动预测 事实
成果:在ZAPBench基准上,性能超越了所有时间序列预测方法,且在多步预测上优于计算成本高昂的SOTA视频模型。
AI创新:不仅模型训练速度快了几个数量级,还能轻松地将一个可微分的生物物理神经元模拟器(Jaxley)一个用于模拟详细神经元模型的库,可以与机器学习框架(如JAX)结合进行端到端训练。整合到高性能解决方案中,展现了构建可解释模型的潜力。
通用时间序列预测:GIFT-Eval 事实
成果:在包含28个不同领域数据集的复杂基准上,超越了包括大型基础模型在内的所有对手。
软件工程壮举:系统不仅为每个数据集找到了最优解,还从零开始,仅使用基础库,构建了一个统一的、通用的预测程序库,该库通过自适应配置系统在整个基准上表现出色。
数值分析:求解困难积分 事实
成果:构建了一个通用的积分求解器,在标准库`scipy.integrate.quad()`失败的38个困难积分问题上,它成功解决了其中36个(训练集与测试集合计)。
AI发现:系统自主地“重新发现”并实现了经典的数学技巧,如将无限域分割为有限子区间的序列,并应用欧拉变换一种序列加速技术,能够通过对一个缓慢收敛的交错序列的前几项进行处理,来估算该序列的极限。来加速收敛,从而创建了一个比黄金标准更鲁棒的解决方案。
结论与展望
科学进步的革命性加速器 观点
作者们相信,这项工作代表了朝着加速科学进步迈出的重要一步。通过将探索一系列新想法的时间从数周或数月缩短到数小时或数天,该系统为科学研究带来了深刻的影响。
对于那些其解决方案可以通过机器进行评分的科学领域,我们正处于一场革命性加速的边缘。这种AI辅助的自动化软件工程方法,有望成为未来科学家不可或缺的强大工具。