DeepMind用AI重构科研流程,Kaggle竞赛击败84%选手_观速讯
近日,谷歌 DeepMind 联合 MIT、哈佛发布了一篇长达 71 页的论文,提出了一项突破性成果:他们开发了一种能帮助科学家自动生成“专家级科研实证软件”的 AI 系统。该系统结合大语言模型(LLM)与树搜索(tree search),首先通过 LLM 生成代码,再利用树搜索在巨大的解空间中系统地探索与改进,能在数小时至数天内完成人类需要数月才能完成的科研编程任务。
(资料图)
这一方法已在多个科学领域展现出“专家级成果”,包括生物信息学、流行病学、地理空间分析、神经科学、时间序列预测和数值分析,且往往优于现有人类顶尖方案。论文强调,AI 通过主动检索并整合外部复杂的研究思想,实现了“超人表现”,为加速科学发现提供了一条通用路径。
图|相关论文(来源:arXiv)
现代科研越来越依赖软件,从化学模型、天气模拟、流体力学建模,到社会系统预测,背后都是复杂的代码。然而开发适用于特定领域的代码通常需要长达几年繁琐的工作,且过程极其依赖研究者的直觉和经验,漫长的耗时极大限制了科学探索的效率。
研究团队将这些科学难题称为“可评分任务”(scorable tasks),定义为可通过“实证软件”(empirical software)解决的科学问题,而“实证软件”就是科研中所有为了最大化特定评估指标而设计的软件(例如对已有观测的拟合程度)。
该研究开发的 AI 系统旨在系统并且自动地生成可以解决“可评分任务”的“实证软件”,结合大语言模型与树搜索算法来更新迭代软件以提高软件的质量评分。
图|LLM 与树搜索自动生成科研软件的流程示意图(来源:arXiv)
首先,用户提供具体的问题描述、评价指标以及相关数据,接下来 LLM 根据这些线索生成候选 Python 代码,而候选程序都会在沙盒环境中运行并得到一个质量评分。接着树搜索程序会参考每个方案的得分,不断选择哪些候选解法值得进一步改进和扩展。
研究团队提出了 PUCT(Predictor + Upper Confidence bound applied to Trees)树搜索算法,收到 AlphaZero 的上置信界(Upper Confidence Bound UCB)启发,通过平衡开发和探索来选择新的候选程序。该系统的另一大关键是能够探索并整合来自外部来源的研究想法。这些想法可能来自科学论文、教材或搜索引擎(包括 Gemini Deep Research 和 AI co-scientist 等 LLM 工具),会被注入 LLM 提示以指导代码生成。
研究团队通过 2023 年的 16 场 Kaggle 比赛来开发和完善 AI 代码变异系统,并且与排行榜上的人类参赛者进行对照校准以取得高分。
图|Kaggle 实验结果(来源:arXiv)
上图展示了 AI 系统在这 16 场比赛中的平均公共排行榜百分位数表现:树搜索(TS)方法的表现显著优于单次 LLM 调用,甚至优于 1000 次 LLM 调用中最好的结果。在树搜索过程中,AI 会不断发现新的策略,使得分数出现“跳跃式”提升,而这些累积的跃升最终带来了最高质量的解决方案。
实验也说明在提示中加入针对具体问题的建议,能大幅提升表现。在“TS + 专家建议”实验中,研究员向模型提供了赢得 Kaggle 比赛的常见经验性指导;在“TS + Boosted Decision Tree (BDT)”实验中,模型被要求从零开始实现一个决策树库,而不使用现成的标准包。
图|单细胞批次整合过程示意图(来源:arXiv)
研究团队在六个不同的科学领域基准任务评估该方法,并且得到超过人类最新方法的表现。
在基因组学领域,这一系统在单细胞 RNA 测序(scRNA-seq)的批次效应消除任务中表现突出,研究员使用了 OpenProblems 批次整合基准来测量模型表现。面对高维且稀疏的数据,该系统不仅成功去除了混杂的批次效应,同时还保留了生物学信号。
系统共提出了 87 种全新的单细胞数据分析方法,其中 40 种都在 OpenProblems 排行榜上超越了人类专家开发的最佳模型。最具代表性的成果之一是 BBKNN (TS),它通过对现有方法 ComBat 与 BBKNN 的重新组合,实现了“理念重组”的突破,使整体表现比最佳已发表方法提升了 14%。
(来源:arXiv)
研究团队还交给了 AI 系统前沿的全脑神经活动预测任务,评估基准为斑马鱼全脑神经元活动预测基准(ZAPBench),目标是对超过 7 万个神经元的全脑活动进行建模和预测。实验表明,AI 系统在大多数预测范围内都优于所有基线模型,包括此前表现最佳的 Unet 视频模型;在一步预测任务中,专门设计的模型也达到了领先水平。
AI 系统进化出了能够结合丰富特征集、时间卷积、学习到的“全局脑状态”、神经元特定嵌入的模型。研究团队同时探索性地将“生物物理神经元模拟库(Jaxley)”整合进预测方案,进一步提升了模型的表现与解释力。这一探索仅是概念验证,却预示了 AI 在科学研究中不仅能拟合数据,还可整合科学原理(如生物物理模拟),为构建更可解释的模型开辟了新道路。
参考资料
https://arxiv.org/abs/2509.06503
运营/排版:何晨龙
相关推荐:
最新新闻:
- DeepMind用AI重构科研流程,Kaggle竞赛击败84%选手_观速讯
- 巴基斯坦西北部发生恐袭致12名士兵死亡
- 南微医学公布“手术电极刀”专利
- 苏州一公园把新鲜香蕉“塞”进售卖机,“禁止‘蕉绿’”贴纸萌翻市民
- 网络大V为“新善中国”打call:一起来听听@半杯馊茶 怎么说-当前关注
- 今日播报!海南悬赏10万,搜寻迫降无人机
- 报道:中国队加油!2025田径世锦赛今天开赛
- 焦点!索菱股份被执行99993元
- 目前,全省的气温都在30℃以下,户外的体感比较清凉_热议
- 焦点快看:腾冲市中和镇伍邦废旧金属回收经营部(个体工商户)成立 注册资本10万人民币
- 有用户称中信银行借记卡遭遇境外盗刷|焦点热讯
- OriginOS 6 与 PC / Mac 互联升级,手机电脑跨端随手传文件 今日视点
- 新iPhone不支持25W无线充,这真不赖苹果。
- 深圳楼市,新消息! 每日热文
- 完成得很轻松!马克西晒训练动态 还秀了胯下扣篮和大风车
- 五十五载日记为伴_独家焦点
- 新动态:固态电池概念持续火爆 是“实火”还是“虚火”?
- 今日精选:我国最大的单体露天铁矿积极打造“智慧矿山”
- 比创模塑取得一种汽车动力电池的包装箱专利,能对汽车动力电池进行有效固定包装|每日快播
- 焦点消息!比亚迪取得可检测拖刹的制动片结构等相关专利,能识别系统故障导致的拖刹
- 最新快讯!全面碾压!随着河南主场2-0完胜北京国安,三大事实不可否认!
- 津上机床中国9月12日斥资294.56万港元回购10万股_每日动态
- 预告!The Brand House将于美东时间9月16日盘前披露财报|焦点热议
- 焦点精选!暮山紫等四款配色/提供多种动力版本 五菱星光730配色曝光
- 热推荐:长城汽车取得发动机控制方法等相关专利
- 一汽申请升压充电系统的电磁兼容性能测试系统及测试方法专利,提高电磁兼容性能测试的全面性和准确性_即时
- 精选!秋日丽江 壁纸上新!
- 每日资讯:湘见万年文创商店来啦!多元创意展现怀化之美
- 期货交易中的市场心理与行为如何影响决策? 时快讯
- 中国—东盟人工智能合作开启“需求定制”新模式|快看
- 讯息:理想超充站累计上线数突破3200座 布局全国263个城市
- 魔术师:乔丹是GOAT,我虽然很爱詹姆斯但可惜他不是乔丹 今日精选
- 晋亿实业:融资净偿还217.3万元,融资余额1.96亿元(09-12) 每日简讯
- 渝三峡A000565每年分红怎么样(2025/9/13) 焦点观察
- 上期所原油期货2510合约夜盘收涨1.59%
- 玫瑰岛北京经销网络“腾挪”疑云 视焦点讯
- 本周苏超看点啥 | 常州主场谢幕战燃爆或改写多维度格局 消息
- 河北雄安万烽箱包销售有限公司成立 注册资本5万人民币-看热讯
- 信息:文安县耀沃塑料制品销售部(个体工商户)成立 注册资本50万人民币
- 马德兴谈中超争冠:成都海港继续紧咬,申花掉队、国安没啥希望了 前沿热点
- 外国人如何看待中国机器人_焦点速读
- 菲林格尔:二级市场股价波动受多种因素影响 重点聚焦
- 国内期货夜盘开盘多数上涨,沪金涨0.37%,沪银涨0.89%
- 文化中国行丨繁荣长江文化是“人民至上”的鲜活体现 每日焦点
- 【新要闻】A股涨至箱顶,震荡中把握轮动
- 视频|人机共生,你可以“返老还童”,吃“幻觉零食”,还能跳迪斯科治疗老年痴呆!
- 倩碧控股(08367.HK)拟折让约16.67%配售最多1380万股 净筹约243万港元
- 通信行业9月12日资金流向日报
- 观点:72件(套)清代后期人物画精品亮相天津博物馆
- 每日视讯:蚂蚁集团与浙商银行签署深化战略合作协议
- 从2岁等到13岁,广西女孩终于在福建获得了角膜,眼里的肿物顺利切除
- 首开股份:盈信公司间接持有宇树科技股权比例很低 每日看点
- 库里回忆新秀赛季与科比交手:我对他充满敬畏,他一直肘击我
- 倍轻松:公司共计13款产品已进入深圳市民政局公布的2024年智能居家适老化改造消费提升专项活动参与品牌产品清单|焦点速读
- 低空风洞装置落地深圳龙华_当前焦点
- 即时焦点:太平洋航运回购400万股 资金975万港元
- 嘀嗒出行上线全新AI头像功能,支持更多个性化表达
- 蔚来汽车取得ADAS控制相关专利,延长存储器使用寿命
- 电投产融(000958.SZ):拟以良村热电资产开展类REITs续发业务 简讯
- 生意社:9月12日无棣鑫岳石油焦报价下调_每日视讯
- 以高水平赛事撬动城市发展 专家齐聚沈阳谋篇“体城融合”
- 资讯:今飞凯达:募投项目“年产5万吨新能源汽车用低碳铝型材及制品技改项目”结项
- 焦点快看:南方泵业(300145.SZ):近年来,公司泵产品在液冷领域的应用不断提升
- 今日视点:港元拆息全线上涨 一个月拆息报3.16196%
- 生意社:9月12日天津港地区金属硅99#硅硅价格行情_最新资讯
- 加拿大推出大规模基建项目以提振经济
- 立讯精密成交额超200亿元|今日看点
- 盛弘股份与MTE签署战略合作协议_每日播报
- 每日看点!渝超对阵图出炉!9月13日首场比赛渝中队对阵九龙坡队
- 水龙在狂欢,反诈在行动——贵州银行剑河支行开展反诈宣传活动
- 王牌单场命中22记三分球 打破WNBA单场三分命中纪录_每日速看
- 午评:“逼疯”!股民破口大骂 热议
- 手绘长卷丨你不知道的桂林抗战文化城_每日热门
- 大雨中驱车40公里,烟台银行员工上门为老年客户解燃眉之急
- 如何理解期货市场中的合约细则? 焦点热文
- 罗永浩再回应与西贝争议:我不反对预制菜,终极诉求只是让消费者获得知情权-每日速看
- 每日速讯:沃勒尔:我们就喜欢纳帅现在的样子,必须给他发泄情绪的自由
- 当前资讯!新华社快讯:“十四五”期间,全国人民调解组织共调解纠纷7900多万件
- 【甲秀评】草根足球“同坪共振”的盛宴
- 家长的“开学第一课”-资讯
- 拟发30亿永续债又靠上宇树科技,首开股份股价7天上涨近9成 今日观点
- 银行对资本市场的影响有哪些表现?
- 时讯:中标 | 4301万!安徽蚌埠固镇县机动车充电桩采购及安装履约信息递交
- 天气渐转凉,糖尿病肾病患者要注意防止发生心衰_每日速递
- 快资讯丨生意社:9月12日唐山市场冶金焦价格暂稳运行