AI | Xu'Blog

引言开放式发现(Open-Ended Discovery)——在解空间缺乏清晰结构、评估可能代价高昂或信号稀疏的领域中搜索新颖且高质量的解——仍然是自动科学推理中最困难的挑战之一。与梯度或凸性可以引导搜索方向的约束优化不同，开放式问题要求持续的探索、部分洞察的积累，以及在进展停滞时重新调整方向的能力。数学猜想证明、系统级代码优化、组合设计等问题都属于这一范畴。大语言模型(LLM)驱动的进化搜索正在改变这一领域的可能性边界。FunSearch (Romera-Paredes et al., 2024) 证明了 LLM 可以对种群中的程序进行变异，在组合数学和组合优化中发现新结果。AlphaEvolve (Novak et al., 2025) 通过引入 MAP-Elites 归档和岛屿模型并行扩展了这一思路，在矩阵乘法和图算法上取得了显著突破。然而这两个系统共享一个根本性局限：搜索过程本身受固定启发式规则支配。选择哪个父代进行变异、如何构造变异提示、何时执行评估、保留哪些知识——这些决策全部由预写规则决定。LLM 在其中只是嵌入在刚性循环中的提议引擎；它不能决定在提交前先跑一个本地测试，也不能暂停下来记录一个洞察以备后用。 CORAL (Qu et al., 2026) 的核心洞见在于：将更多搜索决策委托给自主Agent，而非预先定义为固定流程，能够释放显著更强的性能。FunSearch 硬编码了选择规则，而 CORAL 的 Agent 基于自身推理决定读取什么；AlphaEvolve 在每次提议后调用评估器，而 CORAL 的 Agent 可以选择先在本地验证、迭代草稿，仅在信心足够时才调用外部评估器；传统进化搜索在运行之间丢弃知识，而 CORAL 的 Agent 在共享持久记忆(Shared Persistent Memory)中积累观察、策略和可复用工具，这些知识在评估和 Agent 之间持续存在。 CORAL 引入了三个使这种自主性在大规模下可行的机制：共享持久记忆提供了基于文件系统的知识仓库，所有 Agent 都可读写；**异步多Agent组织(Asynchronous Multi-Agent Organization)**使 NN 个 Agent 无需直接消息传递即可并行探索；**心跳机制(Heartbeat-based Interventions)**在可配置的间隔注入结构化的反思、整合和转向提示，防止 Agent 陷入非生产性循环。在横跨数学优化和系统工程两类共十一个任务的评估中，CORAL 在每个任务上都取得了最佳最终得分，并建立了八项新的最优结果。其改进率——产生严格更优分数的评估占比——超过固定进化基线 3–10 倍，且通常在 5–20 次评估中收敛，而基线需要 60–100 次。在 Anthropic 的内核工程基准测试上，四个协同进化的 Agent 将已知最优成绩从 1,363 周期推进到 1,103 周期——提升 19%——全程未使用任何网络搜索。 ...