相关链接:

Abstract#

大语言模型（LLM）的最新进展使得解决数学问题取得了实质性进展。然而，现有的基准测试往往无法反映现实世界的复杂性，后者需要开放性、跨学科性以及计算工具的整合。为了弥补这一差距，我们引入了 ModelingBench，一个新颖的基准测试，其特点是来自数学建模竞赛的、受现实世界启发的开放性问题，涵盖了从城市交通优化到生态系统资源规划等多个领域。这些任务要求将自然语言转化为正式的数学表述，应用适当的工具，并生成结构化的、可论证的报告。ModelingBench 支持多种有效解，捕捉了实践建模中的模糊性和创造性。为了解决这些挑战，我们提出了 ModelingAgent，一个多智能体框架，它协调工具使用，支持结构化工作流，并实现迭代的自我优化，以生成有充分依据且富有创造性的解决方案。实证结果表明，ModelingAgent 显著优于强大的基线方法，并且常常能生成与人类专家难以区分的解决方案。总之，我们的工作为评估和推进在开放式、跨学科建模挑战中的现实世界问题解决能力提供了一个全面的框架。所有代码已发布，以供未来研究使用。

1. Introduce#

理解并驾驭现实世界是人类智能的一个标志（Bassett 和 Gazaniga, 2011）。智能的核心不仅仅是检索事实或操纵符号，而在于感知复杂的、常常是模糊的情境，并做出合理的、目标导向的决策。人类为此目的开发的最强大的工具之一就是数学：它不仅仅用于解决抽象难题，更用于将混乱、动态的场景结构化为可分析的形式（Giordano 等, 2013）。这个过程——数学建模——是科学、经济学和政策制定中人类推理的基础。它涉及将现实世界的情境转化为正式的数学表示，对其进行分析，并解释结果以指导决策。

数学建模的定义

数学建模是用数学语言表述一个抽象模型以描述真实系统复杂行为的过程。

从这个意义上说，数学建模不仅是一项技术技能，更是现实世界问题解决智能的试验场。最近大语言模型（LLM）的进展在抽象数学问题（如符号代数、定理证明和谜题求解）上表现出了令人印象深刻的性能，但在基于现实世界的任务上常常表现不佳（Satpute 等, 2024）。例如，一个模型可以计算积分或证明引理，但无法模拟资源约束下的疾病传播（Shah 等, 2024）或设计成本效益高的运输网络（Jonnala 等, 2024），而建模在其中是核心。解决这些问题需要的不仅仅是计算：它需要严谨的数学表述来将推理扎根于现实，战略性地使用工具来主动获取数据，以及跨学科的视角来培养创新的解决方案。开发涉及此类任务的基准和方法对于推动 LLM 走向具有实际效用的智能至关重要。

为了弥补这一差距，我们引入了 ModelingBench，一个用于评估 LLM 在现实世界建模问题上表现的新颖基准，其核心围绕图 1 中确定的五项核心技能。具体来说，我们通过从过去的数学建模竞赛中筛选问题来构建 ModelingBench，涵盖体育分析、金融建模、生物系统和运营管理等领域，以鼓励跨学科推理和创新。受人类参与者可无限制使用工具的启发，ModelingBench 提供了一套丰富的工具（详见表 3），包括文件操作、网络访问和代码执行，创建了一个用于自由探索和端到端建模的沙盒环境。

为了解决建模挑战，我们引入了 ModelingAgent，一个多智能体框架，具有四个专门的角色——想法提出者、数据搜索者、建模实现者和报告撰写者——它们协作产生严谨的数学建模解决方案。此外，我们提出了一种新颖的、可泛化的自我演化算法，由一个专门的评论模块驱动，该算法持续评估和优化每个智能体的工作流程，以实现迭代的自我改进。

我们通过与现实世界竞赛标准一致的评估来评价 ModelingAgent，强调最终建模报告的完整性、结构连贯性和质量，特别关注解决方案的扎实性和创新性。为了解决评估开放式建模任务固有的主观性，我们还引入了 ModelingJudge，一个基于 LLM 的多角色框架，其中模型扮演数学专家、数据专家和特定问题评估者的角色。这种设置模拟了现实世界中专家参与的评审实践，同时自动化了对复杂的、开放式问题的评估。

我们的实验结果表明，ModelingAgent 显著优于配备了规划、推理和自由形式工具使用的强大基线方法，实现了高达 20% 的绝对提升。然而，与获奖的人类解决方案相比，仍存在约 10% 的性能差距，表明在结构连贯性、解决方案完整性和分析深度方面还有进一步改进的空间。我们还分析了评论模块的评分行为，显示出随时间明显的上升趋势，验证了 ModelingAgent 作为一个自我改进框架的有效性和透明度。此外，人工评估显示，模型的实现成功地在超过 50% 的情况下欺骗了人类评委，进一步证明了其产生令人信服的、类人解决方案的能力。总之，我们的贡献有三点：

我们提出了 ModelingBench，这是第一个将数学建模作为测试 LLM 现实世界智能的基准，通过开放式的现实世界挑战来实现。
我们介绍了 ModelingAgent，一个受现实世界人类协作启发的多智能体系统，具有一个可泛化的自我演化算法，能够实现迭代改进。
我们开发了 ModelingJudge，一个与竞赛对齐的、基于 LLM 的评估框架，能够对开放式建模任务进行专家在环的自动评判。

随着 LLM 在标准数学基准上逐渐饱和，我们提供这项工作作为对 LLM 现实世界智能进行更实用、更扎实、更可解释评估的基础。

LLM 智能体智能的评估。 Sternberg 的智力三元理论（Sternberg, 1997）将智能分为三个组成部分：分析性、实践性和创造性。当适应到 LLM 智能体的背景下时，分析性智能对应于智能体的基础推理能力，可以通过可靠的推理技能（Wang 等, 2024b; Putta 等, 2024; Zhang 等, 2025）和有效的工具使用（Wu 等, 2023; Liu 等, 2023, 2024b）在数学（Cobbe 等, 2021; of America, MAA）、问答（Yang 等, 2018）和规划（Xie 等, 2024）等领域进行评估。实践性智能强调智能体在现实世界场景中的适应性，通过与各种环境的主动交互来展示，包括工具环境（Li 等, 2023）、网络环境（Yao 等, 2022; Zhou 等, 2023）、具身环境（Li 等, 2024b; Yang 等, 2025）和游戏环境（Costarelli 等, 2024）。最后，创造性智能是探索最少的维度，挑战智能体开发新颖的解决方案（Qian 等, 2023; Cai 等, 2024）并参与创造性的工具使用（Qian 等, 2024a）以高效解决问题。在此框架基础上，我们的 ModelingBench 提供了一个全面的测试平台，用于评估所有三种类型的智能，重点是数学推理、基于现实的交互和创新的建模策略。我们在表 1 中进一步提供了我们的基准与其他近期基准的比较。

面向现实世界问题解决的协作智能体。 我们的工作专注于多智能体系统在现实世界问题中的实际应用，这是一个 LLM 智能体经常面临重大挑战的领域（Huang 等, 2025）。先前的研究已经探索了基于现实的多智能体应用在各个领域，包括创意写作和知识推理（Wang 等, 2024c）、法律合同审查（Li 等, 2024a）、学术写作（Gao 等, 2025）、代码生成（Zhu 等, 2025; Wang 等, 2025a; Guo 等, 2025）和科学实验自动化（Ghafarollahi 和 Buehler, 2024）。虽然都强调协作，但我们的方法专门针对复杂的数学建模任务。此外，我们的框架融入了受智能体反思和自我演化策略启发的持续自我改进机制（De Zarza 等, 2023; Qian 等, 2024b; Wang 等, 2025b）。先前的自我改进方法主要集中在记忆增强（Guo 等, 2023; Hatalis 等, 2023; Zhang 等, 2024）和持续学习（Majumder 等, 2023; Dai 等, 2025）上，以支持长期上下文保留和增量知识更新。在此基础上，我们引入了一个评论模块，使智能体能够进行自我反馈和解决方案评分，从而显著提高了智能体生成解决方案的现实世界扎实性。

3. ModelingBench#

数学在历史上植根于实践需要，长期以来一直是我们解读和导航世界的透镜（Giordano 等, 2013）。建模延续了这一传统，它不仅需要计算能力，还需要创造力和领域知识。

数据来源。 为了真实地测试基于现实的多方面能力，我们从 COMAP 的国际知名建模竞赛中汲取灵感，这些竞赛促进了跨教育水平的问题解决卓越性：

MCM/ICM: 面向本科生的关于连续、离散和跨学科问题的竞赛。
HiMCM/MidMCM: 面向高中和初中生的竞赛，具有可访问且现实的任务。
IM²C: 一项促进现实世界建模参与的全球性挑战。

这些基于现实世界或政策驱动挑战的问题，并由跨学科专家验证，从覆盖2000-2025年的公共数据库中收集。它们涵盖了多个领域，为构建一个全面的、跨学科的基准提供了丰富的基础。

数据筛选。 如图2左侧所示，我们首先使用 GPT-4o 对所有问题在数据可获取性、建模难度和图像清晰度上进行启发式评分（详见附录 B），以确保基准质量。基于这些评分，我们手动筛选出满足以下标准的高质量问题：(1) 所需数据要么可在线获取，要么在问题描述中已提供；(2) 任务对于 LLM 来说是可行的，无需物理交互或测量；(3) 如果图像是必需的，那么图像必须足够清晰以准确转换为文本，确保与纯文本模型的兼容性。经过这个过程，我们从100多个候选问题中筛选出68个高质量问题，分为三个难度级别。详细统计数据见表2。

工具增强。 在现实世界的竞赛中，参与者可以自由使用计算机进行在线搜索和编码，这对于构建可靠的模型和分析至关重要。为了使我们的基准具备类似能力，我们提供了一个增强的沙盒环境，包含核心工作空间、文件管理、网络搜索、图像处理以及可调用的代码执行、PDF 解析和其他常用功能（详见表3）。该环境作为我们智能体设计的操作空间，允许模型主动与工具交互、解释问题并模拟现实世界的建模工作流。通过这种设置，ModelingBench 为通过数学建模评估 LLM 的现实世界问题解决能力提供了一个真实、多样且具有挑战性的基准。

4. ModelingAgent#

为了更好地处理数学建模问题，我们从现实世界的竞赛团队中汲取灵感，在这些团队中，具有不同专业知识的参与者在导师的指导下协作。这激发了我们设计多智能体框架的动机，该框架用 LLM 模拟这种问题解决动态。

4.1 Multi-Agent Framework#

基于图1中确定的五项核心技能，我们引入了一个由四个专门智能体组成的多智能体框架：想法提出者 $A_{IP}$ 、数据搜索者 $A_{DS}$ 、模型实现者 $A_{MI}$ 和报告撰写者 $A_{RW}$ 。每个智能体旨在通过迭代交互来处理复杂的数学建模任务，并由一个中央评论模块 $C$ 进行协调和优化。所有智能体通过共享内存进行通信，实现无缝的信息交换和集体问题解决。

想法提出者 $A_{IP}$ （关于创新与跨学科推理）。想法提出者负责针对给定问题 $(T_{A_{IP}})$ 生成合适的建模方法。为实现此目标， $A_{IP}$ 被指示：(1) 将问题分解为清晰、可管理的子任务；(2) 抽象并简化这些子任务，同时提供明确的理由。对于每个子任务，它提出初步的建模想法，并通过与评论模块 CC 的交互迭代优化这些想法。虽然 $A_{IP}$ 可以参考附录 C 中预定义的常用建模技术列表，但鼓励其根据问题背景创造性地调整方法。

数据搜索者 $A_{DS}$ （关于战略性工具使用）。数据搜索者负责定位现实世界的数据集，以支持所提出模型的实现 $(T_{A_{DS}})$ 。为实现此目标， $A_{DS}$ 被指示：(1) 识别建模方法所需的关键变量，(2) 积极利用沙盒环境中的可用工具。在数据搜索过程中，它持续与沙盒交互，并通过评论模块 $C$ 的反馈优化其轨迹。重要的是， $A_{DS}$ 紧密地与外部网络资源交互，以确保最终模型基于真实可靠的数据。

模型实现者 $A_{MI}$ （关于数学建模与基于现实的推理）。模型实现者负责将抽象的建模想法转化为精确的、可执行的数学表述 $(T_{A_{MI}}^1)$ ，并在代码中实现这些模型以生成结果并进行分析 $(T_{A_{MI}}^2)$ 。为实现这些目标， $A_{MI}$ 被指示：(1) 将概念性提议转化为严谨的数学表达式，(2) 利用提供的工具来实证地实例化模型并分析结果。在整个过程中， $A_{MI}$ 与评论模块 $C$ 交互，以迭代优化数学表述及其计算实现。

报告撰写者 $A_{RW}$ （关于科学沟通与说服性写作）。报告撰写者负责将所有其他智能体的活动综合成一份连贯且全面的最终报告。具体来说， $A_{RW}$ 被指示：(1) 动态地从共享内存中识别和检索相关信息，(2) 将整体建模工作流组织成一个结构良好的叙述。该智能体持续与所有模块和共享内存交互，将它们的输出整合成一份精炼的报告，作为评估的最终交付物。

评论模块 $C$ （关于优化与系统思维）。评论模块通过与所有其他智能体交互来发挥核心作用。它专门负责根据每个智能体 $A$ 的特定目标 $T_A$ 提供反馈并对其行为进行评分。评论模块扮演“导师”的角色，通过迭代反馈指导“学生”智能体，帮助它们改进性能和协调性。评论模块的详细设计和优化算法将在第 4.3 节中介绍。

4.2 Multi-Agent Orchestration#

除了所有智能体模块，我们还设计了一个共享内存，作为信息交换的中心枢纽，允许智能体读写信息以实现无缝协调。建模过程始于 $A_{IP}$ ，它提出候选建模想法并将其存储在内存中。基于这些想法， $A_{MI}$ 形式化模型以指导 $A_{DS}$ 进行数据收集，而检索到的数据可能进一步优化模型实现。两个智能体都通过评论模块 $C$ 的反馈迭代改进其输出，所有更新都记录在内存中。

同时， $A_{RW}$ 监控共享内存并将所有智能体的输出综合成一份连贯的报告。在实验中，所有智能体和评论模块都使用相同的基础模型，以确保评估的一致性。完整的提示策略、评论模块和共享内存配置在附录 D 中提供。

4.3 Critic Module Design#

除了受人类启发的智能体团队合作，我们提出了一种通用的评论算法，用于多智能体系统中的自我演化。评论模块根据算法 1 概述的每个智能体的目标 $T$ ，通过提供有针对性的评估和反馈来提高智能体性能。给定一个智能体 $A$ 及其目标 $T_A$ ，该智能体首先生成 $n$ 个候选解决方案：

$S_0={S_1^0,S_2^0,…,S_n^0}∼A(⋅∣T_A),$

然后，评论模块 $C$ 使用 $m$ 个评分标准 $R_T={R_T^1,…,R_T^m}$ 评估每个解决方案，并给出相应的分数和反馈：

$O_i^0=\sum_{j=1}^mC(⋅∣S_i^0,R_T^j),F_i^0=C(⋅∣S_i^0,R_T).$

评估后，丢弃得分最低的 $k$ 个解决方案，智能体根据反馈生成 $k$ 个新的解决方案。其余排名前 $n−k$ 的解决方案被精炼，形成下一个解决方案集。

此过程最多迭代 $M$ 次。最后，选择最佳解决方案：

$S_{final}=\mathop{\arg\max}\limits_{S_{1}^M \in S^M } O_1^M.$

附录 C.1 和图 8 提供了详细的图示和示例。这种通用的评论机制在我们框架内的各种智能体和任务中一致应用，如第 4.1 节所述。值得注意的是，我们的算法不需要额外训练，可以在推理过程中无缝应用以实现有效的自我改进。

5. ModelingJudge#

鉴于 ModelingBench 中任务的开放性，我们提出了 ModelingJudge，一个多专家参与的评估框架，模拟现实世界的建模竞赛。与 MCM/ICM 类似，其排名仅取决于报告质量，ModelingJudge 根据最终报告评估 LLM 的性能，这些报告必须全面记录建模过程并满足所有任务要求。借鉴 MCM 的多评委评审系统，我们的框架还整合了多样化的专家视角，以实现平衡和稳健的评估，详见附录 E。

专家角色整合。 ModelingJudge 使用 LLM 模拟专家角色，包括一位数学建模专家、一位数据分析专家，以及根据 ModelingBench 定义的任务领域选择的两位特定领域专家。每位专家从其学科角度评估报告。例如，在图 1 所示的问题中，将包括一位环境科学家角色，专注于生物多样性和土壤健康等生态因素，应用生态学原理进行判断。ModelingBench 中预定义了包含的具体角色，每位评委被要求严格在其指定的相关方面进行评估。

评估指标。 报告根据改编自 COMAP 评审评论的三个维度进行评估：结构连贯性、解决方案完整性和解决方案质量。结构连贯性涵盖清晰度和组织性，而完整性检查是否满足所有任务要求。解决方案质量考虑建模技术的严谨性、数据的相关性、分析的深度和正确性以及方法的独创性。为了减轻主观性，解决方案质量评估使用多个专家视角，而结构连贯性和完整性则由单个 LLM 评委评估。评估指令的详细信息见附录 E。

需要注意的是，我们模拟专家角色是为了镜像真实的评审委员会，如官方评论所述。其目的不是强制执行特定领域的专业知识，而是确保面向方面的评估。因此，我们采用 GPT-4o 作为 ModelingJudge 的骨干，利用其强大的指令遵循能力，而不是深厚的领域知识，这已被证明在之前的“LLM 即评委”任务中是有效的，使其非常适合此角色。此外，我们还对 ModelingJudge 进行了小规模的初步测试，以验证框架的有效性。请参阅附录 E。

6. Experiments#

在本节中，我们展示了 ModelingBench 上的基准测试结果，并评估了 ModelingAgent 框架在处理复杂建模问题方面的有效性。

6.1 Experiment Setup#

基线方法。 我们将 ModelingAgent 与以下方法进行比较：(1) 原始生成，模型直接生成报告，无法访问工具；(2) 工具智能体，模型使用沙盒环境和一个规划器来自主应用工具，作为一个强大的智能体基线。这些也作为消融实验，以测试工具访问和结构化角色指导的影响。所有指令细节见附录 J。

模型。 我们评估了开源和闭源 LLM，包括 GPT-4o (Hurst et al., 2024)、Deepseek-Chat (Liu et al., 2024a)、Gemini2.0-Flash、Gemini-2.0-Thinking (Team et al., 2023)、Llama3.1-72B-Instruct (Dubey et al., 2024)、Qwen2.5-70B-Instruct (Team, 2024a) 和 QwQ-32B (Team, 2024b)。请注意，大型推理模型（LRM）也被包括在内。我们排除了较小的模型（约 7B 参数），因为它们在复杂任务和指令遵循方面表现不佳。

评估指标。 评估使用 ModelingJudge 框架和第 5 节中的标准进行，所有实验均使用 GPT-4o。解决方案质量得分在专家角色上取平均值，最终结果对所有 ModelingBench 问题取平均值。虽然可以使用加权指标，但当前最终得分采用简单的等权平均。

6.2 Results#

我们在表 4 中展示了主要结果，突出了以下关键发现：

ModelingAgent 显示出有效性。 ModelingAgent 在 ModelingJudge 框架下均优于两个基线方法，特别是在解决方案质量方面，这得益于想法提出者在增强创造性和高层次解决方案多样性方面的作用。其结构化的协调也导致了更扎实的分析和更高质量的报告，从而实现了更好的整体性能。

顶尖人类报告仍然胜出。 由于我们的基准基于真实竞赛，我们将 ModelingAgent 与获奖的人类报告进行了比较，发现它仍然落后。这一差距突显了 LLM 在处理复杂建模要求和保持结构连贯性方面的局限性。人类在利用工具进行数据收集和分析方面也更有效。有趣的是，我们发现即使是 LRM 也面临类似的挑战，这进一步突显了建模任务的普遍难度。

创新性对 LLM 来说仍然是一个挑战。 虽然工具访问提高了扎实性，但创新性方面的显著提升仅出现在 ModelingAgent 的结构化方法中。尽管如此，创新性仍然是所有方法中 LLM 最难达到的指标，表明在生成真正有创造性和人类水平智能的解决方案方面存在持续的挑战。

6.3 Analysis#

评论趋势分析。 图 3 展示了在智能体-评论优化过程中（涵盖想法提出、数据搜索和模型实现）评论模块的评分趋势。总体上升趋势证明了 ModelingAgent 在自我改进方面的有效性以及评论模块的自适应评估能力。尽管由于评分偏差，不同模型的绝对得分有所不同，但每个模型内部的持续改进凸显了受人类实践启发的多智能体自我演化的前景。

案例研究。 如图 4 所示，GPT-4o 最初使用了标准的风险评估模型，但缺乏量化深度。根据评论模块的反馈，它集成了蒙特卡洛模拟进行概率分析，从而获得了更精确的战略见解。评论模块认可了这一改进，并给出了更高的分数，说明了反馈驱动的优化如何直接提升解决方案质量和评估结果。除了这个案例研究，我们还在附录 G 中展示了人类表现，并在附录 H 中进行了错误分析，指出了进一步改进的差距。

人工评估。 我们使用竞技场式设置进行了人工评估，评估者对同一问题的随机报告进行排名（详见附录 F）。该评估探讨了三个问题：(1) 哪个模型表现最好？(2) 哪种方法产生最佳结果？(3) 模型生成的解决方案能否通过图灵测试？

图 5 显示，在 ModelingAgent 框架下的 QwQ-32B 始终被人类评估者偏好，这与表 4 中它的高分数一致。相比之下，Gemini-2.0-Think 和 Llama3.1-70B 表现不佳，从未被排在前列。同时，我们观察到 ModelingJudge 和人类判断之间存在一些差异，我们在附录 F 中进一步解释了这一点。尽管如此，总体趋势证实 ModelingJudge 与人类偏好仍然很好地保持一致。此外，ModelingAgent 的解决方案优于两个基线，并且值得注意的是，常常被排在人类专家报告之上。在图灵测试中，超过 50% 的模型生成解决方案与顶尖人类报告无法区分，表明我们的方法在质量和内容上都能产生与人类相当的输出。

7. Conclusion and Future Work#

我们的工作引入了 ModelingBench，一个连接抽象数学推理与现实世界问题解决的数学建模基准，以及 ModelingAgent，一个多智能体 LLM 框架，通过结构化协作、迭代优化和战略性工具使用来支持复杂建模。我们的 ModelingJudge 评估框架进一步实现了受现实世界竞赛启发、与专家对齐的评估。总之，这些贡献展示了 LLM 在多个领域应对实际挑战的潜力。尽管相比基线有明显改进，ModelingAgent 在创造力、数据可靠性和领域适应方面仍面临挑战，这为在现实世界背景下推进 LLM 驱动的建模指出了开放问题和新机遇。

未来的工作可以集中在扩展多模态推理能力，使模型能够整合视觉、文本和结构化数据，这对于解决气候变化适应、医疗保健和经济政策等领域的复杂现实问题至关重要。此外，推进具有更强因果推理能力和人在环反馈的智能体自我演化框架，对于提高解决方案的可靠性和促进更负责任的决策至关重要。我们设想这项工作作为一个基础，用于重新思考当 LLM 在标准基准上的性能趋于收敛时如何评估它们，并用于激发新的跨学科方法，在 NLP、数学建模和高风险决策的交叉点上扩大现实世界的影响。

Limitations#

这项工作主要通过数学建模的视角研究 LLM 和 LRM 应对现实世界挑战的能力。然而，它没有全面评估视觉语言模型（VLM），而 VLM 对于需要视觉感知的任务（如解释地图、图表和复杂的视觉数据）越来越关键。虽然我们整合了一个多模态理解工具来缓解这一限制，但这只是一个权宜之计，并不代表真正的原生视觉推理。将我们的评估扩展到包括 VLM 是未来研究的一个重要方向。值得注意的是，在数据整理过程中，我们排除了许多需要物理模拟或复杂视觉理解的问题，这些问题目前仍超出 LLM 的能力范围。

此外，我们的基准包含的问题数量有限，这主要归因于两个因素：(1) 严格的质量控制过程导致排除了许多不合适的数据点；(2) 我们的问题集受限于 COMAP 竞赛中建模挑战的可用性。这些因素使得大规模扩展数据集既费力又具有挑战性。尽管如此，与 AIME 和 AMC 等成熟竞赛类似，我们的基准旨在是动态的，随着每年发布新的建模问题而纳入其中。这确保了基准能够保持相关性并反映不断变化的现实世界挑战。

最后，建模任务的开放性使得客观评估特别具有挑战性，尤其是在缺乏可扩展的人在环评估的情况下。虽然我们提出的 ModelingJudge 框架使用 LLM 模拟专家评估，并通过在所有实验中使用 GPT-4o 来确保一致比较，但自动化评判中的潜在偏见和随意性仍然存在。为了解决这个问题，我们用人工用户研究来补充我们的评估。我们希望未来的工作能够在此基础之上，为开放式的、跨学科的问题解决开发更稳健、更透明、更无偏见的自动评估框架。

Ethical Statement#

略

Acknowledgment#

略

附录 A 背景与贡献#

我们在表 1 中展示了我们的基准对 LLM 能力不同维度的评估，并强调了它与现有基准的不同之处。此外，我们在表 5 中提供了示例问题，以更好地说明和阐明我们基准的范围。请注意，这些示例是原始问题的简化版本，仅用于说明目的。

数学建模竞赛与传统数学竞赛有根本区别。参与者不是解决简短的、定义明确的问题，而是以 3-4 名学生组成的团队，在 2-3 天的时间内，通常在一位导师的指导下（反映在我们的 ModelingAgent 设计中），应对复杂的现实世界挑战。结果不是一组答案，而是一份 20-25 页的报告，结构类似于研究论文，并最终由专家评委进行评估（由我们的 ModelingJudge 设计捕捉）。问题是开放式的、跨学科的，需要融合建模专业知识、领域知识和创造力。参与者可以自由使用编码和网络搜索等工具，竞赛在线上进行，无需实体场地。

我们的主要贡献是开发了一套全面的数学建模基准、解决方案机制和评估框架，共同促进了 LLM 在现实世界问题中的扎实应用。通过将我们的研究框架设定为数学建模（这本身就是一个新颖且未被充分探索的视角），我们突显了 LLM 在数学、工具使用、基于现实的推理、环境交互和创造力方面的优势和局限性。

B 数据整理细节#

我们包含了用于指导模型进行分类的系统提示，如图 6 所示。在此之后，我们对所有建模问题进行了彻底的手动质量检查，特别是那些在自动分类中至少获得一个“C”评级的问题。对于这些情况，我们要么丢弃问题，要么将其修改得更简单、更 LLM 友好。此外，我们对所有数据进行了严格的可访问性和可行性检查，以确保每个问题都适用于纯文本 LLM。

我们根据先前的评级方案启发式地划分难度级别。具体来说，获得三个“A”评级的问题被归类为“简单”，那些恰好有一个评级低于“A”的被归类为“中等”，其余问题被归类为“困难”。这种分类支撑了表 2 中报告的难度分布。

C 参考建模方法细节#

在想法提出阶段，我们指示模型通过参考既定的数学建模方法论来生成多种可行的建模方法。这些参考作为高层次的概念指南，但通常需要进一步调整才能应用于扎根的现实世界场景。请参考图 7 了解这些常见的建模方法。

有趣的是，我们观察到我们的 ModelingAgent 不仅有效地调整了这些方法，而且展示了综合不同技术并提出不在原始参考中的新颖方法的能力。这突显了模型超越单纯复制的创新和创造性问题解决能力。

C.1 评论模块实现细节#

评论模块集成在多个智能体工作流中，以增强目标 T 的特定属性，这些属性根据每个智能体的不同目标而变化。在本节中，我们介绍设计和实现评论模块的算法。

我们的评论过程在算法 1 中概述。假设我们有一个旨在完成特定目标 $T_A$ 的智能体 A，并将评论模块记为 CC。最初，指示智能体生成一组 n 个候选解决方案：

$S_0={S_1^0,S_2^0,…,S_n^0}∼A(⋅∣T_A),$

其中上标 0 表示这些解决方案属于初始生成。

接下来，评论模块 $C$ 根据一组专门针对目标 $T$ 的 $m$ 个评分标准评估每个候选解决方案。这些评分标准表示为： $R_T={R_T^1,R_T^2,…,R_T^m}$ 。对于每个评分标准 $R_T^j$ ，评论模块分配一个子分数以及有针对性的反馈，以帮助改进被评估的解决方案。总体评估分数 $O_i^0$ 计算为这些子分数的总和，组合反馈表示为 $F_i^0$ ，用于每个解决方案 S10S10：

$O_i^0∼\sum_{j=1}^mC(⋅∣S_i^0,R_T^j),F_i^0∼C(⋅∣S_i^0,R_T)$

评估之后，解决方案进入后处理阶段。为了确保计算资源的有效分配并保持解决方案质量，评论模块根据分数丢弃排名靠后的 $k$ 个解决方案。因此，保留得分最高的前 $n−k$ 个解决方案。

为了保持候选解决方案池的一致性，智能体生成 k 个新的解决方案。这一步通过指示智能体根据评论模块的反馈生成新颖的解决方案，明确鼓励创新探索。因此，下一次迭代的解决方案集由以下组成：

精炼的顶级解决方案： $S_1^1,S_2^1,…,S_{n−k}^1$ ，通过基于反馈精炼解决方案获得。
探索的新解决方案： $S_{n−k+1}^1,…,S_n^1$ ，替换先前丢弃的解决方案。

这个评估和精炼过程最多迭代到预定的最大迭代次数 $M$ 。在最后一次迭代之后，解决方案集 $S_M={S_1^M,S_2^M,…,S_n^M}$ 经历一个最终选择阶段。选择得分最高的解决方案作为最终候选 $S_{final}$ ，用于建模流程的后续阶段：

$S_{final}=\mathop{\arg\max}\limits_{S_{1}^M \in S^M } O_1^M.$

图 8 显示了这个评论过程的一个说明性示例，其中考虑了 $n=3$ 和 $k=1$ 的情景。最初，智能体提出三种不同的建模方法。每个解决方案都收到评论模块的反馈和分数。得分最低的解决方案（生态网络模型）被丢弃，并在后续迭代中被一个新引入的解决方案（随机模型）取代，而其余解决方案则根据评论模块的反馈进行进一步精炼。在最后一次迭代之后，整个轨迹和最终选定的解决方案将被放入共享内存。

D ModelingAgent 细节#

我们在多智能体框架的多个阶段使用评论模块，应用针对不同评估目的的不同评分标准。这些评分标准源自为每个问题发布的官方评委评论，我们手动将评委强调的核心方面总结为有针对性的标准，以更好地指导建模优化过程。

具体来说，我们为应用评论模块的每个方面设计了以下评分标准：

建模想法提出的评论（想法提出者）:
- 相关性： 确定提出的方法是否充分解决了子任务目标，并指出任何差距或潜在的改进。
- 数学严谨性： 评估提出的想法在数学上是否合理，是否考虑了所有关键因素，突出缺失的组成部分并提出改进建议。
- 实践可行性： 评估在有限的在线资源、基础计算工具（如 Python 库）和数据可获取性的情况下，提出的想法是否现实可行，并识别潜在的挑战。
数学表述的评论（模型实现者）:
- 全面性： 评估数学表述是否全面解决了子任务目标，并识别任何缺失的元素或需要改进的地方。
- 数学严谨性： 评估表述在数学上是否合理，是否采用了形式化的表达，并指出任何差距或不一致之处。
- 实践可行性： 确定在有限的计算资源和可访问数据下，该表述是否现实可行，并指出任何实施挑战。
数据搜索的评论（数据搜索者）:
- 数据质量： 检查收集的数据是否相关、准确、充分且组织良好。
- 数据可靠性： 基于来源可信度、一致性和潜在偏差评估数据的可信度。
- 文件结构完整性： 验证所需的 CSV 和 MD 文件是否已正确创建，并包含适当的内容和结构。
建模实现与分析的评论（模型实现者）:
- 模型方法： 检查建模方法是否处理了所有关键因素，并附有合理的假设和定量敏感性分析。
- 模型实现： 评估代码是否干净、模块化、高效、可重现并经过了适当的测试。
- 报告质量： 验证报告是否专业，是否遵循模板，并包含清晰、标注正确的图表和适当的解释。

除了评论模块的细节之外，我们还在下面进一步详细说明我们框架中包含的共享内存。

共享内存。 共享内存作为信息交换的中心枢纽，在协调智能体之间的交互中发挥着至关重要的作用。从概念上讲，它可以被看作是一个增强版的草稿本，提供了更结构化和有组织的信息管理。它被实现为一个字典，其中每个键都编码了信息的来源（即哪个智能体提供的）和内容的性质。智能体可以通过生成唯一的键来存储信息，并随后使用相应的标识符检索信息。这种设计不仅实现了灵活高效的信息访问，而且促进了智能体之间的无缝协作，最终支持最终报告的连贯汇编。

E ModelingJudge 细节#

评估指标。 我们根据改编自 COMAP 官方评审评论的三个核心维度评估每份报告：

结构连贯性： 报告的清晰度和组织性，包括关键部分的存在，如假设、模型表述、解决过程和分析。
解决方案完整性： 报告是否解决了 ModelingBench 问题中定义的所有子问题和任务要求。
解决方案质量，进一步包括：
- 建模的扎实性： 建模技术适应定制场景的严谨性、相关性和适当性。
- 数据的扎实性： 应用于建模过程的数据的真实性、充分性和上下文相关性。
- 分析的扎实性： 分析的深度、数学推理的正确性和解释性见解。
- 创新性： 建模方法的独创性和潜在的现实世界效用。

鉴于解决方案质量固有的主观性，我们利用多个专家角色的不同视角来确保平衡和公平的评估。相比之下，结构连贯性和解决方案完整性使用单一的“LLM 即评委”配置进行评估，因为这些维度相对更客观，在不同任务之间更一致。

指令。 我们通过定义多个专家角色并评估解决方案质量（包括三个扎实性方面和一个创新性方面）来构建 ModelingJudge 框架。为了确保每个专家角色的判断清晰、一致且有充分依据，我们为每个评估方面精心设计了详细的评分标准以及相应的评分量表。详细指令见图 10 至图 13。对于每个评判方面，最终得分通过平均评分标准分数计算，然后通过对所有专家角色取平均得到总体评估。

初步测试。 为了评估 ModelingJudge 的有效性，我们使用真实的人类撰写的报告进行了一项小规模验证研究。具体来说，我们选择了五个问题，这些问题的获奖和非获奖报告均可获得。

ModelingJudge 用于在六个评估指标上分配分数。平均而言，获奖报告的得分比非获奖报告高出 8%，最大的差异出现在扎实性和创造性方面（约 10%）。相比之下，结构和完整性方面的分数在两类报告之间仅显示出微小差异。

这些结果支持 ModelingJudge 能够以与实际竞赛结果一致的方式有意义地区分报告质量。尽管完整的真实排名不可用（因为官方竞赛只发布获奖信息和选定的获奖报告），但这项分析仍然提供了证据，表明我们的评估框架与人类判断一致。

F 人工评估#

为了评估各种模型生成的数学建模报告的质量，我们进行了一项全面的人工评估。认识到人类判断固有的主观性，我们采用了竞技场式评估框架，其灵感来自 Chatbot Arena 等方法。这种方法能够直接比较模型输出，允许评估者根据感知质量对响应进行排名。

具体来说，我们随机选择了涵盖数学建模竞赛（MCM）和跨学科建模竞赛（ICM）主题的建模问题，难度级别从高中到本科。评估在三种不同的设置下进行。在第一种设置 (a) 中，对于每个选定的问题，我们收集了由七个不同模型生成的数学建模实现，所有模型都使用相同的 ModelingAgent 框架以确保公平。然后要求参与者在不知道每个解决方案由哪个模型生成的情况下，对前三个解决方案进行排名。在第二种设置 (b) 中，对于相同的问题，我们比较了使用不同建模方法生成的解决方案，包括一个顶尖人类表现的上限。为了保持一致性，此设置中所有模型生成的解决方案都由 GPT-4o 生成。参与者再次被要求对前三个解决方案进行排名。在最后一种设置 (c) 中，参与者看到来自不同方法的上述四个解决方案，并被要求指出哪一个最有可能由人类专家团队撰写。这些设置对应于图 5 中的三个子图。

我们招募了 12 名志愿者参与者作为人类评估者，其中 60% 的人具有参加国家级或国际级数学建模竞赛的经验。所有参与者都具有计算机科学或数学的学术背景，从本科生到研究生不等。评估大约需要 10 分钟完成。没有提供经济补偿，因为参与完全是自愿的，并且是由对该主题的真正兴趣和智力挑战所驱动的。所有参与者都提供了知情同意书，同意将其评估数据用于本研究。数据收集过程经过了伦理审查，不涉及敏感或可识别个人身份的信息，确保完全符合伦理研究标准。

评估差距的说明。 为了更好地理解在人类排名和 ModelingJudge 产生的排名之间观察到的差距，我们进行了两方面的分析：(i) 检查 LLM 生成的论证，以及 (ii) 采访人类评估者关于他们对 DeepSeek 模型评分的看法。

从表 4 的结果中，我们发现 DeepSeek 因其结构连贯性和解决方案完整性而受到 ModelingJudge 的青睐。这些品质通常有利于 DeepSeek 等模型，并有助于它们获得更高的分数。然而，人类评估者倾向于强调不同的维度。具体来说，他们更重视数据扎实性和创新性，其动机是期望模型生成的输出可能产生幻觉。事实上，超过 60% 的人类评估者在任务后的采访中明确提到了这一担忧。

这种差异解释了为什么 DeepSeek 在我们的框架中使用的简单指标平均下表现良好，但在人类中得分不高，因为人类会隐式地重新加权评估方面。有趣的是，当仅关注数据扎实性时，Qwen 模型在表 4 中优于其他模型，这与人类最高排名密切一致，从而支持了我们框架的有效性。

由于官方竞赛没有规定评估维度的权重，我们采用简单平均作为一种公平、透明且可复制的方法。虽然我们承认人类评估者可能会隐式地应用不同的重点，但我们相信我们的平均策略达到了合理的平衡。

G 顶尖人类表现#

在本节中，我们展示了一个在 MCM 竞赛中获得最高奖的顶尖人类解决方案，对应于图 1 中说明的建模问题。该获奖解决方案的摘要表在图 14 中提供。

为了便于并排比较，我们还展示了两个完整的建模实现：一个来自获奖报告的顶尖人类团队生成的，另一个由 ModelingAgent 生成的。这些分别在图 17 和图 18 中展示。这个例子也作为第 6.3 节讨论的人工评估的一个示例。

H 错误分析#

如图 9 所示，观察到的错误突显了当前模型通常仍然缺乏针对特定问题的推理、可靠的数据处理和深入的分析能力。为了进一步改进，模型可以配备更好的不确定性意识以避免幻觉，增强的上下文处理和理解为提出可操作的想法并避免“迷失在中间”问题，以及更强的推理能力以支持更严谨和详细的分析，而不是依赖模糊的论证。

I 评论模块性能#

我们还在图 15 和图 16 中展示了评论模块性能的两个示例。第一个示例说明了数据搜索者，突显了最初的评论反馈以及数据搜索过程在第二轮中如何改进。第二个示例展示了评论模块如何彻底评估想法提出者生成的建模想法，展示了在智能体优化其方法后评论反馈和分数的变化。

J 提示指令细节#

本节提供了我们主要实验中使用的提示的详细描述，如图 19 至图 26 所示。这些提示涵盖了原始生成基线、工具智能体以及我们提出的 ModelingAgent 系统。请注意，在我们的智能体系统中，相应的提示也单独应用于每个子智能体。