相关链接:
摘要
利用大型语言模型(LLM)从自然语言中自动构建和求解优化问题,已成为自动化优化的高效范式。然而,现有方法仍存在泛化能力有限的问题:它们对表面的叙述变化敏感,主要在案例层面复用经验,并且难以适应已变化或新兴的问题类型。我们提出OPTSKILLS,一个面向原型中心技能学习和推理的智能体系统,用于优化建模与求解。为了提高鲁棒泛化性,我们的系统根据问题的底层原型而非表面叙述进行聚类。为了提高分布内泛化性,它探索每个聚类内的多种建模范式和求解器配置,然后将成功的轨迹提炼为可复用的工作流级技能。为了提高分布外泛化性,它利用新获得的轨迹来细化现有技能或扩展技能库。我们的系统在涵盖多种问题类型和场景的数据集上实现了最先进的微平均准确率68.27%。此外,在极具挑战性的大规模高维基准MIPLIB-NL上,它达到了26.91%的准确率,比DeepSeek-V3.2-Thinking高出4.53%。在Nano-CO上进行技能学习后,它在OOD NLCO基准上达到了72.79%的准确率。代码和技能可从 https://github.com/fujiwaranomOkou/OptSkills 获取。
1 引言
工业领域的进步使得运营优化问题的高效求解成为学术界和工业界关注的焦点。然而,优化问题的固有复杂性使得依赖领域专家来构建数学模型和开发求解器代码成为必要,这一过程既昂贵又需要专业知识。大型语言模型(LLM)最近被视为自动化优化建模和求解的有前景的工具。现有研究探索了多智能体协作(Ahmadi-Teshnizi et al., 2024; Xiao et al., 2024)、监督微调(SFT)(Jiang et al., 2025a; Huang et al., 2025a)和强化学习(Chen et al., 2026; Ding et al., 2026),在标准基准上取得了强劲的性能。

近期研究探索了用于基于LLM的优化的经验复用。AlphaOPT(Kong et al., 2026)构建了一个自演进的经验库,检索相关经验来指导类似问题,而LEAN-LLM-OPT(Liang et al., 2026)引入了一个少样本示例库,帮助LLM智能体构建结构化工作流。然而,这些智能体仍然存在泛化能力有限的问题。在实际场景中,这种限制表现为三种形式。首先,鲁棒泛化要求智能体在不同叙述下识别相同的优化结构,同时避免对表面文本变化敏感。其次,分布内(ID)泛化要求智能体通过复用稳定的建模和求解工作流来解决已知优化原型的新实例。第三,分布外(OOD)泛化要求智能体在新领域引入已知原型的语义变体或全新原型时能够适应。这些方法主要在案例层面组织可复用知识。这种案例级复用可能对叙述变化敏感,不足以提炼结构等价问题共享的工作流级知识,并且在适应已变化或新兴问题类型方面能力有限。这激发了一种以原型为中心的经验复用观点,即优化问题根据其规范结构而非表面文本相似性来组织。
为了给这一观点提供实证证据,本文对基于原型的表示下优化问题的嵌入空间聚类性进行了探索性实验。我们使用来自组合优化数据集NANO-CO的问题,这是一个自建数据集,在附录A中描述。如图1b所示,当问题用其原型嵌入表示时,具有相同优化结构的实例在-SNE(Van der Maaten and Hinton, 2008)投影下形成紧凑且分离良好的组。相比之下,图1a显示原始问题文本嵌入导致较低的类内紧凑性和严重的类间重叠,表明表面叙述不是可复用优化工作流的可靠指标。图1c和1d进一步显示,原型嵌入在Hit@1和MAP@5方面改善了最近邻检索。这些结果表明,基于原型的表示为检索、聚类和复用优化经验提供了更合适的基础。
基于上述观察,本文提出OPTSKILLS,一个用于优化建模和求解中面向原型工作流复用的智能体系统。为了解决叙述变化下案例级复用的脆弱性,OPTSKILLS根据问题的底层原型而非表面级文本相似性对优化问题进行聚类,允许具有相同规范结构但语义上不同的描述共享可复用经验。为了提高已知优化原型内的分布内泛化性,OPTSKILLS在每个原型聚类内探索多种建模范式和求解器配置,并将聚类内轨迹提炼为可复用工作流级技能。为了增强分布偏移下的分布外泛化性,OPTSKILLS进一步支持从新获得的可行轨迹中学习技能,要么为已知原型的语义变体细化现有技能,要么为新兴问题类型扩展技能库。通过这种方式,OPTSKILLS贡献了一个以原型为中心的经验复用框架,直接针对跨叙述的鲁棒泛化、已知原型内的分布内泛化以及对偏移优化场景的分布外适应。
我们在包含多种问题类型和场景的问题数据集上评估OPTSKILLS,它达到了最先进的微平均准确率68.27%,比最强的基线Trace2Skill高出4.81%。在更具挑战性的大规模MIPLIB-NL基准上,OPTSKILLS达到了26.91%的准确率,比DeepSeek-V3.2-Thinking高出4.53%。在自建NANO-CO数据集上进行技能学习后,OPTSKILLS在OOD NLCO基准上进一步达到了72.79%的准确率,展示了分布偏移下以原型为中心的经验复用的优势。
本文的其余部分组织如下。第2节回顾相关工作。第3节介绍提出的OPTSKILLS框架。第4节描述实验设置并分析结果。第5节总结本文。
2 相关工作
2.1 用于优化问题建模与求解的LLM
后训练方法。 这些方法试图通过LLM的后训练直接将优化建模编码到数学模型中。代表性研究基于多种范式,如监督微调(ORLM (Huang et al., 2025a), OptMATH (Lu et al., 2025), AutoOR (Motwani et al., 2026))、偏好优化(LLMOPT (Jiang et al., 2025a))和强化学习(SIRL (Chen et al., 2026))OR-R1 (Ding et al., 2026))。

图2:OPTSKILLS概览。OPTSKILLS包含三个阶段。阶段I:(1)问题原型表示,(2)求解器组合展开,(3)轨迹分析,(4)基于聚类的技能蒸馏,构建初始技能库()。阶段II:对于新问题,技能选择器将其路由到(5)技能细化或(6)技能扩展,得到学习后的技能库()。阶段III:选定的技能指导测试时推理。
基于智能体的方法。 这些方法不更新模型参数,而是编排多阶段LLM工作流,将建模、编码、求解和验证分解为模块化阶段。Chain-of-Experts (Xiao et al., 2024) 和 OptiMUS (Ahmadi-Teshnizi et al., 2024) 将复杂问题分配到专门的专家智能体,并将其组织成结构化智能体拓扑。ORMind (Wang et al., 2025) 和 ORThought (Yang et al., 2025b) 融入了认知推理和专家级建模启发式方法,系统地将业务需求映射到数学抽象和求解器实现。
经验增强方法。 最近的努力开始整合外部经验,将基于LLM的优化任务从单次生成转向经验增强的建模。DRoC (Jiang et al., 2025b) 和 ConstraintLLM (Shi et al., 2025) 将约束分解为可检索单元以辅助形式推理。MIRROR (Shi et al., 2026) 利用对示例库的分层搜索来提供特定于任务的建模和代码参考。LEAN-LLM-OPT (Liang et al., 2026) 从精选的参考数据集中检索参考示例,并构建结构化的建模工作流来指导下游公式化和代码生成;AlphaOPT (Kong et al., 2026) 构建经验库,从失败的尝试中提炼结构化见解。
2.2 LLM智能体中的技能学习
与特定任务的经验增强相比,配备技能的LLM智能体为跨任务知识积累和复用提供了更通用的框架。技能保留了可操作的任务知识,同时保持足够的抽象性以支持跨不同问题的迁移。XSkill (Jiang et al., 2026a) 将操作经验与结构技能分离。EvoSkill (Alzubi et al., 2026), Memento-Skills (Zhou et al., 2026), 和 AutoSkill (Yang et al., 2026) 强调自动技能发现、路由和演进。Trace2Skill (Ni et al., 2026) 归纳地将轨迹局部教训整合到统一的、无冲突的、可迁移的技能目录中。MemSkill (Zhang et al., 2026) 将记忆操作本身重塑为可学习技能,通过控制器、执行器、分析器和优化器的闭环来优化技能库。
3 方法论
3.1 预备知识
优化问题原型。 一个优化问题原型 指从具体应用场景中抽象出的规范优化结构。给定一个原型 ,我们将其自然语言实例记为 ,其中 指定具体场景, 表示将底层优化结构表达为自然语言问题陈述的语言化过程。理想情况下, 及其原型 应诱导出相同的优化模型,即 。这表明优化建模应对表面场景和叙述变化保持不变性,共享相同原型的问题可能在场景设置、叙述上下文和自然语言表面形式上差异很大,但通常在建模层面共享相似的决策变量、目标函数、约束模式和参数配置。
技能。 一个技能 是一个可重用的程序性知识文档,针对一类优化问题原型。形式上,,其中 表示技能元数据,包括其名称和简要描述; 表示建模和求解工作流,涵盖决策变量、目标构建、约束建模、求解器配置、状态检查和结果解析; 表示常见陷阱,总结了建模和求解中的常见错误模式。附录D中提供了一个技能示例。
3.2 OPTSKILLS概述
我们提出OPTSKILLS,一个用于自然语言优化任务的智能体系统。如图2所示,OPTSKILLS分三个阶段进行。阶段I:通过基于聚类的蒸馏进行技能发现,从数据集构建初始技能库 。它首先通过要素提取和问题编辑推导问题的原型,然后在这个表示空间中对问题进行聚类,并从每个聚类内的建模和求解轨迹中蒸馏基于聚类的技能。阶段II:技能学习在新遇到的问题上细化和扩展库。阶段III:测试评估从 中检索与目标问题相关的技能,并将其作为程序性指导注入智能体进行推理。
3.3 阶段I:通过基于聚类的蒸馏进行技能发现
问题原型表示。 给定一个训练问题 ,系统首先构建与其原型 相关联的原型嵌入 。该嵌入捕捉问题的建模结构,同时减少特定场景叙述的影响。一个由LLM驱动的提取器输出优化要素 和一个编辑后的问题描述 。
要素 包括抽象层面的变量、约束和目标函数。它们不是从原始文本中复制,而是设计为尽可能忽略具体场景、实体名称和叙述背景。编辑后的文本 将特定场景的叙述和实体名称替换为通用占位符,同时保留原始参数、约束和数值信息。
原型嵌入 计算为 和 的归一化加权和,其中 和 分别是 和 的嵌入。我们采用 Qwen3-Embedding-v3 作为嵌入模型,权重 控制 和 的相对贡献。共享相似原型 的问题预期在其原型嵌入 之间具有高相似性,这为聚类提供了基础。
求解器组合展开。 对于每个问题,该模块探索多种不同的建模方法和求解器配置,并收集求解轨迹。其基本原理是,对于相同的优化问题,不同的建模范式和求解器配置在适用性和稳定性上可能有所不同。给定 和 ,一个基于LLM的求解器选择器从候选池 中选择一个由最可能的 top- 个求解器组成的子集 。对于每个求解器 ,LLM首先生成一个优化模型 。然后它迭代地生成可执行的求解器代码 并接收执行观察结果 。
假设在 次代码生成和求解迭代后,获得了一个可行解 。我们将特定建模范式和求解器配置组合 下的建模和求解轨迹定义为
轨迹集合为 。在轨迹集合中,如果 与真实答案 匹配,则轨迹被标记为正;否则标记为负。这将 划分为正轨迹集 和负轨迹集 。
轨迹分析。给定 和 ,使用一个基于LLM的技能分析器将展开轨迹提炼为可读的分析。从正轨迹中,它提取有效的求解器配置和可复用的建模与求解过程,总结为标准操作程序(SOP)。从负轨迹中,它识别失败原因并将其总结为常见陷阱:
技能分析器 返回两个组成部分:可复用的SOP 和相应的常见陷阱 。每个分析 作为技能蒸馏的输入,贡献一个蒸馏知识的原子单元。
基于聚类的技能蒸馏。 在获得每个训练问题的 、 和分析 后,根据其原型嵌入对问题进行聚类,并在聚类级别蒸馏可复用技能。具体来说,它对嵌入应用DBSCAN(Ester et al., 1996),产生 ,其中 是邻域半径, 是形成核心点所需的最小样本数。由于 是归一化的,因此使用余弦距离进行聚类。每个聚类 对应一组具有相似原型的问题。
对于每个聚类,一个基于LLM的技能构建器聚合其成员问题的轨迹分析,并蒸馏一个技能 。结果集合 形成初始技能库。基于聚类的蒸馏聚合了同一问题原型下的多种正负分析,产生较少依赖实例特定伪影且更适合复用的程序性知识。
3.4 阶段II:技能学习
在构建初始技能库 之后,OPTSKILLS 在新遇到的问题上逐步改进它。给定一个新问题 ,系统首先应用与阶段I相同的要素提取和问题编辑步骤。基于这些,一个基于LLM的技能选择器通过将问题与当前库中所有技能的名称和描述进行比较来识别候选技能。然后,选定的候选技能被传递给一个基于LLM的评判器,该评判器决定该技能是否应被接受用于解决问题。如果匹配的技能被接受,系统使用新求解轨迹中的证据来细化它。否则,该问题被视为潜在的新原型,并在有足够证据时可用于扩展库。
技能细化。 当选择一个现有技能 时,它被用作程序性指导来解决新问题 。然后智能体生成一个求解轨迹 ,并根据答案的正确性进行评估。正轨迹为强化 中的可复用SOP提供证据。负轨迹为 中的常见陷阱贡献失败证据。轨迹由技能分析器 蒸馏成分析 ,然后由一个基于LLM的技能细化器用来将选定的技能 更新为新技能 。
细化器使用正SOP证据更新工作流组件 ,并使用负证据扩充陷阱组件 ,同时保留技能元数据和适用边界。细化后的技能 替换库中的 。
技能扩展。 当找不到合适的技能时,新问题被视为新原型的候选。OPTSKILLS 执行求解器组合展开以获得一组候选轨迹 。与阶段I一样,技能分析器将它们总结为轨迹分析 。
为了避免添加无支撑的程序性知识,OPTSKILLS 仅当至少有一个正轨迹可用时才扩展库。在这种情况下,技能构建器从轨迹分析中构建一个新技能作为 ,库更新为 。
3.5 阶段III:测试评估
在测试期间,OPTSKILLS 使用学习到的技能库 作为固定资源,不进行任何进一步更新。对于每个测试问题 ,系统首先应用与先前阶段相同的提取器来获得优化要素 和编辑后的问题 。一个基于LLM的技能选择器然后根据 和 从 中识别最相关的技能,依靠技能名称和描述作为检索线索。选定的技能用于在推理过程中指导LLM智能体,最后预测结果根据真实答案 进行评估。

4 实验
用于优化技能构建的数据集。为了获取包含多种类型和场景的问题实例,我们使用 OptMATH-Train(Lu et al., 2025)数据集作为候选池。然后,我们跨问题类型进行均匀采样并跨场景进行随机采样,得到300个用于训练 OPTSKILLS 的样本。各问题类型的分布如下:线性规划(75)、混合整数线性规划(75)、整数规划(75)、非线性规划(45)和二阶锥规划(30),涵盖20个不同的问题场景。
OPTSKILLS 首先使用150个实例进行基于聚类的技能蒸馏,以推导出初始技能集。随后,OPTSKILLS 在剩余的150个样本上继续学习。这一阶段既用于向技能库中添加新技能,也用于细化现有技能。详细的实验设置见附录B。
评估基准。为了性能比较,我们采用了5个基准:OptiBench (Yang et al., 2025c)、OptMATHBench (Lu et al., 2025)、Mamo.C (Huang et al., 2025b)、IndustryOR (Huang et al., 2025a)、ComplexOR (Xiao et al., 2024)。对于技能学习评估,我们使用了 NLCO 基准的 hard 分割 (Jiang et al., 2026b)。这些基准具有高问题难度和丰富的结构多样性。详细描述见附录C。
基线。我们针对四个类别的十一个不同基线对我们的方法进行基准测试。首先,我们包括四个通用LLM:GPT-5.4 (OpenAI, 2026)、Gemini-3.1-Pro (DeepMind, 2026)、DeepSeek-V3.2 (DeepSeek-AI et al., 2025) 和 Qwen3-235B (Yang et al., 2025a);这些模型通过提示直接生成求解代码,不采用工具使用方式。其次,我们比较了四个基于LLM的智能体框架:CoE (Xiao et al., 2024)、OptiMUS (Ahmadi-Teshnizi et al., 2024)、ORMind (Wang et al., 2025) 和 ORThought (Yang et al., 2025b)。第三,我们包括两个经验增强的基于智能体的方法,AlphaOPT (Kong et al., 2026) 和 LEAN-LLMOPT (Liang et al., 2026),两者都支持知识积累和复用。最后,我们包括 Trace2Skill (Ni et al., 2026) 作为强大的基于技能的基线,因为它也利用蒸馏技能来增强智能体性能。详细的复现设置见附录E。
通过广泛的实验,我们旨在回答以下研究问题:
Q1: OPTSKILLS 的优化建模和求解性能与基线方法相比如何?
Q2: 技能如何增强智能体在优化问题建模和求解方面的能力?
Q3: 聚类策略为技能利用提供了哪些优势?
Q4: OPTSKILLS 对分布内和分布外领域的泛化能力如何?
Q5: OPTSKILLS 在处理现实世界和大规模优化问题方面的效果如何?
4.1 主要结果
我们使用 Pass@1 求解准确率(SA)评估所有方法,并将结果总结在表1中。

OPTSKILLS 与基线方法的比较(对应 Q1)。如表1总结所示,OPT-SKILLS(使用 DeepSeek-V3.2 作为LLM骨干)在几乎所有基准上持续达到最先进的性能,取得了68.27%的微平均 pass@1 准确率,并显示出相比于所有基线的显著提升。为了将我们系统的贡献与底层LLM骨干(DeepSeek-V3.2)的内在能力分离,我们进行了一项消融研究,在推理过程中使用 Qwen3-235B-A22b-instruct-2507 作为基础模型。该配置达到了61.46%的微平均准确率,与 Trace2Skill 相当,并优于大多数基线。这些结果表明,性能提升源于 OPTSKILLS 本身,而非骨干模型的选择。
值得注意的是,OPTSKILLS 在诸如 OptMATH 和 Mamo.C 等具有挑战性的基准上表现出显著优势,大幅超越了基于提示的基线。即使在相对简单的 OptiBench 基准上,OPTSKILLS 也保持了显著的准确率优势。
4.2 消融研究
技能对智能体性能的贡献(对应 Q2)。 我们对阶段I中采用的基于聚类的技能蒸馏过程进行了实证分析。表2报告了每种条件在5个基准上的 Pass@1 准确率。尽管将基线增强为每样本技能(Group 2)在 Mamo.C 和 OptMATH 等具有挑战性的基准上带来了适度的提升,但整体改进仍然有限。这源于技能之间的功能重叠。此外,每样本提取引入了实例特定的偏差,技能选择依赖于主要指示适用条件而非可泛化模式的描述。因此,单个的每样本技能在结构相似的问题上表现出有限的迁移性。
此外,我们发现系统产生了129个不同的技能,其中81个(62.8%)在5个基准的推理过程中从未被调用。然而,这些未被选中的技能并非本质上无效;当多个语义相似的技能共存时,模型为特定实例识别成功技能的可能性显著降低,从而损害了解决方案的可靠性。
通过聚类策略增强技能应用(对应 Q3)。 相比之下,聚类技能库(Group 3)相比于基线显示出显著的性能提升。这表明聚类显著提高了技能库的整体质量,从而促进了共享相同原型的问题之间的鲁棒泛化。
此外,我们使用基于聚类的蒸馏推导出了46个技能。其中,在整个推理过程中只有7个技能未被使用(15.2%)。相比之下,非聚类基线表现出更高比例的从未被调用的技能(62.8%)。这表明基于聚类的蒸馏过程有效地减少了技能库中的冗余,从而提高了LLM为给定问题实例识别和检索最合适技能的可能性。
由于聚类策略对基于聚类的技能生成的质量有影响,为了验证我们提出的基于原型的聚类方法的有效性,我们与直接在原始问题文本嵌入上进行聚类的策略进行了比较分析。详细结果和讨论见附录F.1。
在分布内数据上的技能学习(对应 Q4-1)。 如表2的Group 4所总结,与Group 3相比,所提出的配置在几乎所有基准上的平均准确率都有所提高。例外是 IndustryOR 和 ComplexOR,其中相对较高的错误率(Xiao et al., 2025)可能削弱了观察到的增益的统计显著性。此外,ComplexOR 包含相对较少的样本,这进一步限制了比较的稳健性。
为了研究技能学习过程中技能库的增长动态及其对求解性能的影响,我们在 OPTSKILLS 在 OptiBench 上的学习过程中建立了四个检查点,分别对应技能库大小为46、49、53和56。我们使用每个检查点的技能库配置的 OPTSKILLS 在同一基准上独立评估。随着库大小从46增长到56,OptiBench 上的求解准确率呈现出非单调的上升趋势(74.71% → 74.05% → 75.37% → 77.02%)。尽管在中间检查点(49个技能)略有下降,但整体轨迹表明,在同一数据分布内扩展技能覆盖范围可以带来持续的性能提升,验证了 OPTSKILLS 通过技能学习实现自我改进的能力。缩放现象的条形图见附录F.3。
4.3 讨论
在分布外数据上的技能学习(对应 Q4-2)。 为了评估 OPTSKILLS 在分布偏移下的泛化和适应能力,我们首先在 NLCO 基准(一个OOD组合优化基准)上评估初始技能库。然后,我们通过基于模板的合成构建了一个OOD适应数据集 NANO-CO。NANO-CO 包含组合优化问题,其问题类型分布与上述300个训练样本不同。我们使用 NANO-CO 进行技能学习,并再次在 NLCO 上评估适应后的 OPTSKILLS。
如表3所报告,具有初始技能库(学习前)的 OPTSKILLS-D 相比于工具调用智能体取得了5.96个百分点的绝对提升(68.56% 对比 62.60%),表明初始技能库已经表现出非平凡的跨领域迁移。

基于初始技能库中获得的46个技能,我们在 NANO-CO 上扩展了47个新技能,总计93个技能。然后,我们使用扩展后的技能库在 NLCO 基准的 hard 分割上评估 OPTSKILLS,达到了72.79%的准确率,比基线高出10.19个百分点。这表明 OPTSKILLS 能够在问题分布偏移下持续扩展其对问题原型的覆盖范围。
在所有评估的实例中,成功的轨迹相比于失败的轨迹表现出更高的新技能利用率。除了9个失败样本外,在1565个成功解决的样本中,有644个使用了新技能。相比之下,在576个失败样本中,只有176个使用了新技能,其余完全依赖现有技能。为了阐明新学习技能的贡献,我们绘制了新旧技能使用率的饼图,见附录F.4。
在高维和大规模问题上的求解能力(对应 Q5)。 为了评估 OPTSKILLS 在现实世界和高维场景中的能力,我们在具有挑战性的基准 MIPLIB-NL (Li et al., 2026) 上进行了评估,该基准以大规模决策变量和约束为特征。结果显示 OPTSKILLS-D 达到了26.91%的求解准确率,比 MIPLIB-NL 论文中报告的 DeepSeek-v3.2-thinking (22.38%) 高出4.53%。在 OPTSKILLS 正确解决的问题中,决策变量的维度高达87,482。这表明 OPTSKILLS 即使在面对大规模工业问题实例时也能保持竞争性能。
5 结论
本文提出了 OPTSKILLS,一个通过问题原型对优化问题进行聚类并从多种求解轨迹中蒸馏可复用技能的智能体系统。在跨越多种问题类型和场景的多样化问题上,这些原型级技能相比于强基线提高了求解性能和泛化能力。进一步的实验表明,OPTSKILLS 能够使其技能库适应新的问题分布,并在大规模优化基准上保持竞争力。
限制
OPTSKILLS 依赖LLM生成的中间抽象来构建问题原型表示,包括要素和编辑后的问题。尽管这种设计减少了表面叙述的影响,但要素提取或问题编辑中的错误可能会传播到聚类、技能选择和下游技能蒸馏中。例如,遗漏一个关键约束或错误抽象目标可能会将问题放入不适当的聚类,并导致技能复用可靠性降低。未来的工作应纳入更强健的原型提取验证机制,例如符号一致性检查。此外,学习到的技能库的质量取决于原型聚类的粒度。过度碎片化的聚类可能会产生冗余技能,增加技能选择的难度,而过度合并的聚类可能会组合不同的问题原型,产生模糊的程序性指导。这可以部分解释为什么增加技能数量并不总是在所有基准上带来单调的性能提升。尽管我们的敏感性分析表明所选的聚类设置提供了一个合理的权衡,但开发自适应聚类、技能合并和技能剪枝机制仍然是未来工作的重要方向。
附录
A 数据合成
为了评估和增强 OPTSKILLS 在组合优化问题上的可泛化建模能力,我们构建了一个合成组合优化实例集,命名为 NANO-CO,作为在保留的 NLCO 基准上进行技能学习之前的适应集。

我们手动整理了一组常见的组合优化问题及其代表性变体。基于这些问题类别,我们进一步开发了49个种子代码模板,每个种子模板对应一种问题类型。
所有种子模板都经过手动检查和求解器验证。特别关注目标函数、约束、决策变量定义和参数设置中可能影响最优性的潜在实现问题,确保每个模板都能持续生成具有可验证全局最优解的实例。然后,在保留原始数学结构的同时,我们使用大型语言模型为每个模板生成了五个具有现实业务背景的新主题,例如物流调度、急诊室排班和半导体制造。
为了确保主题重写不会改变原始的组合优化结构,我们为每个新主题建立了严格的实体映射关系。例如,原始问题中的“机器”可能映射到“手术室”,而其建模角色、约束关系和参数语义保持不变。对于每个主题实例,我们进一步注入一个独立的随机种子来生成相应的数值参数,并调用求解器来验证可行性和全局最优性。这个过程总共产生了245个训练实例。
为了说明 NANO-CO 和 NLCO 之间的关系,我们手动比较了它们的问题类别。如果某个 NLCO 任务类别在 NANO-CO 中有完全或接近对应的类别,则认为该类别被覆盖。如图4所示,NANO-CO 覆盖了43个 NLCO 任务类别中的22个,表明存在大量重叠,同时仍为 NLCO 特有类型留有余地。

在实例规模方面,NANO-CO 中的约束数量范围为1到5,平均为2.8,决策变量数量范围为9到310,平均为48。
B 实验设置
B.1 OPTSKILLS 配置
在所有实验中,DeepSeek-V3.2(非思考模式)作为 OPTSKILLS 所有模块的统一底层LLM。嵌入模型为 Qwen3-Embedding-v3。我们将最大智能体循环轮次设为12,并将所有阶段的LLM后端温度设为0。在融合原型嵌入时,我们将参数 设为0.55。在求解器组合阶段,top- 参数设为3。对于 DBSCAN 聚类,密度参数 设为0.05,最小样本数 设为1。训练数据洗牌的随机种子设为42。
B.2 基线配置
为了公平比较,所有基于智能体的基线都与 OPTSKILLS 一致配置。具体来说,使用非思考模式的 DeepSeek-V3.2 作为底层LLM。除非另有说明,其余实现细节遵循每个基线的默认设置。
对于 AlphaOPT 和 Trace2Skill,我们进行了必要的调整以确保与我们的实验设置和评估协议兼容。详细的修改见附录E.6和附录E.7。
C 基准
为了确保我们实验结果的可靠性和一致性,我们采用了 LLMOPT (Jiang et al., 2025a) 中清理和修正过的 OptiBench、Mamo.C、Opt-MATH、IndustryOR 和 ComplexOR 版本,而非原始数据集。
C.1 OptiBench
OptiBench 是一个大规模基准,旨在评估大型语言模型从复杂输入中端到端解决优化问题的能力。它涵盖了多样化的优化设置,包括线性规划、非线性优化以及涉及表格数据的问题,反映了优化任务可能以异构格式指定的实际场景。通过结合非线性目标或约束以及基于表格的问题信息,OptiBench 提供了一个全面的测试平台,用于评估模型是否能准确理解问题描述、构建优化模型并在多种输入形式下产生正确解决方案。
C.2 Mamo.C
Mamo.C 指的是 Mamo 基准中的 Complex_LP 子集,旨在通过基于求解器的答案验证来评估大型语言模型的数学建模能力。它包含211个本科水平的优化问题,融合了 LP 和 MILP 结构。在这个基准中,模型需要将自然语言问题描述转换为求解器可读的优化公式,并通过比较求解器产生的最优值与真实答案来评估生成的公式。由于 Mamo.C 涉及比 Easy_LP 子集更复杂的决策变量和约束,它为评估优化建模能力提供了更严格的测试平台。
C.3 OptMATH
OptMATH-Bench 是一个困难的优化建模基准,源自 OptMATH 双向数据合成框架。它包括通过基于求解器的验证和拒绝采样选择的困难实例,其问题描述比 NL4OPT 和 MAMO 中的要长得多。该基准涵盖广泛的优化问题类型,包括 LP、MILP、IP、NLP 和 SOCP,为评估大型语言模型是否能构建和解决复杂的长上下文优化问题提供了一个具有挑战性的测试平台。
C.4 IndustryOR
IndustryOR 是 ORLM 框架中引入的一个工业基准,用于评估大型语言模型在多个行业的实际运筹学问题上的表现。与主要关注教科书式或同质线性规划实例的基准不同,IndustryOR 旨在反映跨多个行业的现实世界优化建模场景。它包含100个实际 OR 问题,涵盖五种优化任务类型,包括线性规划、整数规划、混合整数规划、非线性规划和其他优化问题,实例分为三个难度级别。该基准通过执行准确率评估模型,如果执行求解器代码获得的最优值与真实最优值匹配,则认为生成的模型正确。
C.5 ComplexOR
ComplexOR 是由 Chain-of-Experts (CoE) 引入的一个基准,用于评估 LLM 在复杂运筹学建模和编程问题上的表现。与初级的 NL4Opt 风格实例不同,ComplexOR 专注于更现实和具有挑战性的 OR 问题,其描述可能涉及隐式约束、领域特定术语和长推理链。模型不仅需要理解自然语言问题陈述,还需要构建适当的优化模型并生成可执行的求解器代码。该基准评估生成的程序是否能通过 OR 专家标注的测试用例,从而评估模型在复杂 OR 问题形式化和求解方面的端到端能力。
C.6 NLCO
NLCO 最初是为了评估大型语言模型在自然语言组合优化中的直接推理能力而提出的。在其原始协议中,给定一个自然语言决策场景,模型直接输出离散解,无需编写代码或调用外部求解器,并根据问题约束、目标函数和求解器标注的参考解评估输出的可行性和最优性。NLCO 涵盖43类组合优化问题,跨越广泛的结构,包括路由、调度、装箱、分配、设施选址和图优化。
在本文中,我们使用 NLCO 的方式与其原始的无工具评估设置不同。我们不是测试直接的离散解生成,而是将 NLCO 作为一个具有自然语言问题陈述、多样化组合优化结构和可验证参考答案的分布外基准。这使我们能够检验 OPTSKILLS 是否能将其泛化能力超越我们主要实验中以 LP、MILP 和 NLP 为中心的基准,扩展到更广泛的组合优化原型。
具体来说,我们在 NLCO 最困难的 Set-L 上评估 OPTSKILLS,该集合包含43种问题类型,每种50个实例,共2150个测试样本。在 OPTSKILLS 的技能学习或技能演进过程中,没有使用这些实例中的任何一个。在评估期间,OPTSKILLS 将原始 NLCO 问题陈述作为输入,并通过技能检索、数学建模、代码生成和执行获得最终答案。然后使用 NLCO 提供的真实值评估输出。由于 Set-L 扩大了组合搜索空间并加强了全局约束依赖性,它为测试 OPTSKILLS 对未见过的组合优化结构的泛化能力提供了严格的测试。
C.7 MIPLIB-NL
MIPLIB-NL 是一个高维、工业规模的优化建模基准,旨在揭示现有基于LLM的优化系统在大型和困难问题上的局限性。它通过结构感知的反向构建管道,从 MIPLIB 2017 中的真实 MILP 实例构建而成,产生了223个经过验证的自然语言到优化实例,与原始数学公式一一对应。由于 MIPLIB-NL 针对的问题规模可达到 个变量和约束,它提供了一个比玩具级基准更接近真实工业优化的具有挑战性的测试平台。
在这项工作中,我们采用 MIPLIB-NL 来评估 OPTSKILLS 处理高维优化问题的能力,特别是检索到的技能在大型、结构复杂的设置下是否仍能支持可靠的建模和求解。
D 技能示例

E 复现细节
E.1 通用设置
所有实验均在配备 AMD EPYC 9754 128-Core 处理器、512GB RAM 和 8 块 NVIDIA H800 GPU 的服务器上进行。
E.2 基线的通用配置
对于所有基于 LLM 的基线,我们设置 temperature=0, top_p=0.95, max_tokens=4096。所有基线都使用非思考模式的 DeepSeek-V3.2 作为底层模型。
E.3 ORMind 的复现
ORMind 是一个受认知启发的端到端运筹学问题推理框架。它遵循结构化工作流,通过几个模块将自然语言需求转换为数学模型和可执行的求解器代码,包括语义编码器、形式化思考、执行编译器、系统2推理器和元认知监督器。ORMind 的一个关键特性是使用反事实推理来识别潜在的公式化或实现错误,并细化生成的解决方案。在我们的复现中,我们使用原始实现的默认设置,包括其模块配置、基于内存池的工作流、反事实推理机制和语法错误分析。
E.4 ORThought 的复现
ORThought 是一个用于自动化优化建模的结构化双智能体框架。它将求解过程分解为两个核心智能体:一个模型智能体负责问题理解、数学建模和 Gurobipy 代码生成,以及一个求解智能体通过检测-诊断-修复工作流执行生成的代码并进行细化。在我们的复现中,我们遵循原始实现的默认设置,包括其双智能体架构、提示模板、结构化推理过程和基于执行的修复机制。没有执行额外的任务特定调整,并且 OR-Thought 在与其它基线相同的问题输入和评估协议下进行评估。
E.5 LEAN-LLM-OPT 的复现
LEAN-LLM-OPT 是一个轻量级的智能体工作流构建框架,用于 LLM 辅助的优化模型自动公式化。它使用上游智能体从参考示例中识别问题类型并构建结构化工作流,然后一个下游模型生成智能体遵循此工作流生成最终的优化公式和可执行的求解器代码。原始框架依赖于一个参考数据集 Ref-Data 来支持问题分类和工作流构建,并进一步结合基于 CSV 的数据检索工具来处理带有外部数据集的大规模实例。
在我们的复现中,我们启用其基于参考的工作流构建,使用 Ref-Data,并使用 WITHOUT CSV 设置,因为我们的评估输入不依赖外部 CSV 文件。除此之外,我们保持其默认的工作流构建和模型生成过程。
E.6 AlphaOPT 的复现
AlphaOPT 是一个用于自然语言优化建模的经验学习框架。它不更新模型参数,而是构建一个由求解器验证的建模见解组成的自我改进经验库。每个见解都带有明确的适用性信息,包括其分类、条件、解释和示例,以便为后续的优化任务检索和重用。AlphaOPT 通过两个阶段运作:库学习从失败的尝试中提取结构化见解,并将其组织在分层分类中;而库演进则使用跨任务的聚合证据来细化存储见解的适用性条件,以减少过度泛化和欠泛化。
在其原始实验设置中,AlphaOPT 对基准进行训练-测试分割。为了确保在我们的复现中公平比较 AlphaOPT,我们使用与我们的方法相同的训练集,并从头开始扩展其经验库。
E.7 Trace2Skill 的复现
Trace2Skill 是一个用于 LLM 智能体的自动技能构建和适应框架。它通过首先收集智能体轨迹池,然后使用并行成功和错误分析器提出轨迹级技能补丁,最后通过分层合并将这些补丁整合到一个统一的、无冲突的技能目录中,从而从执行轨迹中提炼可复用技能。得到的技能作为一个声明性工件,无需参数更新或测试时检索。
对于 Trace2Skill,我们修改了其部分提示,以使该方法适应优化问题设置。具体来说,我们将最大智能体循环轮次设为12,并使用与我们的方法相同的训练集。
F 附加实验
F.1 基于KNN的嵌入空间聚类性验证
为了进一步验证聚类技能的区分能力和使用原型作为基本抽象单位的有效性,我们进行了 K-最近邻(KNN)验证。我们建立了一个基线条件,其中原始问题文本被直接嵌入以获得表示 ,并将这些与我们所提出的原型嵌入 进行比较。该实验评估了原始文本嵌入在多大程度上根据结构相似性而非嵌入空间中的表面语义相似性表现出可聚类结构。

我们计算以下五个指标:(1) 命中率 (HR@k):top- 个邻居中是否至少包含一个来自同一原型组的样本。(2) 精确率@k:top- 个邻居中同一原型样本的比例。(3) 召回率@k:检索到的同一原型样本占该原型组所有成员的比例。(4) 平均精度均值 (MAP):所有查询的平均精度分数的均值。(5) 平均倒数排名 (MRR):第一个同一原型邻居的倒数排名的均值。
所有指标范围从0到1,值越高表示嵌入空间中的结构一致性和更好的可聚类性。如表4所报告,原始文本嵌入 的表现显著差于原型嵌入 ,未能将共享相同建模和求解模式的问题在嵌入空间中彼此靠近。相反,基于原型的嵌入在所有 KNN 指标上都取得了显著更高的分数,表明通过原型聚类蒸馏的技能表现出清晰的类型级区分能力。这证实了使用原型作为问题表示和技能组织的核心抽象单位的有效性。
F.2 技能覆盖范围分析
图6可视化了学习到的技能库的原型级覆盖范围。从 OPTMATH-Train 学习到的技能库包含56个技能,已经涵盖了11个优化类别,包括网络流、分配与指派、位置与覆盖、二次与成对选择、生产与库存、调度、路由、背包与选择以及装箱与切割。这表明初始库捕获了广泛的、可重用的建模和求解模式,而不是由单一问题家族主导。

在评估 OOD NLCO 基准之前,我们在合成的 NANO-CO 数据上进行了持续技能学习。在此阶段之后,技能库扩展到93个技能,并显示出对组合优化结构更强的覆盖,特别是指派与分配、网络流、位置与覆盖、调度、路由、图与树以及装箱与切割。这些类别与 NLCO 的结构特征高度一致。
这一分析证实了 OPTSKILLS 具有较强的技能覆盖能力:初始库提供了广泛的域内原型覆盖,而在 NANO-CO 上的持续学习进一步将库扩展到 OOD 组合结构。

由于没有从 NLCO 本身学习技能,扩展后的覆盖范围支持了 OPTSKILLS 将新获得的技能迁移到未见问题分布的能力。
F.3 OptiBench 上的技能规模探索
以 OptiBench 为例,我们观察到随着训练过程中技能数量的扩展,求解准确率呈现出清晰的规模定律,该缩放现象的条形图如图7所示。
F.4 NLCO 基准上新旧技能的使用统计
在 NANO-CO 数据集上,OPTSKILLS 通过获取47个新技能将初始的46个现有技能集进行了扩展。图9展示了在 NLCO 基准上,成功解决和失败的实例中这些新旧技能的使用模式。结果表明,新获得的技能对该基准的性能有显著贡献。

F.5 DBSCAN 敏感性分析
我们进一步评估了 NANO-CO 上原型构建步骤对 DBSCAN 超参数的敏感性。我们固定了主要实验中使用的原型嵌入,并将 DBSCAN 半径 从0.01变化到0.15,同时设置 min_samples 。真实问题类型仅用于事后诊断,聚类过程中并未使用。
图8报告了不同超参数设置下的 ARI 和 Pairwise F1。非常小的 值会导致过度碎片化的聚类,并且与问题类型标签的一致性接近零。在适中的 范围内性能有所改善。

最佳诊断分数出现在 附近。尽管 给出了最佳的事后诊断分数,但我们在主要实验中使用 作为更保守的无标签设置,以避免过度合并结构不同的原型。
G 案例研究
为了使技能注入的效果更具体,我们包含了一个代表性的案例研究,其中任务是一个基数约束的成对选择问题,具有有向和非对称的成对收益。我们比较了同一实例上技能引导轨迹和无技能轨迹。图10总结了两条轨迹,并突出了语义错误发生的位置。

H 提示词
略