codejock 162 CodeClash：斯坦福等高校推出新基准，如何评估LLM真实编码能力？

发布时间：2025-11-16

浏览次数：0

斯坦福的研究人员开发了一个新的基准测试，普林斯顿的研究人员也参与其中，康奈尔的研究人员同样有份，这个新基准测试是为了能更好地对大型语言模型也就是LLMs的编码能力展开评估，它有个名字codejock 162，这个新基准测试会让LLMs相互展开对决，会进行好多轮比赛，其目的在于评估它们达成那种超越狭义定义的、单个特定任务的、具备竞争性的、高级目标这个能力。

有研究人员觉得，去评估编码 LLMs 在明确的任务方面的表现，其中任务比如修复错误、实现算法或者编写测试，这样做并不足以去评估它们解决真实世界软件开发挑战的能力。

执行维护任务的并非开发人员，而是受提高用户保留率、增加收入或者降低成本等高级目标所驱动的人员。这要求本质上具备不一样的能力，工程师得依照递归方式把这些目标拆解成可执行的步骤，排出优先级顺序，还要针对所要追寻的解决方案做出战略方面的决策。

为了让LLM评估进程更贴近现实世界、具备目标导向的软件工程，研究人员进行了开发，开发出一个基准测试。该基准测试旨在体现开发周期的迭代特性，在这个基准测试里，LLM们展开竞争，去构建最佳代码库，以此达成高级目标。

多个LM系统于多轮比赛里开展竞争，目的在于建构能够达成高级目标的最佳代码库codejock 162，这些代码库所实现的解决方案在代码竞技场展开竞争，像（基于网格的生存）、Poker（无限德州扑克）以及（坦克战斗），如此这般。

LLM competition in multi-round challenges with advanced goals_codejock 162_CodeClash benchmark test for evaluating LLM coding capabilities

每一步涵盖两个阶段，其一为编辑阶段，在此阶段中，LLM 对代码库予以编辑，其二是竞赛阶段，于该阶段里，在代码竞技场中针对代码库实施评估。代码竞技场依据最大化得分或者资源获取，亦或是生存等目标来判定胜者。

开始时，LM代理仅接收到关于环境的简短描述，尽管诸如竞技场机制、示例机器人以及推荐策略等信息能于启动代码库中寻觅到，然而模型得主动去发觉这些信息。

每一轮结束之际，比赛日志会被增添至一个日志库内，凭借此供LLMs提取见解，进而为下一轮做更为妥善的准备，其目的在于从整体以及相对对手的层面改进代码库。

研究团队运用这种方法，开展了涵盖8个LLM的1680场锦标赛，其中有4.5、GPT这个5、2.5 Pro、Qwen3 Coder、Grok Code Fast等。虽有模型在总体上呈现轻微优点，但无一个模型在所有领域都能始终超越别的模型。这些趋势在一对一竞赛与多智能体竞赛里都存在，不过在后者中波动更为显著。比如，在6玩家锦标赛中，获胜者仅拿到了总分的28.6%，而在一对一挑战里则是78.0% 。

对于模型分析由别的LLM所生成的代码库的能力，研究人员进行了评估。在这样的情形之下，GPT 5整体上展现出最好的表现，超出了4.5。可是，分析显示，检查对手的代码并不会自动转变为竞争优势。

虽说这项研究具备说服力，不过研究人员认可当下的竞技场规模比典型的现实世界系统小，所以，往后的研究将着力于应对更大的代码库，并且支持多个竞争性目标。

如有侵权请联系删除！

TAGS：

上一篇：vary for sketch 2025 以渲追光影，智形相随！SMARAY渲染引擎实现数十倍效率提升并降低成本

下一篇：codejock software VSCode插件开发全攻略：从环境准备到代码编写，一步步教你创建扩展

返回列表

诚信、勤奋、创新、卓越

13262879759

行业动态

codejock 162 CodeClash：斯坦福等高校推出新基准，如何评估LLM真实编码能力？

联系我们