发布时间:2025-11-16
浏览次数:0
斯坦福的研究人员开发了一个新的基准测试,普林斯顿的研究人员也参与其中,康奈尔的研究人员同样有份,这个新基准测试是为了能更好地对大型语言模型也就是LLMs的编码能力展开评估,它有个名字codejock 162,这个新基准测试会让LLMs相互展开对决,会进行好多轮比赛,其目的在于评估它们达成那种超越狭义定义的、单个特定任务的、具备竞争性的、高级目标这个能力 。
有研究人员觉得,去评估编码 LLMs 在明确的任务方面的表现,其中任务比如修复错误、实现算法或者编写测试,这样做并不足以去评估它们解决真实世界软件开发挑战的能力。
执行维护任务的并非开发人员,而是受提高用户保留率、增加收入或者降低成本等高级目标所驱动的人员。这要求本质上具备不一样的能力,工程师得依照递归方式把这些目标拆解成可执行的步骤,排出优先级顺序,还要针对所要追寻的解决方案做出战略方面的决策。
为了让LLM评估进程更贴近现实世界、具备目标导向的软件工程,研究人员进行了开发,开发出一个基准测试。该基准测试旨在体现开发周期的迭代特性,在这个基准测试里,LLM们展开竞争,去构建最佳代码库,以此达成高级目标。
多个LM系统于多轮比赛里开展竞争,目的在于建构能够达成高级目标的最佳代码库codejock 162,这些代码库所实现的解决方案在代码竞技场展开竞争,像(基于网格的生存)、Poker(无限德州扑克)以及(坦克战斗),如此这般 。

每一步涵盖两个阶段,其一为编辑阶段,在此阶段中,LLM 对代码库予以编辑,其二是竞赛阶段,于该阶段里,在代码竞技场中针对代码库实施评估。代码竞技场依据最大化得分或者资源获取,亦或是生存等目标来判定胜者。
开始时,LM代理仅接收到关于环境的简短描述,尽管诸如竞技场机制、示例机器人以及推荐策略等信息能于启动代码库中寻觅到,然而模型得主动去发觉这些信息。
每一轮结束之际,比赛日志会被增添至一个日志库内,凭借此供LLMs提取见解,进而为下一轮做更为妥善的准备,其目的在于从整体以及相对对手的层面改进代码库。
研究团队运用这种方法,开展了涵盖8个LLM的1680场锦标赛,其中有4.5、GPT这个5、2.5 Pro、Qwen3 Coder、Grok Code Fast等。虽有模型在总体上呈现轻微优点,但无一个模型在所有领域都能始终超越别的模型。这些趋势在一对一竞赛与多智能体竞赛里都存在,不过在后者中波动更为显著。比如,在6玩家锦标赛中,获胜者仅拿到了总分的28.6%,而在一对一挑战里则是78.0% 。
对于模型分析由别的LLM所生成的代码库的能力,研究人员进行了评估。在这样的情形之下,GPT 5整体上展现出最好的表现,超出了4.5。可是,分析显示,检查对手的代码并不会自动转变为竞争优势。
虽说这项研究具备说服力,不过研究人员认可当下的竞技场规模比典型的现实世界系统小,所以,往后的研究将着力于应对更大的代码库,并且支持多个竞争性目标。
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码