米兰卓越Claude Mythos和GPT-5.5！斯坦福Agent考证框架拿下SOTA，Transformer作家转发

Transformer 论文作家 Lukasz Kaiser 以及 GAN 作家 Bing Xu 转发见谅了一项责任——

LLM-as-a-Verifier考证框架，该设施是一种通用的考证机制，可与轻易 Agent Harness 和模子团结。

由斯坦福、伯克利与英伟达联手打造。

商量标明通过延长考证阶段的诡计量（scaling verification compute），不错显耀普及 Agent 全体性能，并在最有影响力的 AI 编程基准 Terminal-Bench 上卓越 Claude Mythos 和 GPT-5.5！

LLM-as-a-Verifier 在 AI Coding 基准 Terminal-Bench 和 SWE-Bench Verified 上均取得了刻下最优（SOTA）性能。

设施

大大宗 Agent Harness 实际上仍是"具备"贬申斥题的能力。

当咱们屡次初始澌灭个 Agent（举例初始 100 次），它频频粗略在某一次尝试中生成正确谜底。

但问题在于，它们无法判断哪一个才是正确的。

这一问题在万古序任务（long-horizon tasks）中尤为严重。

LLM-as-a-Verifier 通过 scaling评分 token 的细粒度（score granularity）、屡次评估（repeated verification）以及评价顺序的判辨（criteria decomposition），显耀普及了考证能力，并进一步提高了卑劣任务的班师率。

此外，团队发现跟着评分 token 细粒度的普及，正负样本之间的得分差异度会进一步拉大。

中枢问题：LLM-as-a-Judge 的局限性

顺序的 LLM-as-a-Judge 通过提醒模子输出一个评分效果（举例，1 到 8 之间的分数），并聘用概率最高的评分看成最终的打破分数。

然则，这种设施频频存在评分粒渡过于约略的问题。

在比较万古序 Agent 轨迹（trajectories ）时，LLM-as-a-Judge 频繁会为不同的轨迹分派通常的分数（举例，两条轨迹都被评为 4 分），亚搏中国手机版app下载从而导致平局，无法灵验差异它们。

这种粗粒度的评分机制在 Terminal-Bench 上出现了27%的平局情况，适度了评判的精准性和差异能力。

LLM-as-a-Verifier: 从判分到考证的范式革新

从界说上讲，judge（裁判者）是对全体情况造成总体判断并给出论断的东说念主；而 verifier（考证者）则是对具体事项进行真确及正确性核验的东说念主，因此需要更精采、更具体的评估。

为此，团队提议了 LLM-as-a-Verifier。它通过延长以下三个维度来提供细粒度反应：

评分 token 的粒度（granularity of score tokens）

重叠考证的次数（repeated verifications）

评估顺序的判辨（decomposition of evaluation criteria）

给定任务 t 以及两条候选轨迹和， LLM-as-a-Verifier 构造评分 prompt，并通过从和中索求 toplogprobs，米兰得到对应的条款散播 :

LLM-as-a-Verifier 将轨迹的奖励暗示为：

其中：

C= 评估顺序的数目

K= 重叠考证的次数

G= 评分 token 的数目（粒度品级）

是模子对评分 token 的概率

= 每个评分 token 映射为标量数值的函数

= 打破评分 token 聚集

在聘用最好轨迹时，咱们选用轮回赛（round-robin tournament）：对每一双候选轨迹 ( i， j ) ，考证器都会运用上述公式诡计其 reward。

奖励更高的轨迹赢得班师，而在一说念比较中胜场数最多的轨迹，将被选为最终效果。

实验效果

在 Terminal-Bench 2.0 和 SWE-Bench Verified 等复杂的万古序基准任务中，LLM-as-a-Verifier 的推崇全面卓越了前沿模子并均取得了刻下最优（SOTA）性能。扫数实验效果均开首于官方排名榜 .

LLM-as-a-Verifier 粗略在不同的 Agent Harness 框架中杀青无缝集成，其通用性考证于以下三个基准任务：

ForgeCode：考证准确率普及至 86.4%；

Terminus-Kira：准确率普及至 79.4%；

Terminus 2：准确率增多至 71.2%。

这标明，不管针对何种 Agent Harness 或模子，该考证设施王人可高效兼容并普及性能。

LLM-as-a-Verifier 在考证准确率和甩掉平局方面全面进步于传统的 LLM-as-a-Judge。

即使在增多剧叠考证次数的情况下（如 k=16），Verifier 设施依然保合手了至少 7% 的考证准确率上风。

此外，它十足甩掉了平局气候。

检修效果标明，增多评分 token 的粒度（granularity）以及提高重叠考证次数（repeated verifications）均显耀提高考证准确率。

此外，在评分 token 维度的细化分级（1 → 20）中，量化罪恶得到了极大裁减，从而更接近真确奖励。

LLM-as-a-Verifier 烧毁传统的单一评分机制，选用将轨迹考证解构为三个可组合的评估顺序：

法式合规性 ( Specification ) ：轨迹是否适宜扫数任务要求（旅途、定名等）。

输出形势 ( Output Format ) ：考证输出的形势是否适宜预期效果。

失误检测 ( Error Checking ) ：轨迹中是否存在显著的失误信号。

比拟传统的 LLM-as-a-Judge 设施， LLM-as-a-Verifier 框架运用更精采的评分粒度、重叠考证，以及评估顺序判辨，杀青了更高的考证准确率和更精准的差异能力，甩掉了评分平局气候，不仅普及了 Agent 性能，还显耀增强了模子在万古序任务中的安全性和褂讪性。

团队先容

本技俩由斯坦福大学 CS 博士生 Jacky Kwok 安适。主要孝顺者包括伯克利 EECS 博士生 Shulu Li。通信作家有 Ion Stoica（UC 伯克利培植、Databricks 创举东说念主）、Azalia Mirhoseini（斯坦福培植，曾任职于 DeepMind 与 Anthropic）、以及 Marco Pavone（英伟达 AI 与自动驾驶商量总监）。

博客：llm-as-a-verifier.notion.site

代码：llm-as-a-verifier.github.io

推敲花式：jackykwok@stanford.edu

一键三连「点赞」「转发」「预防心」

接待在指摘区留住你的思法！

— 完 —

咱们正在招聘又名眼疾手快、见谅 AI 的学术裁剪实习生 � �

感兴味的小伙伴接待见谅 � � 了解细目

� � 点亮星标 � �

科技前沿进展逐日见米兰

斗鱼体育app中国官网下载

米兰app官方网站

米兰 卓越Claude Mythos和GPT-5.5！斯坦福Agent考证框架拿下SOTA，Transformer作家转发

米兰卓越Claude Mythos和GPT-5.5！斯坦福Agent考证框架拿下SOTA，Transformer作家转发