
Transformer 论文作家 Lukasz Kaiser 以及 GAN 作家 Bing Xu 转发见谅了一项责任——
LLM-as-a-Verifier考证框架,该设施是一种通用的考证机制,可与轻易 Agent Harness 和模子团结。
由斯坦福、伯克利与英伟达联手打造。

商量标明通过延长考证阶段的诡计量(scaling verification compute),不错显耀普及 Agent 全体性能,并在最有影响力的 AI 编程基准 Terminal-Bench 上卓越 Claude Mythos 和 GPT-5.5!

LLM-as-a-Verifier 在 AI Coding 基准 Terminal-Bench 和 SWE-Bench Verified 上均取得了刻下最优(SOTA)性能。
设施
大大宗 Agent Harness 实际上仍是"具备"贬申斥题的能力。
当咱们屡次初始澌灭个 Agent(举例初始 100 次),它频频粗略在某一次尝试中生成正确谜底。
但问题在于,它们无法判断哪一个才是正确的。
这一问题在万古序任务(long-horizon tasks)中尤为严重。

LLM-as-a-Verifier 通过 scaling评分 token 的细粒度(score granularity)、屡次评估(repeated verification)以及评价顺序的判辨(criteria decomposition),显耀普及了考证能力,并进一步提高了卑劣任务的班师率。
此外,团队发现跟着评分 token 细粒度的普及,正负样本之间的得分差异度会进一步拉大。

中枢问题:LLM-as-a-Judge 的局限性
顺序的 LLM-as-a-Judge 通过提醒模子输出一个评分效果(举例,1 到 8 之间的分数),并聘用概率最高的评分看成最终的打破分数。
然则,这种设施频频存在评分粒渡过于约略的问题。
在比较万古序 Agent 轨迹(trajectories )时,LLM-as-a-Judge 频繁会为不同的轨迹分派通常的分数(举例,两条轨迹都被评为 4 分),亚搏中国手机版app下载从而导致平局,无法灵验差异它们。
这种粗粒度的评分机制在 Terminal-Bench 上出现了27%的平局情况,适度了评判的精准性和差异能力。

LLM-as-a-Verifier: 从判分到考证的范式革新
从界说上讲,judge(裁判者)是对全体情况造成总体判断并给出论断的东说念主;而 verifier(考证者)则是对具体事项进行真确及正确性核验的东说念主,因此需要更精采、更具体的评估。
为此,团队提议了 LLM-as-a-Verifier。它通过延长以下三个维度来提供细粒度反应:
评分 token 的粒度(granularity of score tokens)
重叠考证的次数(repeated verifications)
评估顺序的判辨(decomposition of evaluation criteria)
给定任务 t 以及两条候选轨迹和 , LLM-as-a-Verifier 构造评分 prompt, 并通过从和中索求 toplogprobs,米兰得到对应的条款散播 :

LLM-as-a-Verifier 将轨迹的奖励暗示为:

其中:
C= 评估顺序的数目
K= 重叠考证的次数
G= 评分 token 的数目(粒度品级)

是模子对评分 token 的概率

= 每个评分 token 映射为标量数值的函数
= 打破评分 token 聚集
在聘用最好轨迹时,咱们选用轮回赛(round-robin tournament):对每一双候选轨迹 ( i, j ) , 考证器都会运用上述公式诡计其 reward。
奖励更高的轨迹赢得班师,而在一说念比较中胜场数最多的轨迹,将被选为最终效果。
实验效果
在 Terminal-Bench 2.0 和 SWE-Bench Verified 等复杂的万古序基准任务中,LLM-as-a-Verifier 的推崇全面卓越了前沿模子并均取得了刻下最优(SOTA)性能。扫数实验效果均开首于官方排名榜 .

LLM-as-a-Verifier 粗略在不同的 Agent Harness 框架中杀青无缝集成,其通用性考证于以下三个基准任务:
ForgeCode:考证准确率普及至 86.4%;
Terminus-Kira:准确率普及至 79.4%;
Terminus 2:准确率增多至 71.2%。

这标明,不管针对何种 Agent Harness 或模子,该考证设施王人可高效兼容并普及性能。
LLM-as-a-Verifier 在考证准确率和甩掉平局方面全面进步于传统的 LLM-as-a-Judge。
即使在增多剧叠考证次数的情况下(如 k=16),Verifier 设施依然保合手了至少 7% 的考证准确率上风。
此外,它十足甩掉了平局气候。

检修效果标明,增多评分 token 的粒度(granularity)以及提高重叠考证次数(repeated verifications)均显耀提高考证准确率。
此外,在评分 token 维度的细化分级(1 → 20)中,量化罪恶得到了极大裁减,从而更接近真确奖励。

LLM-as-a-Verifier 烧毁传统的单一评分机制,选用将轨迹考证解构为三个可组合的评估顺序:
法式合规性 ( Specification ) :轨迹是否适宜扫数任务要求(旅途、定名等)。
输出形势 ( Output Format ) :考证输出的形势是否适宜预期效果。
失误检测 ( Error Checking ) :轨迹中是否存在显著的失误信号。

比拟传统的 LLM-as-a-Judge 设施, LLM-as-a-Verifier 框架运用更精采的评分粒度、重叠考证,以及评估顺序判辨,杀青了更高的考证准确率和更精准的差异能力,甩掉了评分平局气候,不仅普及了 Agent 性能,还显耀增强了模子在万古序任务中的安全性和褂讪性。
团队先容
本技俩由斯坦福大学 CS 博士生 Jacky Kwok 安适。主要孝顺者包括伯克利 EECS 博士生 Shulu Li。通信作家有 Ion Stoica(UC 伯克利培植、Databricks 创举东说念主)、Azalia Mirhoseini(斯坦福培植,曾任职于 DeepMind 与 Anthropic)、以及 Marco Pavone(英伟达 AI 与自动驾驶商量总监)。
博客:llm-as-a-verifier.notion.site
代码:llm-as-a-verifier.github.io
推敲花式:jackykwok@stanford.edu
一键三连「点赞」「转发」「预防心」
接待在指摘区留住你的思法!
— 完 —
咱们正在招聘又名眼疾手快、见谅 AI 的学术裁剪实习生 � �
感兴味的小伙伴接待见谅 � � 了解细目

� � 点亮星标 � �
科技前沿进展逐日见米兰
斗鱼体育app中国官网下载

