米兰 卓越Claude Mythos和GPT-5.5!斯坦福Agent考证框架拿下SOTA,Transformer作家转发
  • 首页
  • 体育投注
  • 真人下注
  • 真钱棋牌
  • 电子游艺
  • 电竞押注
  • 彩票竞猜
  • 现金捕鱼
  • 2026世界杯
  • 米兰app官方网站
    彩票竞猜你的位置:米兰app官方网站 > 彩票竞猜 > 米兰 卓越Claude Mythos和GPT-5.5!斯坦福Agent考证框架拿下SOTA,Transformer作家转发

    米兰 卓越Claude Mythos和GPT-5.5!斯坦福Agent考证框架拿下SOTA,Transformer作家转发

    发布日期:2026-04-29 01:04    点击次数:165

    米兰 卓越Claude Mythos和GPT-5.5!斯坦福Agent考证框架拿下SOTA,Transformer作家转发

    Transformer 论文作家 Lukasz Kaiser 以及 GAN 作家 Bing Xu 转发见谅了一项责任——

    LLM-as-a-Verifier考证框架,该设施是一种通用的考证机制,可与轻易 Agent Harness 和模子团结。

    由斯坦福、伯克利与英伟达联手打造。

    商量标明通过延长考证阶段的诡计量(scaling verification compute),不错显耀普及 Agent 全体性能,并在最有影响力的 AI 编程基准 Terminal-Bench 上卓越 Claude Mythos 和 GPT-5.5!

    LLM-as-a-Verifier 在 AI Coding 基准 Terminal-Bench 和 SWE-Bench Verified 上均取得了刻下最优(SOTA)性能。

    设施

    大大宗 Agent Harness 实际上仍是"具备"贬申斥题的能力。

    当咱们屡次初始澌灭个 Agent(举例初始 100 次),它频频粗略在某一次尝试中生成正确谜底。

    但问题在于,它们无法判断哪一个才是正确的。

    这一问题在万古序任务(long-horizon tasks)中尤为严重。

    LLM-as-a-Verifier 通过 scaling评分 token 的细粒度(score granularity)、屡次评估(repeated verification)以及评价顺序的判辨(criteria decomposition),显耀普及了考证能力,并进一步提高了卑劣任务的班师率。

    此外,团队发现跟着评分 token 细粒度的普及,正负样本之间的得分差异度会进一步拉大。

    中枢问题:LLM-as-a-Judge 的局限性

    顺序的 LLM-as-a-Judge 通过提醒模子输出一个评分效果(举例,1 到 8 之间的分数),并聘用概率最高的评分看成最终的打破分数。

    然则,这种设施频频存在评分粒渡过于约略的问题。

    在比较万古序 Agent 轨迹(trajectories )时,LLM-as-a-Judge 频繁会为不同的轨迹分派通常的分数(举例,两条轨迹都被评为 4 分),亚搏中国手机版app下载从而导致平局,无法灵验差异它们。

    这种粗粒度的评分机制在 Terminal-Bench 上出现了27%的平局情况,适度了评判的精准性和差异能力。

    LLM-as-a-Verifier: 从判分到考证的范式革新

    从界说上讲,judge(裁判者)是对全体情况造成总体判断并给出论断的东说念主;而 verifier(考证者)则是对具体事项进行真确及正确性核验的东说念主,因此需要更精采、更具体的评估。

    为此,团队提议了 LLM-as-a-Verifier。它通过延长以下三个维度来提供细粒度反应:

    评分 token 的粒度(granularity of score tokens)

    重叠考证的次数(repeated verifications)

    评估顺序的判辨(decomposition of evaluation criteria)

    给定任务 t 以及两条候选轨迹和 , LLM-as-a-Verifier 构造评分 prompt, 并通过从和中索求 toplogprobs,米兰得到对应的条款散播 :

    LLM-as-a-Verifier 将轨迹的奖励暗示为:

    其中:

    C= 评估顺序的数目

    K= 重叠考证的次数

    G= 评分 token 的数目(粒度品级)

    是模子对评分 token 的概率

    = 每个评分 token 映射为标量数值的函数

    = 打破评分 token 聚集

    在聘用最好轨迹时,咱们选用轮回赛(round-robin tournament):对每一双候选轨迹 ( i, j ) , 考证器都会运用上述公式诡计其 reward。

    奖励更高的轨迹赢得班师,而在一说念比较中胜场数最多的轨迹,将被选为最终效果。

    实验效果

    在 Terminal-Bench 2.0 和 SWE-Bench Verified 等复杂的万古序基准任务中,LLM-as-a-Verifier 的推崇全面卓越了前沿模子并均取得了刻下最优(SOTA)性能。扫数实验效果均开首于官方排名榜 .

    LLM-as-a-Verifier 粗略在不同的 Agent Harness 框架中杀青无缝集成,其通用性考证于以下三个基准任务:

    ForgeCode:考证准确率普及至 86.4%;

    Terminus-Kira:准确率普及至 79.4%;

    Terminus 2:准确率增多至 71.2%。

    这标明,不管针对何种 Agent Harness 或模子,该考证设施王人可高效兼容并普及性能。

    LLM-as-a-Verifier 在考证准确率和甩掉平局方面全面进步于传统的 LLM-as-a-Judge。

    即使在增多剧叠考证次数的情况下(如 k=16),Verifier 设施依然保合手了至少 7% 的考证准确率上风。

    此外,它十足甩掉了平局气候。

    检修效果标明,增多评分 token 的粒度(granularity)以及提高重叠考证次数(repeated verifications)均显耀提高考证准确率。

    此外,在评分 token 维度的细化分级(1 → 20)中,量化罪恶得到了极大裁减,从而更接近真确奖励。

    LLM-as-a-Verifier 烧毁传统的单一评分机制,选用将轨迹考证解构为三个可组合的评估顺序:

    法式合规性 ( Specification ) :轨迹是否适宜扫数任务要求(旅途、定名等)。

    输出形势 ( Output Format ) :考证输出的形势是否适宜预期效果。

    失误检测 ( Error Checking ) :轨迹中是否存在显著的失误信号。

    比拟传统的 LLM-as-a-Judge 设施, LLM-as-a-Verifier 框架运用更精采的评分粒度、重叠考证,以及评估顺序判辨,杀青了更高的考证准确率和更精准的差异能力,甩掉了评分平局气候,不仅普及了 Agent 性能,还显耀增强了模子在万古序任务中的安全性和褂讪性。

    团队先容

    本技俩由斯坦福大学 CS 博士生 Jacky Kwok 安适。主要孝顺者包括伯克利 EECS 博士生 Shulu Li。通信作家有 Ion Stoica(UC 伯克利培植、Databricks 创举东说念主)、Azalia Mirhoseini(斯坦福培植,曾任职于 DeepMind 与 Anthropic)、以及 Marco Pavone(英伟达 AI 与自动驾驶商量总监)。

    博客:llm-as-a-verifier.notion.site

    代码:llm-as-a-verifier.github.io

    推敲花式:jackykwok@stanford.edu

    一键三连「点赞」「转发」「预防心」

    接待在指摘区留住你的思法!

    —  完  —

    咱们正在招聘又名眼疾手快、见谅 AI 的学术裁剪实习生  � �

    感兴味的小伙伴接待见谅 � �  了解细目

    � � 点亮星标 � �

    科技前沿进展逐日见米兰

    斗鱼体育app中国官网下载

    Powered by 米兰app官方网站 @2013-2022 RSS地图 HTML地图