电厂 | 从“力压英伟达”到排名清零，RoboArena被千寻智能“刷榜”了吗？

记者何畅

编辑高宇雷

正如跑分是手机硬件性能的评估标准之一，Benchmark（基准测试）也被视为判断模型能力的重要参考。但随着技术发展和场景变化，维度单一的榜单似乎很难全面呈现模型的水平。与之相伴的另一个问题则是：所谓的榜单是否值得信任？

在6月12日至13日举办的智源大会上，多位嘉宾提到了对Benchmark和榜单的看法。智源研究院院长王仲远认为，从实际情况来看，现阶段“榜单确实不那么可信”——各种各样的榜单令人眼花缭乱，而且部分结果无法验证。香港大学计算与数据科学学院助理教授李弘扬则表示：“Benchmark现在是一个重灾区。”

观点与现实互为映照。6月14日，具身智能评测平台RoboArena发布公告称，经过追溯调查，他们“已经观察到Benchmark存在被操纵的痕迹”，并剔除了问题数据。对比榜单变更前后的两个版本，最大的区别在于多个模型从榜单上消失，其中就包括此前位列第一的千寻智能自研具身基座模型Spirit v1.6。

从“力压英伟达”到排名清零

6月3日，具身智能公司千寻智能通过官方微信公众号发布了一篇文章：《双线告捷！千寻智能Spirit v1.6横扫北美“具身奥林匹克”夺冠，再获15亿元A+轮融资》。

标题称得上是对正文信息的高度提炼，这家公司公布的正是这两件事：技术层面，登顶RoboArena榜单，“力压英伟达Cosmos 3和Physical Intelligence Pi0.5，“打破硅谷霸榜魔咒”；资本层面，再获15亿元A+轮融资，三个月内完成四轮交易，跑出融资加速度。

凭借技术突破吸引资本加码，再将所融资金投入后续研发——双线并行，的确达成了完美闭环。然而，几天之内，就有关注具身智能行业的人士在小红书等社交平台提出了质疑：Spirit v1.6累计评测记录为310次，其中72%的评测来自两个账号：一个是ECUST Robot Lab，评测179次，胜率为97.2%；另一个是Robotics Lab，评测45次，胜率为86.7%。作为对比，NVIDIA对Spirit v1.6进行了21次评测，胜率为0。

RoboArena方面也注意到了数据的异常。6月4日，作为联合发起者之一，宾夕法尼亚大学GRASP实验室的王杰在相关笔记的评论区回复：“我们已经注意到了这个情况，正在深入调查”。

图片来源：电厂截图自小红书

经过一周的调查和追溯，RoboArena给出了处理方案：将评测完成率低于20%的评测账号标记为可疑账号，以防止Benchmark作弊的情况再次发生；根据更新后的规则回滚了评测，将来自前述账号的评测结果剔除；同时，强制规定只有没有相关利益的第三方评测者才能自愿参与评测。

RoboArena的核心贡献者，来自加州伯克利大学机器人学习实验室的Pranav Atreya也在社交平台上发文提及此事，并对社区监督表示感谢。

图片来源：电厂截图自RoboArena

现在，如果你点进RoboArena的页面，首先看到的正是被置顶的处理公告，后面跟着RoboArena同时放出的两版榜单——短的是Official版本，排除了可疑评测结果；长的是All Policies版本，包含所有评测结果。在All Policies版本登顶的Spirit v1.6，并未出现在Official版本，后者的前三名分别来自英伟达和Physical Intelligence。

评测机制与可疑数据的由来

RoboArena的公告，其实在一定程度上解释了可疑评测数据是如何产生的：“操纵A/B评测结果存在多种手段，其中一种典型表现为待分配评测任务的完成率偏低。”

根据官网介绍，RoboArena是一个分布式评测框架，发起者来自加州大学伯克利分校、斯坦福大学、华盛顿大学、英伟达等高校和科技巨头，兼具顶尖学术机构、头部科技公司背书。评测采用“众包”模式，评测者可以自主注册账号，自由选择场景和任务执行评测。在这个过程中，模型之间的对手关系来自随机匹配，评测者也不知道自己评测的是哪个模型。

大量分散的双盲、成对评测结果经过系统的收集和统计，最终汇总为一张榜单。理论上来说，这打破了单一实验室的评测模式，大幅扩展了评测的多样性，也意味着个别可疑或恶意评测行为难以轻易影响结果。

图片来源：电厂截图自RoboArena

但实际上呢？从结果来看，ECUST Robot Lab和Robotics Lab这两个评测账号集中参与了Spirit v1.6的评测，使后者的胜率迅速提高，而且Spirit v1.6的对手多数发布较早，评测结果分布失衡。此前，榜单结果遭到质疑时，王杰曾经在小红书相关笔记留言“我们的策略分配系统收到了攻击”。也就是说，Spirit v1.6可能在评测中“绕过了”真正的潜在对手。

图片来源：电厂截图自小红书

至于ECUST Robot Lab和Robotics Lab，则为了给Spirit v1.6贡献胜率、付出了未完成评测任务过多的代价。在All Policies版本的榜单中，Spirit v1.6和另外9个模型都被打上了“low sample（低采样样本组）”的标签——根据规定，必须完成至少100组A/B评测才能上榜。数据回滚后，Spirit v1.6仅完成25组A/B评测，首次评测时间为4月30日，最后一次评测发生在5月15日。

图片来源：电厂截图自RoboArena

还有一个可能被忽略的情况在于，如果去掉英伟达作为评测者的结果，Official版本的第一名将不再是英伟达DreamZero，而是Physical Intelligence Pi0.5，但去掉来自其他主要评测者的结果时，英伟达DreamZero排名并未发生变化。

RoboArena不反对模型提供者参与评测，后者甚至可以借此为自己的模型获得更多被评测的机会。然而，当评测者就是模型提供者，很难避免“又当裁判员又当运动员”的质疑。

自愿双盲机制的出发点是好的，前提是确保结果“不可操纵”。对此，一些可能的完善思路包括：不是直接进行模型成对匹配，而是在多个成对匹配中随机筛选一个结果进行评测；加强账号关联校验、利益相关方隔离和单一对象评测上限设置等，以平衡评测的开放性和结果的公平性。

榜单和排名究竟是给谁看的？

如果刷榜成为组成榜单的一部分，榜单本身的可信程度将被画上一个问号。在6月中旬举办的智源大会上，Benchmark和榜单是被反复提起的热门话题。

智源研究院院长王仲远认为，从实际情况来看，现阶段“榜单确实不那么可信”。一是榜单太多，各种各样的榜单让他“看得眼花缭乱”，二是缺乏结果之外的信息，“很多榜单的结果也没办法完全验证”。

在他看来，敢于现场展示真机、“亮真活儿”的模型公司“是有底气的”，也能在一些场景下找到数据闭环。“是骡子是马拉出来遛遛，能拉出来遛，通常还是可以让大家有一个体感。”

香港大学计算与数据科学学院助理教授李弘扬则表示：“Benchmark现在是一个重灾区。”他觉得，目前Benchmark“存在很大的问题”，只是大家都心照不宣，“不愿意提”。他自己也从来不看榜单和排名，“如果你因为（榜单成绩）发了个朋友圈，我从心理上是非常鄙视你的”。

究竟是谁在关注榜单和排名？或许要看谁能从中有所收获。投资人需要客观评估公司技术实力的标尺，公司需要对外宣传、吸引资本的素材，学术机构需要突出科研成果的背书。各方似乎都存在需求，但一旦与榜单过度绑定甚至钻榜单规则的空子，榜单也就失去了原有的意义。

6月5日举办的腾讯AI产业应用大会上，腾讯AI首席科学家姚顺雨在与腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生对话时也提到，国内有一个不太好的倾向是“大家喜欢刷榜”。姚顺雨的观点是，实用性的价值大于刷榜价值——比起所谓的排名，更重要的其实是如何实事求是地基于产品、基于真正的应用来构造更加真实的Eval（评估）。他不否认Benchmark的作用，“只是说这些榜单非常容易Overfitting（过拟合）”。

技术实力终究要落地于真实物理世界，通过操纵评测结果换来的榜单狂欢，只是泡沫而已。正如地瓜机器人算法副总裁隋伟在小红书相关笔记下所写的那样：“这类榜单没有太大产业指导意义，跟实际落地场景相差太远，更多的是学术价值。目前操作类模型确实缺少有说服力的Benchmark，是行业痛点，但是无论如何也不能造假，那是credit的问题了。”