记者 何畅
编辑 高宇雷
正如跑分是手机硬件性能的评估标准之一,Benchmark(基准测试)也被视为判断模型能力的重要参考。但随着技术发展和场景变化,维度单一的榜单似乎很难全面呈现模型的水平。与之相伴的另一个问题则是:所谓的榜单是否值得信任?
在6月12日至13日举办的智源大会上,多位嘉宾提到了对Benchmark和榜单的看法。智源研究院院长王仲远认为,从实际情况来看,现阶段“榜单确实不那么可信”——各种各样的榜单令人眼花缭乱,而且部分结果无法验证。香港大学计算与数据科学学院助理教授李弘扬则表示:“Benchmark现在是一个重灾区。”
观点与现实互为映照。6月14日,具身智能评测平台RoboArena发布公告称,经过追溯调查,他们“已经观察到Benchmark存在被操纵的痕迹”,并剔除了问题数据。对比榜单变更前后的两个版本,最大的区别在于多个模型从榜单上消失,其中就包括此前位列第一的千寻智能自研具身基座模型Spirit v1.6。
从“力压英伟达”到排名清零
6月3日,具身智能公司千寻智能通过官方微信公众号发布了一篇文章:《双线告捷!千寻智能Spirit v1.6横扫北美“具身奥林匹克”夺冠,再获15亿元A+轮融资》。
标题称得上是对正文信息的高度提炼,这家公司公布的正是这两件事:技术层面,登顶RoboArena榜单,“力压英伟达Cosmos 3和Physical Intelligence Pi0.5,“打破硅谷霸榜魔咒”;资本层面,再获15亿元A+轮融资,三个月内完成四轮交易,跑出融资加速度。
凭借技术突破吸引资本加码,再将所融资金投入后续研发——双线并行,的确达成了完美闭环。然而,几天之内,就有关注具身智能行业的人士在小红书等社交平台提出了质疑:Spirit v1.6累计评测记录为310次,其中72%的评测来自两个账号:一个是ECUST Robot Lab,评测179次,胜率为97.2%;另一个是Robotics Lab,评测45次,胜率为86.7%。作为对比,NVIDIA对Spirit v1.6进行了21次评测,胜率为0。
RoboArena方面也注意到了数据的异常。6月4日,作为联合发起者之一,宾夕法尼亚大学GRASP实验室的王杰在相关笔记的评论区回复:“我们已经注意到了这个情况,正在深入调查”。
图片来源:电厂截图自小红书
经过一周的调查和追溯,RoboArena给出了处理方案:将评测完成率低于20%的评测账号标记为可疑账号,以防止Benchmark作弊的情况再次发生;根据更新后的规则回滚了评测,将来自前述账号的评测结果剔除;同时,强制规定只有没有相关利益的第三方评测者才能自愿参与评测。
RoboArena的核心贡献者,来自加州伯克利大学机器人学习实验室的Pranav Atreya也在社交平台上发文提及此事,并对社区监督表示感谢。
图片来源:电厂截图自RoboArena
现在,如果你点进RoboArena的页面,首先看到的正是被置顶的处理公告,后面跟着RoboArena同时放出的两版榜单——短的是Official版本,排除了可疑评测结果;长的是All Policies版本,包含所有评测结果。在All Policies版本登顶的Spirit v1.6,并未出现在Official版本,后者的前三名分别来自英伟达和Physical Intelligence。
评测机制与可疑数据的由来
RoboArena的公告,其实在一定程度上解释了可疑评测数据是如何产生的:“操纵A/B评测结果存在多种手段,其中一种典型表现为待分配评测任务的完成率偏低。”
根据官网介绍,RoboArena是一个分布式评测框架,发起者来自加州大学伯克利分校、斯坦福大学、华盛顿大学、英伟达等高校和科技巨头,兼具顶尖学术机构、头部科技公司背书。评测采用“众包”模式,评测者可以自主注册账号,自由选择场景和任务执行评测。在这个过程中,模型之间的对手关系来自随机匹配,评测者也不知道自己评测的是哪个模型。
大量分散的双盲、成对评测结果经过系统的收集和统计,最终汇总为一张榜单。理论上来说,这打破了单一实验室的评测模式,大幅扩展了评测的多样性,也意味着个别可疑或恶意评测行为难以轻易影响结果。
图片来源:电厂截图自RoboArena
但实际上呢?从结果来看,ECUST Robot Lab和Robotics Lab这两个评测账号集中参与了Spirit v1.6的评测,使后者的胜率迅速提高,而且Spirit v1.6的对手多数发布较早,评测结果分布失衡。此前,榜单结果遭到质疑时,王杰曾经在小红书相关笔记留言“我们的策略分配系统收到了攻击”。也就是说,Spirit v1.6可能在评测中“绕过了”真正的潜在对手。
图片来源:电厂截图自小红书
至于ECUST Robot Lab和Robotics Lab,则为了给Spirit v1.6贡献胜率、付出了未完成评测任务过多的代价。在All Policies版本的榜单中,Spirit v1.6和另外9个模型都被打上了“low sample(低采样样本组)”的标签——根据规定,必须完成至少100组A/B评测才能上榜。数据回滚后,Spirit v1.6仅完成25组A/B评测,首次评测时间为4月30日,最后一次评测发生在5月15日。
图片来源:电厂截图自RoboArena
还有一个可能被忽略的情况在于,如果去掉英伟达作为评测者的结果,Official版本的第一名将不再是英伟达DreamZero,而是Physical Intelligence Pi0.5,但去掉来自其他主要评测者的结果时,英伟达DreamZero排名并未发生变化。
RoboArena不反对模型提供者参与评测,后者甚至可以借此为自己的模型获得更多被评测的机会。然而,当评测者就是模型提供者,很难避免“又当裁判员又当运动员”的质疑。
自愿双盲机制的出发点是好的,前提是确保结果“不可操纵”。对此,一些可能的完善思路包括:不是直接进行模型成对匹配,而是在多个成对匹配中随机筛选一个结果进行评测;加强账号关联校验、利益相关方隔离和单一对象评测上限设置等,以平衡评测的开放性和结果的公平性。
榜单和排名究竟是给谁看的?
如果刷榜成为组成榜单的一部分,榜单本身的可信程度将被画上一个问号。在6月中旬举办的智源大会上,Benchmark和榜单是被反复提起的热门话题。
智源研究院院长王仲远认为,从实际情况来看,现阶段“榜单确实不那么可信”。一是榜单太多,各种各样的榜单让他“看得眼花缭乱”,二是缺乏结果之外的信息,“很多榜单的结果也没办法完全验证”。
在他看来,敢于现场展示真机、“亮真活儿”的模型公司“是有底气的”,也能在一些场景下找到数据闭环。“是骡子是马拉出来遛遛,能拉出来遛,通常还是可以让大家有一个体感。”
香港大学计算与数据科学学院助理教授李弘扬则表示:“Benchmark现在是一个重灾区。”他觉得,目前Benchmark“存在很大的问题”,只是大家都心照不宣,“不愿意提”。他自己也从来不看榜单和排名,“如果你因为(榜单成绩)发了个朋友圈,我从心理上是非常鄙视你的”。
究竟是谁在关注榜单和排名?或许要看谁能从中有所收获。投资人需要客观评估公司技术实力的标尺,公司需要对外宣传、吸引资本的素材,学术机构需要突出科研成果的背书。各方似乎都存在需求,但一旦与榜单过度绑定甚至钻榜单规则的空子,榜单也就失去了原有的意义。
6月5日举办的腾讯AI产业应用大会上,腾讯AI首席科学家姚顺雨在与腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生对话时也提到,国内有一个不太好的倾向是“大家喜欢刷榜”。姚顺雨的观点是,实用性的价值大于刷榜价值——比起所谓的排名,更重要的其实是如何实事求是地基于产品、基于真正的应用来构造更加真实的Eval(评估)。他不否认Benchmark的作用,“只是说这些榜单非常容易Overfitting(过拟合)”。
技术实力终究要落地于真实物理世界,通过操纵评测结果换来的榜单狂欢,只是泡沫而已。正如地瓜机器人算法副总裁隋伟在小红书相关笔记下所写的那样:“这类榜单没有太大产业指导意义,跟实际落地场景相差太远,更多的是学术价值。目前操作类模型确实缺少有说服力的Benchmark,是行业痛点,但是无论如何也不能造假,那是credit的问题了。”