主办:中国评论通讯社
首页|头条|焦点|大陆|台湾|港澳|国际|美国|两岸|华人|经济|财经|军情|社会
人物|文萃|图片|文化|娱乐|评论|社评|快评|观察|专论|网评|外电|智库|智囊
专题|专访|专页|周边|诗词|出版|编译|网书|数据|动态|电讯|名家|记者|简介
   2025年1月23日 星期四
设为首页】【加入收藏】【中评邮箱
您的位置:首页 ->> 评论世界 ->> 社论要览 】 【打 印】 
刷榜跑分?AI评测不应走偏路线
http://www.CRNTT.com   2024-03-22 15:53:03


  中评社北京3月22日电/据新华每日电讯报导,“百模大战”以来,AI大模型的部分榜单上出现了一个奇怪现象:长期盘踞在榜单前列的,经常是一些名不见经传的国产大模型,它们竟然以接近满分的优势碾压了ChatGPT、Gemini和其他知名的AI大模型。

  之所以令人大跌眼镜,是因为这与大众的实际体验严重不符。不少AI大模型分数名列前茅,实力却不及格。如果说“听不懂答不对、动不动就崩溃”司空见惯,那么更讽刺的是,有的大模型根本没对业界开放,就算大家想感受一下“第一名”的风采都找不到门路。

  有人可能会好奇:一些AI大模型“高分低能”是怎么做到的?原因其实很简单,那就是评测中出现了数据污染和泄露。简单来说,榜单排名类似于有第三方“考官”出了一个题库,题库中大量考题针对性测评大模型各个方面的能力,而有的“考生”提前拿到题库,并把答案逐一背了下来。

  “考高分”的目的也很明确,那就是投机取巧、炒作包装。业内人士告诉记者,在国内众多大模型激烈竞争、良莠不齐的当下,许多大模型还未在用户之间形成过硬的口碑,离产生世界级影响还有较远的一段路。而评测是直观体现大模型能力的关键方式之一,学术化榜单和市场化榜单都得到了广泛重视,刷榜跑分因此成为一些企业快速吸引眼球的手段。

  当然,榜单失真的背后,不只有作弊的“考生”,也可能有徇私的“考官”。业界需要客观、公正、高水准的优质榜单帮助大家慧眼识珠、去伪存真,“考官”如果协助“考生”作弊,无疑会扰乱AI大模型的评测环境。所幸我们看到,部分榜单在遇到刷榜跑分问题后,及时推出补救措施,例如将公开大模型和非公开大模型区分为两张榜单,成功挤出大量非公开大模型的水分。

  是金非金焰烈而晓,部分大模型企业一心扑在刷榜跑分上显然走偏了路线。说到底AI大模型的发展还是那句老话,关键核心技术要不来、买不来、讨不来,更包装不来,唯有一步一个脚印,扎扎实实地向前走。

扫描二维码访问中评网移动版 】 【打 印扫描二维码访问中评社微信  

 相关新闻:
首页 | 港澳新闻 | 国际时事 | 两岸专区 | 军事聚焦 | 评论世界 | 财经视角 | 文萃大观 | 中评电讯 | 时事专题
关于我们 | 中评动态 | 招聘人才 | 联系方式 | 链接方式 | 中评律师 | 验证记者证 | 免责条款
     最佳浏览模式:1024x768或800X600分辨率   © Copyright 中国评论通讯社