“百模大战”家家第一，大模型“跑分”作弊何时休？

发布时间: 2023-11-29 17:54| 发布者: wangjing| 查看: 9152| 评论: 0

摘要: 今天在朋友圈看到一张图：国内的“百模大战”已升级成“两百模大战”，据不完全统计，今年1-7月国内共发布了64个大模型，截至目前叫得出名字的国产大模型已接近200家。这么多大模型，哪些是真能打的？在每天冒出来的 ...

明天正在伴侣圈看到一张图：海内的“百模年夜战”已晋级成“两百模年夜战”，据没有完整统计，本年1-7月海内共公布了64个年夜模子，停止今朝叫得着名字的国产年夜模子已靠近200家。那么多年夜模子，哪些是实能挨的？正在天天冒出去的各种“榜单”上呈现了“家家第一”的状况，以至已没有行一款国产年夜模子“碾压”了GPT-4，且许多“天下顶级”年夜模子是出自刚建立的团队之脚。

但是国产年夜模子正在外洋的际遇，倒是冰水两重天。前段工夫《时期周刊》宣布2023年AI范畴最有影响力100人，中国面目面貌非常稀有，有媒体批评“百模年夜战挨了个孤单”；日前，开源AI社区代表Hugging Face公布最受欢送开源年夜模子机构TOP15榜单，正在赫赫有名的Stability AI、Meta AI、Runway、OpenAI、谷歌、微硬等外洋机构中，只要一家机构去自中国：KEG尝试室（齐称为浑华年夜教常识工程尝试室，建立于1996年），其凭仗本年开源的模子ChatGLM-6B上榜。

这类变态征象的背后，是年夜模子止业日趋严峻的“跑分治象”。正在让人头昏眼花的年夜模子榜单上，仿佛每个年夜模子皆曾拿过第一，皆可分分钟碾压GPT-4。那不由让人疑心，国产年夜模子手艺实的那么强？年夜模子手艺门坎实的那么低？

年夜模子榜单，家家第一？

假如搜刮“年夜模子，逾越GPT-4”能够发明，多家国产年夜模子号称正在多个维度已逾越OpenAI旗下的GPT-4，且有模有样天晒出对应的年夜模子评测榜单“跑分”，好比某年夜模子声称“基模子12项机能逾越GPT-４”。相对来讲，源自顶尖教术机构的年夜模子对本人的程度更松散一些，它们常常没有会过分夸大排名数据，而科技巨子固然会有一些“包拆”但也没有会太离谱，顶多只会声称“来岁应战GPT-4”“已到达GPT3.5的程度”。

年夜模子“家家皆是第一”的治象，跟单11完毕后的品牌战报有些类似。每一个品牌皆能定造一个让本人看上来“最凶猛”的单11榜单，GMV不可能够道销量，二者皆不可可减前缀限制到细分品类如“XX元内乱XX吋采纳XX屏幕的电视之第一”，其实不可借能道本身同比删速止业第一。

年夜模子是杂手艺产物，权衡其火准实际上要用专业手艺评测系统，“让专业的回专业”，当前，正在PK手艺参数那件事上，年夜模子榜单存正在很多成绩。

前些年止业盛行“参数范围越年夜，年夜模子却壮大”，年夜模子狂卷参数，最下已过千亿。明天年夜模子不克不及再单拼参数了，由于止业皆明白，参数年夜的年夜模子纷歧定实壮大。年夜模子要证实气力，离没有开“跑分”，便是来跑一些机构的年夜模子评测系统的测试数据散去“拿分”再排名。

当下，市情上的评测东西（体系）没有下50个，既有去自专业教术机构的，也有去自市场运做构造的，另有一些媒体也推出了对应的年夜模子榜单。

正在差别年夜模子“跑分”榜单中，统一个年夜模子的表示能够相好甚年夜，好比前段工夫被量疑“基于开源年夜模子真本创”的某年夜模子声称逾越GPT-4“怯夺环球开源评测单料冠军”，正在其宣布本身第一的榜单上，百度文心一行连TOP20皆没法进进，但正在8月15日某威望媒体研讨机构公布的《野生智能年夜模子体验陈述2.0》，百度文心一行又能排第两，第一是讯飞星水年夜模子；正在8月28日，SuperCLUE公布的中文年夜模子8月榜单，GPT-4排名第一，百川智能的Baichuan-13B-Chat排正在中文榜单尾位；正在9月的开源评测榜单C-Eval最新一期排止榜中，云天励飞年夜模子“云天书”排正在第一，GPT-4名列第十。

差别年夜模子的“智力”表示，正在差别榜单相好宏大，明眼人一看便明白此中潜伏玄机。

更新奇的是，便算正在统一榜单中，也常常呈现多个年夜模子配合认发第一的状况。好比某脚机厂商颁布发表，其“自研年夜模子正在C-Eval环球中文榜单中排名第一。此前其自研年夜模子已获得C-Eval百亿内乱年夜模子榜单第一，CMMLU环球中文榜单第一和其百亿内乱年夜模子榜单第一的好成就。”统一工夫，某互联网巨子旗下的立异营业声称其“千亿级参数的年夜模子登顶C-Eval战CMMLU两年夜威望评测榜单，多项机能劣于GPT-4。”看到那里许多人必定会有疑问：为何正在C-Eval战CMMLU那两年夜“威望评测榜单”中，均会同时呈现两个第一？——假如持续搜刮生怕借能找到更多认发第一的状况。

只需前缀用得好，家家皆是年夜模子王者，国产年夜模子秒杀GPT-4、碾压人类智商皆没有是事女。

成绩正在于，当家家皆声称本人是年夜模子“王者”后，如许的“金牌”露金量到底有几？我们没有由要问：年夜模子评测系统到底出了甚么成绩？

年夜模子评测系统，成绩正在哪？

百模年夜战热火朝天。差别年夜模子皆有着分出个上下的激烈需供，正在如许的布景下，市情上快速呈现了大批的年夜模子排止榜，它们可被分为三类：一类是年夜教等机构主导的教术类榜单，一类是第三圆公司运做的市场类榜单，另有一类是媒体等非手艺机构推出的评测榜单。

用脚机止业去类比，第一类、第两类便像是安兔兔、dxomark如许的跑分仄台，芯片、相机好欠好用手艺评测数听说话；第三类更像是评测体验专主，他们站正在用户角度来设想榜单。实正可以权衡年夜模子手艺气力的是第一类、第两类“跑分”榜单。

不管是教术界仍是财产界的年夜模子榜单，当前的“跑分”道理皆是分歧的：设想一套评测数据散来让年夜模子给出谜底，再阅卷挨分，素质便是让年夜模子“做题”拿分。年夜模子素质是机械进修手艺，其目标是提拔机械的智能水平觉得人类所用，因而用权衡人的才能的手腕即“测验做题”去评价年夜模子的火准，自己没有存正在甚么成绩。

但是，年夜模子年夜范围发作才没有到一年工夫，当前的年夜模子跑分评测系统才刚开展出去，团体很没有成生，那招致了一些年夜模子玩家脚踏两船，靠“刷分”夺冠。

年夜模子评测根底系统其实不庞大。用最威望的测验系统下考去对标的话：评测数据散相称于“题库”；评测东西取历程则对应到下考测验东西取历程，好比笔试用的试卷，英语听力用的播送；挨分系统相称于下考的阅卷系统，好比语文做文会有多名教师阅卷再算均匀分，以确保公允。

如许看的话，当前的年夜模子跑分评测系统成绩有三：

第1、开源评测数据散标题问题齐公然，“刷题”最盛行。许多年夜模子评测榜单的数据散是公然的，针对此呈现了遍及的“刷题”征象，有的公司会雇仆人类“数据标注员”去做题将谜底给到年夜模子，另有的公司会让GPT-4去问题再将谜底用去锻炼自家年夜模子，年夜模子做题就能够“谦分”了。很多年夜模子刚推出就能够拿谦分“排第一”碾压GPT-4，微妙正正在于那里。

开源评测数据散相称于下考弄“开卷测验”一样，除非是出格开放的成绩（如职局面试），不然被试者完整能够提早针对性天刷题背谜底，终极得分天然完整没法反应出其实在程度。

第两，评测数据没有开源、齐历程封锁评测，激发了公允性成绩。既然将评测数据散开源会激发“刷题”，为何评测机构要开源呢？谜底正在于：评测的公允性。假如机构正在评测时用甚么成绩和对应甚么谜底是甚么不断没有公然，假如机构的评测逻辑取东西、评分办法取历程是封锁的“乌盒子”，得出的任何成果皆不免会被量疑。只要公然，才有公允公平，才气让人服气。因而，评测机构开放取没有开放皆易。

第三，评测数据散自己存正在不敷科教的状况。好比用中文数据散来查核英文年夜模子，跟让老中间接去参与下考一样没有靠谱；再好比用通用评测数据散来评测医疗、金融、产业、科教等财产年夜模子，跟让体育专长死来参与一般下考一样，出太粗心义。

更挖苦的是，如今止业呈现了一些“为所欲为的客观榜单”，排名者没有明白是谁，也没有会用甚么评测数据散去测试年夜模子，而是“我以为谁第一谁便是第一”，好比那几天某年夜模子榜单，一看排名根据居然是根据“开放水平”“手艺专利”“齐仄台会见指数”战“热度指数”，那其实不科教。

有的年夜模子靠“刷分”来拿第一“碾压GPT-4”，好歹仍是花了面工夫来筹办的，好比会让数据标注员来做题，顶多算测验作弊“小抄”。可是弄一些排名机构皆没有明白是谁、连评测数据散皆出有的客观榜单去声称“第一”的玩家，几乎便跟费钱来家鸡年夜教购教历的好未几——更精确的道法该当是，“办假证”，便算家鸡年夜教也要来像模像样进修一番。

出有任何证据表白有年夜模子创业者“费钱购榜”的状况，但当前年夜模子榜单的确存正在严峻成绩，市场亟待一套相似于下考一样的威望的年夜模子评测系统，正在公允公平公然的同时，科教、片面、有用天权衡年夜模子的综开程度。

市场需求如何的年夜模子评测系统？

从隋唐期间呈现的科举测验到明天的下考，从中国的四六级英语测验再到外洋的GRE、托祸、俗思……“测验”让每一个人皆能够公允天被权衡，进而获得对应的生长时机。

同理，年夜模子评测系统对年夜模子的开展也不成或缺：

一圆里，假如评测相瞄准确、靠谱、威望，能够科教、片面、有用天权衡孰劣孰劣，对市场合有年夜模子玩家来讲无疑是功德。假如评测禁绝确，阿猫阿狗的年夜模子皆能够“第一”“夺冠”“屠榜”，对实正具有顶尖人材、投进宏大资本、攻脆手艺卡面的年夜模子团队无疑是非常没有公允的。榜单排名不但是决议市场认知，常常也意味着人材、资金等资本的凝集才能。

另外一圆里，只要评测成果相瞄准确，年夜模子研收者才气明白本人产物的市场程度正在哪，劣缺陷正在哪，进而查漏补缺，沿着准确的标的目的研究算法、提拔手艺、增强锻炼，不竭霸占易面不竭晋级迭代，如许的历程便像下中同窗们参与“模仿测验”大概“摸底测验”的意义一样。

那末，年夜模子评测系统如何才气成为“下考”一样的威望评测系统呢？

起首，“假教历”、“家鸡年夜教教历”那一类“家鸡榜单”该当被完全阻挡，“购榜单”“购排名”如许的做法该当被坚定鄙夷。让手艺的回手艺，年夜模子手艺气力只能且必需用手艺语言，弄一些跟手艺不妨的评价维度去死推硬套“制榜单”跟“购假教历证”的举动出甚么区分，止业对那类榜单该当当机立断天鄙弃。

其次，年夜模子要证实手艺程度便要尊敬“测验”划定规矩，参与“下考”，当前的年夜模子“下考”系统有待改良：

1、评测历程齐开放，数据该当“开/闭分离”。机构的评测东西、评测历程、评测办法和评分系统该当毫无保存天开源，确保公允公平公然。评测数据散则应“开/闭分离”，开源汗青标题问题让年夜模子锻炼，但正式的评测数据散该当封锁以根绝“刷榜”，正在评测完毕后再开放躲嫌“暗箱操纵”，同时也能够让年夜模子研收者对症下药天来发明成绩战改良手艺。别的，机构也能够开源相似于口试供职一样的开放标题问题，再配套对应的评测系统去权衡年夜模子表示。

参考下考做文标题问题挨分去看，评测机构以至能够多家结合评测，最年夜化躲避客观成绩战随机身分，尽量实在天权衡年夜模子的程度。

2、评测系统更片面，评测方法多元化。除针对年夜模子正在机能取泛化评测等表示设想评价系统中，更多统筹到年夜模子的能效、鲁棒性、宁静性等综开才能评测。取此同时，针对差别范例的年夜模子设想对应的评测系统，好比金融年夜模子强化金融级宁静评测，好比产业年夜模子则要评价其正在卑劣情况下的极限表示。

3、评测数据散更专业，不竭丰硕评测数据。评测数据散的成立历程素质是“命题”，参考下考去看，那是一个体系而科教的工程。针对年夜模子的评测数据散该当不竭完美，跟着年夜模子的迭代而迭代，好比GPT-4强化多模态才能，评测数据散也该当配套强化音视频等多媒体内乱容了解取天生相干评测数据散；再好比针对金融等专业年夜模子，评测数据散该当有对应的专业题库。每一年下考做文命题城市揭开及时，恰是由于相干标题问题不成能存正在汗青标题问题，年夜模子评测数据散一样可取时俱进，分离最新的及时常识来完美，让年夜模子不成能靠刷题、刷分得下分。

怎样精确丈量一个年夜模子的才能，那实践上仍是一个十分有争议的成绩，由于今朝我们实在借其实不能切当天指出年夜模子智能出现的缘故原由。许多时分，模子运做自己是一个乌箱历程，那便意味着对年夜模子的测评某种意义上讲是井蛙之见——它的完美便好像年夜模子才能的提拔一样，皆将是一个持久的历程。

天下上没有会有完善的年夜模子评测系统，但跟着手艺的迭代，当前的年夜模子评价系统需求晋级，揭开市场需供，回回手艺自己，让年夜模子开辟者们能够沿着准确的标的目的行进。

关于年夜模子开辟者来讲，任何榜单的排名是手艺退化的天然成果，而不该该被当做目标。年夜模子团队的资本是有限的，假如花心机、资本取精神来定造榜单弄排名寻求“虚伪壮大”，哪怕拿遍止业第一皆出甚么意义，那是刻舟求剑。不管如何证实本人第一皆是出有效的，不竭粗进手艺，加快手艺产物化的程序，让手艺进进场景才是年夜模子团队的年夜事。有无B端客户购单？实在下载量、用户数到底怎样？止业内乱的实在心碑怎样？教术圈的手艺评价如何？能不克不及完成贸易化？那些评价系统近比任何榜单的排名主要很多。

1、转载或引用本网站内容须注明原网址，并标明本网站网址(https://www.wnceo.com)。

2、本网站部分投稿来源于“网友”，文章内容请反复甄别。若涉及侵权请移步网站底部问题反馈进行反映。

3、对于不当转载或引用本网站内容而引起的民事纷争、行政处理或其他损失，本网站不承担责任。

4、对不遵守本声明或其他违法、恶意使用本网站内容者，本网站保留追究其法律责任的权利。

收藏分享邀请

上一篇：斯坦福华人女博士AI创业项目爆火！半年融资5500万美元下一篇：开源大世界，谁来打好大模型的地基？

wangjing

0
粉丝
9152
阅读
0
回复

作者其他文章

关注世界总裁网

扫描关注,了解最新资讯

实时了解财经信息

掌握市场风云动态

助力商场共赢至胜

改变你所看到的世界

资讯幻灯片

热门资讯

06-05

liushaolong321

同心致远启新程创新赋能立潮头

2026年5月31日，福州福耀科技大学佩伯酒店群贤毕至、星光熠熠。“2026华夏企业家论坛
03-24

wangjing

陶哲轩：AI 辅助数学证明如同汽车冲击城市

据 The-decoder 报道，数学家陶哲轩将人工智能与形式化方法对数学研究实践的影响，比
03-24

wangjing

黄仁勋补贴人才价值底薪50%算力，英伟达终

黄仁勋补贴人才价值底薪50%算力，英伟达终极形态指挥数十万AIIT之家2026年03月21日 14
03-24

wangjing

马化腾首谈“养虾”：可将AI落地到丰富场景

观点网讯：3月18日，腾讯董事会主席兼首席执行官马化腾在腾讯控股2025年业绩沟通会上
03-24

wangjing

OpenClaw引领智能体浪潮：四巨头“龙虾”生

2026年，OpenClaw让AI第一次真正具备了“动手能力”——它不再停留在对话层面，而是能
03-24

wangjing

优必选CEO周剑：机器人首先替代的是一些招

3 月 24 日消息，据第一财经今日报道，优必选创始人、董事会主席兼 CEO 周剑在 3 月的
03-24

wangjing

高盛评Meta裁员、压开支、推迟模型发布：这

面对外界对meta裁员、削减Reality Labs投入及推迟基础模型发布的广泛担忧，高盛给出不
03-24

wangjing

AI大神卡帕西自曝：玩龙虾玩出“AI精神病”

编译 |陈骏达编辑 |李水青智东西3月23日报道，在上周六发布的播客中，OpenAI联合创始
03-24

wangjing

首个开放服务能力的音乐平台：网易云音乐官

3 月 23 日消息，网易云音乐官方今日宣布全面接入 OpenClaw，成为业内首个向 AI Agent
03-24

wangjing

2026人形机器人半程马拉松官宣：超300台机

今日，2026北京亦庄半程马拉松暨人形机器人半程马拉松赛事相关信息正式发布，比赛将于

热门专题

陶哲轩：AI 辅助数学证明如同汽车冲击城市

黄仁勋补贴人才价值底薪50%算力，英伟达终

马化腾首谈“养虾”：可将AI落地到丰富场景

OpenClaw引领智能体浪潮：四巨头“龙虾”生

优必选CEO周剑：机器人首先替代的是一些招

高盛评Meta裁员、压开支、推迟模型发布：这

排行榜