图片源头@视觉中国
文 | 三言Pro
明天 ,笔者分心中刷到一张图片。多前
据该图片展现 ,排名OpenAI的垫底GPT-4在11个大模子中(第一位序号为0),已经排到了最后。半年尚有网友配上了“GPT4 :我的多前委曲奈何样诉 ?”的字样。
这不禁让人好奇,排名往年年初,垫底ChatGPT爆火之后,半年其余公司才开始提大模子的多前意见。
这才半年多 ,排名GPT就已经“垫底”了?
于是垫底 ,笔者想看看GPT排名事实咋样了。半年
测试光阴差距,多前测试团队差距,GPT-4排第十一
曩昔文中图片上展现的信息来看 ,这个排名是出自C-Eval榜单。
C-Eval榜单 ,全称C-Eval全天下大模子综合性魔难测试榜,是由清华大学、上海交通大学以及爱丁堡大学相助构建的中口语语模子综合性魔难评估套件。
据悉 ,该套件拆穿困绕人文 、社科、理工 、其余业余四个悭吝向,搜罗52个学科,涵盖微积分、线性代数等多个知识规模。共有13948道中文知识以及推理型问题,难度分为中学、本科 、钻研生、职业等四个魔难级别 。
于是笔者魔难了最新的C-Eval榜单 。
C-Eval榜单的最新排名与前文中图片所展现的排名适宜,排名前十一的大模子中,GPT-4排最后。
据C-Eval榜单介绍,这些服从代表zero-shot(零样本学习)概况few-shot(少样本学习)测试 ,但few-shot不用定比zero-shot下场好。
C-Eval展现 ,在其测试中发现良多经由指令微调之后的模子在zero-shot下更好。其测试的良多模子同时有zero-shot以及few-shot的服从,排行榜中展现了总平均分更好的那个配置 。
C-Eval榜单还注明了,大模子名字中带“*”的 ,展现该模子服从由C-Eval团队测试患上到,而其余服从是经由用户提交取患上 。
此外,笔者还留意到,这些大模子提交测试服从的光阴有很大差距。
GPT-4的测试服从提交光阴是5月15日,而位居榜首的云天书,提交光阴为8月31日;排第二的Galaxy提交光阴为8月23日;排第三的YaYi提交光阴为9月4日。
而且 ,排名前16的这些大模子,惟独GPT-4的名字加了“*” ,是由C-Eval团队测试的。
于是笔者又魔难了残缺的C-Eval榜单。
最新的C-Eval榜繁多共收录了66个大模子的排名 。
其中 ,名字带“*”,也便是由C-Eval团队测试的,惟独11个 ,且提交测试的光阴均为5月15日 。
这些由C-Eval团队测试的大模子 ,OpenAI的GPT-4排第十一,ChatGPT排第三十六,而清华智谱AI的ChatGLM-6B排在第六十 ,复旦的MOSS排在了第六十四 。
尽管这些排名可能看出国内的大模子睁开势头的迅猛,但笔者以为 ,事实不是统一团队在统一光阴妨碍的测试,缺少以残缺证实这些大模子谁强谁弱。
这就好比,一个班的学生 ,每一总体的魔难光阴差距,答的试卷也都纷比方样,奈何样能靠每一个学生的分数比高下呢?
大模子开拓者奈何样说?多家表当初中文等能耐上逾越ChatGPT
最近,大模子的圈子至关凋敝。
又是baidu 、字节等8家公司大模子产物经由了《天生式家养智能效率规画暂行措施》存案,可正式上线面向公共提供效率。又是其余公司相继宣告自家大模子产物。
那这些大模子的开拓者又都是奈何样介绍自工业物的呢?
7月7日,在2023天下家养智能大会“大模子时期的通用家养智能财富睁开机缘以及危害”论坛上 ,复旦大学合计机迷信技术学院教授 、MOSS零星负责人邱锡鹏展现,复旦对于话式大型语言模子MOSS在往年2月宣告后 ,还在不断不断地迭代 ,“最新的MOSS已经可能在中文能耐上逾越ChatGPT