半年多过去了 ChatGPT的排名快“垫底”了_PEN:OPENX

作者：三言科技

今天，笔者无意中刷到一张图片。

据该图片显示，OpenAI的GPT-4在11个大模型中（第一名序号为0），已经排到了最后。还有网友配上了“GPT4：我的冤屈怎么诉？”的字样。

这不禁让人好奇，今年年初，ChatGPT爆火以后，其他公司才开始提大模型的概念。

这才半年多，GPT就已经“垫底”了？

于是，笔者想看看GPT排名到底咋样了。

从前文中图片上显示的信息来看，这个排名是出自C-Eval榜单。

C-Eval榜单，全称C-Eval全球大模型综合性考试测试榜，是由清华大学、上海交通大学和爱丁堡大学合作构建的中文语言模型综合性考试评估套件。

据悉，该套件覆盖人文、社科、理工、其他专业四个大方向，包括52个学科，涵盖微积分、线性代数等多个知识领域。共有13948道中文知识和推理型题目，难度分为中学、本科、研究生、职业等四个考试级别。

于是笔者查看了最新的C-Eval榜单。

C-Eval榜单的最新排名与前文中图片所显示的排名相符，排名前十一的大模型中，GPT-4排最后。

美联储半年度货币政策报告：如有必要，将调整缩表进程:金色财经报道，美联储半年度货币政策报告显示，如有必要，将调整缩表进程。强劲的逆回购反映了市场利率和投资者的谨慎；在2021年和2022年的大部分时间里，美联储的政策利率低于货币政策规则所要求的水平；加息已经缩小了货币政策规则与现实利率水平之间的差距。[2023/3/4 12:41:27]

据C-Eval榜单介绍，这些结果代表zero-shot（零样本学习）或者few-shot（少样本学习）测试，但few-shot不一定比zero-shot效果好。

C-Eval表示，在其测试中发现许多经过指令微调之后的模型在zero-shot下更好。其测试的很多模型同时有zero-shot和few-shot的结果，排行榜中显示了总平均分更好的那个设置。

C-Eval榜单还注明了，大模型名字中带“*”的，表示该模型结果由C-Eval团队测试得到，而其他结果是通过用户提交获得。

此外，笔者还注意到，这些大模型提交测试结果的时间有很大差别。

GPT-4的测试结果提交时间是5月15日，而位居榜首的云天书，提交时间为8月31日；排第二的Galaxy提交时间为8月23日；排第三的YaYi提交时间为9月4日。

以太坊基金会2021年下半年累计向生态组织资助1382万美元:2月20日消息，以太坊基金会在官方博客公布了2021年下半年的资助项目详情，其中第三季度向DAO Drops、Zero MEV等项目累计资助299万美元，第四季度向L2BEAT、EthStaker等项目累计资助1083万美元，两个季度合计资助1382万美元。[2022/2/21 10:04:36]

并且，排名前16的这些大模型，只有GPT-4的名字加了“*”，是由C-Eval团队测试的。

于是笔者又查看了完整的C-Eval榜单。

最新的C-Eval榜单一共收录了66个大模型的排名。

其中，名字带“*”，也就是由C-Eval团队测试的，只有11个，且提交测试的时间均为5月15日。

这些由C-Eval团队测试的大模型，OpenAI的GPT-4排第十一，ChatGPT排第三十六，而清华智谱AI的ChatGLM-6B排在第六十，复旦的MOSS排在了第六十四。

虽然这些排名可以看出国内的大模型发展势头的迅猛，但笔者认为，毕竟不是同一团队在同一时间进行的测试，不足以完全证明这些大模型谁强谁弱。

Gate.io 2020年上半年GT专属活动福利金额高达10,452,431USDT:据官方公告，Gate.io 发布2020年上半年GT专属活动总结报告。报告显示：2020年上半年期间，Gate.io共举办了6场8折主流币福利回馈、13场PK投票上币空投、7场单币投票空投、2场Startup首发认购活动和7场主流币持仓理财福利，共计为GT持仓用户提供了价值10,452,431USDT的福利回馈。详情见原文链接。[2020/7/30]

这就好比，一个班的学生，每个人的考试时间不同，答的试卷也都不一样，怎么能靠每个学生的分数比高低呢？

最近，大模型的圈子相当热闹。

又是百度、字节等8家公司大模型产品通过了《生成式人工智能服务管理暂行办法》备案，可正式上线面向公众提供服务。又是其他公司相继发布自家大模型产品。

那这些大模型的开发者又都是怎么介绍自家产品的呢？

7月7日，在2023世界人工智能大会“大模型时代的通用人工智能产业发展机遇以及风险”论坛上，复旦大学计算机科学技术学院教授、MOSS系统负责人邱锡鹏表示，复旦对话式大型语言模型MOSS在今年2月发布后，还在连续不停地迭代，“最新的MOSS已经能够在中文能力上超过ChatGPT。”

7月底，网易有道上线翻译大模型，网易有道CEO周枫公开表示，在内部的测试中，在中英互译的方向上，已经超越ChatGPT的翻译能力，也超过了谷歌翻译的水准。

动态 | Bakkt消费者应用程序或将在2020年上半年启动:Bakkt暗示，Bakkt消费者应用程序将在2020年上半年启动。银行和信用卡公司通常每笔零售卡交易都收取约2.5％的费用，而Bakkt应用程序会便宜得多，从而为零售商提供更低的价格或提供更多奖励空间。此前消息，Bakkt总裁 Adam White透露该应用有望在 2020年推出，将支持加密货币、股票和忠诚度奖励功能。(Cryptoiq)[2020/2/15]

8月下旬，在2023年亚布力论坛夏季高峰会上，科大讯飞创始人、董事长刘庆峰发表演讲时称，“讯飞星火大模型的代码生成和补齐能力已经超过了ChatGPT，其他各项能力正在快速追赶。当前代码能力的逻辑、算法、方法体系、数据准备已就绪，所需要的就是时间和算力。”

商汤近期的新闻稿中称，今年8月，新模型internlm-123b完成训练，参数量提升至1230亿。在全球51个知名评测集共计30万道问题集合上，测试成绩整体排名全球第二，超过gpt-3.5-turbo以及meta公司新发布的llama2-70b等模型。

据商汤介绍，internlm-123在主要评测中，有12项成绩排名第一。其中，在评测集综合考试中的agieval分数为57.8，超越gpt-4位列第一；知识问答commonsenseqa的评测分数为88.5，排名第一；internlm-123b在阅读理解的五项评测中成绩全部居榜首。

动态 | Bitcoin Group SE公布半年报上半年营业额245.5万欧元:Bitcoin Group SE今天公布了2019年上半年的数据。报告所述期间的营业额为245.5万欧元，而2018年同期，其营业额为834.8万欧元。（DGAP）[2019/9/30]

此外，在推理的五项评测中成绩排名第一。

本月初，作业帮正式发布自研银河大模型。

作业帮表示，银河大模型在C－Eval、CMMLU两大权威大语言模型评测基准的成绩。数据显示，作业帮银河大模型以平均分73．7分位居C－Eval榜首；同时在CMMLU榜单Five－shot和Zero－shot测评中分别以平均分74．03分及73．85分位列第一，成为首个同时在上述两大权威榜单平均分排名第一的教育大模型。

昨天，百川智能宣布正式开源微调后的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat与其4bit量化版本。

百川智能创始人、CEO王小川称，经过微调之后的Chat模型，在中文领域，在Q&A问答环境，或者摘要环境里面，评价它的实际性能已经超过ChatGPT-3.5这样的闭源模型。

今天，在2023腾讯全球数字生态大会上，腾讯正式发布混元大模型。腾讯集团副总裁蒋杰称，腾讯混元大模型中文能力已经超过GPT-3.5。

除了这些开发者的自我介绍，也有一些媒体和团队对一种大模型进行评比。

8月上旬，清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》。报告显示，百度文心一言在三大维度20项指标中综合评分国内领先，较优于ChatGPT，其中中文语义理解排名靠前，部分中文能力较优于GPT-4。

8月中旬，有媒体报道称，8月11日，小米大模型MiLM-6B现身C-Eval、CMMLU大模型评测榜单。截至当前，MiLM-6B在C-Eval总榜单排名第10、同参数量级排名第1，在CMMLU中文向大模型排名第1。

8月12日，天津大学发布《大模型评测报告》。报告显示，GPT-4和百度文心一言相较于其他模型综合性能显著领先，两者得分相差不大，处于同一水平。文心一言已经在大部分中文任务中实现了对ChatGPT的超越，并逐步缩小与GPT-4的差距。

8月下旬，有媒体报道称，快手自研的大语言模型“快意”（KwaiYii）已开启内测。在最新的CMMLU中文向排名中，快意的13B版本KwaiYii-13B同时位列five-shot和zero-shot下的第一名，在人文学科、中国特定主题等方面较强，平均分超61分。

通过上述内容可以看出，这些大模型虽然纷纷号称自己在某排名中居首，或者是在某某方面超越ChatGPT，但大多是在一些具体的领域表现优异。

另外，有一些综合评分超过了GPT-3.5或GPT-4，但GPT的测试是停留在5月的，谁能保证这近3个月的时间里，GPT没有进步呢？

根据瑞银集团2月的一份报告显示，在ChatGPT推出仅两个月后，它在2023年1月末的月活用户已经突破了1亿，成为史上用户增长速度最快的消费级应用程序。

但ChatGPT的发展也不是那么顺利。

今年7月，有不少GPT-4用户吐槽，与之前的推理能力相比，GPT-4的性能有所下降。

有些用户在推特以及OpenAI在线开发者论坛上指出了问题，集中于逻辑变弱、更多错误回答、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添加括号，只能记得最近的提示等等。

8月，又有一份报告称，OpenAi可能处于潜在的财务危机中，可能于2024年底破产。

报告中表示，OpenAI仅运行其人工智能服务ChatGPT每天就要花费约70万美元。目前，该公司正试图通过GPT-3.5和GPT-4实现盈利，但是还尚未产生足够的收入实现收支平衡。

不过，OpenAI或许也有新的转机。

日前，OpenAI宣布，将于11月举办首届开发者大会。

虽然OpenAI表示不会发布GPT-5，但OpenAI称将有来自世界各地的数百名开发人员与OpenAI团队一起，提前一览“新的工具”，并且交流想法。

这可能意味着，ChatGPT已经取得了新的进步。

另据澎湃新闻报道，8月30日，一位知情人士透露，通过销售AI软件和驱动其运行的计算能力，OpenAI预计将在未来12个月内实现超过10亿美元的收入。

今天，又有媒体报道称，本月晚些时候摩根士丹利将推出一款和OpenAI共同研发的生成式人工智能聊天机器人。

和摩根士丹利的银行家打交道的人，非富即贵。如果这款即将推出的生成式人工智能聊天机器人能给摩根士丹的客户带来不同的体验，对OpenAI来说，也许会是一个巨大的收获。

人工智能时代的到来，已经势不可挡。至于到底谁更胜一筹，不能光靠自己说，还得让用户来打分。我们也相信国内大模型一定会、一定能在各具体能力、综合能力上赶超ChatGPT。

元宇宙之心

企业专栏

阅读更多

白话区块链

神译局

Gryphsis Academy

CertiK中文社区

新浪科技

金色早8点

Web3小律

MarsBit

ForesightNews

吴说区块链

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

SHIB2.5亿刀保释被驳 FTX成为加密圈“病危通知”？_TEC:TECH

引言 “保释被撤销,被告还押候审”,纽约联邦法官撤销了山姆·班克曼-弗里德（SBF）的2.5亿美元保释金,再次将其逮捕,原因是他被指控干扰和恐吓证人,包括向《纽约时报》泄露重要证人的个人日记.

BTC晚间必读 | V神演讲实录：以太坊的过去与现在_PEN:zatgo

上线交易所临近半年之期,L2龙头网络Arbitrum的代币表现实在让人大跌眼镜。尤其所进入9月份,币价更是跌破0.9美元,创3月开盘以来的新低记录.

火币下载Variant创始人奖学金计划11个消费者加密项目速览_CAP:RES

撰文：金色财经0xjs 加密风投Variant Fund于2023年夏季开始举办首届创始人奖学金（Founder Fellowship）计划.

火必中国哪些地方的对虚拟币交易所案件有管辖权？_BLO:虚拟币

【前言】如果说,要论证：打着虚拟货币交易所的幌子,做资金盘的模式；或者直接侵吞交易所用户托管资产的；交易所插针定向爆仓的,等等非常规、非正规模式下的交易所,是否在中国境内触犯刑事犯罪.

金智博客

半年多过去了 ChatGPT的排名快“垫底”了_PEN:OPENX

金智博客