当前位置:首页>时尚 > >正文

AI考生今日抵达,商汤与上海AI实验室等发布“书生·浦语”大模型

  • 2023-06-08 01:30:19来源:中国网财经

随着AI大语言模型越来越多地表现出接近人类智能,面向人类设计的高难度、综合性考试被越来越多地引入到对语言模型的智能水平进行评测。OpenAI 在其关于 GPT-4 的技术报告中就主要通过各领域的考试对模型能力进行检验。


(资料图)

2023年高考今日开考,中文大语言模型是否能够在高考中赶超ChatGPT呢?

综合“大考”:“书生·浦语”多项成绩领先于 ChatGPT

近日,商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。

“书生·浦语”具有1040亿参数,是在包含1.6万亿token的多语种高质量数据集上训练而成。

全面评测结果显示,“书生·浦语”不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,因而在综合性考试中表现突出,在多项中文考试中取得超越ChatGPT的成绩,其中就包括中国高考各个科目的数据集(GaoKao)。

“书生·浦语”联合团队选取了20余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集:

由伯克利加州大学等高校构建的多任务考试评测集MMLU;

微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等);

由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;

以及由复旦大学研究团队构建的高考题目评测集Gaokao;

实验室联合团队对“书生·浦语”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4进行了全面测试,针对上述四个评测集的成绩对比如下(满分100分)。

“书生·浦语”不仅显著超越了GLM-130B和LLaMA-65B等学术开源模型,还在AGIEval、C-Eval,以及Gaokao等多个综合性考试中领先于ChatGPT;在以美国考试为主的MMLU上实现和ChatGPT持平。这些综合性考试的成绩反映出“书生·浦语”扎实的知识掌握程度和优秀的综合能力。

虽然 “书生·浦语”在考试评测上取得优秀成绩,但在测评中也可以看到,大语言模型仍然存在不少能力局限性。“书生·浦语” 受限于2K的语境窗口长度(GPT-4的语境窗口长度为32K),在长文理解、复杂推理、撰写代码以及数理逻辑演绎等方面还存在明显局限。另外,在实际对话中,大语言模型还普遍存在幻觉、概念混淆等问题。这些局限使得大语言模型在开放场景中的使用还有很长的路要走。

四个综合性考试评测数据集结果

MMLU是由伯克利加州大学(UC Berkeley)联合哥伦比亚大学、芝加哥大学和UIUC共同构建的多任务考试评测集,涵盖了初等数学、物理、化学、计算机科学、美国历史、法律、经济、外交等多个学科。

细分科目结果如下表所示。

(图中粗体表示结果最佳,下划线表示结果第二)

AGIEval是由微软研究院在今年新提出的学科考试评测集,主要目标是通过面向的考试来评估语言模型的能力,从而实现模型智能和人类智能的对比。

这个评测集基于中国和美国各类考试构建了19个评测大项,包括了中国各科高考、司法考试以及美国的 SAT、LSAT、GRE 和 GMAT等重要考试。值得一提的是,在这19个大项有9个大项是中国高考,通常也列为一个重要的评测子集 AGIEval (GK)。

下列表格中,带GK的是中国高考科目。

(图中粗体表示结果最佳,下划线表示结果第二)

C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。

它包含了52个科目的近14000道考题,涵盖数学、物理、化学、生物、历史、政治、计算机等学科考试,以及面向公务员、注册会计师、律师、医生的职业考试。

测试结果可以通过leaderboard获得。

Gaokao是由复旦大学研究团队构建的基于中国高考题目的综合性考试评测集,包含了中国高考的各个科目,以及选择、填空、问答等多种题型。

在GaoKao测评中,“书生·浦语”在超过75%的项目中均领先ChatGPT。

分项评测:阅读理解、推理能力表现出色

为避免“偏科”,研究人员还通过多个学术评测集,对“书生·浦语”等语言模型的分项能力进行了评测对比。

结果显示,“书生·浦语”不仅在中英文的阅读理解方面表现突出,并且在数学推理、编程能力等评测中也取得较好成绩。

知识问答方面,“书生·浦语”在TriviaQA 和 NaturalQuestions 两项评测上得分为69.8和27.6,均超越LLaMA-65B(得分为68.2和23.8)。

阅读理解(英语)方面,“书生·浦语”明显领先于LLaMA-65B和ChatGPT。浦语在初中和高中英语阅读理解中得分为92.7和88.9,ChatGPT得分为 85.6 和81.2,LLaMA-65B则更低。

中文理解方面,“书生·浦语”成绩全面超越主要的两个中文语言模型ERNIE-260B和GLM-130B。

多语翻译方面,“书生·浦语”在多语种互译中的平均得分为33.9,显著超越LLaMA(平均得分15.1)。

数学推理方面,“书生·浦语”在GSM8K和MATH这两项被广泛用于评测的数学考试中,分别取得62.9和14.9的得分,明显领先于Google的PaLM-540B(得分为56.5和8.8)与LLaMA-65B(得分为50.9和10.9)。

编程能力方面,“书生·浦语”在HumanEval和MBPP这两项最具代表性的考评中,分别取得28.1和41.4的得分(其中经过在代码领域的微调后,在HumanEval上的得分可以提升至45.7),明显领先于PaLM-540B(得分为 26.2和36.8)与LLaMA-65B(得分为23.7和37.7)。

此外,研究人员还对“书生·浦语”的安全性进行评测,在TruthfulQA(主要评价回答的事实准确性) 以及CrowS-Pairs(主要评价回答是否含有偏见)上,“书生·浦语”均达到领先水平。

(以上图片由商汤科技授权中国网财经使用)

标签:

延伸阅读

推荐阅读

AI考生今日抵达,商汤与上海AI实验室等发布“书生·浦语”大模型

随着AI大语言模型越来越多地表现出接近人类智能,面向人类设计的高难度

长周期看,只有成长性才是股市投资的精髓

长周期看,只有成长性才是股市投资的精髓,上证指数,投资理财

明朝皇帝朱厚熜怎么读_朱厚熜读cong还是zong

想必现在有很多小伙伴对于朱厚熜读cong还是zong方面的知识都比较想要了

【收评】尿素日内下跌2.63% 机构称国内各地区尿素现货价格小幅上调 基差环比走强

行情表现6月7日收盘价当日涨跌幅五日涨跌幅尿素1664 00元 吨-2 63%-3 1

资讯:2023中国花儿大会文化展览准备工作有序推进

2023中国花儿大会文化展览准备工作有序推进  每日甘肃网6月7日讯据民

优博讯:公司目前暂未使用MLOps进行开发 每日报道

每经AI快讯,有投资者在投资者互动平台提问:董秘您好,请问贵公司及其

受贿1992615.31元!陈克祥一审获刑三年半

经审理查明,被告人陈克祥在先后担任岳阳市畜牧水产局局长、岳阳市城市

世界观察:Fastrack FZ100/FX100/FS100无线耳机发布

IT之家6月7日消息,Fastrack扩大了在印度的TWS耳机系列产品,推出了三

2023人工智能分类排行榜单发布:医渡科技位居“智慧医疗企业排行榜”前列_环球热讯

近日,中国科学院《互联网周刊》、德本咨询、eNet研究院联合发布“2023

世界时讯:金巧福黄金价格今天多少一克(2023年06月07日)

金巧福黄金价格今天多少一克(2023年06月07日)每日更新

提高化解矛盾纠纷能力!山西全省四级综治中心矛盾化解能力提升网上研讨培训开班 环球热讯

6月6日下午,山西全省四级综治中心矛盾化解能力提升网上研讨培训开班,

【收评】热卷日内下跌1.59% 近5日累计涨幅3.91%-世界短讯

行情表现6月7日收盘价当日涨跌幅五日涨跌幅热卷3721 00元 吨-1 59%3 91

小学生“脏”请假条走红,原因让人忍俊不禁,老师用六个字霸气回应

学生的请假条很搞笑,学生:老师,阿姨来了,请假一周。看看这位四年级

环球头条:姚记科技现4笔大宗交易 总成交金额1.21亿元

姚记科技6月7日大宗交易平台共发生4笔成交,合计成交量290 00万股,成

金塔县游泳馆即将开馆试运行 视焦点讯

金塔县游泳馆建筑面积1 3万平方米,概算总投资1 17亿元,设计地上两层

楼体倾斜、开裂,3000多户业主无家可归,业主该找谁维权?

天津市津南区八里台镇碧桂园凤锦庭院,小区内局部地区地面沉降,出现楼

高立减930元!天猫国行PS5双手柄套装促销中-焦点资讯

今日PlayStation官方宣布,淘宝618品类日,PlayStation双手柄套装至高立减930元。

世界热点评!白鳍豚简介_白鳍豚

1、白鳍豚食性以鱼为主,常在浅滩、岔流以及支流汇合处觅食。2、其食量

什么是Project xCloud 您需要知道的一切

什么是ProjectxCloud?简而言之,xCloud是微软Xbox团队即将推出的流媒体

全球报道:菲菱科思:特定股东张海燕拟清仓减持所持1.87%公司股份

菲菱科思6月7日公告,持股1 87%特定股东张海燕拟减持公司股份不超过100

河钢集团6月硅锰首轮询盘6850元/吨 每日时讯

据我的钢铁网(Mysteel),河钢集团6月硅锰首轮询盘6850元 吨,5月硅锰

自己在家炸肉丸子怎么做?有技巧,多加一点它,口感丰富还多汁 环球热推荐

日常烹饪做法中,除了爆炒这种做法之外,其实人们最喜欢的还是油炸做法

简讯:新民市气象局发布雷雨大风黄色预警【Ⅲ级/较重】【2023-06-07】

雷雨大风黄色预警信号:预计未来1到5小时,新民市将出现较强雷雨大风天

2千元装个增程器,宝骏悦也的新技术,抄袭老年代步车?

新能源渗透率的高涨,也给这个行业带来了更宽的思路。就像最近宝骏的一

华为视频app如何删除 华为视频删除播放历史教程-今日热闻

华为视频app如何删除华为视频删除播放历史教程,

公认的国货之光,越野性能爆表,订单喜人,大 G 看了都怕!

日前,比亚迪集团旗下百万级新能源硬派越野车仰望U8开启预售。其首发搭

海南橡胶:公司未参与投资海南万宁免税店项目

每经AI快讯,有投资者在投资者互动平台提问:2023年4月9号网上消息海南

理想汽车北京顺义工厂最早7月投产?官方回应:确实在积极准备中-世界快消息

理想汽车的北京顺义工厂或即将投产。  近日,据《每人Auto》消息,理

猜您喜欢

Copyright ©  2015-2022 服装头条网版权所有  备案号:沪ICP备2022005074号-20   联系邮箱:58 55 97 3@qq.com