IT之家 6 月 7 日消息,IT之家从上海人工智能实验室官方公众号获悉,6 月 7 日,上海人工智能实验室(上海 AI 实验室)、商汤科技联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生・浦语”(InternLM)。“书生・浦语”具有 1040 亿参数,是在包含 1.6 万亿 token 的多语种高质量数据集上训练而成。
(资料图)
上海人工智能实验室称,全面评测结果显示,“书生・浦语”不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,因而在综合性考试中表现突出,在多项中文考试中取得超越 ChatGPT 的成绩,其中就包括中国高考各科目的数据集(GaoKao)。
据介绍,“书生・浦语”联合团队选取了 20 余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集:由伯克利加州大学等高校构建的多任务考试评测集 MMLU;由微软研究院推出的学科考试评测集 AGIEval(含中国高考、司法考试及美国 SAT、LSAT、GRE 和 GMAT 等);由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集 C-Eval;由复旦大学研究团队构建的高考题目评测集 Gaokao。
实验室联合团队对“书生・浦语”、GLM-130B、LLaMA-65B、ChatGPT 和 GPT-4 进行了全面测试,针对上述四个评测集的成绩对比如下(满分 100 分)。
可以看到,“书生・浦语”不仅显著超越了 GLM-130B 和 LLaMA-65B 等学术开源模型,还在 AGIEval、C-Eval 以及 Gaokao 等多个综合性考试中领先于 ChatGPT;在以美国考试为主的 MMLU 上实现和 ChatGPT 持平。这些综合性考试的成绩反映出“书生・浦语”扎实的知识掌握程度和优秀的综合能力。
虽然 “书生・浦语”在考试评测上取得优秀成绩,但在测评中也可以看到,大语言模型仍然存在不少能力局限性。“书生・浦语” 受限于 2K 的语境窗口长度(GPT-4 的语境窗口长度为 32K),在长文理解、复杂推理、撰写代码以及数理逻辑演绎等方面还存在明显局限。另外,在实际对话中,大语言模型还普遍存在幻觉、概念混淆等问题;这些局限使得大语言模型在开放场景中的使用还有很长的路要走。
四个综合性考试评测数据集结果:
MMLU 是由伯克利加州大学(UC Berkeley)联合哥伦比亚大学、芝加哥大学和 UIUC 公共构建的多任务考试评测集,涵盖了初等数学、物理、化学、计算机科学、美国历史、法律、经济、外交等多个学科。细分科目结果如下表所示。
AGIEval 是由微软研究院在今年新提出的学科考试评测集,主要目标是通过面向的考试来评估语言模型的能力,从而实现模型智能和人类智能的对比。这个评测集基于中国和美国各类考试构建了 19 个评测大项,包括了中国各科高考、司法考试以及美国的 SAT、LSAT、GRE 和 GMAT 等重要考试。值得一提的是,在这 19 个大项有 9 个大项是中国高考,通常也列为一个重要的评测子集 AGIEval(GK)。下列表格中,带 GK 的是中国高考科目。
C-Eval 是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。它包含了 52 个科目的近 14000 道考题,涵盖数学、物理、化学、生物、历史、政治、计算机等学科考试,以及面向公务员、注册会计师、律师、医生的职业考试。测试结果可以通过 leaderboard 获得。
Gaokao 是由复旦大学研究团队构建的基于中国高考题目的综合性考试评测集,包含了中国高考的各个科目,以及选择、填空、问答等多种题型。在 GaoKao 测评中,“书生・浦语”在超过 75% 的项目中均领先 ChatGPT。
分项评测:阅读理解、推理能力表现出色
为了避免“偏科”,研究人员还通过多个学术评测集,对“书生・浦语”等语言模型的分项能力进行了评测对比。结果显示,“书生・浦语”不仅在中英文的阅读理解方面表现突出,并且在数学推理、编程能力等评测中也取得了较好的成绩。
在知识问答方面,“书生・浦语”在 TriviaQA 和 NaturalQuestions 两项评测上得分为 69.8 和 27.6,均超越 LLaMA-65B(得分为 68.2 和 23.8)。
在阅读理解(英语)方面,“书生・浦语”明显领先于 LLaMA-65B 和 ChatGPT。浦语在初中和高中英语阅读理解中得分为 92.7 和 88.9,⽽ ChatGPT 得分为 85.6 和 81.2,LLaMA-65B 则更低。
在中文理解方面,“书生・浦语”的成绩全面超越主要的两个中文语言模型 ERNIE-260B 和 GLM-130B。
在多语翻译方面,“书生・浦语”在多语种互译中的平均得分为 33.9,显著超越 LLaMA(平均得分 15.1)。
在数学推理方面,“书生・浦语”在 GSM8K 和 MATH 这两项被广泛用于评测的数学考试中,分别取得 62.9 和 14.9 的得分,明显领先于 Google 的 PaLM-540B(得分为 56.5 和 8.8)与 LLaMA-65B(得分为 50.9 和 10.9)。
在编程能力方面,“书生・浦语”在 HumanEval 和 MBPP 这两项最具代表性的考评中,分别取得 28.1 和 41.4 的得分(其中经过在代码领域的微调后,在 HumanEval 上的得分可以提升至 45.7),明显领先于 PaLM-540B(得分为 26.2 和 36.8)与 LLaMA-65B(得分为 23.7 和 37.7)。
此外,研究人员还对“书生・浦语”的安全性进行评测,在 TruthfulQA(主要评价回答的事实准确性)以及 CrowS-Pairs(主要评价回答是否含有偏见)上,“书生・浦语”均达到领先水平。
标签:
-
丢这少那?别慌,郑州交警就在身边!|通讯6月7日,终于迎来了高考。为护航高考,郑州交警四支队因地制...
-
【天天报资讯】文山州乡村振兴工作指挥部举行调度会原标题:文山州乡村振兴工作指挥部举行调度会6月6日上午,文...
-
航发科技(600391)6月7日主力资金净卖出247.96万元截至2023年6月7日收盘,航发科技(600391)报收于20 9元,上涨0 48%,换
-
当前头条:@志愿者 汉阳喊你兑积分@志愿者汉阳喊你兑积分---湖北日报讯(记者朱惠、通讯员张航...
-
网易云音乐旗下云村交易所全新升级 推出单曲和场景曲库授权-天天消息近日,网易云音乐旗下“云村交易所”2 0版本上线,新版本不仅...
-
东方甄选假野生虾合作商经营异常,此前因虚假宣传被罚16万_全球百事通天眼查App显示,近日,青岛浪海情经贸有限公司因通过登记的住...
-
世界观焦点:饿了么法定代表人变更,方永新任饿了么法定代表人天眼查App显示,近日,饿了么关联公司上海拉扎斯信息科技有限...
-
前沿热点:网购特仑苏牛奶变豆腐渣,客服回应:可能是运输途中造成的6月6日,河南南阳一网友称购买特仑苏纯牛奶,保质期内变“豆...
-
华金证券:给予南微医学买入评级华金证券股份有限公司周平近期对南微医学进行研究并发布了研...
-
行业风向标 | 应用侧AI落地,从北美巨头看云计算未来北美云计算巨头正在积极拥抱这一轮AI浪潮,AI能力融入亦将大...
- 智联世界,元生无界!快手虚拟人IP亮相2022人工智能大会
2022-09-07 10:47:54
- 机器人界“奥林匹克”!2022世界机器人大会8月18日举行
2022-08-10 09:58:58
- 2025年全球人口将达到90亿!机器人将在农业领域大显身手
2022-07-14 09:41:10
- 中科院院士蒋华良:AI+分子模拟与药物研发将大有可为
2022-07-14 09:37:00
- “千垛之城荷你有约” 2022兴化市荷文化旅游节正式开幕
2022-07-07 09:28:34