AI 资源精选
  相关资讯
标题:
工具:
简介:
中文提示词:
清华大学发布2024年3月SuperBench评测报告
发布时间:2024-04-23

清华大学对国内外 14 个 LLM 做了最全面的综合能力测评,其中 GPT-4、Cluade 3 是当之无愧的王牌,而在国内 GLM-4、文心 4.0 已然闯入了第一梯队。

在 2023 年的「百模大战」中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。

尽管国内外存在多个模型能力评测榜单,但它们的质量参差不齐,排名差异显著,这主要是因为评测数据和测试方法尚不成熟和科学。我们认为,好的评测方法应当具备开放性、动态性、科学性和权威性。

为提供客观、科学的评测标准,清华大学基础模型研究中心联合中关村实验室研制了 SuperBench 大模型综合能力评测框架,旨在推动大模型技术、应用和生态的健康发展。

最近,2024 年 3 月版《SuperBench 大模型综合能力评测报告》正式发布。

评测共包含了 14 个海内外具有代表性的模型。其中,对于闭源模型,选取 API 和网页两种调用模式中得分较高的一种进行评测。


报告主要内容

评测模型列表

image.png


评测数据集

image.png


语义理解能力

image.png


代码编写能力

image.png


人类对齐能力

image.png

作为智能体能力

image.png


安全和价值观

image.png


报告总结

整体来说,GPT-4系列模型和Claude-3等国外模型在多个能力上依然处于领先地位,国内头部模型GLM-4和文心一言4.0表现亮眼,与国际一流模型水平接近,且差距已经逐渐缩小。

国外大模型中,GPT-4系列模型表现稳定,Claude-3也展现了较强的综合实力。在语义理解和作为智能力两项能力评测中更是获得了榜首,跻身国际一流模型。

国内大模型中,GLM-4和文心一言4.0版本在本次评测中表现最好,为国内头部模型;通义千问2.1、Abab6、MoonShot网页版以及qwen1.5-72b-chat紧随其后,在部分能力评测中亦有不俗表现;但是国内大模型对比国际一流模型在代码编写、作为智能体两个能力上依然有较大差距,国内模型仍需努力。


下期预告

SuperBench团队预计在2024年6月发布新一版评测报告。







报告原文:清华大学SuperBench大模型综合能力评测报告 0412 v2.2

SuperBench官网: SUPER LARGE LANGUAGE MODEL BENCHMARKS (tsinghua.edu.cn)

访问次数:518