AI 资源精选
  相关资讯
标题:
工具:
简介:
中文提示词:
阿里开源千亿参数模型 Qwen1.5-110B
发布时间:2024-04-28

近期,阿里巴巴对外开源了Qwen1.5系列的1000亿大模型——Qwen1.5-110B语言模型,该模型是该系列迄今为止规模最大之作。

Qwen1.5-110B仍采用Qwen1.5系列惯用的Transformer解码器架构,并创新性集成了分组查询注意力(GQA)机制,这一设计优化了模型在推理阶段的效率。此外,该模型具备处理32K tokens的文本范围能力,保持了多语言特性,广泛支持包括英、中、法、西、德、俄、日、韩、越南语及阿拉伯语在内的多种语言。

通过与当前顶尖的SOTA语言模型Meta-Llama3-70B及Mixtral-8x22B的比较分析,Qwen1.5-110B展现了至少与Llama-3-70B比肩的基础性能水平。

据阿里巴巴透露,在与前代72B模型的对比评估中,Qwen1.5-110B在两个关键的聊天模型基准测试中均显示出显著的性能提升。这一成就强调了一个重要发现:无需根本性改变后续训练策略,仅凭增强基础语言模型的规模与实力,就足以促成聊天模型效能的大幅飞跃。因此,Qwen1.5-110B不仅巩固了其在系列内部的旗舰地位,也进一步验证了大型语言模型对提升应用性能的积极作用。


你可以在魔搭社区 (modelscope.cn) 或Hugging Face镜像站下载。


魔搭社区:

image.png

Hugging Face镜像站:

image.png

访问次数:95