访问数:154
Chinese Tiny LLM
厂家:无
简介:
CT-LLM,一个2B参数的语言模型,标志着LLM开发向专注于汉语的方向转变。
从零开始,CT-LLM主要使用来自12000亿个令牌语料库的中文数据,包括8000亿个中文、3000亿个英语和1000亿个代码令牌。这种混合增强了其中文处理能力,并通过对齐技术进一步提高。
CT-LLM在CHC Bench的中文任务中表现出色,并通过SFT熟练掌握英语。这种方法挑战了依靠英语语料库进行LLM培训的规范,扩展了培训方法。
通过开源CT-LLM的训练过程,包括数据处理和大规模适当的预训练中文语料库(MAP-CC),并引入中文硬案例基准(CHC Bench),鼓励进一步的研究和创新,旨在建立更具包容性和适应性的语言模型。
详细介绍 - Chinese Tiny LLM
暂无详情。
相关资讯 / AI资源