AI开源

baichuan-7B

王小川组建的「百川智能」正式推出首个70亿参数中英文LLM——baichuan-7B

标签:

Baichuan-7B是由王小川团队开发的百川大规模预训练语言模型。该模型基于Transformer结构,在1.2万亿tokens上训练了70亿参数的模型,支持中英双语,上下文窗口长度为4096。

原始训练数据包括开源的中英文数据和自行抓取的中文互联网数据,以及部分高质量知识性数据,总量超过10T。数据处理环节重点考虑了频率和质量两个维度。使用启发式规则和质量模型打分对原始数据集进行篇章和句子粒度的过滤。在全量数据上,利用局部敏感哈希方法对篇章和句子粒度进行滤重。

该模型的推理代码已经提供在官方Huggingface库中,可直接使用。此外,训练方法也在GitHub仓库中有详细的说明,包括安装依赖、准备数据、配置DeepSpeed和执行训练等步骤。

相关导航

暂无评论

暂无评论...