“书生·万卷”是一个多模态语料库,旨在为学术界和产业界提供符合主流中文价值观的高质量大模型多模态预训练语料。它包含文本数据集、图文数据集和视频数据集三部分,总量超过2TB。
该数据集具有以下特点:
- 多元融合:包含文本、图文、视频等多模态数据,覆盖科技、文学、媒体、教育、法律等多个领域,可以提升模型的知识含量、逻辑推理和泛化能力。
- 精细处理:经过语言甄别、正文抽取、格式标准化、数据过滤与清洗等环节,确保数据质量。
- 价值对齐:在构建过程中,注重内容与中文主流价值观的对齐,提升语料的纯净度。
- 易用高效:统一格式,并提供详细的字段说明和工具指导,使其兼顾易用性和效率。
相关导航
暂无评论...