书生·万卷

AI开发平台AI开放平台 AI训练模型

书生·万卷

一个多模态语料库，旨在为学术界和产业界提供符合主流中文价值观的高质量大模型多模态预训练语料

标签：AI开放平台 AI训练模型

链接直达手机查看

“书生·万卷”是一个多模态语料库，旨在为学术界和产业界提供符合主流中文价值观的高质量大模型多模态预训练语料。它包含文本数据集、图文数据集和视频数据集三部分，总量超过2TB。

该数据集具有以下特点：

多元融合：包含文本、图文、视频等多模态数据，覆盖科技、文学、媒体、教育、法律等多个领域，可以提升模型的知识含量、逻辑推理和泛化能力。
精细处理：经过语言甄别、正文抽取、格式标准化、数据过滤与清洗等环节，确保数据质量。
价值对齐：在构建过程中，注重内容与中文主流价值观的对齐，提升语料的纯净度。
易用高效：统一格式，并提供详细的字段说明和工具指导，使其兼顾易用性和效率。

相关导航

火山方舟

火山方舟

一个开放的大模型生态系统，旨在将大模型能力广泛应用于各行各业

AIModels.fyi

AIModels.fyi

一个发现和使用AI模型的平台，用户可以在此找到各种AI模型并将其运用到类似Replicate、Cerebrium、HuggingFace等平台的项目中

一个具备多模态支持、开放世界理解、多模态交互和跨模态生成能力的强大AI助手，可以帮助用户解答问题，处理多种任务，并为用户提供全面且准确的回答和输出

科大讯飞AI平台

云上曲率

云上曲率

一个提供实时文本、图片、音频和视频内容过滤的平台。

序列猴子

序列猴子

一个超大规模语言模型，具有长序列、多模态、单模型和大数据等特点

暂无评论

暂无评论...

51an.com是一家专门收集整理各种AI工具网站的导航网站，致力于为用户提供全面、便捷、高效的AI工具导航服务。网站收录了众多AI工具、资源网站，包括AI绘图、智能剪辑视频、自然语言处理、图像识别、大数据分析等多个领域的工具。是AI爱好者必备工具。

友链申请免责声明关于本站

Copyright © 2025 流量源泉 - 51AI门户京ICP备15044037号-23

鄂公网安备：42010202000889 号