C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  少将

注册:2015-1-2880
发表于 2024-2-22 15:24:14 |显示全部楼层
划重点:

-  Cosmopedia v0.1是由 Mixtral7b 生成的最大开放合成数据集,包含超过3000万个样本,总共约250亿个tokens。

-  数据集汇编了来自网页数据集(如 RefinedWeb 和 RedPajama)的信息,涵盖教科书、博客文章、故事和 WikiHow 文章等各种内容类型。

-  这一初始版本的 Cosmopedia 为合成数据领域的研究奠定了基础,展示了其在各种主题上的潜在应用。

站长之家(ChinaZ.com)2月21日 消息:HuggingFace 推出了 Cosmopedia v0.1,这是最大的开放合成数据集,由 Mixtral7b 生成,包含超过3000万个样本,总共约250亿个标记tokens。

数据集旨在通过映射来自网页数据集如 RefinedWeb 和 RedPajama 的信息来汇编全球常识,包括教科书、博客文章、故事和 WikiHow 文章等各种内容类型。该数据集的结构分为八个部分,每个部分都源自不同的种子样本,其中包括 web_samples_v1和 web_samples_v2,占据数据集约75% 的比例,这些样本类似于 RefinedWeb 中的内部网页数据集。

亚星游戏官网-yaxin222

Stanford 分区利用从 stanford.edu 网站上爬取的课程大纲,而故事分区则包含来自 UltraChat 和 OpenHermes2.5的生成故事。此外,WikiHow、OpenStax、KhanAcademy 和 automathtext 分区涉及与其各自来源相关的提示。

为了方便用户访问数据集,用户可以使用提供的代码段加载特定分区。另外,对于寻求缩减数据集的用户,还提供了一个更小的子集 Cosmopedia-100k。此外,还对 Cosmopedia 进行了训练,得到了一个更大的模型 Cosmo-1B,展示了其可扩展性和多功能性。
数据集的创建过程包括为 web 样本使用主题聚类方法、迭代地改进提示以及解决污染问题。其目标是通过量身定制提示风格和受众,最大程度地提高多样性,从而显著减少重复内容。

数据集入口:https://huggingface.co/datasets/HuggingFaceTB/cosmopedia

举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2024-11-27 05:11 , Processed in 0.104197 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图