3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布

原文链接:
3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布


1. 数据集背景与意义
在大模型推理时代,数学推理能力成为衡量语言模型智能的关键指标。LLM360推出的MegaMath是全球最大开源数学推理预训练数据集(371B tokens),覆盖网页、代码和合成数据,首次在规模上超越DeepSeek-Math(120B),标志着从“仅依赖网页”到“面向推理”的跨越。

2. 数据集的必要性
开源社区长期缺乏高质量、大规模的数学数据(如OpenWebMath规模过小且多样性不足)。MegaMath以规模×质量×多样性为核心,历时9个月构建,规模是OpenWebMath的20倍,填补了开源领域的空白。

3. 数据构建方法
通过三大“流水线”高效开发:
网页数据:优化Common Crawl处理流程,提取高质量数学文本;
代码数据:从Stack v2挖掘数学相关代码(28.1B tokens,11种语言),结合大模型评分和小模型筛选;
合成数据:开源问答、跨语言代码及文本-代码交错数据,均通过质量检测。

4. 验证与效果
经过50+次预训练验证,在Llama-3.2(1B/3B)上测试显示:GSM8K、MATH等任务性能提升15-20%。关键优化包括文本抽取验证、去重策略调优、代码数据比重调整等。

5. 愿景与致谢
团队希望MegaMath推动开源数学数据的进步,成为强数学模型的起点。特别感谢Hugging Face、DeepSeek等开源社区的支持。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注