pretraining-data 标签归档

共 1 篇文章 · 返回首页

【Transformer 与注意力机制】35|数据工程:为什么数据质量常常比数据量更重要

大模型训练里最贵的不只是算力,还是高质量数据。本文把数据工程拆开讲:语料从哪里来,为什么去重、过滤、混配、污染控制都属于“模型能力工程”,C4、The Pile、RefinedWeb、Dolma 这些语料路线各自代表什么,以及为什么 scaling laws 最终会把问题推回到数据质量上。