Posts by Arham Mehta
数据科学
2025年 5月 7日
使用 NVIDIA NeMo Curator 构建 Nemotron-CC:一个高质量万亿令牌数据集,用于大型语言模型预训练,源自 Common Crawl
对于想要训练先进的 大语言模型 (LLM) 的企业开发者而言,整理高质量的预训练数据集至关重要。为了让开发者能够构建高度准确的 LLM,
2 MIN READ
生成式人工智能/大语言模型
2024年 7月 10日
利用 NVIDIA NeMo Curator 整理非英语数据集以训练 LLM
数据管护在开发有效且公平的大型语言模型(LLMs)方面发挥着至关重要的作用。高质量、多样化的训练数据直接影响 LLMs 的性能,从而解决偏差、
3 MIN READ
数据科学
2024年 5月 21日
利用 NVIDIA NeMo Curator 为 LLM 训练整理自定义数据集
数据管护是预训练和持续训练模型的第一步,也可以说是最重要的一步,对于 大型语言模型 (LLM) 和小型语言模型 (SLM) 都至关重要。
3 MIN READ