NeMo Curator
2025年 1月 9日
宣布推出 Nemotron-CC:用于 LLM 预训练的万亿级英语语言数据集
NVIDIA 很高兴地宣布发布 Nemotron-CC,这是一种包含 6.3 万亿个令牌的 英语语言 Common Crawl 数据集 ,
1 MIN READ
2025年 1月 9日
NVIDIA Cosmos World 基础模型平台助力物理 AI 进步
随着机器人和 自动驾驶汽车 的发展,加速 物理 AI 的发展变得至关重要,而物理 AI 使自主机器能够感知、理解并在现实世界中执行复杂的操作。
4 MIN READ
2024年 12月 19日
使用 NVIDIA NeMo Curator 新分类器模型增强您的训练数据
分类器模型专门用于将数据分类为预定义的组或类,在优化数据处理流程以微调和预训练生成式 AI 模型方面发挥着关键作用。
3 MIN READ
2024年 11月 19日
NVIDIA NeMo Curator 实现高质量越南语数据处理
开源大语言模型(LLMs) 在英语方面表现出色,但难以与其他语言(尤其是东南亚语言)搭配使用。这主要是由于缺乏这些语言的训练数据、
6 MIN READ
2024年 11月 15日
掌握 LLM 技术:数据预处理
大语言模型(LLMs) 的出现标志着各行业利用人工智能(AI)增强运营和服务的方式发生了重大转变。通过自动化日常任务和简化流程,
2 MIN READ
2024年 11月 6日
借助 NVIDIA NeMo 开发前沿的多模态生成式 AI 模型
生成式 AI 已从基于文本的模型迅速发展为多模态功能。这些模型执行图像字幕和视觉问答等任务,反映了向更接近人类的 AI 的转变。
2 MIN READ
2024年 10月 15日
DataStax 推出 NVIDIA AI 构建的新一代 AI 开发平台
随着企业越来越多地采用 AI 技术,他们面临着高效开发、保护和持续改进 AI 应用以利用其数据资产的复杂挑战。
2 MIN READ
2024年 10月 15日
使用经 NVIDIA NeMo Curator 处理的 Zyda-2 Open 5T-Token 数据集训练高度准确的 LLM
开源数据集显著普及了对高质量数据的访问,降低了开发者和研究人员训练 尖端生成式 AI 模型 的门槛。通过免费访问多样化、
2 MIN READ