Deep dive

2025年 8月 25日
NVFP4 实现 16 位训练精度,4 位训练速度和效率
近年来,AI工作负载呈指数级增长,这不仅体现在大型语言模型(LLM)的广泛部署上,也反映在预训练和后训练阶段对处理更多token的迫切需求。
2 MIN READ

2025年 8月 22日
NVIDIA 硬件创新和开源贡献正在塑造 AI
Cosmos、DeepSeek、Gemma、GPT-OSS、Llama、Nemotron、Phi、
2 MIN READ

2025年 8月 21日
借助 NVIDIA NVLink 和 NVLink Fusion 扩展 AI 推理性能和灵活性
AI 模型复杂性的指数级增长使得参数规模从数百万迅速扩展到数万亿,对计算资源提出了前所未有的需求,必须依赖大规模 GPU 集群才能满足。
2 MIN READ

2025年 8月 18日
使用 NVIDIA Streaming Sortformer 实时识别会议、通话和语音应用中的演讲者
在每一次会议、电话交流、 多人场合或支持语音的应用中,技术始终面临一个核心难题:谁在何时发言?几十年来,若不依赖专用设备或离线批量处理,
2 MIN READ

2025年 8月 13日
使用 ProRL v2 通过长时间训练扩展 LLM 强化学习
目前,AI 领域最引人注目的问题之一是大型语言模型 (LLM) 是否可以通过持续强化学习 (RL) 继续改进,或者其能力是否最终会达到顶峰。
4 MIN READ

2025年 8月 7日
黑客如何利用 AI 解决问题的能力
随着多模态 AI 模型从感知发展到推理,甚至开始自主行动,新的攻击面也随之出现。这些威胁不仅针对输入或输出,还利用了 AI 系统如何处理、
2 MIN READ

2025年 8月 7日
在单个 NVIDIA Grace Hopper 超级芯片上使用 XGBoost 3.0 训练 TB 级数据集
梯度提升决策树 (GBDT) 驱动着从实时欺诈过滤到 PB 级需求预测的各种功能。由于其先进的准确性、
2 MIN READ

2025年 8月 7日
使用 JIT 编译在 cuDF 中高效转换
RAPIDS cuDF 提供了一系列用于使用 GPU 处理数据的 ETL 算法。对于 pandas 用户,
3 MIN READ

2025年 8月 5日
NVIDIA vGPU 19.0 支持 NVIDIA Blackwell GPU 的图形和 AI 虚拟化功能
虚拟化长期以来一直承诺提高效率和可扩展性。然而,由于图形和计算工作负载的需求不断增加,以及需要找到经济高效的解决方案来提高用户密度,
2 MIN READ

2025年 8月 4日
NVIDIA CUDA-Q 0.12 扩展了用于开发硬件性能量子应用的工具集
NVIDIA CUDA-Q 0.12 引入了新的仿真工具,可加速研究人员开发量子应用和设计高性能量子硬件。 借助新的 API,
2 MIN READ

2025年 7月 31日
保护代理式 AI:语义提示注入如何绕过 AI 护栏
自 LLM 部署之初,攻击者就通过操纵输入来让大语言模型以意想不到的方式运行,从而对 AI 系统造成威胁。
1 MIN READ

2025年 7月 30日
使用 CI/CD 自动化网络配置和部署
持续集成和持续交付/部署 (CI/CD) 是一套现代软件开发实践,用于更可靠、更频繁地交付代码更改。虽然 CI/CD 在软件领域得到广泛采用,
1 MIN READ

2025年 7月 23日
PDF 数据提取方法及其在信息检索中的应用
PDF 是共享财务报告、研究论文、技术文档和营销材料等信息的常用文件格式之一。然而,在构建有效的检索增强生成 (RAG) 系统时,
4 MIN READ

2025年 7月 22日
使用 NVIDIA Warp 和高斯抛物线法构建机器人心理模型
本文将探讨构建物理世界的动态数字表示的光明方向,这一主题在近期研究中日益受到关注。我们引入了一种在机器人环境中构建数字孪生的方法,
1 MIN READ

2025年 7月 22日
了解 NCCL 调优以加速 GPU 之间的通信
NVIDIA 集合通信库 (NCCL) 对于 AI 工作负载中的快速 GPU 到 GPU 通信至关重要,可使用各种优化和调优来提升性能。但是,
3 MIN READ

2025年 7月 21日
传统 RAG 与代理 RAG——AI 智能体如何通过动态知识实现更高智能
是否曾依赖不知道新高速公路旁路或道路突然关闭的旧 GPS?它可能会让您到达目的地,但不是最有效或最准确的方式。
1 MIN READ