Development & Optimization

2025年 9月 5日
通过 CPU-GPU 显存共享加速大规模 LLM 推理和 KV 缓存卸载
大语言模型(LLM)处于人工智能创新的前沿,但其庞大的规模往往会影响推理效率。例如,Llama 3 70B 和 Llama 4 Scout…
2 MIN READ

2025年 9月 2日
借助启发式算法和 CUTLASS 4.2 提高 NVIDIA GPU 上的 GEMM 内核自动调整效率
为特定问题和硬件选择合适的通用矩阵乘法(GEMM)核函数是一项重大挑战。GEMM 核函数的性能由一系列编译时和运行时的元参数共同决定,
2 MIN READ

2025年 8月 27日
如何通过共享内存寄存器溢出来提高 CUDA 内核性能
当 CUDA 内核所需的硬件寄存器数量超过可用数量时,编译器会将多余的变量溢出到本地内存中,这一过程称为寄存器溢出。
3 MIN READ

2025年 8月 22日
NVIDIA 硬件创新和开源贡献正在塑造 AI
Cosmos、DeepSeek、Gemma、GPT-OSS、Llama、Nemotron、Phi、
2 MIN READ

2025年 8月 13日
利用 Wheel Variants 简化 CUDA 加速 Python 的安装和打包工作流程
如果您曾经安装过 NVIDIA GPU 加速的 Python 软件包,您可能遇到过这样的场景:导航到 pytorch.org、jax.dev、
4 MIN READ

2025年 8月 6日
CUDA 工具包 13.0 的新特性和重要更新
CUDA Toolkit 13.0 是该工具包的最新版本,具有加速最新 NVIDIA CPU 和 GPU 计算的优势。作为一项重大发布,
4 MIN READ

2025年 8月 4日
GPU 架构支持导航:面向 NVIDIA CUDA 开发者的指南
如果您最近使用 NVIDIA CUDA 编译器 (NVCC) 开发 NVIDIA GPU 应用,您可能会遇到以下警告消息: 这究竟意味着什么,
1 MIN READ

2025年 7月 24日
使用 Torch-TensorRT 将扩散模型的 PyTorch 推理速度翻倍
NVIDIA TensorRT 是一个 AI 推理库,用于优化机器学习模型,以便在 NVIDIA GPU 上部署。
2 MIN READ

2025年 7月 18日
使用 JAX 和 XLA 优化推理工作负载的低延迟通信
在生产环境中使用大语言模型 (LLM) 进行推理需要满足严格的延迟限制。此过程的关键阶段是 LLM 解码,
2 MIN READ

2025年 7月 16日
CUTLASS:基于张量和空间微核处理多维数据的原理抽象
在生成式 AI 时代,充分发挥 GPU 的潜力对于训练更好的模型和大规模服务用户至关重要。通常,
4 MIN READ

2025年 7月 16日
CUTLASS 3.x:用于 GEMM 内核设计的正交、可重用和组合抽象
GPU 上的 GEMM 优化是一个模块化问题。高性能实现需要指定超参数,例如图块形状、数学和复制指令以及线程束专用方案。
3 MIN READ

2025年 7月 15日
NVIDIA Dynamo 新增对亚马逊云科技服务的支持,可大规模提供经济高效的推理
亚马逊云科技 (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用 NVIDIA…
2 MIN READ

2025年 7月 9日
为 NVIDIA CUDA 内核融合提供 Python 中缺失的构建模块
CUB 和 Thrust 等 C++ 库提供高级构建块,使 NVIDIA CUDA 应用和库开发者能够编写跨架构可移植的光速代码。
2 MIN READ

2025年 7月 9日
使用 NVIDIA NeMo-RL 进行强化学习:通过 GRPO 复制 DeepScaleR 配方
强化学习 (RL) 是交互式 AI 的支柱。它对于教导智能体推理和从人类偏好中学习、实现多轮工具使用等至关重要。
2 MIN READ

2025年 7月 7日
提出一个维基百科规模的问题:如何利用数百万 token 的实时推理使世界更加智能
现代 AI 应用越来越依赖于将庞大的参数数量与数百万个令牌的上下文窗口相结合的模型。无论是经过数月对话的 AI 智能体、
3 MIN READ

2025年 7月 3日
新视频:使用 NVIDIA Data Flywheel Blueprint 构建可自我提升的 AI 代理
由大语言模型驱动的 AI 智能体正在改变企业工作流,但高昂的推理成本和延迟可能会限制其可扩展性和用户体验。为解决这一问题,
1 MIN READ