HPC/科学计算

2025年 9月 5日
通过 CPU-GPU 显存共享加速大规模 LLM 推理和 KV 缓存卸载
大语言模型(LLM)处于人工智能创新的前沿,但其庞大的规模往往会影响推理效率。例如,Llama 3 70B 和 Llama 4 Scout…
2 MIN READ

2025年 9月 2日
适用于 Jetson Thor 的 CUDA 工具包 13.0 的新功能:统一 Arm 生态系统等
随着由 NVIDIA Blackwell GPU 架构驱动的 Jetson Thor SoC 即将支持 CUDA 13.0 版本,
4 MIN READ

2025年 8月 27日
如何通过共享内存寄存器溢出来提高 CUDA 内核性能
当 CUDA 内核所需的硬件寄存器数量超过可用数量时,编译器会将多余的变量溢出到本地内存中,这一过程称为寄存器溢出。
3 MIN READ

2025年 8月 21日
使用 cuPQC 0.4 中的加速哈希函数和 Merkle Trees 提高数据完整性和安全性
随着数据集的持续扩大,确保数据的安全性和完整性变得愈发重要。加密技术,如证明机制、数据完整性校验、一致性验证和数字签名,在应对这些挑战、
2 MIN READ

2025年 8月 21日
更少的编码,更多的科学:借助 OpenACC 和统一内存简化 GPU 上的海洋建模
NVIDIA HPC SDK v25.7 为采用 GPU 加速的高性能计算(HPC)应用开发者带来了重大突破。
3 MIN READ

2025年 8月 18日
利用 CPO 技术扩展 AI 工厂,提高能效
随着 AI 重新定义计算格局,网络已成为构建未来数据中心发展的关键支柱。大语言模型的训练性能不仅取决于计算资源,更受到底层网络敏捷性、
2 MIN READ

2025年 8月 13日
借助 CUDA-QX 0.4 简化量子错误纠正和应用程序开发
随着量子处理器单元 (QPU) 制造商和算法开发者致力于打造大规模、商业上可行的量子超级计算机,他们越来越专注于量子纠错 (QEC) 。
2 MIN READ

2025年 8月 13日
利用 Wheel Variants 简化 CUDA 加速 Python 的安装和打包工作流程
如果您曾经安装过 NVIDIA GPU 加速的 Python 软件包,您可能遇到过这样的场景:导航到 pytorch.org、jax.dev、
4 MIN READ

2025年 8月 6日
CUDA 工具包 13.0 的新特性和重要更新
CUDA Toolkit 13.0 是该工具包的最新版本,具有加速最新 NVIDIA CPU 和 GPU 计算的优势。作为一项重大发布,
4 MIN READ

2025年 8月 4日
CUDA 专业提示:通过矢量化内存访问提高性能
许多 CUDA 内核受带宽限制,新硬件中 FLOPS 与带宽的比例不断增加,导致更多内核受带宽限制。因此,
2 MIN READ

2025年 8月 4日
NVIDIA CUDA-Q 0.12 扩展了用于开发硬件性能量子应用的工具集
NVIDIA CUDA-Q 0.12 引入了新的仿真工具,可加速研究人员开发量子应用和设计高性能量子硬件。 借助新的 API,
2 MIN READ

2025年 8月 4日
GPU 架构支持导航:面向 NVIDIA CUDA 开发者的指南
如果您最近使用 NVIDIA CUDA 编译器 (NVCC) 开发 NVIDIA GPU 应用,您可能会遇到以下警告消息: 这究竟意味着什么,
1 MIN READ

2025年 7月 29日
FourCastNet 3 借助可扩展的几何机器学习实现快速准确的大型集成天气预报
FourCastNet3 (FCN3) 是 NVIDIA Earth-2 的最新 AI 全球天气预报系统。
3 MIN READ

2025年 7月 28日
新的 GB300 NVL72 功能如何为 AI 提供稳定的动力
电网的设计目的是支持相对稳定的负载,例如照明、家用电器和以恒定功率运行的工业机器。但如今的数据中心,尤其是运行 AI 工作负载的数据中心,
2 MIN READ

2025年 7月 22日
使用 NVIDIA Warp 和高斯抛物线法构建机器人心理模型
本文将探讨构建物理世界的动态数字表示的光明方向,这一主题在近期研究中日益受到关注。我们引入了一种在机器人环境中构建数字孪生的方法,
1 MIN READ

2025年 7月 11日
使用 NVIDIA Earth-2 预测两周以上的天气
能够预测极端天气事件至关重要,因为此类条件变得更加常见且更具破坏性。次季节性气候预测 (预测未来两周或两周以上的天气)…
2 MIN READ