Intermediate Technical

2025年 9月 3日
如何运行 AI 驱动的 CAE 仿真
在现代工程领域,创新速度与执行模拟分析的效率密切相关。计算机辅助工程(CAE)在验证产品性能与安全性方面发挥着关键作用,
3 MIN READ

2025年 9月 3日
借助 NVIDIA DRIVE AGX Thor 开发者套件加速自动驾驶汽车开发
自动驾驶汽车(AV)技术是快速发展的,由于更大型、更复杂的AI模型被部署于边缘端推动。如今,现代汽车不仅需要先进的感知能力和传感器融合技术,
3 MIN READ

2025年 9月 2日
适用于 Jetson Thor 的 CUDA 工具包 13.0 的新功能:统一 Arm 生态系统等
随着由 NVIDIA Blackwell GPU 架构驱动的 Jetson Thor SoC 即将支持 CUDA 13.0 版本,
4 MIN READ

2025年 9月 2日
借助启发式算法和 CUTLASS 4.2 提高 NVIDIA GPU 上的 GEMM 内核自动调整效率
为特定问题和硬件选择合适的通用矩阵乘法(GEMM)核函数是一项重大挑战。GEMM 核函数的性能由一系列编译时和运行时的元参数共同决定,
2 MIN READ

2025年 9月 2日
降低模型部署成本,同时通过 GPU 显存交换保持性能
大规模部署大语言模型(LLM)面临双重挑战:一方面需保障高需求时段的快速响应能力,另一方面又要有效控制 GPU 成本。组织通常面临两难选择:
2 MIN READ

2025年 8月 29日
使用量化感知训练微调 gpt-oss 提高准确性和性能
对于 AI 社界而言,主要的开源基础模型版本带来了独特的架构创新与功能突破,正掀起一股令人振奋的浪潮。作为 OpenAI 实验室自 GPT…
3 MIN READ

2025年 8月 27日
如何将生产环境中的 LangGraph 智能体从单个用户扩展到 1000 名同事
您已经成功构建了一个功能强大的 AI 智能体,并准备与同事分享,但您有一个重要的顾虑:如果同时有 10 位、100…
3 MIN READ

2025年 8月 27日
如何通过共享内存寄存器溢出来提高 CUDA 内核性能
当 CUDA 内核所需的硬件寄存器数量超过可用数量时,编译器会将多余的变量溢出到本地内存中,这一过程称为寄存器溢出。
3 MIN READ

2025年 8月 25日
NVFP4 实现 16 位训练精度,4 位训练速度和效率
近年来,AI工作负载呈指数级增长,这不仅体现在大型语言模型(LLM)的广泛部署上,也反映在预训练和后训练阶段对处理更多token的迫切需求。
2 MIN READ

2025年 8月 22日
揭秘 NVIDIA Blackwell Ultra:推动 AI 工厂时代的芯片动力
作为 NVIDIA Blackwell 架构系列的最新成员,NVIDIA Blackwell Ultra GPU 依托核心创新,
5 MIN READ

2025年 8月 22日
NVIDIA 硬件创新和开源贡献正在塑造 AI
Cosmos、DeepSeek、Gemma、GPT-OSS、Llama、Nemotron、Phi、
2 MIN READ

2025年 8月 22日
如何发现 (并修复) pandas 工作流中的 5 个常见性能瓶颈
数据加载缓慢、内存消耗大的连接操作以及长时间运行的任务,是每位 Python 开发者都会面临的问题。它们不仅浪费了宝贵的时间,
2 MIN READ

2025年 8月 21日
借助 NVIDIA NVLink 和 NVLink Fusion 扩展 AI 推理性能和灵活性
AI 模型复杂性的指数级增长驱动参数规模从数百万迅速扩展到数万亿,对计算资源提出了前所未有的需求,必须依赖大规模 GPU 集群才能满足。
2 MIN READ

2025年 8月 18日
宣布推出新的 NVIDIA 游戏 AI 和神经网络渲染技术
在 Gamescom 2025上,NVIDIA发布了其NVIDIA RTX神经网络渲染技术以及NVIDIA ACE生成式AI技术的最新进展。
3 MIN READ

2025年 8月 18日
使用 NVIDIA Streaming Sortformer 实时识别会议、通话和语音应用中的演讲者
在每一次会议、电话交流、 多人场合或支持语音的应用中,技术始终面临一个核心难题:谁在何时发言?几十年来,若不依赖专用设备或离线批量处理,
2 MIN READ

2025年 8月 13日
利用 Wheel Variant 简化 CUDA 加速 Python 的安装和打包工作流程
如果您曾经安装过 NVIDIA GPU 加速的 Python 软件包,您可能遇到过这样的场景:导航到 pytorch.org、jax.dev、
4 MIN READ