教程

2025年 9月 25日
使用 CUDA-X 数据科学加速 GPU 模型训练的方法
在之前关于 AI 在制造和运营中应用的博文中,我们探讨了供应链所面临的独特数据挑战,并介绍了智能特征工程如何显著提升模型性能。
2 MIN READ

2025年 9月 25日
如何将计算机视觉工作流与生成式 AI 和推理集成
生成式 AI 为分析现有视频流开辟了全新可能。视频分析正从统计物体演进为将原始视频片段转化为实时理解,从而提供更具价值的可行见解。
3 MIN READ

2025年 9月 23日
使用 NVIDIA Nemotron 构建检索增强生成 (RAG) 智能体
与基于 LLM 的传统系统受限于其训练数据不同,检索增强生成 (RAG) 通过整合相关的外部信息来提升文本生成效果。
5 MIN READ

2025年 9月 23日
使用 NVIDIA TAO 6 和 NVIDIA DeepStream 8 构建实时视觉检测工作流
构建可靠的视觉检测流程以实现缺陷检测和质量控制并非易事。制造商和开发者常常面临诸多挑战,例如针对特定领域定制通用视觉 AI 模型、
3 MIN READ

2025年 9月 23日
如何使用 GPU 驱动的 Leiden 在 Python 中加速社区检测
社区检测算法通过识别网络中隐藏的关联实体组,在理解数据方面发挥着重要作用。社交网络分析、推荐系统、GraphRAG、
3 MIN READ

2025年 9月 18日
如何使用 NVIDIA Dynamo 减少 KV 缓存瓶颈
随着 AI 模型变得更大、更复杂,推理,即模型生成响应的过程,正成为一项重大挑战。像 GPT-OSS 和 DeepSeek-R1…
4 MIN READ

2025年 9月 18日
Kaggle 大师级玩家手册:7 种实战验证的表格数据建模技术
在数百场 Kaggle 比赛中,我们不断优化了这套 BLUEPRINT,无论面对的是数百万行数据、缺失值,还是与训练数据截然不同的测试集,
3 MIN READ

2025年 9月 17日
用于降低 AI 推理延迟的预测性解码简介
使用大语言模型(LLM)生成文本时,通常会面临一个基本瓶颈。尽管 GPU 能够提供强大的计算能力,但由于自回归生成本质上是顺序进行的,
2 MIN READ

2025年 9月 15日
在 OpenRouter 上使用 NVIDIA Nemotron 构建报告生成 AI 智能体
与传统系统遵循预设路径不同,AI智能体依托大语言模型(LLM)进行决策,能够适应动态变化的需求,并执行复杂的推理任务。
6 MIN READ

2025年 9月 11日
量化感知训练如何实现低精度恢复
训练 AI 模型后,可采用多种压缩技术来优化模型的部署。其中较为常见的是后训练量化(PTQ),该方法通过数值缩放技术,
3 MIN READ

2025年 9月 11日
使用 NVIDIA CUDA 加速的 VC-6 构建高性能视觉 AI 工作流
NVIDIA GPU 持续提升的计算吞吐量为优化视觉 AI 工作负载带来了新的机遇:让硬件持续高效地处理数据。随着 GPU 性能的不断增强,
4 MIN READ

2025年 9月 5日
通过 CPU-GPU 显存共享加速大规模 LLM 推理和 KV 缓存卸载
大语言模型(LLM)处于人工智能创新的前沿,但其庞大的规模往往会影响推理效率。例如,Llama 3 70B 和 Llama 4 Scout…
2 MIN READ

2025年 9月 3日
如何运行 AI 驱动的 CAE 仿真
在现代工程领域,创新速度与执行模拟分析的效率密切相关。计算机辅助工程(CAE)在验证产品性能与安全性方面发挥着关键作用,
3 MIN READ

2025年 8月 27日
如何将生产环境中的 LangGraph 智能体从单个用户扩展到 1000 名同事
您已经成功构建了一个功能强大的 AI 智能体,并准备与同事分享,但您有一个重要的顾虑:如果同时有 10 位、100…
3 MIN READ

2025年 8月 27日
如何通过共享内存寄存器溢出来提高 CUDA 内核性能
当 CUDA 内核所需的硬件寄存器数量超过可用数量时,编译器会将多余的变量溢出到本地内存中,这一过程称为寄存器溢出。
3 MIN READ

2025年 8月 22日
如何发现 (并修复) pandas 工作流中的 5 个常见性能瓶颈
数据加载缓慢、内存消耗大的连接操作以及长时间运行的任务,是每位 Python 开发者都会面临的问题。它们不仅浪费了宝贵的时间,
2 MIN READ