Intermediate Technical

2025年 8月 4日
CUDA 专业提示:通过矢量化内存访问提高性能
许多 CUDA 内核受带宽限制,新硬件中 FLOPS 与带宽的比例不断增加,导致更多内核受带宽限制。因此,
2 MIN READ

2025年 8月 4日
如何使用 NVIDIA Llama Nemotron 模型通过推理增强 RAG 工作流
检索增强生成 (RAG) 系统面临的一大挑战是处理缺乏明确清晰度或带有隐含意图的用户查询。用户通常会以不准确的方式来表达问题。例如,
4 MIN READ

2025年 8月 4日
NVIDIA CUDA-Q 0.12 扩展了用于开发硬件性能量子应用的工具集
NVIDIA CUDA-Q 0.12 引入了新的仿真工具,可加速研究人员开发量子应用和设计高性能量子硬件。 借助新的 API,
2 MIN READ

2025年 7月 31日
保护代理式 AI:语义提示注入如何绕过 AI 护栏
自 LLM 部署之初,攻击者就通过操纵输入来让大语言模型以意想不到的方式运行,从而对 AI 系统造成威胁。
1 MIN READ

2025年 7月 29日
使用 VLM 和 NVIDIA NeMo Retriever Parse 将复杂文档转化为可用数据
企业在研究报告、业务合同、财务报表和技术手册等文档中生成并存储大量非结构化数据。传统的光学字符识别 (OCR) 技术难以处理复杂的布局、
3 MIN READ

2025年 7月 29日
使用 NVIDIA Omniverse 构建 CAD 到 USD 工作流
在应用程序之间传输 3D 数据一直是一项挑战,尤其是原生计算机辅助设计 (CAD) 文件等专有格式。
5 MIN READ

2025年 7月 29日
FourCastNet 3 借助可扩展的几何机器学习实现快速准确的大型集成天气预报
FourCastNet3 (FCN3) 是 NVIDIA Earth-2 的最新 AI 全球天气预报系统。
3 MIN READ

2025年 7月 24日
借助 NVIDIA cuVS 优化索引和实时检索的向量搜索
AI 赋能的搜索需要高性能索引、低延迟检索和无缝可扩展性。NVIDIA cuVS 为开发者和数据科学家带来了 GPU…
2 MIN READ

2025年 7月 24日
使用 Torch-TensorRT 将扩散模型的 PyTorch 推理速度翻倍
NVIDIA TensorRT 是一个 AI 推理库,用于优化机器学习模型,以便在 NVIDIA GPU 上部署。
2 MIN READ

2025年 7月 23日
在 Azure 上使用 Apache Spark 和 NVIDIA AI 进行无服务器分布式数据处理
将大量文本库转换为数字表示 (称为嵌入) 的过程对于生成式 AI 至关重要。从语义搜索和推荐引擎到检索增强生成 (RAG) ,
2 MIN READ

2025年 7月 23日
PDF 数据提取方法及其在信息检索中的应用
PDF 是共享财务报告、研究论文、技术文档和营销材料等信息的常用文件格式之一。然而,在构建有效的检索增强生成 (RAG) 系统时,
4 MIN READ

2025年 7月 22日
了解 NCCL 调优以加速 GPU 之间的通信
NVIDIA 集合通信库 (NCCL) 对于 AI 工作负载中的快速 GPU 到 GPU 通信至关重要,可使用各种优化和调优来提升性能。但是,
3 MIN READ

2025年 7月 22日
使用 NVIDIA NeMo 在一个周末内训练一个具备推理能力的 LLM
您是否曾想构建自己的推理模型,但认为它过于复杂或需要大量资源?再想想。借助 NVIDIA 强大的工具和数据集,
4 MIN READ

2025年 7月 18日
使用 JAX 和 XLA 优化推理工作负载的低延迟通信
在生产环境中使用大语言模型 (LLM) 进行推理需要满足严格的延迟限制。此过程的关键阶段是 LLM 解码,
2 MIN READ

2025年 7月 17日
使用 NVIDIA 安全配方保护代理式 AI 系统
随着大语言模型 (LLM) 驱动更多能够执行自主操作、工具使用和推理的代理式系统,企业被其灵活性和低推理成本所吸引。
2 MIN READ

2025年 7月 17日
大规模特征工程:利用 NVIDIA CUDA-X 数据科学优化半导体制造的机器学习模型
在上一篇博文中,我们介绍了芯片制造和运营中的预测建模设置,重点介绍了数据集不平衡等常见挑战,以及对更细致的评估指标的需求。
2 MIN READ