性能优化
2024年 9月 24日
借助 NVIDIA NeMo 实现出色的 ASR 模型 10 倍加速
NVIDIA NeMo 持续开发了设定行业基准的 自动语音识别(ASR) 模型,尤其是在 Hugging Face Open ASR 排行榜…
4 MIN READ
2024年 9月 11日
用于直线 CUDA 图形和其他性能增强的恒定时间启动
CUDA Graphs 是一种将 GPU 运算定义为图形(而非一系列流启动)并将其批量处理的方法。CUDA Graph 将一组 CUDA…
3 MIN READ
2024年 8月 8日
通过降低指令缓存未命中率提高 GPU 性能
GPU 专为高速处理大量数据而设计。GPU 具有称为流多处理器 (SM) 的大量计算资源,以及一系列可为其提供数据的设施:高带宽内存、
2 MIN READ
2024年 7月 8日
使用 NVIDIA NIM 实现多语种大语言模型部署
对于在当今全球化商业环境中运营的企业而言,多语种大型语言模型(LLM)的重要性与日俱增。随着企业跨越国界和文化扩展业务,
4 MIN READ
2024年 5月 10日
具有条件节点的 CUDA 图的动态控制流
CUDA 图 可以显著提高性能,因为驱动程序能够使用任务和依赖关系的完整描述来优化执行。特别是在静态工作流中,图形可以提供难以置信的好处,
2 MIN READ
2024年 3月 12日
使用 NVIDIA GPU 和 VMAF-CUDA 计算视频质量
视频质量指标用于评估视频内容的保真度。它们提供一致的量化测量,用于评估编码器的性能。 VMAF 将人类视觉建模与不断发展的机器学习技术相结合,
4 MIN READ
2024年 2月 21日
限制 CPU 线程以获得更好的游戏性能
许多 PC 游戏都围绕 8 核游戏机进行设计,并假设其软件线程系统在所有 PC 上都“正常工作”,尤其是在工作线程池中的线程数量方面。不久前,
1 MIN READ
2024年 1月 16日
强大的场景文本检测和识别:简介
识别和识别自然场景和图像中的文本对于视频标题文本识别、检测车载摄像头的标牌、信息检索、场景理解、车牌识别以及识别产品文本等用例变得非常重要。
1 MIN READ
2024年 1月 16日
强大的场景文本检测和识别:实施
要使场景文本检测和识别适用于不规则文本或特定用例,您必须完全控制模型,以便根据用例和数据集执行增量学习或微调。请记住,此工作流是场景理解、
2 MIN READ
2024年 1月 16日
强大的场景文本检测和识别:推理优化
在本文中,我们将深入探讨推理优化过程,以在推理阶段提高机器学习模型的性能和效率。我们将讨论所采用的技术,例如推理计算图形简化、量化和降低精度。
3 MIN READ
2024年 1月 5日
在某些场景中使用 cgroup 缩短 CUDA 初始化时间
在多 GPU 平台上运行的许多 CUDA 应用程序通常使用单个 GPU 来满足其计算需求。在这种情况下,应用程序会支付性能损失,
2 MIN READ
2023年 12月 13日
借助 NVIDIA H100 Tensor Core GPU 和 NVIDIA TensorRT-LLM 实现出色的推理性能
出色的 AI 性能需要高效的并行计算架构、高效的工具堆栈和深度优化的算法。NVIDIA 发布了 NVIDIA TensorRT-LLM,
2 MIN READ
2023年 10月 2日
加速向量搜索:RAPIDS RAFT IVF-Flat 近似算法
执行详尽的精确 k 最近邻 (kNN) 搜索,也称为暴力搜索,成本高昂,并且它不能很好地扩展到更大的数据集。在向量搜索期间,
3 MIN READ
2023年 9月 11日
加速矢量搜索:微调 GPU 索引算法
这个 系列的第一篇文章 介绍了矢量搜索索引,解释了它们在实现广泛的重要应用中所起的作用,并使用了 RAFT 库。 在这篇文章中,
2 MIN READ
2023年 9月 6日
GPU 用于 ETL?为 Apache Spark SQL 操作进行 ETL 体系结构优化
使用 GPU 进行提取、转换和加载(ETL)操作的 NVIDIA RAPIDS Accelerator for Apache Spark…
2 MIN READ
2023年 7月 17日
GPU 用于 ETL ?使用 NVIDIA RAPIDS 加速器为 Apache Spark 和 Databricks 运行更快、成本更低的工作负载
我们被卡住了。真的卡住了。随着艰难的交付截止日期的临近,我们的团队需要弄清楚如何在几个小时内处理数万亿销售点交易记录的复杂提取转换负载(…
2 MIN READ