性能优化
2024年 12月 20日
利用 RAPIDS 和 Ray 加速 GPU 数据分析
RAPIDS 是一套开源 GPU 加速的数据科学和 AI 库,可通过 Spark 和 Dask 等分布式引擎进行横向扩展。
2 MIN READ
2024年 12月 5日
统一虚拟内存利用 RAPIDS cuDF 为 pandas 提供强力支持
上一篇文章 中介绍的 是一个 GPU 加速库,可加速 pandas 以实现显著的性能提升,速度最高可提升至原来的 50 倍,
2 MIN READ
2024年 9月 24日
借助 NVIDIA NeMo 实现出色的 ASR 模型 10 倍加速
NVIDIA NeMo 持续开发了设定行业基准的 自动语音识别(ASR) 模型,尤其是在 Hugging Face Open ASR 排行榜…
4 MIN READ
2024年 9月 11日
用于直线 CUDA 图形和其他性能增强的恒定时间启动
CUDA Graphs 是一种将 GPU 运算定义为图形(而非一系列流启动)并将其批量处理的方法。CUDA Graph 将一组 CUDA…
3 MIN READ
2024年 8月 8日
通过降低指令缓存未命中率提高 GPU 性能
GPU 专为高速处理大量数据而设计。GPU 具有称为流多处理器 (SM) 的大量计算资源,以及一系列可为其提供数据的设施:高带宽内存、
2 MIN READ
2024年 7月 8日
使用 NVIDIA NIM 实现多语种大语言模型部署
对于在当今全球化商业环境中运营的企业而言,多语种大型语言模型(LLM)的重要性与日俱增。随着企业跨越国界和文化扩展业务,
4 MIN READ
2024年 5月 10日
具有条件节点的 CUDA 图的动态控制流
CUDA 图 可以显著提高性能,因为驱动程序能够使用任务和依赖关系的完整描述来优化执行。特别是在静态工作流中,图形可以提供难以置信的好处,
2 MIN READ
2024年 3月 12日
使用 NVIDIA GPU 和 VMAF-CUDA 计算视频质量
视频质量指标用于评估视频内容的保真度。它们提供一致的量化测量,用于评估编码器的性能。 VMAF 将人类视觉建模与不断发展的机器学习技术相结合,
4 MIN READ
2024年 2月 21日
限制 CPU 线程以获得更好的游戏性能
许多 PC 游戏都围绕 8 核游戏机进行设计,并假设其软件线程系统在所有 PC 上都“正常工作”,尤其是在工作线程池中的线程数量方面。不久前,
1 MIN READ
2024年 1月 16日
强大的场景文本检测和识别:简介
识别和识别自然场景和图像中的文本对于视频标题文本识别、检测车载摄像头的标牌、信息检索、场景理解、车牌识别以及识别产品文本等用例变得非常重要。
1 MIN READ
2024年 1月 16日
强大的场景文本检测和识别:实施
要使场景文本检测和识别适用于不规则文本或特定用例,您必须完全控制模型,以便根据用例和数据集执行增量学习或微调。请记住,此工作流是场景理解、
2 MIN READ
2024年 1月 16日
强大的场景文本检测和识别:推理优化
在本文中,我们将深入探讨推理优化过程,以在推理阶段提高机器学习模型的性能和效率。我们将讨论所采用的技术,例如推理计算图形简化、量化和降低精度。
3 MIN READ
2024年 1月 5日
在某些场景中使用 cgroup 缩短 CUDA 初始化时间
在多 GPU 平台上运行的许多 CUDA 应用程序通常使用单个 GPU 来满足其计算需求。在这种情况下,应用程序会支付性能损失,
2 MIN READ
2023年 12月 13日
借助 NVIDIA H100 Tensor Core GPU 和 NVIDIA TensorRT-LLM 实现出色的推理性能
出色的 AI 性能需要高效的并行计算架构、高效的工具堆栈和深度优化的算法。NVIDIA 发布了 NVIDIA TensorRT-LLM,
2 MIN READ
2023年 10月 2日
加速向量搜索:RAPIDS RAFT IVF-Flat 近似算法
执行详尽的精确 k 最近邻 (kNN) 搜索,也称为暴力搜索,成本高昂,并且它不能很好地扩展到更大的数据集。在向量搜索期间,
3 MIN READ
2023年 9月 11日
加速矢量搜索:微调 GPU 索引算法
这个 系列的第一篇文章 介绍了矢量搜索索引,解释了它们在实现广泛的重要应用中所起的作用,并使用了 RAFT 库。 在这篇文章中,
2 MIN READ