性能优化

2024年 3月 12日

使用 NVIDIA GPU 和 VMAF-CUDA 计算视频质量

视频质量指标用于评估视频内容的保真度。它们提供一致的量化测量，用于评估编码器的性能。 VMAF 将人类视觉建模与不断发展的机器学习技术相结合，

4 MIN READ

2024年 2月 21日

限制 CPU 线程以获得更好的游戏性能

许多 PC 游戏都围绕 8 核游戏机进行设计，并假设其软件线程系统在所有 PC 上都“正常工作”，尤其是在工作线程池中的线程数量方面。不久前，

1 MIN READ

2024年 1月 16日

强大的场景文本检测和识别：简介

识别和识别自然场景和图像中的文本对于视频标题文本识别、检测车载摄像头的标牌、信息检索、场景理解、车牌识别以及识别产品文本等用例变得非常重要。

1 MIN READ

2024年 1月 16日

强大的场景文本检测和识别：实施

要使场景文本检测和识别适用于不规则文本或特定用例，您必须完全控制模型，以便根据用例和数据集执行增量学习或微调。请记住，此工作流是场景理解、

2 MIN READ

2024年 1月 16日

强大的场景文本检测和识别：推理优化

在本文中，我们将深入探讨推理优化过程，以在推理阶段提高机器学习模型的性能和效率。我们将讨论所采用的技术，例如推理计算图形简化、量化和降低精度。

3 MIN READ

2024年 1月 5日

在某些场景中使用 cgroup 缩短 CUDA 初始化时间

在多 GPU 平台上运行的许多 CUDA 应用程序通常使用单个 GPU 来满足其计算需求。在这种情况下，应用程序会支付性能损失，

2 MIN READ

2023年 12月 13日

借助 NVIDIA H100 Tensor Core GPU 和 NVIDIA TensorRT-LLM 实现出色的推理性能

出色的 AI 性能需要高效的并行计算架构、高效的工具堆栈和深度优化的算法。NVIDIA 发布了 NVIDIA TensorRT-LLM，

2 MIN READ

2023年 10月 2日

加速向量搜索：RAPIDS RAFT IVF-Flat 近似算法

执行详尽的精确 k 最近邻 (kNN) 搜索，也称为暴力搜索，成本高昂，并且它不能很好地扩展到更大的数据集。在向量搜索期间，

3 MIN READ

2023年 9月 11日

加速矢量搜索：微调 GPU 索引算法

这个系列的第一篇文章介绍了矢量搜索索引，解释了它们在实现广泛的重要应用中所起的作用，并使用了 RAFT 库。在这篇文章中，

2 MIN READ

2023年 9月 6日

GPU 用于 ETL？为 Apache Spark SQL 操作进行 ETL 体系结构优化

使用 GPU 进行提取、转换和加载（ETL）操作的 NVIDIA RAPIDS Accelerator for Apache Spark…

2 MIN READ

2023年 7月 17日

GPU 用于 ETL ？使用 NVIDIA RAPIDS 加速器为 Apache Spark 和 Databricks 运行更快、成本更低的工作负载

我们被卡住了。真的卡住了。随着艰难的交付截止日期的临近，我们的团队需要弄清楚如何在几个小时内处理数万亿销售点交易记录的复杂提取转换负载（…

2 MIN READ

2023年 7月 11日

加速数据分析：使用 GPU 的机器学习 - 加速 pandas 和 Scikit 学习

本文是加速数据分析系列文章的一部分。如果您想将您的机器学习（ ML ）项目的速度和可扩展性提升到新的水平，

4 MIN READ

2023年 7月 10日

使用 SetBackgroundProcessingMode 对 DirectX 12 进行游戏内 GPU 分析

如果你是 DirectX 12（DX12）游戏开发人员，你可能已经注意到，即使应用程序端没有任何变化，游戏 HUD 中实时显示的 GPU…

1 MIN READ

2023年 6月 7日

基于递归神经网络和 XGBoost 的时间序列模型预测信用违约

今天的机器学习（ ML ）解决方案很复杂，很少只使用一个模型。有效地训练模型需要大量多样的数据集，

3 MIN READ

2023年 6月 5日

CUDA 12.1 支持大内核参数

CUDA 内核函数参数通过恒定存储器传递给设备，并且被限制为 4096 字节。 CUDA 12.1…

2 MIN READ

2023年 4月 27日

基于 NVIDIA 的 PC 端到端人工智能：从 FP32 过渡到 FP16 优化人工智能

这篇文章是关于人工智能端到端优化。人工智能模型的性能在很大程度上受到所使用计算资源的精度的影响。较低的精度可以提高处理速度和减少内存使用，

2 MIN READ