加速计算

2024年 12月 10日
如何使用 FP8 加速大模型训练
利用 FP8 技术加速 LLM 推理和训练越来越受到关注,本文主要和大家介绍如何使用 FP8 这项新技术加速大模型的训练。
4 MIN READ

2024年 11月 20日
使用 EMBark 加速大规模推荐系统嵌入式训练优化
推荐系统是互联网行业的核心,而高效地训练这些系统对于各大公司来说是一个关键问题。大多数推荐系统是深度学习推荐模型(DLRMs),
2 MIN READ

2024年 11月 20日
TensorRT-LLM 低精度推理优化:从速度和精度角度的 FP8 vs INT8 的全面解析
本文将分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次,
5 MIN READ

2024年 7月 4日
探索 FP8 训练中 Debug 思路与技巧
目前,市场上许多公司都积极开展基于 FP8 的大模型训练,以提高计算效率和性能。 在此,
2 MIN READ

2024年 4月 25日
NVIDIA GPU 架构下的 FP8 训练与推理
本文聚焦 NVIDIA FP8 训练与推理的实践应用,该内容来源于 2023 云栖大会 NVIDIA 专场演讲。 FP8 训练利用 E5M2/
5 MIN READ

2024年 1月 15日
使用 NVIDIA TensorRT-LLM 支持 CodeFuse-CodeLlama-34B 上的 int4 量化和推理优化实践
Codefuse(https://github.com/codefuse-ai)是由蚂蚁集团开发的代码语言大模型,
3 MIN READ

2023年 12月 4日
如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型
大型语言模型正以其惊人的新能力推动人工智能的发展,扩大其应用范围。然而,由于这类模型具有庞大的参数规模,部署和推理的难度和成本极高,
2 MIN READ

2022年 6月 30日
推荐系统峰会 2022
欢迎于 7 月 29 日加入由 NVIDIA 所主办的推荐系统峰会,与 NVIDIA、阿里巴巴、腾讯、美团等公司的专家在线交流,
1 MIN READ

2022年 6月 23日
Merlin HugeCTR Sparse Operation Kit 系列之二
摘要 在上期文章中,我们对 HugeCTR Sparse Operation Kit (以下简称SOK) 的基本功能,性能,
3 MIN READ

2022年 6月 23日
HugeCTR v3.6 & v3.7 发布说明
Merlin HugeCTR(以下简称 HugeCTR)是 GPU 加速的推荐程序框架,
1 MIN READ

2022年 3月 29日
Merlin HugeCTR 分级参数服务器系列之二
在上一期的 HugeCTR 分级参数服务器简介中,
2 MIN READ

2022年 3月 9日
Merlin HugeCTR v3.4.1 发布说明
Merlin HugeCTR(以下简称 HugeCTR)是 GPU 加速的推荐程序框架,
1 MIN READ

2021年 10月 6日
具有 RAPIDS cuML 的 GPU 加速分层 DBSCAN –让我们回到未来
不同领域的数据科学家使用聚类方法在他们的数据集中找到自然的“相似”观察组。流行的聚类方法可以是: 基于层次密度的应用程序空间聚类 w /
3 MIN READ

2021年 10月 6日
边缘人工智能的未来是本地云
推理因其灵活性而成为边缘计算的杀手级应用。今天,边缘推理(也称为边缘 AI)解决了各个行业的问题:防止盗窃、发现疾病和减少农田中除草剂的使用。
1 MIN READ

2021年 10月 5日
NVIDIA CloudXR 现已集成到 VMware Workspace ONE XR 集线器中
NVIDIA 和 VMware 通过发布 Workspace ONE XR Hub ,帮助企业将 XR 流媒体传输到云端,
1 MIN READ

2021年 10月 5日
VxRail 使用 vSAN RDMA 提高应用程序性能
混合云是指内部部署基础架构(如 Dell EMC VxRail hyperconverged infrastructure ( HCI…
1 MIN READ