今年 11 月在 NVIDIA GTC 上,宣布了新的软件工具,帮助开发人员构建实时语音应用程序,优化各种用例的推理,优化推荐系统的开源互操作性,等等。观看首席执行官黄延森( Jensen Huang )的主题演讲,了解 NVIDIA 的最新突破。
宣布 Riva 定制语音和 NVIDIA Riva 企业
今天, NVIDIA 推出了具有自定义语音功能的新版NVIDIA Riva。通过 Riva 定制语音,企业可以轻松创建代表其品牌的独特语音。
NVIDIA 还宣布了 Riva Enterprise ,这是一个付费项目,包括为希望大规模部署 Riva 的企业提供 NVIDIA 专家支持。工作量较小的客户和合作伙伴可以继续免费使用 Riva 。
Riva 亮点包括:
- 在 A100 上用一天 30 分钟的音频数据创建一个新的神经语音。
- 实现世界一流的语音识别,支持其他五种语言。
- 扩展到成百上千的实时流。
- 在任何云端、本地和边缘运行。
今天从NGC catalog中尝试 Riva ,并注册NVIDIA Riva Enterprise兴趣列表。
在本 GTC 课程中了解更多信息
宣布 TensorRT 8 . 2 和新的 PyTorch 和 TensorFlow 集成
今天, NVIDIA 宣布推出生产部署TensorRT 8 . 2 ,这是其高性能深度学习推理优化器和运行时引擎的最新版本。通过新的优化,推理应用程序现在可以实时运行十亿个参数的语言模型,并且只需一行代码即可以 TensorFlow 和 PyTorch 的速度运行推理 3 倍。
亮点包括:
- T5 和 GPT-2 的优化提供了实时翻译和摘要,与 CPU 相比,性能提高了 21 倍。
- TensorRT 与 PyTorch 和 TensorFlow 的集成,在框架中只需一行代码即可实现 3 倍的性能。
- 适用于使用 Windows 的开发人员的简单 Python API 。
Download TensorFlow – TensorRT 集成。
Torch- TensorRT 和 TensorRT 8 . 2 将分别在 11 月下旬的NGC catalog和TensorRT 页面上提供。
TensorRT open source repo中始终提供最新版本的示例、解析器和笔记本。
在这些 GTC 会议上了解更多信息:
- Accelerate PyTorch Inference with TensorRT
- Accelerate Deep Learning Inference in Production with TensorRT.
- Deploy AI Models at Scale using the Triton Inference Server and ONNX Runtime and Maximize Performance with TensorRT
宣布推出 NVIDIA Triton 推理服务器 2 . 15
今天, NVIDIA 发布了NVIDIA Triton Inference Server 2 . 15 。 NVIDIA Triton 是一款开源推理服务软件,可为生产带来快速、可扩展的人工智能。
亮点包括:
- ModelAnalyzer ,用于确定最佳模型执行参数,例如精度、批量大小、并发模型实例的数量以及给定延迟、吞吐量和内存约束的客户端请求。
- RAPIDS 森林推理库( FIL )后端,用于对基于树的模型(如梯度增强的决策树、随机森林)进行推理。
- 多 GPU 多节点分布式推理,用于基于 transformer 的语言模型支持。
- Triton 可在所有主要公共云中使用– Amazon SageMaker (新)、 Microsoft Azure 、谷歌云、阿里巴巴云(新)和腾讯云。 Triton 可在托管人工智能平台和 Kubernetes 服务中使用。
- Triton 现在除了支持 NVIDIA GPU 和 x86 CPU 之外,还支持 Arm CPU 上的 AI 推理工作负载(新增)。
您可以从 NGC 目录下载 NVIDIA Triton ,并获取GitHub上的代码和文档。
在本 GTC 课程中了解更多信息
宣布 NVIDIA Merlin 扩展开放源码互操作性
今天, NVIDIA 宣布了 NVIDIA Merlin的最新版本。 NVIDIA Merlin 是一个开源框架,用于推荐系统的端到端开发,从数据预处理到模型训练和推理。 NVIDIA 继续发布为加快推荐人工作流程而定制的功能、库和软件包。
亮点包括:
- Transformers4rec是一个新的库,它包装了流行的拥抱脸 transformer 体系结构,并使它们可以用于构建基于会话的推荐程序管道。这有助于在动态会话中预测用户的下一个操作,而用户数据很少或没有。
- SparseOperationsKit( SOK )是一个新的开源 Python 包,支持使用 DL 进行稀疏训练和推理,并且与所有常见的 DL 框架兼容,包括 TensorFlow 。
- 大多数常见的 DL 框架不支持模型并行性,这使得在集群中使用所有可用的 GPU 具有挑战性。 SOK 与 TensorFlow 兼容有助于填补这一空白。
有关最新版本的更多信息,请下载 NVIDIA Merlin。
在这些 GTC 课程中了解更多信息
- Building and Deploying Recommender Systems Quickly and Easily with NVIDIA Merlin
- Session-based Recommendation Powered by Transformers。
宣布 NeMo Megatron 、 Megatron 530B 和 Triton 多 – GPU 多节点推理
今天, NVIDIA 宣布了 NeMo Megatron ,这是NeMo中开发大规模语言模型( LLM )的一项新功能。 NeMo Megatron 基于 Megatron 的进步,使企业能够使用数万亿个参数训练和扩展语言模型。
亮点包括:
- 自动数据整理任务,如格式化、重复数据消除和混合。
- 先进的并行化技术,如流水线、张量和数据并行。
- 在不到一个月的时间里训练一个 200 亿参数的模型。
- 培训 Megatron 530B ,新领域和语言的可定制 LLM 。
- 将 LLM 扩展到多个 GPU 和节点,以便使用 NVIDIA Triton 推理服务器进行推理。
注册以尽早访问下载NVIDIA NeMo Megatron。
在本 GTC 课程中了解更多信息
发布 DeepStream 6 . 0
今天, NVIDIA 发布了DeepStream的最新版本,这是一款功能强大的 AI 流分析工具包,用于构建高性能视频分析应用程序和服务。这个新版本引入了一个低代码编程工作流,支持数据格式和算法,以及一系列新的入门资源。
亮点包括:
- 低代码,图形编程与图形生成器。
- 行动识别支持。
- 自动语音识别( ASR )支持。
- 音频视频同步支持。
- 基于流行的 DeepSORT 算法的全新多目标跟踪器。
- 超过 20 个插件和 30 个参考应用程序,帮助开发人员入门。
访问DeepStream Getting Started页面并下载 6 . 0 版软件。
在这些 GTC 课程中了解更多信息
- Accelerating the Development of Next-Generation AI Applications with DeepStream 6.0
- University of Wollongong: Building Safer Public Transportation with AI-based Video Analytics
- Full list of computer vision sessions at GTC
立即注册GTC,了解 GPU – 加速人工智能技术的最新更新。