Speech & Audio Processing

2024年 3月 19日

NVIDIA 语音和翻译 AI 模型在速度和准确性方面创下记录

NVIDIA 开发的语音和翻译 AI 模型正在推动性能和创新的发展。NVIDIA Parakeet 自动语音识别 (ASR) 模型系列以及…

2 MIN READ

2024年 1月 16日

NVIDIA NeMo ASR 发布了对荷兰语和波斯语的新支持

为了打破语音识别的障碍，NVIDIA NeMo自豪地推出了专为 AI 领域中常被忽视的荷兰语和波斯语设计的预训练模型。

1 MIN READ

2023年 11月 7日

视频：从研究到实际生产应用，探索语音 AI

将语音和翻译 AI 集成到我们的日常生活中，正在迅速重塑我们的互动方式（从虚拟助理到呼叫中心和增强现实体验）。语音 AI 日为语音 AI…

1 MIN READ

2023年 2月 8日

演讲 AI 聚光灯：Pendulum 如何在网上捕捉有害的叙述

超过 55% 的全球人口使用社交媒体，只需单击一下即可轻松分享在线内容。在与他人联系并消费娱乐内容的同时，

2 MIN READ

2023年 1月 31日

基于 NVIDIA NeMo 的多语言和代码切换自动语音识别

多语言自动语音识别（ ASR ）模型因其能够以多种语言转录语音而获得了极大的兴趣。这是由不断增长的多语言社区以及减少复杂性的需求所推动的。

2 MIN READ

2022年 10月 20日

构建基尼亚卢旺达语的自动语音识别模型

语音识别技术在语音助手和机器人、通过辅助医疗或教育解决现实世界问题等方面越来越受欢迎。这有助于实现全球 speech AI 接入的民主化。

2 MIN READ

2022年 9月 22日

语音 AI 机器人的低代码构建块

在研究复杂的语音人工智能机器人系统时，开发人员很容易被其复杂性吓倒。亚瑟· C ·克拉克声称：“任何足够先进的技术都无法与魔法区分开来。”…

2 MIN READ

2022年 9月 16日

通过多尺度说话人分解实现动态尺度加权

说话人日记化是按说话人标签对录音进行分段的过程，旨在回答“谁在何时发言？”。与语音识别相比，它有着明显的区别。在你执行说话人日记化之前，

2 MIN READ

2022年 9月 16日

使用 NVIDIA NeMo 进行文本规范化和反向文本规范化

文本规范化（ TN ）将文本从书面形式转换为口头形式，是文本到语音（ TTS ）之前的一个重要预处理步骤。

3 MIN READ

2022年 9月 14日

使用语音 AI 开发下一代扩展现实应用程序

由于身临其境的体验，虚拟现实（ VR ）、增强现实（ AR ）和混合现实（ MR ）环境可以感觉到难以置信的真实。在扩展现实（ XR…

4 MIN READ

2022年 9月 12日

更改 CTC 规则以减少训练和解码中的内存消耗

训练自动语音识别（ ASR ）模型的损失函数并不是一成不变的。旧的损失函数规则不一定是最优的。

3 MIN READ

2022年 6月 23日

语音 AI 简介

人工智能（ AI ）已经将合成语音从单调的机器人呼叫和几十年前的 GPS 导航系统转变为智能手机和智能扬声器中虚拟助理的优美音调。

2 MIN READ

2020年 7月 7日

OpenAI 展示 GPT-3，一个 1750 亿参数的语言模型

OpenAI 研究人员最近发布了研究报告描述 GPT-3 ，一个由 1750 亿个参数组成的最先进的语言模型。相比之下，

1 MIN READ