Automatic Speech Recognition (ASR)

2月 08, 2023
演讲 AI 聚光灯:Pendulum 如何在网上捕捉有害的叙述
超过 55% 的全球人口使用社交媒体,只需单击一下即可轻松分享在线内容。在与他人联系并消费娱乐内容的同时,
2 MIN READ

2月 03, 2023
语音识别模型对新领域的受控适应
你有没有试过在你的口音上微调语音识别系统,结果发现,虽然它能很好地识别你的声音,但却无法检测到别人说的话?
2 MIN READ

1月 31, 2023
基于 NVIDIA NeMo 的多语言和代码切换自动语音识别
多语言 自动语音识别 ( ASR )模型因其能够以多种语言转录语音而获得了极大的兴趣。这是由不断增长的多语言社区以及减少复杂性的需求所推动的。
2 MIN READ

1月 13, 2023
基于熵的字级 ASR 置信度估计方法
一旦您有了自动语音识别( ASR )模型预测,您可能还想知道这些预测正确的可能性。这种正确率或置信度通常作为原始预测概率(快速、
4 MIN READ

1月 12, 2023
使用 Kubernetes 自动缩放 NVIDIA Riva 部署,用于生产中的语音 AI
语音 AI 应用,从呼叫中心到虚拟助理,严重依赖 自动语音识别 ( ASR )和文本转语音( TTS )。
4 MIN READ

12月 16, 2022
深度学习正在改变 ASR 和 TTS 算法
语音是与 AI 驱动的应用程序通信的主要手段之一。从虚拟助理到数字化身,基于语音的界面正在改变我们通常与智能设备的交互方式。
1 MIN READ

12月 16, 2022
语音 AI 技术实现与服务机器人的自然交互
从在餐厅点菜、为您提供食物,到与您一起玩扑克,服务机器人正变得越来越普遍。在全球范围内,您可以在医院、机场和零售店找到这些服务机器人。
2 MIN READ

12月 15, 2022
缩短联络中心智能虚拟助理的开发时间
随着全球服务经济的发展,公司越来越依赖于联系中心来改善客户体验,提高客户满意度,降低成本并提高效率。
2 MIN READ

12月 14, 2022
语音 AI 聚焦:用虚拟代理重塑客户服务
虚拟代理或语音助手已经存在了很长一段时间。但在过去的十年中,随着 AI 的使用,它们的实用性和流行性急剧增长。 根据 Gartner 的数据,
1 MIN READ

10月 28, 2022
为新语言创建的 NVIDIA Riva ASR 服务
Speech AI 是智能系统使用语音接口与用户进行通信的能力,语音接口在日常生活中已变得无处不在。人们经常通过语音与智能家居设备、
3 MIN READ

10月 20, 2022
构建基尼亚卢旺达语的自动语音识别模型
语音识别技术在语音助手和机器人、通过辅助医疗或教育解决现实世界问题等方面越来越受欢迎。这有助于实现全球 speech AI 接入的民主化。
2 MIN READ

9月 22, 2022
语音 AI 机器人的低代码构建块
在研究复杂的语音人工智能机器人系统时,开发人员很容易被其复杂性吓倒。亚瑟· C ·克拉克声称:“任何足够先进的技术都无法与魔法区分开来。”…
2 MIN READ

9月 16, 2022
通过多尺度说话人分解实现动态尺度加权
说话人日记化是按说话人标签对录音进行分段的过程,旨在回答“谁在何时发言?”。与语音识别相比,它有着明显的区别。 在你执行说话人日记化之前,
2 MIN READ

9月 16, 2022
使用 NVIDIA NeMo 进行文本规范化和反向文本规范化
文本规范化( TN )将文本从书面形式转换为口头形式,是文本到语音( TTS )之前的一个重要预处理步骤。
3 MIN READ

9月 14, 2022
使用语音 AI 开发下一代扩展现实应用程序
由于身临其境的体验,虚拟现实( VR )、增强现实( AR )和混合现实( MR )环境可以感觉到难以置信的真实。在扩展现实( XR…
4 MIN READ

9月 12, 2022
更改 CTC 规则以减少训练和解码中的内存消耗
训练自动语音识别( ASR )模型的损失函数并不是一成不变的。旧的损失函数规则不一定是最优的。
3 MIN READ