Speech & Audio Processing

2024年 8月 5日
使用 FastConformer 混合传感器 CTC BPE 实现强大乔治亚语自动语音识别系统
由于数据资源有限,为代表性不足的语言构建有效的自动语音识别(automatic speech recognition,
3 MIN READ

2024年 4月 18日
借助 NVIDIA NeMo Parakeet ASR 模型突破语音识别的界限
NVIDIA NeMo Parakeet 是一个端到端平台,用于在任何地方(任何云端和本地)大规模开发多模态生成式 AI 模型,
2 MIN READ

2024年 4月 18日
借助 NVIDIA NeMo Parakeet-TDT 提高 ASR 的准确性和速度
NVIDIA NeMo 是一个端到端平台,用于在任何云和本地的任何地方大规模开发多模式生成 AI 模型,最近发布了 Parakeet-TDT。
2 MIN READ

2024年 4月 18日
NVIDIA NeMo Canary 模型的语音识别和翻译新标准
NVIDIA NeMo 是一种端到端平台,用于开发和部署多模态 生成式 AI 模型。它可以随时随地进行大规模模型部署。
2 MIN READ

2024年 3月 19日
NVIDIA 语音和翻译 AI 模型在速度和准确性方面创下记录
NVIDIA 开发的语音和翻译 AI 模型正在推动性能和创新的发展。NVIDIA Parakeet 自动语音识别 (ASR) 模型系列以及…
2 MIN READ

2024年 1月 16日
NVIDIA NeMo ASR 发布了对荷兰语和波斯语的新支持
为了打破语音识别的障碍,NVIDIA NeMo自豪地推出了专为 AI 领域中常被忽视的荷兰语和波斯语设计的预训练模型。
1 MIN READ

2023年 11月 7日
视频:从研究到实际生产应用,探索语音 AI
将语音和翻译 AI 集成到我们的日常生活中,正在迅速重塑我们的互动方式(从虚拟助理到呼叫中心和增强现实体验)。语音 AI 日为语音 AI…
1 MIN READ

2023年 2月 8日
演讲 AI 聚光灯:Pendulum 如何在网上捕捉有害的叙述
超过 55% 的全球人口使用社交媒体,只需单击一下即可轻松分享在线内容。在与他人联系并消费娱乐内容的同时,
2 MIN READ

2023年 1月 31日
基于 NVIDIA NeMo 的多语言和代码切换自动语音识别
多语言 自动语音识别 ( ASR )模型因其能够以多种语言转录语音而获得了极大的兴趣。这是由不断增长的多语言社区以及减少复杂性的需求所推动的。
2 MIN READ

2022年 10月 20日
构建基尼亚卢旺达语的自动语音识别模型
语音识别技术在语音助手和机器人、通过辅助医疗或教育解决现实世界问题等方面越来越受欢迎。这有助于实现全球 speech AI 接入的民主化。
2 MIN READ

2022年 9月 22日
语音 AI 机器人的低代码构建块
在研究复杂的语音人工智能机器人系统时,开发人员很容易被其复杂性吓倒。亚瑟· C ·克拉克声称:“任何足够先进的技术都无法与魔法区分开来。”…
2 MIN READ

2022年 9月 16日
通过多尺度说话人分解实现动态尺度加权
说话人日记化是按说话人标签对录音进行分段的过程,旨在回答“谁在何时发言?”。与语音识别相比,它有着明显的区别。 在你执行说话人日记化之前,
2 MIN READ

2022年 9月 16日
使用 NVIDIA NeMo 进行文本规范化和反向文本规范化
文本规范化( TN )将文本从书面形式转换为口头形式,是文本到语音( TTS )之前的一个重要预处理步骤。
3 MIN READ

2022年 9月 14日
使用语音 AI 开发下一代扩展现实应用程序
由于身临其境的体验,虚拟现实( VR )、增强现实( AR )和混合现实( MR )环境可以感觉到难以置信的真实。在扩展现实( XR…
4 MIN READ

2022年 9月 12日
更改 CTC 规则以减少训练和解码中的内存消耗
训练自动语音识别( ASR )模型的损失函数并不是一成不变的。旧的损失函数规则不一定是最优的。
3 MIN READ

2022年 6月 23日
语音 AI 简介
人工智能( AI )已经将合成语音从单调的机器人呼叫和几十年前的 GPS 导航系统转变为智能手机和智能扬声器中虚拟助理的优美音调。
2 MIN READ