Speech & Audio Processing

2月 08, 2023
演讲 AI 聚光灯:Pendulum 如何在网上捕捉有害的叙述
超过 55% 的全球人口使用社交媒体,只需单击一下即可轻松分享在线内容。在与他人联系并消费娱乐内容的同时,
2 MIN READ

1月 31, 2023
基于 NVIDIA NeMo 的多语言和代码切换自动语音识别
多语言 自动语音识别 ( ASR )模型因其能够以多种语言转录语音而获得了极大的兴趣。这是由不断增长的多语言社区以及减少复杂性的需求所推动的。
2 MIN READ

10月 20, 2022
构建基尼亚卢旺达语的自动语音识别模型
语音识别技术在语音助手和机器人、通过辅助医疗或教育解决现实世界问题等方面越来越受欢迎。这有助于实现全球 speech AI 接入的民主化。
2 MIN READ

9月 22, 2022
语音 AI 机器人的低代码构建块
在研究复杂的语音人工智能机器人系统时,开发人员很容易被其复杂性吓倒。亚瑟· C ·克拉克声称:“任何足够先进的技术都无法与魔法区分开来。”…
2 MIN READ

9月 16, 2022
通过多尺度说话人分解实现动态尺度加权
说话人日记化是按说话人标签对录音进行分段的过程,旨在回答“谁在何时发言?”。与语音识别相比,它有着明显的区别。 在你执行说话人日记化之前,
2 MIN READ

9月 16, 2022
使用 NVIDIA NeMo 进行文本规范化和反向文本规范化
文本规范化( TN )将文本从书面形式转换为口头形式,是文本到语音( TTS )之前的一个重要预处理步骤。
3 MIN READ

9月 14, 2022
使用语音 AI 开发下一代扩展现实应用程序
由于身临其境的体验,虚拟现实( VR )、增强现实( AR )和混合现实( MR )环境可以感觉到难以置信的真实。在扩展现实( XR…
4 MIN READ

9月 12, 2022
更改 CTC 规则以减少训练和解码中的内存消耗
训练自动语音识别( ASR )模型的损失函数并不是一成不变的。旧的损失函数规则不一定是最优的。
3 MIN READ

6月 23, 2022
语音 AI 简介
人工智能( AI )已经将合成语音从单调的机器人呼叫和几十年前的 GPS 导航系统转变为智能手机和智能扬声器中虚拟助理的优美音调。
2 MIN READ

7月 07, 2020
OpenAI 展示 GPT-3,一个 1750 亿参数的语言模型
OpenAI 研究人员最近发布了 研究报告 描述 GPT-3 ,一个由 1750 亿个参数组成的最先进的语言模型。 相比之下,
1 MIN READ