对话式人工智能

NVIDIA NeMo T5-TTS 模型助力解决语音合成语言模型中的幻觉问题

NVIDIA NeMo 发布了 T5-TTS 模型,这是文本转语音 (TTS) 技术的一项重大进步。基于 大型语言模型 (LLM),T5-TTS 生成更准确、更自然的语音。通过改进文本和音频之间的对齐,T5-TTS 消除了重复口语和跳过文本等幻觉。此外,与其他开源模型如 BarkSpeechT5 相比,T5-TTS 可将单词发音错误减少到原来的 1/2。

收听 T5-TTS 模型的音频示例。

NVIDIA NeMo 是一个端到端平台,可以随时随地在本地和云端大规模开发多模态 生成式 AI 模型。

LLM 在语音合成中扮演着重要的角色

LLM 凭借其出色的理解和生成一致性文本的能力彻底改变了 自然语言处理 (NLP)。最近,LLM 在语音领域得到广泛应用,使用大量数据来捕捉人类语音模式和色调的细微差别。基于 LLM 的语音合成模型产生的语音不仅更自然,而且更具表现力,为各行各业的应用开辟了无限可能。

然而,与在文本领域中的使用类似,语音 LLM 面临幻境挑战,这可能会阻碍其在现实世界中的部署。

T5-TTS 模型概述

T5-TTS 模型利用编码器 – 解码器 Transformer 架构进行语音合成,编码器处理文本输入,自动回归解码器从目标说话者那里获取参考语音提示。然后,自动回归解码器通过 Transformer 的交叉注意力头关注编码器的输出来生成语音令牌,这些交叉注意力头隐式学习对齐文本和语音。但是,当输入文本包含重复的单词时,它们的可靠性会受到损害。

Diagram of the NVIDIA NeMo T5-TTS model. On the left: The T5-TTS model processes input text tokens and acoustic codes from reference audio to predict the acoustic codes for the target audio. On the right: The cross-attention scores can be guided to achieve robust alignment between text and speech.
图 1.NVIDIA NeMo T5-TTS 模型及其对齐过程概述

应对幻觉挑战

当生成的语音偏离预期文本时,TTS 中就会出现幻觉,导致从细微发音错误到完全错误的单词等错误,这些不准确之处可能会损害 TTS 系统在辅助技术、客户服务和内容创建等关键应用中的可靠性。

T5-TTS 模型通过更高效地将文本输入与相应的语音输出对齐来解决这一问题,从而显著减少幻觉。通过应用 单调比先验连接主义时间分类(CTC)损失,生成的语音紧密匹配预期文本,从而实现更可靠、更准确的 TTS 系统。对于单词发音,T5-TTS 模型比 Bark 少 2 倍错误,比 VALLE-X(开源实现) 少 1.8 倍错误,比 SpeechT5 少 1.5 倍错误(图 2)。

Bar chart illustrating the intelligibility metrics of synthesized speech using various LLM-based TTS models on 100 challenging text inputs. The lower character error rate (CER) and word error rate (WER) for T5-TTS indicate that our alignment learning procedure enhances the robustness of our TTS model when handling challenging text inputs.
图 2.使用基于 LLM 的不同 TTS 模型对 100 个具有挑战性的文本输入进行合成语音的可理解性指标

研究的影响和未来考虑因素

NVIDIA NeMo 发布的 T5-TTS 模型标志着 TTS 系统的重大进步。该模型通过有效解决幻觉问题,为更可靠、更高质量的语音合成奠定了基础,增强了各种应用的用户体验。

展望未来,NVIDIA NeMo 团队计划通过扩展语言支持、提高 T5-TTS 模型捕捉不同语音模式的能力,以及将其集成到更广泛的 NLP 框架中,进一步优化 T5-TTS 模型。

探索 NVIDIA NeMo T5-TTS 模型

T5-TTS 模型代表着在实现更准确、更自然的文本到语音合成方面的重大突破,其学习稳健文本和语音比对的创新方法在该领域树立了新的基准,有望改变我们与 TTS 技术的交互方式,并从 TTS 技术中受益。

要访问 T5-TTS 模型并开始探索其潜力,请访问 GitHub 上的 NVIDIA/NeMo。无论您是研究人员、开发者还是发烧玩家,这个功能强大的工具都为文本转语音技术领域的创新和进步提供了无数可能性。如需了解更多信息,请参阅 《通过学习单调对齐提高基于 LLM 的语音合成的可靠性》

致谢

我们要感谢所有为这项工作做出贡献的模型作者和合作者,包括 Paarth Neekhara、Shehzeen Hussain、Subhankar Ghosh、Jason Li、Boris Ginsburg、Rafael Valle 和 Rohan Badlani。

Tags