令人惊叹的音频内容是虚拟世界的重要组成部分。音频生成式 AI 在创建此类内容方面发挥着关键作用,NVIDIA 正在不断突破这一研究领域的极限。BigVGAN 是与 NVIDIA 应用深度学习研究团队和 NVIDIA NeMo 团队合作开发的生成式 AI 模型,专门用于音频波形合成,可实现先进的结果。BigVGAN 生成波形的速度比实时快几个数量级,并且在语音、环境声音和音乐等各种音频类型中表现出强大的稳健性。
本文将讨论 BigVGAN v2,它可以显著提高速度和质量,助力打造所生成的音频与真实音频相去甚远的未来。BigVGAN v2 的亮点包括:
- 先进的音频质量,由多种音频类型的不同指标来衡量。
- 利用经过优化的 CUDA 内核,合成速度最高可提升 3 倍。
- 即用型预训练检查点,支持多种音频配置。
- 支持高达 44 kHz 的采样率,这是人类能够听到的最高声音频率
BigVGAN:通用神经声码器
BigVGAN 是一款通用神经声码器,专门用于使用 Mel spectrograms 作为输入合成音频波形。神经声码器是音频生成式 AI 中的基石方法,可从紧凑型声学特征(如 Mel spectrogram)生成声波。BigVGAN 可通过 GitHub 上的 NVIDIA/BigVGAN 以开源形式提供。
BigVGAN 是一种全卷积架构(Figure 1),具有多个使用转置卷积的上采样块,然后是多个残差扩展卷积层。它具有名为 Anti-Aliased Multi-Periodicity Composition(AMP)的新型模块,专为生成波形而设计。
AMP 专注于合成高频和周期性声波,从音频信号处理原理中汲取灵感。它应用了名为 Snake 的周期激活函数,该函数可在生成周期性声波时为架构提供感应偏差。它还应用了抗锯齿滤波器,以减少生成的波形中不希望出现的伪影。如需了解详情,请参阅 BigVGAN:采用大规模训练的通用神经声码器。
生成世界上的每一种声音
波形音频生成是构建虚拟世界的关键组成部分,长期以来一直是一个活跃的研究领域。尽管波形音频生成很重要,但当前的声编码方法通常会在高频声波中生成缺乏精细细节的音频。BigVGAN v2 有效地解决了这个问题,可以提供具有增强精细细节的高质量音频。
BigVGAN v2 使用 NVIDIA A100 Tensor Core GPU 进行训练,其音频数据比上一代产品多出 100 多倍,该数据集旨在封装世界上的每种声音,包括多种语言的语音、来自日常物体的环境声音以及各种仪器。因此,BigVGAN v2 可以使用单个模型从多个领域生成高质量声波。
下面,以 24 kHz 采样率收听 BigVGAN 和 BigVGAN v2 的真实录音和生成样本的音频比较。BigVGAN v2 生成高质量声波。
Recordings (24 kHz)
BigVGAN
BigVGAN v2
达到人耳能检测到的最高频率
之前的波形合成器的采样率仅限于在 22 kHz 到 24 kHz 之间。然而,BigVGAN v2 将此范围扩展到 44 kHz,封装了整个人类听觉频谱。这与人耳可以检测到的最高频率相匹配,而采样率不超过 40 kHz。因此,BigVGAN v2 可以重现全面的音景,例如捕获所有内容,从鼓声的强劲混响到音乐中铃声的清晰闪烁等。
下面,请听两个 BigVGAN v2 模型的真实录音和生成样本的音频比较,一个模型的采样率为 24 kHz,另一个模型的采样率为 44 kHz。
Recordings (44 kHz)
BigVGAN v2 (24 kHz)
BigVGAN v2 (44 kHz)
使用自定义 CUDA 内核加快合成速度
与其前身相比,BigVGAN v2 还通过使用自定义 CUDA 内核加速了合成速度,其推理速度比原始 BigVGAN 快 3 倍。为 BigVGAN v2 编写的优化推理 CUDA 内核可以在单个 NVIDIA A100 GPU 上生成音频波形,速度比实时快 240 倍。
BigVGAN v2 音频质量结果
与开源前一代产品相比,BigVGAN v2 24 kHz 的语音和通用音频音频质量更胜一筹,并且大幅提升(图 2 和图 3)。
此外,全新 BigVGAN v2 44 kHz 型号的音频质量可与开源高质量神经音频编解码器 Descript Audio Codec (.dac) 相媲美(图 4 和 5)。
所有结果表明,所生成波形的质量与以下指标相关:
- 语音质量的感知评估(PESQ)
- 虚拟语音质量目标监听器(ViSQOL)
- 多分辨率短时傅里叶变换 (Multi-Resolution Short-Time Fourier Transform, M-STFT)
- 周期均方根误差(Periodicity)
- 语音/无语音 F1 评分(V/UV F1)
结束语
NVIDIA 致力于提供人人都能使用的出色音频生成式 AI。BigVGAN v2 的发布将神经声码器技术和音频质量提升到新的高度,甚至可以达到人类听觉感知的极限。
BigVGAN v2 在音频合成领域树立了新标准,可为所有音频类型提供先进的质量,并覆盖人类的全方位听力。其合成速度现在比最初的 BigVGAN 快3倍,确保对各种音频配置进行高效处理。
在深入了解 BigVGAN v2 之前,我们鼓励用户查看模型卡,以获得无缝的体验。