自动音频字幕 (Automated Audio Captioning) 任务的核心是从音频输入中生成自然语言描述。鉴于输入 (音频) 和输出 (文字) 之间的不同模式,AAC 系统通常依靠 audio encoder 从声音中提取相关信息,表示为 feature vectors,然后 decoder 用于生成文本描述。
这一研究领域对于开发使机器能够更好地解释周围声学环境并与之交互的系统至关重要。意识到其重要性的 Detection and Classification of Acoustic Scenes and Events(DCASE)社区自 2020 年以来举办了年度 AAC 竞赛,吸引了全球超过 26 个学术界和行业的团队参加。
收听 Audio Example of a Recording Environment in a Forest 的结果。
在本文中,我们将深入探讨在 DCASE 2024 AAC 挑战赛 (将于 10 月 23 日至 25 日在日本东京举办) 中获胜背后的核心创新。
- 通过采用多个音频编码器来增强编码器-解码器架构。
- 使用基于 LM 的任务激活提示来丰富信息的后期编辑。
这种架构通过使用不同粒度的编码器提高了系统捕获各种音频特征的能力。多编码器方法使我们能够向解码器提供更丰富、更互补的信息,从而显著提高性能。
卡内基梅隆大学(CMU) 语言技术研究所 (LTI)的 Shinji Watabe 教授说:“这是一个很酷的方式,展示了我们的团队与开源研究人员合作,为音频和语言理解社区的进步做出的贡献。”
多 agent 协作以提升性能
我们的方法最具创新性的方面之一是不同编码器模型之间的多智能体协作,事实证明这是提高性能的关键因素。通过集成具有不同粒度的多个编码器(例如 BEAT 和 ConvNeXt ),我们实现了音频功能的更大覆盖范围。
这种融合编码器的策略与多模态 AI 研究的近期突破性成果有相似之处,例如 MERL 和 CMU 的 2023 解决方案 ,其中结合不同的 agents ——每个 agent 专门处理任务的不同方面——可产生出色的结果。
在我们的系统中,我们采用了与那些论文中使用的概念类似的编码器融合策略,使我们能够利用每个编码器的优势。我们进一步考虑了基于文本假设的丰富性,包括近期 ACL 2024 中的 GenTranslate 和 NVIDIA Research 在 Taiwan 的 EMNLP 2024 中的 Generative Image Captioning ( GIC ) 评估,这些工作可实现描述丰富度自定义。例如,GenTranslate 和 GIC 均展示了多种语言模型如何协同提高跨语言语音翻译的准确性,而 GenTranslate 则强调了多代理系统在生成式语音翻译任务中的效率。
这两个示例都强调了为复杂任务集成互补模型的价值,同时强化了我们的方法显著提高 AAC 性能的潜力。我们介绍了如何在基于 GPU 的预训练流程和后编辑流程中使用核心技术。
借助 NVIDIA DGX 和 NVIDIA OVX 平台,先进的 NVIDIA 计算机技术,例如 Taipei-1 ( 全球 500 强中排名第 38 位的超级计算机集群 ),在加速这一先进的探索和研究开发方面也发挥了重要作用。
图 2 显示了基于编码器融合、描述过滤和生成式摘要的建模。生成式摘要部分基于 NVIDIA Research 之前的工作 GenTranslate 。
模型背后的核心声学建模技术
我们的系统架构受到 CMU 和 MERL 去年的获奖开源模型 的启发,并引入了一些改进:
- 多编码器融合 :我们采用两个预训练音频编码器(BEATs 和 ConvNeXt)来生成互补的音频表示。这使得解码器能够处理更广泛的特征集池,从而获得更准确、更详细的字幕。
- 多层聚合 :不同的编码器层捕获输入音频的各个方面,通过聚合所有层的输出,我们进一步丰富了输入解码器的信息。
- 生成式字幕建模 :为了优化自然语言描述的生成,我们应用了基于 大语言模型(LLM) 的摘要过程,这与 RobustGER 中使用的方法类似。此步骤将多个候选描述整合为一个流畅的输出,使用 LLM 确保描述的语法一致性和类似人类的感觉。
多智能体协作通过音频、文本和 LLM 集成
除了多编码器架构之外,我们还开发了一种新的多智能体协作推理管道。近期的研究显示了在 AAC 任务中进行 nucleus sampling 的优势,因此我们改进了传统的 beam search 方法。
我们的推理流程遵循一个三阶段管道:
- 基于 CLAP 的字幕过滤 :我们生成多个候选字幕,并使用 Contrastive Language-Audio Pretraining (CLAP) 模型过滤相关性较低的字幕,从而将候选字幕的数量减半。
- 混合重排名 :然后使用我们的混合重排名方法对其余标题进行排名,以选择排名靠前的 k 个最佳标题。
- LLM 总结 :最后,我们使用任务激活 (即 [conditional prompt] do you know audio captioning?) LLM 将 k-best 描述总结为单个连贯的一致的描述,确保最终输出捕获音频的所有关键方面。
这种新型推理工作流利用了音频处理和语言建模的优势,显著提高了模型在上下文中准确描述的能力,将文本解码为下游文本代理的特征图形式。
影响和性能
我们的多编码器系统的 Fluency Enhanced Sentence-BERT Evaluation (FENSE) 评分为 0.5442,优于基准评分 0.5040。通过整合多 agent 系统,我们为进一步改进 AAC 任务开辟了新的途径。
未来的工作将探索集成更先进的融合技术,并研究专业代理之间的进一步协作如何提高生成的描述的粒度和质量。
我们希望,我们的贡献能够激发我们对多智能体 AI 系统的持续探索,并鼓励其他团队采用类似策略来融合各种模型来处理复杂的多模态任务,如 AAC。
在图 3 中,分数越高意味着从音频上下文中捕获的详细信息越多,信息越丰富。
使用 NVIDIA 的 GPU 技术实现性能和可扩展性
得益于多编码器融合和 LLM-driven summarization 之间的协同作用,我们的解决方案在语义理解分数方面比其他参与者高出(相对)10%以上。这一成功凸显了多代理、多模态系统在推进通用理解方面的潜力。
使用基于 LLM 的多对一文本校正是此过程中的一项关键创新,使模型能够更好地利用文本建模代理的计算能力。这方法检索和优化嵌入音频中的隐藏信息,从而提高系统的整体性能。
这种方法基于 NVIDIA 在多模态 AI 领域的先进工作成果,例如擅长多语种语音和文本翻译的 GenTranslate 模型。同样,我们最近的 Audio Flamingo 项目、 Synthio 项目以及 NVIDIA 应用深度学习研究 (ADLR)的 数据集 也展示了先进的音频编码器预训练技术的强大功能。
这些系统以及我们屡获殊荣的 AAC 解决方案均受益于 NVIDIA A100 和 NVIDIA H100 GPUs,不仅加速了 AI 开发,还突破了多模态学习的极限。来自 NVIDIA Research 的 Huck Yang 受邀在 DCASE Workshop 2024 计划期间参加了有关音频语言技术的技术小组讨论。