语音 AI 聚焦：在 AR 眼镜上可视化口语和声音

音频可以包括各种各样的声音，从人类的语音到狗叫声和警笛声等非语音。当为听力困难的人设计可访问的应用程序时，该应用程序应该能够识别声音和理解语音。

这项技术将帮助聋人或重听人可视化语音，如人类对话和非语音。将语音和声音 AI 结合在一起，你可以将可视化效果叠加到 AR 眼镜上，让用户可以看到和解释他们在其他情况下听不到的声音。

根据世界卫生组织估计，全球约有 15 亿人（占全球人口的近 20%）患有听力损失。到 2050 年，这一数字可能会上升至 25 亿。

Cochl，一家总部位于圣何塞的 NVIDIA 合作伙伴，是一家深度科技初创公司，使用声音 AI 技术来理解任何类型的音频。他们也是 NVIDIA 的Inception Program的成员，通过提供尖端技术和 NVIDIA 专家，帮助初创公司更快地构建解决方案。

该平台可以识别 37 种环境声音，该公司更进一步，增加了尖端的语音转文本技术。这让我们真正完整地了解了声音的世界。

AR 眼镜，可显示任何声音

AR 眼镜作为一种可视化声音的工具，可以极大地改善听力损失患者的生活。这项技术可以帮助他们增强沟通能力，使他们更容易导航和参与周围的世界。

视频 1 。 Cochl . Sense 和 NVIDIA Riva 正在微软 HoloLens 2 上工作！

在这种情况下，自动语音识别（ ASR ）用于使眼镜能够识别和理解人类语音。此技术可以通过多种方式集成到眼镜中：

使用了 NVIDIA Riva 为其 ASR 功能提供动力。Riva 是一个 GPU 加速的、完全可定制的 SDK，用于开发语音 AI 应用程序。通过使用 Riva，该平台已经能够扩展其理解广泛声音的能力，包括非语音声音。

Cochl 联合创始人兼首席执行官 Yoonchang Han 表示：“我们已经测试了很多语音识别服务，但只有 Riva 提供了极高且稳定的实时性能。因此，现在我们可以让我们的声音 AI 系统更接近人类的听觉感知。”。

“正如我们所观察到的， AR 眼镜最有可能在嘈杂环境的开放空间中使用。 NVIDIA Riva 帮助我们即使在嘈杂环境中也能准确地转录语音，并为我们提供了无缝集成到 Cochl.sense 平台的体验。”

创建一个感知声音像人类的通用人工智能系统是一个巨大的挑战。为了让 AR 眼镜更容易接近，需要更轻的可穿戴技术。

然而，在这一点上，它们仍然是将声音和语音翻译成视觉信息的理想媒介。通过集成机器听音功能， AR 眼镜可以为世界各地的聋人或重听者带来更安全、更方便、更愉快的日常生活。

Cochl 还在探索语音 AI 的更多用例，例如为 AR 眼镜上的任何视频提供隐藏字幕，以及可视化多扬声器转录。为了给听力困难的人提供最好的体验，他们正在探索分析和可视化音乐的方法，以帮助他们至少了解音乐的流派和情感。

他们很高兴能够试验更多的 NVIDIA 解决方案，包括 Riva、NeMo 和 TensorRT。

有兴趣将语音 AI 添加到您的 VR 应用程序中吗？浏览这些资源开始：