对话式人工智能/自然语言处理

语音 AI 聚焦:在 AR 眼镜上可视化口语和声音

 

音频可以包括各种各样的声音,从人类的语音到狗叫声和警笛声等非语音。当为听力困难的人设计可访问的应用程序时,该应用程序应该能够识别声音和理解语音。

这项技术将帮助聋人或重听人可视化语音,如人类对话和非语音。将语音和声音 AI 结合在一起,你可以将可视化效果叠加到 AR 眼镜上,让用户可以看到和解释他们在其他情况下听不到的声音。

根据世界卫生组织估计,全球约有 15 亿人(占全球人口的近 20%)患有听力损失。到 2050 年,这一数字可能会上升至 25 亿。

Cochl,一家总部位于圣何塞的 NVIDIA 合作伙伴,是一家深度科技初创公司,使用声音 AI 技术来理解任何类型的音频。他们也是 NVIDIA 的Inception Program的成员,通过提供尖端技术和 NVIDIA 专家,帮助初创公司更快地构建解决方案。

该平台可以识别 37 种环境声音,该公司更进一步,增加了尖端的语音转文本技术。这让我们真正完整地了解了声音的世界。

AR 眼镜,可显示任何声音

AR 眼镜作为一种可视化声音的工具,可以极大地改善听力损失患者的生活。这项技术可以帮助他们增强沟通能力,使他们更容易导航和参与周围的世界。

视频 1 。 Cochl . Sense 和 NVIDIA Riva 正在微软 HoloLens 2 上工作!

在这种情况下,自动语音识别( ASR )用于使眼镜能够识别和理解人类语音。此技术可以通过多种方式集成到眼镜中:

  • 使用麦克风捕捉与聋人或重听人交谈的人的语音,然后使用 ASR 算法将语音翻译并转录为文本。然后,这些文本可以显示在眼镜上,使聋人或重听人能够阅读和理解语音。
  • ASR 还可以用于使眼镜能够响应语音命令,从而用户可以用他们的语音控制眼镜。
  • 他们还能够在屏幕上显示所有对话,例如在你开车时从地图上转录语音指示,以及任何其他声音,如紧急车辆的喇叭或警笛声和风噪。

解决方案背后的技术

使用了 NVIDIA Riva 为其 ASR 功能提供动力。Riva 是一个 GPU 加速的、完全可定制的 SDK,用于开发语音 AI 应用程序。通过使用 Riva,该平台已经能够扩展其理解广泛声音的能力,包括非语音声音。

Cochl 联合创始人兼首席执行官 Yoonchang Han 表示:“我们已经测试了很多语音识别服务,但只有 Riva 提供了极高且稳定的实时性能。因此,现在我们可以让我们的声音 AI 系统更接近人类的听觉感知。”。

“正如我们所观察到的, AR 眼镜最有可能在嘈杂环境的开放空间中使用。 NVIDIA Riva 帮助我们即使在嘈杂环境中也能准确地转录语音,并为我们提供了无缝集成到 Cochl.sense 平台的体验。”

辅助技术的未来

创建一个感知声音像人类的通用人工智能系统是一个巨大的挑战。为了让 AR 眼镜更容易接近,需要更轻的可穿戴技术。

然而,在这一点上,它们仍然是将声音和语音翻译成视觉信息的理想媒介。通过集成机器听音功能, AR 眼镜可以为世界各地的聋人或重听者带来更安全、更方便、更愉快的日常生活。

Cochl 还在探索语音 AI 的更多用例,例如为 AR 眼镜上的任何视频提供隐藏字幕,以及可视化多扬声器转录。为了给听力困难的人提供最好的体验,他们正在探索分析和可视化音乐的方法,以帮助他们至少了解音乐的流派和情感。

他们很高兴能够试验更多的 NVIDIA 解决方案,包括 Riva、NeMoTensorRT

立即开始语音 AI

有兴趣将语音 AI 添加到您的 VR 应用程序中吗?浏览这些资源开始:

 

Tags