直播媒体工作流越来越多地使用 AI 微服务来增强制作能力。然而,先进的 AI 模型大多托管在云端,由于网络延迟、带宽和实时可扩展性方面的限制,处理高比特率、未压缩的媒体流变得很困难。
NVIDIA 发布了新的 AI 参考应用,有助于简化 AI 开发。这些技术可以与未压缩的 ST 2110 流交互,并以极低的延迟实现实时媒体效果。
AI 参考应用
Holoscan for Media 上提供的最新 AI 参考应用为构建专为直播媒体工作流定制的实时 AI 解决方案提供了强大的起点。
AI 虚拟摄像头
使用 PyTorch 和 NVIDIA DeepStream SDK 构建的简单应用可为视频中的每位演讲者创建虚拟摄像头。在检测并追踪高分辨率、未压缩的 ST 2110 输入流中存在的个体后,该参考应用会创建多个针对已检测个体的裁剪虚拟摄像头输出。借助 AI 生成的摄像头源,操作员可以使用单个静态摄像头创建更具动态的制作镜头。

自动语音识别
此参考应用使用 NVIDIA Riva Parakeet ASR NIM 在 ST 2110-30 音频源上利用实时自动语音识别 (ASR) 。简单的网络用户界面可实时监控转录,并使用户能够搜索单词。用户将看到传入流的实时描述,以及用于搜索转录的搜索字段。简单的前端为开发者提供了一个起点,让他们可以进行优化和自定义,并将性能提升到更高水平。

如何开始
在开始使用 AI 参考应用进行构建之前,请确保您已准备好以下先决条件,以简化开发流程并避免常见的设置问题:
- 配备 NVIDIA RTX Pro GPU 和 NVIDIA ConnectX 网络接口卡 (具有回环线缆或交换机连接) 的 AI 工作站或经过认证的多 GPU 系统。
- 实用的 NVIDIA Holoscan for Media 环境,使用 Kubernetes 的本地开发者设置或带有跳转节点的平台参考部署指南。
- 适用于 Linux 平台的 Visual Studio Code 或任何其他 IDE。也可以使用 GNU Compiler Collection (GCC) 。
如需安装 v25.4,请参阅 Holoscan for Media 集合页面上提供的开发者指南。
要继续安装 AI 应用,请按照 NGC AI 参考应用资源页面上的步骤操作。
其他更新
除了这些 AI 应用之外,Holoscan for Media 25.4 版本还改进了对生产 (OpenShift) 和本地开发者 (云原生堆栈) 环境的监控。它使用 SR-IOV 网络、PTP 和 NMOS 注册表应用程序特定的 Grafana 控制面板。
单节点 OpenShift 安装和紧凑型三节点集群的自动化也得到了改进。这意味着 ST 2022-7 冗余支持更多网络变体和红/ 蓝网络。它还简化了本地开发者设置 (现支持 Ubuntu 24.04) 的自动化以及参考应用 (如 Helm 仪表板、NMOS 注册表、NMOS 控制器或媒体网关) 的自动安装。
总结
自一年多前推出以来,Holoscan for Media 已支持多供应商实时制作的容器编排。最新的 25.4 版本为开发者提供了首个 AI 参考应用,实现了在本地软件定义的基础设施上为直播媒体提供实时 AI 的承诺。
开始使用 Holoscan for Media。