NVIDIA MAXINE

Plataforma de Streaming de Video con IA en el Cloud


Solicite Acceso Anticipado




Las funciones de videoconferencia están impulsadas por NVIDIA Maxine y las GPUs NVIDIA Tensor Core.


¿Qué es Maxine?


NVIDIA Maxine es un SDK de plataforma totalmente acelerado para que los desarrolladores de servicios de videoconferencia creen e implementen funciones impulsadas por IA que utilizan modelos de última generación en su cloud. Las aplicaciones de videoconferencia basadas en Maxine pueden reducir el uso de ancho de banda de video hasta una décima parte de H.264 usando la compresión de video de IA, lo que disminuye drásticamente los costos.

Maxine incluye APIs para las innovaciones más recientes de la investigación de NVIDIA, como la alineación facial, la corrección de la mirada, la reiluminación de la cara y la traducción en tiempo real, además de capacidades como superresolución, eliminación de ruido, subtítulos y asistentes virtuales. Estas capacidades se aceleran por completo en las GPUs de NVIDIA para ejecutarse en aplicaciones de streaming de video en tiempo real en el cloud.

Las aplicaciones basadas en Maxine permiten a los proveedores de servicios ofrecer las mismas funciones a todos los usuarios en cualquier dispositivo, incluidas computadoras, tablets y teléfonos. Las aplicaciones creadas con Maxine se pueden implementar fácilmente como microservicios que se escalan a cientos de miles de transmisiones en un entorno de Kubernetes.


Funciones de NVIDIA Maxine


SDK Fácil de Usar

Incluye bibliotecas, herramienta y procesos de ejemplos para que los desarrolladores agreguen rápidamente funciones de IA a sus aplicaciones.

Ancho de Banda Ultrabajo

La compresión de video AI usa una décima parte del ancho de banda del estándar de compresión de video H.264.

Modelos de IA de Vanguardia

Incluye modelos previamente entrenados con miles de horas de entrenamiento en NVIDIA DGX™ A100.

Completamente Acelerado por GPU

Optimiza los procesos integrales para obtener el mayor rendimiento en las GPUs NVIDIA Tensor Cores.



Tecnologías Clave

Reanimación de Rostros


Con la nueva investigación de IA, puedes identificar los puntos faciales clave de cada persona en una videollamada y luego usar estos puntos con una imagen fija para reanimar la cara de una persona al otro lado de la llamada utilizando redes generativas de adversativas (GAN).

Estos puntos clave se pueden usar para la alineación de rostros, donde los rostros se giran para que las personas parezcan estar enfrentadas durante una llamada, así como para corregir la mirada para ayudar a simular el contacto visual, incluso si la cámara de una persona no está alineada con su pantalla.

Los desarrolladores también pueden agregar funciones que permitan a los participantes de la llamada elegir sus propios avatares, lo cuales se animan de manera realista y en tiempo real según su voz y tono emocional.

Face alignment using generative adversarial networks (GANs)

Figura 1: Alineación facial mediante redes generativas adversativas (GAN).


Efectos de Audio y de Video


AI-powered audio and video effects such as super resolution with NVIDIA Maxine.

Figura 2: Efectos de audio y video impulsados por IA, como la superresolución con NVIDIA Maxine.

La superresolución basada en IA y la reducción de detalles indeseados pueden convertir resoluciones más bajas en videos de mayor resolución en tiempo real, lo que ayuda a reducir los requisitos de ancho de banda para los proveedores de videoconferencias. También mejora la experiencia de llamada para los usuarios con un ancho de banda menor. Los desarrolladores pueden agregar funciones para filtrar el ruido de fondo común y encuadrar la cámara en la cara del usuario para lograr una conversación más personal y atractiva.

Los modelos de IA adicionales pueden ayudar a eliminar el ruido en condiciones de poca luz a fin de creando una imagen más atractiva.


IA Conversacional


Las aplicaciones basadas en Maxine pueden usar NVIDIA Riva, un framework de IA conversacional completamente acelerado con modelos de vanguardia y optimizado para el rendimiento en tiempo real. Con Riva, los desarrolladores pueden integrar asistentes visuales para tomar notas, configurar elementos prácticos y responder preguntas con voces similares a la humana.

Los servicios de inteligencia artificial conversacional adicionales, como traducciones, subtítulos y transcripciones, ayudan a garantizar que todos puedan comprender lo que se discute en la llamada.

Real-time conversational AI services with NVIDIA Riva.

Figura 3: Servicios de IA conversacional en tiempo real con NVIDIA Riva.


Reducir el Ancho de Banda de Video en Comparación con H.264


Transfer only keypoints over the internet slashing bandwidth versus H.264 using AI Video Compression.

Figura 4: Transfiere solo los puntos clave a través de Internet para reducir el ancho de banda en comparación con H.264 mediante la compresión de video con IA.

Con la tecnología de comprensión de video basada en IA que se ejecuta en las GPUs de NVIDIA, los desarrolladores pueden reducir el ancho de banda a un décimo del ancho de banda que se necesita para el estándar de compresión de video H.264.

Esto reduce los costos para los proveedores y ofrece una experiencia de videoconferencia más fluida para los usuarios finales, que pueden disfrutar de más servicios de IA mientras transmiten menos datos desde sus computadoras, tablets y teléfonos.



Solicita noticias exclusivas, actualizaciones y acceso anticipado a NVIDIA Maxine.


Registrarse Ahora