NVIDIA MAXINE

Plataforma de Streaming de Vídeo com AI no Cloud


Inscreva-se para Acesso Antecipado




Recursos de videoconferência com a tecnologia do NVIDIA Maxine e das GPUs NVIDIA Tensor Core.


O que é Maxine?


NVIDIA Maxine é um SDK de plataforma totalmente acelerado para desenvolvedores de serviços de videoconferências que oferece o poder de criar e implementar recursos com tecnologia fornecida por AI que usam modelos de última geração no cloud. Os softwares de videoconferência baseados no Maxine podem reduzir o uso da largura de banda de vídeo a um décimo do padrão H.264 usando a compactação de vídeo por AI, reduzindo consideravelmente os custos.

O Maxine vem com APIs para as inovações mais atuais das pesquisas da NVIDIA, como alinhamento facial, correção do olhar, reiluminação facial e tradução em tempo real, além de recursos como super-resolução, remoção de ruídos, legendas e assistentes virtuais. Esses recursos são totalmente acelerados nas GPUs NVIDIA para serem executados em softwares de streaming de vídeo em tempo real no cloud

Com os softwares baseados no Maxine, os fornecedores de serviços podem oferecer os mesmos recursos a todos os usuários em qualquer dispositivo, inclusive em computadores, tablets e celulares. Os softwares criados com o Maxine podem ser implementados facilmente como microsserviços que se adaptam a centenas de milhares de fluxos em um ambiente do Kubernetes.


Recursos do NVIDIA Maxine


SDK Fácil de Usar

Ele vem com bibliotecas, ferramentas e exemplos de pipelines para que os desenvolvedores adicionem recursos de AI aos softwares rapidamente.

Largura de Banda Ultrabaixa

A compactação de vídeo por AI usa um décimo da largura de banda do padrão de compactação de vídeo H.264.

Modelos de AI de Última Geração

O kit conta com modelos pré-treinados com milhares de horas de treinamento na NVIDIA DGX™ A100.

Totalmente Acelerado por GPU

O SDK otimiza os pipelines de ponta a ponta, garantindo o melhor desempenho nas GPUs NVIDIA Tensor Core.



Principais Tecnologias

Reanimação Facial


Com as novas pesquisas em AI, você pode identificar os principais pontos do rosto dos participantes de uma videochamada e usá-los com uma imagem estática para reanimar o rosto da pessoa do outro lado da tela com redes generativas adversariais (GANs - Generative Adversarial Networks).

Esses pontos principais podem ser usados para o alinhamento facial, que consiste na rotação do rosto das pessoas para dar a impressão de que elas estão frente a frente em uma chamada, e para a correção do olhar, que ajuda a simular o contato visual, mesmo se a câmera de uma das pessoas não estiver alinhada à tela.

Os desenvolvedores também podem adicionar recursos para que os participantes da chamada possam escolher seus próprios avatares, animados de modo realista em tempo real de acordo com sua voz e seu tom emotivo.

Face alignment using generative adversarial networks (GANs)

Figura 1: Alinhamento facial com redes generativas adversariais (GANs).


Efeitos de Vídeo e Áudio


AI-powered audio and video effects such as super resolution with NVIDIA Maxine.

Figura 2: Efeitos de áudio e vídeo com tecnologia fornecida por AI, como super-resolução, com o NVIDIA Maxine.

A super-resolução e a redução de artefatos baseadas em AI podem converter vídeos com resolução mais baixa em vídeos com resolução mais alta em tempo real, o que ajuda a reduzir os requisitos de largura de banda para os fornecedores de softwares de videoconferência, além de melhorar a experiência dos usuários na chamada com uma largura de banda mais baixa. Os desenvolvedores podem adicionar recursos para filtrar aquele ruído de fundo comum e enquadrar a câmera no rosto do usuário, o que contribui para uma conversa mais pessoal e interessante.

Outros modelos de AI podem ajudar a remover o ruído em condições de luz baixa, criando uma imagem mais agradável.


AI de Conversação


Os softwares baseados no Maxine podem usar o NVIDIA Jarvis, um framework de AI conversacional totalmente acelerado com modelos de última geração otimizados para o desempenho em tempo real. Com o Jarvis, os desenvolvedores podem integrar assistentes virtuais que fazem anotações, definem itens de ação e respondem a perguntas com uma voz semelhante à de uma pessoa.

Outros serviços de AI conversacional, como traduções, legendas e transcrições, ajudam a garantir que todos entendam o que está sendo discutido na chamada.

Real-time conversational AI services with NVIDIA Jarvis.

Figura 3: Serviços de AI conversacional em tempo real com o NVIDIA Jarvis.


Largura de Banda do Vídeo Menor que a do Padrão H.264


Transfer only keypoints over the internet slashing bandwidth versus H.264 using AI Video Compression.

Figura 4: Transferência somente dos principais pontos pela internet, diminuindo a largura de banda em relação ao padrão H.264 com a compactação de vídeo por AI.

Com a tecnologia de compactação de vídeo baseada em AI executada nas GPUs NVIDIA, os desenvolvedores podem reduzir o uso da largura de banda a um décimo do necessário para o padrão de compactação de vídeo H.264.

Assim, os fornecedores de softwares terão menos custos, e os usuários terão uma experiência mais fluida nas videoconferências, além de usar mais serviços com tecnologia fornecida por AI e transmitir menos dados no computador, tablet e celular.



Inscreva-se para receber notícias e atualizações exclusivas, além de ter acesso antecipado ao NVIDIA Maxine.


Inscreva-se Agora