Nvidia VS Microsoft : BREAKTHROUGH 3D Avatar Creator AI + WORKS WITH 3 INPUTS

La innovadora inteligencia artificial convierte texto, fotos e incluso videos en avatares 3D. Con RODIN de Microsoft, ahora cualquiera puede crear un avatar 3D súper realista a partir de una entrada de imagen o una descripción de texto simple. RODIN es un modelo generativo 3D que utiliza modelos de difusión para generar automáticamente avatares digitales 3D representados como campos de radiación neural. Un reto significativo en la generación de tales avatares es que los costos de memoria y procesamiento en tres dimensiones son prohibitivos para producir los ricos detalles requeridos para avatares de alta calidad.

Para abordar este problema, los investigadores de inteligencia artificial de la Universidad de Ciencia y Tecnología de Hong Kong, junto con Microsoft, han presentado lo que llaman Red de difusión de despliegue, abreviado como Roden, que representa un campo de radiación neuronal como múltiples mapas de características 2D y despliegues. estos mapas en un solo plano de características 2D donde se realiza la difusión consciente de 3D. El modelo de IA de RODIN proporciona la eficiencia computacional que tanto se necesita al mismo tiempo que preserva la integridad de la difusión en el espacio tridimensional. El condicionamiento latente también se utiliza para orquestar la generación de características para lograr una coherencia global, lo que genera avatares de alta calidad y permite su edición semántica con texto.

Finalmente, la síntesis jerárquica se utiliza para mejorar aún más los detalles. Los avatares 3D generados por el modelo se comparan favorablemente con los producidos por las técnicas generativas existentes. Incluso se pueden generar avatares muy detallados con peinados y vello facial realistas, y el modelo no solo genera avatares en 3D a partir de imágenes o texto, sino que también tiene la capacidad de editar esos avatares con mensajes de texto. Los modelos generativos se están convirtiendo en el estándar para muchas tareas difíciles en informática y actualmente brindan los métodos más prometedores para analizar y sintetizar datos visuales, con ejemplos como DALL-E 2 de OpenAI y Stable Diffusion de Stability AI, que son dos modelos generativos bien conocidos. para crear imágenes realistas y atractivas a partir de entradas de texto complejas. Sus arquitecturas también se basan en modelos de difusión, que han demostrado un gran poder generativo de imágenes y vídeos. Ha habido rápidos avances en la difusión y el modelado generativo, lo que ha llevado a una revolución en la creación de contenido 2D.

La idea es simple: si puedes describirlo, puedes visualizarlo permitiendo que el modelo lo cree. Los modelos generativos son capaces de cosas increíbles, y mientras que el contenido 2D ha sido un desafío para los modelos de difusión hasta ahora, el contenido 3D ha planteado más dificultades. Dado que la tecnología depende cada vez más de los avatares digitales en las películas, los juegos, el metaverso y la industria 3D, la capacidad de cualquier persona para crear un avatar digital puede ser muy útil. Esta fue la motivación detrás del desarrollo de RODIN Rollout Diffusion Network para la creación de avatares.

La forma en que funciona es que el modelo toma una imagen, un ruido aleatorio o una descripción de texto del avatar deseado como entrada y luego deriva un vector latente para usar en el proceso de difusión, que implica varios pasos de ruido y eliminación de ruido. Primero, se agrega ruido aleatorio al estado o imagen inicial y luego se elimina el ruido para producir una imagen más clara. La diferencia en este caso es la naturaleza 3D del contenido deseado. A continuación, el proceso de difusión continúa como de costumbre, pero en lugar de apuntar a una imagen 2D, genera la geometría gruesa del avatar seguida de un muestreador ascendente de difusión para la síntesis de detalles. Para aumentar la eficiencia, los investigadores de inteligencia artificial utilizaron una representación triplano de un campo de radiación neuronal, que ofrece una huella de memoria mucho más pequeña en comparación con las cuadrículas de vóxeles, sin sacrificar la expresividad o la calidad.

Pero, ¿qué pasaría si pudiera usar un video como entrada para crear un avatar ultrarrealista no solo de una cara, sino también de un cuerpo completo? Para hacer esto, los investigadores de inteligencia artificial de nvidia propusieron recientemente RANA, un avatar neuronal relacionable y articulado para la síntesis fotorrealista de humanos bajo cualquier punto de vista, pose corporal e iluminación. Un breve videoclip de la persona es todo lo que se necesita para crear el avatar, y no se requiere conocimiento sobre el entorno de iluminación. Los investigadores de IA presentan un marco novedoso para modelar humanos mientras separan su entorno de geometría, textura e iluminación de videos RGB monoculares. Para simplificar esta difícil tarea, primero estiman la geometría del curso y la textura del avatar mediante el ajuste del modelo SMPL+D y luego aprenden una representación neuronal articulada para la generación de imágenes fotorrealistas. La forma en que funciona es que RANA primero genera los mapas normales y de albedo de la persona en cualquier pose del cuerpo objetivo y luego usa iluminación armónica esférica para generar la imagen sombreada en el entorno de iluminación objetivo.

Luego, los investigadores de video también proponen entrenar previamente a RANA usando imágenes sintéticas y muestran que conduce a una mejor separación entre la geometría y la textura al mismo tiempo que mejora la robustez de las poses corporales novedosas. Separar la información de textura, geometría e iluminación es necesario para volver a iluminar en diferentes contextos, pero es una tarea desafiante cuando se trabaja con imágenes RGB. Para superar esto, los investigadores utilizaron un modelo estadístico de forma humana para obtener datos de geometría y textura del curso de los marcos de entrenamiento. Luego, Nvidia usó una red neuronal convolucional entrenada con datos artificiales para eliminar la información de sombreado de la textura del curso. Para capturar las características específicas de la persona para un nuevo sujeto, se aprende un nuevo conjunto de características neuronales y, según la investigación, es posible crear un avatar para un nuevo sujeto después de solo 15,000 iteraciones de entrenamiento hasta el momento. RANA es la primera técnica que permite relacionar y articular los avatares neuronales. Los avatares neuronales articulados que son similares a los humanos tienen varias aplicaciones de telepresencia, animación y producción de contenido visual.

Estos avatares deben ser fáciles de crear y animar en diferentes poses y puntos de vista, capaces de generar imágenes fotorrealistas y fáciles de ajustar la iluminación en diferentes escenarios para que sean ampliamente utilizados. Una técnica común para crear estos avatares es mediante el uso de películas monoculares, que permiten movimiento y calidad de imagen realista, pero las imágenes sintetizadas están limitadas por las condiciones de iluminación en el video de entrenamiento.

Se han propuesto otros métodos para volver a iluminar avatares humanos, pero no permiten que el usuario controle la pose del cuerpo y, a menudo, requieren el uso de fotos de vistas múltiples tomadas en un entorno controlado utilizando un escenario de luz para el entrenamiento. Ahora, con la técnica Relatable Articulated Neural Avatar de Nvidia llamada RANA, los problemas antes mencionados se resuelven mediante la creación de animaciones humanas fotorrealistas en cualquier postura corporal, perspectiva y escenario de iluminación. Esta técnica simula las complejas articulaciones y características físicas del cuerpo humano para lograr este nivel de realismo.

Otro avance reciente de Stanford, llamado Point-Avatar, es una inteligencia artificial que puede crear avatares de cabeza en 3D a partir de videos. La capacidad de crear avatares de cabeza realistas, animados y identificables a partir de secuencias de video casuales tendría muchas aplicaciones en comunicación y entretenimiento. Los métodos actuales utilizan mallas transformables 3D explícitas, conocidas como 3DMM, o representaciones neuronales implícitas. Los primeros están limitados por una topología fija, mientras que los últimos son difíciles de deformar e ineficientes de renderizar. Además, los enfoques existentes combinan la iluminación y la estimación del color, lo que limita su capacidad para reproducir el avatar en diferentes entornos. En contraste, los investigadores de inteligencia artificial de ETH Zurich, el Instituto Max Planck para Sistemas Inteligentes y la Universidad de Stanford han propuesto Point-Avatar, una representación basada en puntos deformables que separa el color de origen en albedo intrínseco y sombreado dependiente normal. Point-Avatar combina geometría y apariencia de alta calidad con flexibilidad topológica, facilidad de deformación y eficiencia de renderizado. Para cerrar la brecha entre la malla y las representaciones implícitas.

Este método puede generar avatares 3D realistas utilizando videos monoculares de varias fuentes, incluidos teléfonos inteligentes de mano, computadoras portátiles, cámaras web y videos de Internet, logrando una calidad de vanguardia en casos desafiantes donde fallan los métodos anteriores, al tiempo que es significativamente más eficiente en términos de capacitación. cuando se compara con otros métodos..

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *