Dein Gekritzel in 🌈wunderschön🌟 | Stable Diffusion mit ControlNet

Mire aquí, garabateé una fresa en la hoja de papel aquí, le tomé una foto y luego la arrojé al software aquí. Y luego dije, sí, convertir el dibujo en una foto realista, o arte pop, o un monstruo lindo, o una fantasía oscura de Elden Ring, o un modelo de bloque de terminales. Sí, bastante impresionante, ¿ no? Y por supuesto que funciona con cualquier plantilla, con personas, con edificios ( por cierto, este es el edificio Heise en Hannover), con memes, con logos publicitarios, con Ernie, con Bert. Simplemente cargue una foto como plantilla y luego escriba lo que debe ser visible en la imagen que se generará. Y luego el software calcula algo completamente nuevo a partir de la plantilla de imagen y el texto descriptivo. Entonces, por ejemplo, una foto de este dibujo de garabato o un keno de Finchen de Sesame Street. Y todo con un software de código abierto que se ejecuta localmente en mi computadora.

Específicamente, la difusión estable es con Automatic1111 y ControlNet. En este video te muestro cómo hacer que esto funcione. Y si no tiene una computadora con una tarjeta gráfica gruesa, incluso puede hacerlo localmente en iPhones o iPads o en la nube. Manténganse al tanto. Estimados piratas informáticos, queridos internautas, bienvenidos a… Sí, los generadores de imágenes como Dall-E, Midjourney y Stable Diffusion ya son anticuados. Así que solo quedan unos meses.

Funcionan de tal manera que ingresas lo que quieres ver aquí arriba, por ejemplo, una tortuga de programación. Sí, entonces se calcula, más o menos bien. También puede entrenar un supuesto modelo usted mismo y luego, por ejemplo, calcularlo usted mismo en imágenes. Ya hicimos un video sobre cómo hacerlo. Entonces, el problema con este tipo de generación de imágenes es que, si bien puede haber cosas geniales, también hay mucha suerte y prueba y error involucrados. Cuando hago cosas con él, por cada buena imagen hay unas diez malas. Y frente a este descontrol, ahora entra en juego ControlNet. ControlNet, un nombre impresionante sin duda. Este es un desarrollo de dos investigadores de la Universidad de Stanford y es de código abierto. Y todo es de código abierto y ha estado disponible en GitHub durante algunas semanas. Si no le importa gastar centavos, una forma muy rápida y fácil de verificar ControlNet es en rundiffusion.com. Esta es una difusión estable completamente instalada con varias extensiones, incluido ControlNet en la nube.

Así que también puedes usar eso con una computadora patata súper lenta, porque sí, en la nube. La versión económica de 50 centavos calcula una imagen en aproximadamente tres segundos sin procesamiento posterior adicional. Lo suficientemente rápido, diría yo. Stable Diffusion incluso se ejecuta localmente en dispositivos iOS con ControlNet y también es muy fácil de instalar con la aplicación gratuita DrawThings AI Generation. Sin embargo, en un iPhone 13 Pro, una imagen tarda 45 segundos. Sí, y si tiene una tarjeta gráfica Nvidia con al menos 8 gigabytes de memoria de video, también puede usar ControlNet localmente en Stable Diffusion con la interfaz gráfica de usuario Automatic 1111.

Hay un instalador gráfico para Windows, el enlace está en la descripción. También puede simplemente instalar a través de Git en la línea de comando. Esa es la forma oficial, por así decirlo. Automatic 1111 se ejecuta sin problemas en Linux y Windows, pero desafortunadamente con algunas limitaciones en MacOS. Si tiene Automatic1111 ejecutándose, todavía tiene que instalar ControlNet y eso es realmente muy fácil. Aquí haga clic en "Extensiones", luego haga clic en "Disponible", "Cargar desde" y luego haga clic en "SD Web UI ControlNet", "Instalar". Y luego debe descargar al menos uno de estos modelos ControlNet de Hugging Face. El enlace también está en la descripción. Lo mejor es conseguir los ocho modelos. Te diré por qué en un momento. Sin embargo, cada uno tiene un tamaño de 5,7 gigabytes. Por lo tanto, necesita al menos 46 gigabytes de espacio de almacenamiento gratuito. Asegúrese de colocar estos modelos en la carpeta "Modelos/ControlNet" de su instalación de Automatic1111. Y luego reinicie Automatic 1111 y, boom, sumérjase aquí en "txt2img", el campo de ControlNet.

Por cierto, todo lo que viene ahora también aplica para rundiffusion.com en la nube, porque eso es simplemente una instalación automática de 1111 en la red. Comienza haciendo clic en la flecha al lado de ControlNet y expandiendo las opciones aquí. Muy importante, es fácil de olvidar, haga clic en Habilitar primero. Y luego simplemente haga clic aquí en el área y busque la imagen de la plantilla. Aquí tomo una captura de pantalla de un video 3003. Sí, y ahora tiene varias opciones sobre cómo desea que ControlNet interprete la imagen. Y para estos métodos también descargaste los ocho modelos diferentes. El método predeterminado es Canny. Para ello ve a Preprocesador y Modelo a la entrada que dice Canny. Canny es un método de detección de bordes que fue inventado por el Sr. Canny en los años 80. Si hace clic en Vista previa del resultado del anotador a continuación, siempre verá la interpretación respectiva de su imagen: "Profundidad" es Mapa de profundidad, por lo que se intenta crear un mapa de profundidad, como puede ver aquí en el ejemplo que la habitación en que yo hay más implicación que Canny.

"HED" también es un método de detección de bordes, pero más suave que Canny. HED conserva gran parte de la imagen original, por lo que es bueno para colorear imágenes en blanco y negro o estilizar fotos. "MLSD" encuentra líneas rectas y, por lo tanto, es ideal para imágenes de arquitectura interior y exterior.

"Normal_Map" genera el llamado mapa normal. Esto es similar al mapa de profundidad, pero los mapas normales parecen conservar la geometría un poco mejor aquí. "Garabato" es el modo que utiliza cuando desea utilizar un dibujo garabateado como plantilla. Y "Fake_scribble" convierte una foto en un garabato si no quieres garabatear tú mismo. OpenPose es realmente genial. OpenPose es una especie de estándar para hacer que las poses del cuerpo sean legibles por computadora.

Por ejemplo, si tomo mi captura de pantalla aquí y digo OpenPose para el preprocesador y el modelo, el software reconoce mi postura. Puede ver si funcionó haciendo clic en Vista previa del resultado del anotador. Si hay una figura de palo como esa, sí, entonces funcionó. Y luego puedes simplemente ingresar personajes de Pixar allí, por ejemplo, y luego obtengo escenas de Pixar con personajes en esta postura. loco, ¿verdad? Sí, y ahora era una persona real convertida en personajes de dibujos animados, pero, por supuesto, esto también funciona al revés. Por ejemplo, si quieres ver cómo se verían los memes en el mundo real o cualquier personaje de dibujos animados, sí, eso va con todo. Y, por supuesto, también puedes trabajar con imágenes en movimiento, pero no abriré este barril ahora, creo que es un video propio. Sí, pero todavía tengo algunos consejos prácticos. Por lo tanto, siempre debe establecer la relación de aspecto de la imagen de su plantilla de forma aproximada, entonces los resultados serán mejores.

Aquí el ancho y alto en la parte superior, que se refiere a la imagen recién calculada, y el ancho y alto del lienzo, que se refiere a la imagen de la plantilla. Principalmente uso 768 x 512 para paisaje y 512 x 768 para retrato. El control deslizante Peso aquí también es muy importante, si su imagen se parece demasiado a la plantilla, muévala hacia la izquierda, si no se parece demasiado a la plantilla, muévala hacia la derecha. Automatic1111 está configurado en 20 "Pasos de muestreo" de forma predeterminada. En mi experiencia, eso es demasiado poco para obtener buenos resultados. Por lo general, uso 30 pasos y es posible que haya notado en este video que las caras a menudo se ven un poco extrañas. Hay una opción llamada "Restaurar caras" para esto. Siempre debe usar esto cuando trabaje con rostros humanos. Y en caso de que aún no lo supiera: con "Batch Count" puede crear fácilmente varias imágenes seguidas.

Lo uso todo el tiempo porque, como dije, solo una de cada diez imágenes es realmente buena y es por eso que siempre tengo varias generadas al mismo tiempo. Mi conclusión. Sí, guau, bueno, esta técnica de generación de imágenes con ControlNet definitivamente se incorporará al software creativo estándar en el futuro, porque es muy práctico, por supuesto, de alguna manera escupir un dibujo tan impreciso en algún lugar y luego simplemente decir, aquí hay una imagen. de eso O remezcle totalmente cualquier imagen existente por completo. Eso es. y lo digo en serio. una revolución en el proceso creativo. Pero claramente eso también es un gran problema para algunas personas como los ilustradores, por ejemplo, porque cuanto mejor sea la tecnología, más aplicaciones habrá en las que quizás ya no necesite ilustradores.

Y el gran problema, por supuesto, es que estas nuevas imágenes se generan a partir de la producción creativa de personas reales. Así que Stable Diffusion and Co. han sido entrenados con miles de millones de imágenes de Internet. Y las personas creativas que tomaron estas fotos, desafortunadamente, no sacaron nada de ellas. Los creadores de Stable Diffusion ahora están abordando el problema, al menos un poco. Puede informar en haveibeentrained.com hasta el 3 de marzo de 2023, el día en que se publica aquí el video, que es posible que sus propias imágenes no se utilicen en la próxima versión 3.0 de Stable Diffusion.

Así que ese es un pequeño paso al menos, pero por supuesto ni siquiera empezará a resolver el problema . De todos modos, supongo que esta velocidad vertiginosa del desarrollo de la IA dará lugar a muchas discusiones y problemas de todos modos. Si desea mantenerse al día con la IA, puede suscribirse a este canal aquí. Porque el tema definitivamente nos acompañará un poco más. ¡Adiós!.