La tecnología de generación de imágenes de inteligencia artificial (IA) se está acelerando rápidamente, y no solo en una forma. Los recientes avances como los de SDXL han un progreso constante hacia avances incesantes, prometiendo ahora la creación de imágenes en tiempo real y de alta fidelidad.
No es que estas herramientas fueran lentas un minuto, no es demasiado tiempo para “mejorar”. Pero los usuarios aún exigen más: más realismo, más versatilidad, más variedad y más velocidad. Y en ese último punto, los investigadores están entregando con gusto.
SDXL acelera el paso
Stability AI ha presentado SDXL Turbo, que puede representar un gran avance en la generación de imágenes de IA. El modelo recién anunciado puede generar imágenes en un segundo en lugar de los 30 segundos que normalmente toman los generadores. Es casi, si no eficazmente, una generación de imágenes de IA en tiempo real.
SDXL Turbo es diferente de todos los modelos anteriores de Difusión Estable. La tecnología de Destilación Adversarial de Difusión (ADD) es lo que hace posible reducir el número de pasos necesarios para generar imágenes de alta calidad. Cuando las imágenes normales podrían tomar de 30 hasta 100 pasos.
“ADD es el primer método para desbloquear la síntesis de imágenes en tiempo real de un solo paso con modelos base,” afirma Stability AI en un documento de investigación.
SDXL Turbo
Es un modelo de generación de texto a imagen en tiempo real. SDXL Turbo logra un rendimiento de vanguardia con una nueva tecnología de destilación, permitiendo la generación de imágenes de un solo paso con una calidad sin precedentes, reduciendo el número de pasos requeridos de 50 a solo uno.
SDXL Turbo emplea una combinación híbrida de entrenamiento adversarial y destilación de puntuación, optimizando el proceso generativo y garantizando la producción rápida de imágenes de alta fidelidad.
Como resultado, la introducción de SDXL Turbo permite la producción casi instantánea de imágenes complejas y de alta resolución.
Este nuevo enfoque también vuelve a poner de relieve las redes GAN, que fueron ampliamente olvidadas después de la consolidación de la tecnología de difusión.
Modelos de consistencia latente
Estos modelos significan eficiencia, sin embargo, si no desea despedirse de sus modelos “heredados” de Difusión Estable, los investigadores tienen una solución para usted.
Acompañando los avances de SDXL Turbo están los Modelos de Consistencia Latente (LCM) y LCM-LoRA, cada uno contribuyendo de manera única al campo.
Los LCM, presentados en su documento de investigación dedicado, sobresalen por su capacidad para generar imágenes de alta resolución de manera eficiente dentro del espacio latente de autoencoders previamente entrenados como Stable Diffusion.
Los LCM buscan mejorar la velocidad de generación de imágenes sin una pérdida significativa de calidad, centrándose en salidas de alta resolución.
Utilizando un método de destilación guiada de una sola etapa, los LCM transforman los modelos de difusión en generadores de imágenes rápidos, evitando pasos innecesarios.
En términos prácticos, los usuarios no necesitan cambiar nada más. Simplemente, descargan el modelo y lo usan como un punto de control SDXL normal. Sin embargo, en lugar de recorrer un gran número de pasos, podrían reducir la cantidad mínima. El modelo producirá buenas imágenes en cuatro pasos en un par de segundos, en lugar de calcular la generación para 25, 50 o 75 pasos por imagen.
Ya hay excelentes modelos con sus propias versiones de LCM para probarlos. Recomendamos Hephaistos_NextGENXL por su versatilidad, pero hay muchos otros modelos geniales disponibles para su prueba.
LCM-LoRA: acelere cualquier modelo
Lanzado junto con LCMs, LCM-LoRA ofrece un módulo de aceleración universal que puede integrarse en varios modelos de Difusión Estable. “LCM-LoRA puede considerarse como un solucionador PF-ODE neural con capacidades de generalización sólidas,” dice el documento de investigación.
LCM-LoRA está diseñado para aumentar la eficiencia de los modelos existentes de Difusión Estable, haciéndolos más rápidos y versátiles. Emplea LoRA (Adaptación de Rango Bajo) para actualizar las matrices de pesos entrenadas, reduciendo la carga computacional y los requisitos de memoria.
Con LCM-LoRA, los modelos normales de Difusión Estable experimentan un gran aumento en su velocidad de generación de imágenes, haciéndolos muy efectivos para diversas tareas. Los usuarios ni siquiera necesitarían descargar un nuevo modelo, sino solo activar el LCM LoRA y generar imágenes tan rápidamente como lo haría un LCM Mode.
Calidad versus velocidad
A pesar de estos avances tecnológicos, sigue siendo necesario encontrar un equilibrio entre la velocidad y la calidad de la imagen. Si bien las herramientas de generación rápida, como SDXL Turbo y LCM-LoRA, aceleran el proceso creativo, lo hacen a expensas de la fidelidad de la imagen.
Es decir, una imagen generada con 50 pasos y un buen modelo siempre tendrá una resolución o fidelidad de imagen más alta que una imagen generada con 5 pasos y un buen modelo LCM.
Sin embargo, este compromiso se mitiga con su utilidad en flujos de trabajo típicos, donde se generan numerosas imágenes para encontrar la perfecta. Iteraciones posteriores con herramientas como de imagen a imagen o inpaint pueden mejorar detalles en estas primeras imágenes, compensando cualquier pérdida inicial de calidad.
Una imagen editada correctamente generada con una de estas tecnologías rápidas puede ser tan buena como una imagen generada por un modelo normal de Difusión Estable.
Ajusta tu cinturón de seguridad porque el espacio de generación de imágenes de IA está acelerando al máximo y pocos anhelan la velocidad más que los fanáticos de la IA.
Leave a Reply