GlueGen: Codificadores multimodales Plug and Play para la generación de imágenes X a X

Otros autores son: Can Qin, Stefano Ermon, Yun Fu

GlueGen fue aceptado por el ICCV.

En el campo de la síntesis texto-imagen, que avanza con rapidez, los notables progresos en la generación de imágenes realistas a partir de indicaciones textuales han sido evidentes. Sin embargo, sigue existiendo un reto importante: ¿cómo podemos integrar a la perfección potentes codificadores de texto preentrenados en los generadores de imágenes existentes sin necesidad de un reentrenamiento que consume mucho tiempo y recursos? Aquí es donde entra en juego «A Plug-and-Play Approach for X-to-Image Generation», un artículo que presenta el innovador marco GlueNet. Esta innovadora solución ofrece una forma flexible de «pegar» nuevos componentes, como codificadores de texto avanzados o incluso modelos de audio, a los generadores existentes. Al tender puentes entre distintas modalidades, GlueNet allana el camino para mejorar la comprensión de textos, las capacidades multilingües y la incorporación de nuevos tipos de entrada, como el sonido. Profundice en este artículo para descubrir cómo GlueNet está revolucionando el futuro de los modelos generativos.

Fondo

Síntesis de texto a imagen (T2I), que genera imágenes fotorrealistas a partir de mensajes de texto, ha experimentado un enorme aumento de sus capacidades en los últimos tiempos. Modelos como Imagen, Stable Diffusion y DALL-E-3 pueden producir imágenes de una calidad y diversidad impresionantes guiadas por descripciones de entrada. Estos avances se deben a la evolución de los modelos generativos profundos, especialmente los basados en la difusión. Un aspecto crítico de este progreso consiste en condicionar el modelo a entradas textuales u otras entradas modales en cada paso de eliminación de ruido, lo que permite controlar el contenido de la imagen generada. La entrada textual guía al modelo para reconstruir una imagen que coincida con la descripción. Este enfoque de difusión condicional ha demostrado ser muy eficaz para la generación de texto a imagen.

Sin embargo, los modelos existentes presentan un alto grado de acoplamiento entre sus codificadores y decodificadores. El codificador de texto se optimiza específicamente para producir incrustaciones adecuadas para la representación latente de ese modelo concreto. Esto dificulta bastante la mejora o modificación de los componentes del sistema. Por ejemplo, la sustitución directa del codificador de texto por un modelo preentrenado más potente fracasa porque sus representaciones no coinciden con el espacio latente que espera el decodificador de difusión.

Se necesitaría un reentrenamiento sustancial del modelo para adaptar las rutas de texto e imagen al nuevo espacio de representación. Pero esto requiere mucho tiempo, datos, GPU y no es ecológico. El reentrenamiento completo del modelo de principio a fin se convierte rápidamente en un coste prohibitivo. Esto dificulta enormemente la iteración y la mejora de los modelos texto-imagen.

Motivación

El objetivo es facilitar el plug-in de componentes pre-entrenados como codificadores de texto, codificadores de audio, codificadores de nubes de puntos, etc. en los generadores existentes sin necesidad de modificarlos. Esto permitiría mejorar el texto con una mejor comprensión del lenguaje, añadir capacidades multilingües e incorporar nuevas modalidades como el sonido. Es fundamental que esto se consiga sin necesidad de un costoso reentrenamiento de principio a fin.

GlueNet

(a) Ilustración de la transformación de características a lo largo de la traducción/alineación del modelo. (b) El proceso general y los objetivos de aprendizaje de nuestra propuesta GlueNet. (c) Arquitectura detallada de GlueNet Encoder/Decoder.

La idea central es insertar un módulo de alineación entre el nuevo componente y el generador para mapear representaciones en un espacio compartido. La parte codificadora transforma las características del nuevo modelo en el espacio latente esperado por el generador. Minimiza las diferencias tanto a nivel de elementos como de distribución entre las nuevas características y el espacio latente del generador. Esto permite al decodificador de difusión condicionada comprender las nuevas representaciones sin ningún cambio de parámetros. A continuación, un módulo decodificador reconstruye las características originales a partir del espacio alineado. De este modo, se conserva toda la información y la semántica captada por los nuevos componentes. De lo contrario, la alineación degradaría las representaciones.

GlueNet se entrena únicamente con texto paralelo fácilmente disponible, etiquetas de audio, otros pares, o lo que se quiera. No se necesitan datos de imágenes condicionales. Los objetivos son la pérdida de reconstrucción y la pérdida de alineación adversarial medidas directamente entre las muestras paralelas. Sólo se actualizan los parámetros de GlueNet, manteniendo fijo el generador.

Durante la inferencia, la salida del nuevo componente alimenta al codificador GlueNet, que lo alinea con el espacio latente, y luego al generador sin cambios para la síntesis de la imagen condicional. De este modo, se evita la necesidad de reentrenar el generador.

Experimentos

Los investigadores validaron exhaustivamente las capacidades de GlueNet a través de varios experimentos:

1. Para la generación de texto a imagen, los investigadores utilizaron el generador GlueNet. Para la generación de texto a imagen, mejoraron el modelo de difusión latente sustituyendo su codificador de texto estándar por el modelo T5-3B, mucho más grande. GlueNet consiguió alinear las representaciones, mejorando la calidad de la imagen y la capacidad de control sin necesidad de ningún ajuste. Un ajuste más preciso de los pares imagen-texto proporcionó beneficios adicionales.

2. Para la síntesis metalingüística-imagen, alinearon el codificador de texto multilingüe XLM-Roberta utilizando GlueNet. Esto permitió generar imágenes a partir de mensajes en chino, francés, español, italiano y japonés sin necesidad de reentrenar el modelo. El rendimiento superó las líneas de base de traducción y requirió muchos menos datos de entrenamiento.

3. Habilitaron la generación directa de sonido a imagen uniendo el codificador de audio AudioCLIP con la ruta de texto de Stable Diffusion mediante GlueNet. Esto permitió generar imágenes plausibles a partir de entradas de sonido sin necesidad de ningún ajuste. Superó significativamente a una línea de base que recuperaba imágenes con etiquetas de audio.

4. Los experimentos también demostraron que GlueNet podía combinar modalidades como guía de entrada, permitiendo mezclas de texto y audio para guiar la generación de imágenes. Los resultados iniciales también incorporaron con éxito redes de nubes de puntos, lo que demuestra la flexibilidad de nuestro enfoque.

Bottom Line

GlueNet ofrece un emocionante camino a seguir para la generación controlable de X a imagen. El enfoque plug-and-play reduce sustancialmente las barreras para mejorar los modelos existentes y construir sistemas generativos más potentes. Con la rápida mejora de las capacidades, es probable que las técnicas de alineación sean esenciales para experimentar e integrar eficazmente nuevos componentes de última generación. Este trabajo proporciona una base sólida, demostrando que GlueNet combina con éxito modelos multimodales sin necesidad de reentrenar los modelos de desarrollo.

Explore More

arXiv: https://arxiv.org/abs/2303.10056

Código: https://github.com/salesforce/GlueGen

Web: https://canqin001.github.io/GlueGen-Page/

Contacto: [email protected]