Adaptar los modelos de difusión a las preferencias humanas

TLDR

El aprendizaje a partir de las preferencias humanas, concretamente el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF), ha sido un componente reciente clave en el desarrollo de grandes modelos lingüísticos como ChatGPT o Llama2. Hasta hace poco, el impacto del entrenamiento a partir de la retroalimentación humana en los modelos texto-imagen era mucho más limitado. En este trabajo, Diffusion-DPO, aportamos el beneficio del aprendizaje a partir de la retroalimentación humana a los modelos de difusión, dando como resultado un modelo generativo de texto-a-imagen de última generación. Esto cierra la brecha entre la familia StableDiffusion de modelos de código abierto y modelos cerrados como Midjourney v5 (el más actual en el momento de este proyecto) y abre la puerta a una nueva generación de modelos alineados de texto-a-imagen.

En resumen:

Adaptamos el método de entrenamiento Direct Preference Optimization (DPO) a modelos texto-imagen
Los modelos StableDiffusion-XL ajustados mediante DPO superan con creces su inicialización y son comparables a modelos de código cerrado como Midjourney y Meta’s Emu
Implementaciones públicas del código de entrenamiento y de los modelos resultantes

Introducción

La historia de la alineación (i.la historia de la alineación (es decir, la alineación con los objetivos/preferencias/ética humanos) en los grandes modelos lingüísticos (LLM) es muy diferente de la alineación en los modelos de texto a imagen (T2I). Mientras que los LLM actuales más potentes, como GPT4, Bard y Llama2, citan específicamente la alineación mediante RLHF como un componente clave de sus preferencias de entrenamiento, los modelos T2I de última generación se entrenan principalmente mediante un único y sencillo objetivo: aprender a denotar imágenes. En algunos casos, como en la familia de modelos StableDiffusion, se utiliza una segunda fase de aprendizaje para eliminar el ruido de las imágenes visualmente atractivas con el fin de inclinar el modelo hacia generaciones de «mayor valor estético». Aunque útil, se trata de un marcado contraste entre los LLM y los modelos T2I. El campo de los primeros tiene muchas recetas para incorporar la retroalimentación humana en sus modelos con enormes beneficios, mientras que el segundo tiene en gran medida enfoques justificados empíricamente o ad hoc.

Método: Difusión-DPO

Una de las diferencias clave en la generación de difusión (T2I) respecto a la generación de lenguaje es cuál es la unidad incremental de generación. En los LLM es un token único (palabra, palabra-parte u otro trozo de texto) que, en última instancia, formará parte de la generación final. En los modelos de difusión, cada decisión incremental del modelo dirige una generación ruidosa hacia una versión limpia desenotizada (para más información sobre los modelos de difusión, véase nuestro blog sobre trabajos anteriores EDICT). Esto significa que puede haber muchos caminos hacia la misma imagen, lo que cambia el significado y la importancia de los pasos secuenciales de difusión.

Para considerar cómo aplicar RLHF a los modelos de difusión, recurrimos a un reciente desarrollo en el ajuste de preferencias para LLMs llamado Optimización Directa de Preferencias (DPO). DPO permite directamente el aprendizaje de un modelo para convertirse en «óptimo» con respecto a un conjunto de datos de las preferencias humanas que simplifica enormemente la tubería RLHF. Se trata de un marco mucho más sencillo que los métodos RLHF tradicionales, que requieren el aprendizaje de un modelo de «recompensa» para evaluar y criticar los resultados de los modelos generativos. El objetivo de la OPD se reduce a un criterio sencillo: ajustar el modelo para que sea más probable que produzca los datos preferidos y menos probable que produzca datos no preferidos.

La clave matemática detrás de Diffusion-DPO es formular qué significa «más probable» para los modelos de difusión. La conclusión (después de un poco de matemática pesada) resulta ser bastante simple: los modelos de difusión están entrenados para eliminar el ruido de las imágenes y si le das a un modelo de difusión una imagen ruidosa para eliminar el ruido, la «probabilidad» de la imagen limpia se escala con la calidad de la estimación de eliminación de ruido que hizo tu modelo. En otras palabras, el objetivo de la Difusión-DPO es ajustar el modelo para que sea mejor en la eliminación de ruido de los datos preferidos y relativamente peor en la eliminación de ruido de los datos no preferidos.

La superficie de pérdida para el objetivo de Difusión-DPO (cuanto más baja, mejor). La pérdida puede mejorarse mejorando los datos buenos y empeorando los malos. — *Superficie de pérdida para el objetivo Difusión-DPO (cuanto más bajo, mejor). La pérdida puede mejorarse mejorando en los datos buenos y empeorando en los datos malos.*

El aumento/disminución del error (mejorando/empeorando) se mide por el rendimiento relativo a un modelo de «referencia» o inicialización. En nuestros experimentos utilizamos principalmente StableDiffusion-XL-1.0, nos referiremos a este modelo específico como «SDXL». Usamos SDXL como punto de partida y lo entrenamos en el conjunto de datos Pick-a-Pic, que consiste en pares de preferencias recogidas entre dos imágenes generadas a partir del mismo pie de foto.

Results

En primer lugar, comparamos visualmente las generaciones de nuestro modelo SDXL ajustado a DPO (DPO-SDXL) con el SDXL original. Vemos que DPO-SDXL es más fiel a la indicación dada y produce imágenes de gran calidad que son muy agradables para los humanos, en otras palabras, ¡el modelo se ha alineado con nuestras preferencias! Tenga en cuenta que las preferencias no son universales, pero parece que el amor por las imágenes detalladas y emocionantes es una preferencia común compartida por una amplia franja de usuarios.

SDXL Turbo (IZQUIERDA) vs SDXL Turb(DP)o (DERECHA) (vídeo acelerado para compactarlo)

turbo_twitter.mp4

Enlace de vídeo para la versión completa del gif anterior (velocidad 2x respecto al original)

Áreas emergentes de mejora

Una de las quejas más comunes sobre las imágenes generadas por IA es la apariencia de las personas. Como humanos, las aberraciones en la apariencia humana renderizada realmente nos llaman la atención. Curiosamente, vemos que estas preferencias se reflejan en nuestro conjunto de datos de entrenamiento, lo que se traduce en una mejora sustancial en la generación de personas, como se muestra a continuación. Dado que estos cambios son bastante incidentales como parte de la alineación genérica, la mejora dirigida es un camino emocionante para el desarrollo futuro.

Generación a partir de diseños de color

La generación basada en trazos utilizando SDEdit es un interesante campo de pruebas de las tendencias aprendidas de nuestro modelo. En este caso, se utiliza un diseño de color (izquierda) como referencia para generar una imagen según las instrucciones Paisaje fantástico, tendencia en artstation (arriba) y Representación en alta resolución de una ciudad de ciencia ficción llena de color (abajo). DPO-SDXL genera imágenes visualmente mucho más emocionantes que el modelo de inicialización SDXL.

The bottom line

Diffusion-DPO permite alinear los modelos de difusión con los objetivos/valores humanos
Este proceso de entrenamiento cierra la brecha de rendimiento de StableDiffusion-XL-1.0 a frameworks de código cerrado como Midjourney v5 o Emu.
Quejas comunes como la generación de personas emergen como mejoras cuando se entrena sobre preferencias humanas

Mirando hacia el futuro, hay muchos caminos por los que la optimización de preferencias en modelos de difusión seguirá. El trabajo presentado aquí se encuentra todavía prácticamente en una escala de prueba de concepto: se espera que ampliar la escala de entrenamiento pueda mejorar aún más los modelos. Además, hay muchas variedades de preferencia/retroalimentación que pueden utilizarse aquí. Aquí sólo hemos tratado las preferencias humanas genéricas, pero en nuestro artículo experimentamos que atributos como la fidelidad del texto o el atractivo visual pueden optimizarse de forma específica. Y eso sin tener en cuenta objetivos más específicos, como la personalización. RLHF ha sido un enorme y rápido crecimiento campo en modelos de lenguaje y estamos muy emocionados tanto para continuar el desarrollo de este tipo de enfoques de difusión y ver los trabajos de la comunidad de investigación más amplia también.

Los autores del artículo de investigación analizado en este blog son Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty y Nikhil Naik.

Más información

Modelos: Entrenado y liberado por Meihua Dang SDXL SD1.5

Código: Integrado en difusores: https://github.com/huggingface/diffusers/tree/main/examples/research_projects/diffusion_dpo

Paper: Arxiv