Presentamos una arquitectura novedosa, BootPIG, que permite la generación de imágenes personalizadas sin necesidad de ajuste fino en tiempo de prueba.
Seguir leyendoAdaptar los modelos de difusión a las preferencias humanas
TLDR
El aprendizaje a partir de preferencias humanas, concretamente el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) ha sido un componente reciente clave en el desarrollo de grandes modelos lingüísticos como ChatGPT o Llama2. Hasta hace poco, el impacto del entrenamiento a partir de la retroalimentación humana en los modelos texto-imagen era mucho más limitado. En este trabajo, Diffusion-DPO,
Seguir leyendo