Presentamos una arquitectura novedosa, BootPIG, que permite la generaci贸n de im谩genes personalizadas sin necesidad de ajuste fino en tiempo de prueba.
Seguir leyendoAdaptar los modelos de difusi贸n a las preferencias humanas
TLDR
El aprendizaje a partir de preferencias humanas, concretamente el Aprendizaje por Refuerzo a partir de la Retroalimentaci贸n Humana (RLHF) ha sido un componente reciente clave en el desarrollo de grandes modelos ling眉铆sticos como ChatGPT o Llama2. Hasta hace poco, el impacto del entrenamiento a partir de la retroalimentaci贸n humana en los modelos texto-imagen era mucho m谩s limitado. En este trabajo, Diffusion-DPO,
Seguir leyendo