Adaptar los modelos de difusi贸n a las preferencias humanas

TLDR

El aprendizaje a partir de preferencias humanas, concretamente el Aprendizaje por Refuerzo a partir de la Retroalimentaci贸n Humana (RLHF) ha sido un componente reciente clave en el desarrollo de grandes modelos ling眉铆sticos como ChatGPT o Llama2. Hasta hace poco, el impacto del entrenamiento a partir de la retroalimentaci贸n humana en los modelos texto-imagen era mucho m谩s limitado. En este trabajo, Diffusion-DPO,

Seguir leyendo