Modelado de secuencias largas con XGen: Un LLM de 7B entrenado con secuencias de entrada de 8K de longitud

TLDR

Entrenamos una serie de LLMs 7B llamados XGen-7B con atenci贸n densa est谩ndar hasta 8K de longitud de secuencia para hasta 1.5T tokens. Tambi茅n afinamos los modelos en datos de instrucci贸n de dominio p煤blico. Los principales resultados son:

  • En pruebas de PNL est谩ndar, XGen consigue resultados comparables o mejores
Seguir leyendo