Modelado de secuencias largas con XGen: Un LLM de 7B entrenado con secuencias de entrada de 8K de longitud

TLDR

Entrenamos una serie de LLMs 7B llamados XGen-7B con atención densa estándar hasta 8K de longitud de secuencia para hasta 1.5T tokens. También afinamos los modelos en datos de instrucción de dominio público. Los principales resultados son:

  • En pruebas de PNL estándar, XGen consigue resultados comparables o mejores
Seguir leyendo