Huan Wang, Shelby Heinecke, Juan Carlos Niebles, Caiming Xiong
TL;DR: Lanzamos xLAM, una serie de LLMs optimizados para la llamada a funciones y Agentes AI. Ofrece varias variantes diseñadas para servir a diferentes dominios de aplicación, desde el uso móvil hasta contextos de rendimiento de alta demanda. Muestran un rendimiento competitivo en varias pruebas de agentes clave.
Los modelos de lenguaje de gran tamaño en el entorno de agentes
En un marco tradicional de aprendizaje por refuerzo (RL), la noción de «agente» desempeña un papel clave. Este marco comprende conceptos fundamentales como:
- Entorno: Acepta una secuencia de acciones de los agentes como entrada y, a su vez, les proporciona recompensas y observaciones. Numerosos entornos constan de estados y ejecutan transiciones de estado en función de las acciones ejecutadas por los agentes.
- Agentes: Estas entidades reciben recompensas y observaciones de los entornos y posteriormente producen acciones. La mayoría de los agentes también incorporan estados y facilitan transiciones de estado basadas en las acciones que realizan.
La aparición de los modelos de lenguaje de gran tamaño (LLM) pronto condujo a su aplicación en escenarios relacionados con agentes. Se descubrió que, con el estímulo adecuado, un LLM podía generar texto estructurado con una alta probabilidad. Dado que la salida está estructurada, puede analizarse fácilmente en funciones/acciones invocables. En particular, si el entorno puede representarse mediante texto, todas las observaciones y recompensas pueden encapsularse en el mensaje. En lugar del agente de RL convencional que modela las distribuciones de acción condicionales, podría emplearse un LLM genérico combinado con un analizador de salida para determinar la siguiente acción.
Modelos de lenguaje de gran tamaño optimizados para la llamada a funciones
La llamada a funciones plantea una de las aplicaciones de agente más solicitadas, en la que el agente tiene la tarea de completar las órdenes del usuario mediante una serie de llamadas a funciones. Normalmente, éstas pueden incluir una amplia gama de funciones/API potenciales que podrían utilizarse para ayudar a cumplir los requisitos del usuario. Cada una de estas funciones/API posee descripciones, argumentos y retornos distintos. Las funciones aplicables se presentan a los LLMs en el prompt, y los LLMs eligen entonces las funciones apropiadas basándose en el contexto y el objetivo específico, eligen los argumentos correspondientes y obtienen la salida de las funciones elegidas.
El atractivo generalizado de las aplicaciones de llamada a funciones requiere LLMs mejorados. Sin embargo, el inconveniente es que los LLM genéricos no están adaptados específicamente a los contextos de llamada a funciones. Para solucionar este problema, hemos compilado una de las colecciones más extensas de entornos y datos de llamada de funciones, garantizando un formato uniforme en todos los conjuntos de datos. La idea es que, a medida que se utilicen más datos de distintos entornos de llamada de funciones para entrenar cualquier modelo básico, el modelo debería, en teoría, ser capaz de adaptarse a entornos de llamada de funciones desconocidos.
xLAM: Una solución para todos
Estamos lanzando tres variantes de xLAM para atender diferentes escenarios:
- xLAM-7b-r: Un modelo 7b diseñado para la exploración académica rápida con recursos limitados de GPU.
- xLAM-8x7b-r: Un modelo de mezcla de expertos de 8x7b, ideal para aplicaciones industriales que buscan una combinación equilibrada de latencia, consumo de recursos y rendimiento.
- xLAM-8x22b-r: se trata de un modelo de mezcla de expertos de gran tamaño si se dispone de grandes recursos computacionales y se desea perseguir el máximo rendimiento.
Estas tres variantes de modelos xLAM están diseñadas para escenarios de aplicación de una y varias vueltas en diversos entornos y pruebas de rendimiento. Anteriormente lanzamos dos versiones de nuestros modelos xLAM entrenados específicamente para las tareas de llamada de funciones de una sola vuelta: xLAM-1b-fc-r y xLAM-7b-fc-r. En particular, xLAM-7b-fc-r ocupó el segundo lugar en la anterior Berkely Function Calling Leaderboard V1. Actualmente ocupa el puesto 16 en la Berkeley Function Calling Leaderboard V2 Live. Su homólogo compacto, xLAM-1b-fc-r, apodado el «Gigante diminuto», cuenta con sólo mil millones de parámetros, lo que lo hace ideal para aplicaciones móviles.
Resultados
Nuestros modelos de la serie xLAM obtienen resultados consistentes en varios entornos de evaluación comparativa clave, incluidos ToolBench, Berkeley Function Calling Leaderboard, Webshop y AgentBoard. A continuación se muestra un resumen de los resultados:
Debido a la reciente interrupción del servicio de ToolBench, los resultados de xLAM-8x22b-r en ToolBench aún no están disponibles. Aun así, está claro que la serie de modelos xLAM ofrece un rendimiento bastante comparable al de los modelos GPT de OpenAI con un tamaño de modelo mucho menor. En particular, el modelo xLAM-8x22b-r encabeza la clasificación de llamadas a funciones de Berkeley en nuestra evaluación.