De copiloto a coorganizador

Introducción

En los últimos meses he escrito mucho sobre lo que yo llamo Large Action Models, o LAM, una variación más activa y autónoma de los LLM que no se limitan a generar contenido como texto o imágenes, sino que realizan tareas completas e incluso participan en flujos de trabajo, ya sea junto a personas o por su cuenta. Este año, en Dreamforce 2023, esa visión dio un gran paso hacia la realidad con la presentación de Einstein Copilot, el asistente conversacional de IA de Salesforce que se está desplegando en toda la plataforma Salesforce y que está listo para integrarse en casi todo lo que hacen los clientes.

Einstein Copilot: Un vistazo al futuro de la IA generativa

Desde el primer momento, es difícil no sentirse impresionado por Einstein Copilot. Está construido desde cero para impulsar la productividad de forma segura ayudando a los usuarios en flujos de trabajo de casi todo tipo. Maneja preguntas formuladas en lenguaje natural y ofrece respuestas pertinentes y fiables extraídas de datos seguros y patentados de la empresa. Es una imagen clara de hacia dónde creo que se dirige la IA en la empresa: una interfaz única y fiable, diseñada en torno a las interacciones humanas cotidianas, capaz de ayudar en una amplia gama de tareas. Presenta el poder de la IA de una forma que garantiza que la tecnología se adapta a las necesidades de la empresa, y no al revés, y no me cabe duda de que cambiará la forma de trabajar de los clientes. Y los LAM, a medida que evolucionen su flexibilidad y sus capacidades, llevarán esta base ya de por sí potente al siguiente nivel.

¿Qué es lo siguiente?

Making Generative AI models bigger and smaller at the same time

Mucha de la conversación reciente sobre IA generativa ha girado en torno al tamaño y la arquitectura de los modelos que impulsan tanto a los LLM como a los LAM. Y a medida que empresas como OpenAI siguen superando los límites de la escala, con recuentos de parámetros de cientos de miles de millones, no es difícil llegar a la conclusión de que más grande siempre es mejor. De hecho, los modelos de gran tamaño a menudo ofrecen un rendimiento que sería difícil o imposible conseguir de otra forma, y a medida que aumenta el tamaño de los modelos siguen apareciendo comportamientos impresionantes, a menudo increíblemente sofisticados, lo que sugiere que la estrategia de aumentar la escala aporta beneficios significativos. Sin embargo, hay mucho más que contar.

Pensar más pequeño: cómo las reducciones estratégicas del tamaño de los modelos pueden dar grandes dividendos

A pesar de todos los titulares que genera, la búsqueda de modelos cada vez más grandes está lejos de ser una estrategia perfecta. Obviamente, los modelos más grandes de hoy en día tienen unos costes de computación desorbitados, lo que los mantiene fuera del alcance de muchas empresas. E incluso quienes pueden permitírselos deben aceptar que los resultados de alta calidad que prometen pueden tardar muchísimo en generarse. Además, algunos de los mayores problemas a los que todavía nos enfrentamos en términos de confianza, seguridad, toxicidad y reclamaciones de propiedad, como los derechos de autor, se derivan de los conjuntos de datos masivos y de origen global de los que dependen estos modelos a hiperescala.

Estas desventajas hacen que los modelos más pequeños sean cada vez más atractivos en una serie de ámbitos. Por supuesto, son comparativamente rentables y pueden ajustarse para funcionar a velocidades de vértigo. En algunos casos, los LLM actuales pueden incluso ejecutarse completamente en el perímetro, incluido el dispositivo móvil del usuario final. Y como requieren menos formación, los clientes pueden desempeñar un papel más activo y conservador en la preparación de sus conjuntos de datos, lo que permite realizar grandes avances en términos de calidad, seguridad e incluso legalidad de los contenidos que incluyen.

Quizás lo más profundo sea el hecho de que incluso la calidad de sus resultados puede competir de forma impresionante con sus primos mayores al centrarse en dominios más limitados. Recordemos, después de todo, que modelos como ChatGPT están diseñados esencialmente para ser todo para todos, ayudando con los deberes, las recetas para la cena, respondiendo a preguntas sobre ciencia, tecnología, historia y cultura pop y, por supuesto, reescribiendo Macbeth al estilo de Jay-Z. En cambio, la IA generativa para la empresa puede y debe centrarse en ámbitos problemáticos mucho más pequeños y relevantes. Esto es lo más beneficioso que se puede imaginar: supone una barrera de entrada más baja sin comprometer la calidad del resultado.

Pensando en grande: cómo las orquestaciones de modelos más pequeños pueden ofrecer un enorme potencial

Pero incluso los modelos pequeños pueden ofrecer grandes soluciones, sólo tenemos que pensar en la escala de manera diferente. En lugar de agrandar los modelos en sí mismos, ¿qué ocurre cuando varios modelos, cada uno de ellos diseñado con un objetivo específico y entrenado con un conjunto de datos propios, bien seleccionados y gestionados, se entrelazan al servicio de un único objetivo de nivel superior? ¿Y si los agentes de IA como Einstein Copilot pudieran combinarse -o coordinarse- del mismo modo que varios humanos pueden trabajar en equipo para hacer más de lo que harían individualmente? Pensemos en un restaurante, por ejemplo: una organización que sólo es posible porque un equipo trabaja en equipo, cada miembro con sus propias habilidades y áreas de interés: camareros que toman pedidos, chefs que preparan la comida, una recepcionista que atiende las reservas y los pedidos, un conductor que hace las entregas.

Esta idea de la orquestación es algo en lo que he estado pensando mucho últimamente, y la veo como una de las técnicas más emocionantes, pero también prácticas, para hacer realidad un futuro de agentes útiles y autónomos de forma segura y productiva. Lo mejor de todo es que la orquestación significa que incluso las soluciones más ambiciosas pueden seguir siendo transparentes y conocidas para las personas que las crean y trabajan con ellas. Recuerde que la escala en este caso no procede de redes neuronales cada vez más grandes -y todo el misterio que encierran-, sino de componentes separados y claramente definidos, organizados de forma que tengan sentido para los humanos. Por ejemplo, en lugar de entrenar a un modelo gigante para que registre las notas de las reuniones con los clientes, extraiga conclusiones de los resultados, actualice los registros de CRM en consecuencia y envíe mensajes de seguimiento, cada una de estas tareas podría asignarse a un modelo entrenado individualmente. De hecho, después de haber dedicado gran parte de mi carrera investigadora a la robótica, no puedo evitar mirar aún más lejos en el horizonte e imaginar que esta orquestación se produzca en espacios del mundo real, con modelos físicamente encarnados que trabajen juntos para resolver tareas de todo tipo, junto a seres humanos en fábricas, oficinas, hospitales e incluso restaurantes. Pero por muy elevado que parezca -y es una visión a largo plazo, hay que reconocerlo- el potencial actual de la orquestación es ya enorme. En primer lugar, la orquestación nos ahorra la dificultad de reunir un conjunto de datos lo suficientemente grande como para convertir un único modelo en un agente flexible que abarque todos los ámbitos, junto con el riesgo que conlleva introducir cantidades tan grandes de datos tan variables en un único conjunto de entrenamiento. Además, cada modelo puede afinarse aún más con el aprendizaje reforzado a partir de la retroalimentación humana (RLHF). El resultado es un sistema en el que cada componente -un LAM independiente, como Einstein Copilot- está hiperespecializado para un paso crucial pero manejable en una tarea más amplia.

Y cuando algo va mal, ya sea durante la depuración o incluso en la producción, los problemas se pueden identificar más fácilmente, en términos de un único modelo construido a propósito, lo que permite entenderlos y resolverlos con mucha más confianza. Incluso los fallos graves pueden tratarse de forma más robusta y modular; con varios modelos trabajando juntos, es más probable que los fallos se contengan y aíslen fácilmente, con muchas más oportunidades de continuidad cuando fallan componentes individuales.

Un nuevo arte en la IA generativa: el diseño que abarca múltiples modelos

Y lo que es más importante, eleva la creación de modelos de IA empresarial de una tarea puramente técnica a una que modela un proceso empresarial en términos que las partes interesadas puedan entender. Al igual que cualquier buen gestor sabe por instinto cómo desglosar un problema para que lo afronte un equipo de personas, los expertos en orquestación de IA pronto podrán presumir de instintos similares para desglosar un problema para una colección de modelos creados a tal efecto. Un aspecto especialmente emocionante de esta visión es que apunta hacia un nuevo tipo de habilidad -que incluso podría llamarse un arte emergente- que estoy deseando ver desarrollarse en las empresas. Los expertos en orquestación de LAM pensarán a alto nivel, centrándose directamente en las necesidades de su empresa como negocio, no como mera plataforma tecnológica, y utilizando esa visión para dividir las tareas grandes y significativas -del tipo que aportan un valor real y medible- en una secuencia de tareas más pequeñas que un «equipo» de LAM puede resolver conjuntamente.

Su trabajo se cruzará con la infraestructura, garantizando que estos equipos de modelos se desplieguen de forma segura y eficiente, la ciencia de los datos, trabajando para recopilar conjuntos de datos únicos que resuelvan problemas más pequeños y menos ambiguos, y el diseño de la interfaz humana, con la esperanza de que el resultado funcione correctamente con las personas y respete los flujos de trabajo existentes. En otras palabras, los expertos en orquestación pueden convertirse en la nueva cara de la IA empresarial, menos centrada en las tuercas y los tornillos de las redes neuronales, y más en las formas de construir sistemas potentes y robustos de los que esas redes son sólo un componente entre muchos otros.

De hecho, mi última esperanza es que esta habilidad no sea rara ni exclusiva, sino común, convirtiendo la orquestación de LAM en soluciones potentes y personalizadas que desempeñen un papel cada vez más importante en nuestra vida profesional. La barrera puede reducirse aún más a medida que surjan mercados que ofrezcan al mundo soluciones LAM orquestadas similares a Copilot, proporcionando el poder de la IA generativa a una escala asombrosa, todo ello mediante la simplicidad plug-and-play. Algunos utilizarán directamente estas soluciones de mercado, convirtiendo la potencia de la orquestación LAM en una posibilidad «lista para usar». Otros las tratarán como módulos que se combinan con otros -quizá una mezcla de compras adicionales o creaciones propias personalizadas- para componer soluciones a la escala que necesiten, desde las más informales y compactas hasta las más ambiciosas y extensas. Pero en todos los casos, lo que más me entusiasma es la idea de que la IA generativa esté menos en manos de una élite de expertos en tecnología y más en manos de la creatividad y la visión de profesionales de todos los campos.

De hecho, esta es mi visión del futuro del trabajo: un mundo en el que la IA apoye la habilidad humana a escalas cada vez mayores permitiéndonos pensar a niveles cada vez más altos, simplificando todo lo que hacemos y conservando al mismo tiempo la creatividad, el estilo y la perspectiva que nos hacen únicos.

Conclusion

El camino hacia cualquier nueva visión suele ser gradual, y los LAM no son una excepción. Pero si los últimos años sirven de indicación, cada paso resultará transformador por sí mismo. Desde sus primeras encarnaciones, los MVA mostraron un raro potencial de disrupción e innovación -del tipo que sólo vemos una o dos veces en una generación- y el ritmo no ha hecho más que aumentar desde entonces. Agentes de asistencia como Einstein Copilot suben aún más el listón, con interfaces intuitivas, sólidas funciones de confianza y seguridad, y una integración perfecta en los flujos de trabajo tradicionales. Y a medida que estos agentes se conecten de formas cada vez más sofisticadas -orquestación, como a mí me gusta llamarlo-, creo que las posibilidades simplemente dejarán perpleja a la mente. Son tiempos realmente emocionantes y no hay otro lugar en el que preferiría pasarlos que en Salesforce Research.