El poder cada vez mayor de los modelos pequeños

Recientemente, la cobertura mediática de la IA ha seguido un patrón familiar: se lanza un nuevo modelo masivo, que hace la ronda con los probadores beta y, finalmente, con el público, pero apenas pasan uno o dos meses antes de que empiecen a surgir rumores sobre el modelo aún mayor que supuestamente se está entrenando para sustituirlo. Otro aumento espectacular del número de parámetros, más datos que nunca y, por supuesto, promesas de capacidades revolucionarias en el otro lado. Es difícil no dejarse atrapar por la exageración, incluso como experto, y es fácil creer que esta es la realidad de la vida en la vanguardia. Escala a cualquier precio, y datos dondequiera que uno pueda encontrarlos. De hecho, esta tendencia fue motivada inicialmente por el primer artículo sobre la ley de escalado de OpenAI, que más tarde fue modificado por investigadores de Deepmind, comúnmente conocida como la ley Chinchilla. Por algo se llaman grandes modelos lingüísticos?

No tan rápido. Un término como «grande» es relativo, después de todo, y para cada vez más aplicaciones, especialmente en la empresa, donde el coste, el control y la confianza importan más que en ninguna otra parte, el recuento de parámetros no es tan importante como la publicidad y los titulares nos quieren hacer creer. De hecho, para muchos de nuestros clientes, una escala excesiva a veces es más perjudicial que beneficiosa. Cuando lanzamos CodeGen en 2022, por ejemplo, fue uno de los primeros modelos de texto a código del mundo. Por supuesto, toda esa potencia (y se necesita mucho para traducir el lenguaje natural en código que se ejecute, por no hablar de la fiabilidad) tenía un coste elevado. Sin embargo, la última versión, CodeGen 2.5, ha aprovechado técnicas de formación como el entrenamiento multipunto y la atención flash para crear un resultado que compite con modelos más grandes con la mitad de tamaño. Forma parte de nuestra iniciativa más amplia de sostenibilidad de la IA, de la que hablamos con más detalle aquí.

Permítanme que empiece por disipar la idea errónea de que aumentar el número de parámetros es la única forma, o incluso la mejor, de mejorar el rendimiento. Aunque no hay duda de que esta puede ser una técnica poderosa -aunque las advertencias de rendimientos decrecientes han estado circulando durante el mismo tiempo, incluso si el patrón se ha mantenido hasta ahora- es importante recordar que las implementaciones eficaces de IA vienen en innumerables formas, y el recuento de parámetros es sólo una de las muchas variables que determinan qué tan bien pueden resolver problemas en el mundo real. Así que vamos a hablar de por qué pensar en pequeño puede ser su mejor apuesta para el éxito en el despliegue de la IA empresarial.

Cost to Serve

La primera cuestión que vale la pena abordar es, por supuesto, el mayor obstáculo en cualquier aplicación de IA empresarial: el coste de servir. La IA es anormalmente intensiva en computación, independientemente de cómo se despliegue, y la relación entre el tamaño del modelo y el gasto es clara. A medida que aumenta el número de parámetros, tanto la formación como la inferencia requieren más silicio, más potencia y más costes derivados, como el mantenimiento. Para poner esto en perspectiva, considere que cada parámetro individual del modelo (pequeñas unidades de cálculo que se cuentan por millones y a veces miles de millones) añade otro pequeño pero tangible coste de cálculo (conocido como operación en coma flotante), cuya suma se multiplica por cada fragmento de entrada de datos (conocido como token), cada vez que se ejecuta. En total, esto es lo que hace que incluso tareas conceptualmente sencillas como responder a una pregunta sean tan costosas. Es un coste que también se mide en velocidad, ya que los tiempos de formación se disparan y la inferencia se ralentiza. Para las organizaciones que pretenden servir a grandes comunidades de usuarios -a veces un planeta entero de clientes-, estos son inconvenientes significativos. El hecho de que los modelos más pequeños puedan reducir tanto el coste como la latencia, a veces de forma significativa, los convierte en alternativas potentes.

Performance

Por supuesto, el ahorro de costes no importa mucho si el despliegue resultante no puede ofrecer un rendimiento competitivo. Pero la suposición de que los modelos más pequeños deben rendir peor que sus hermanos mayores es, afortunadamente, simplemente errónea. En primer lugar, es importante comprender que el rendimiento de un modelo no existe en una única dimensión; por ejemplo, la capacidad de un modelo para resolver problemas dentro de un único dominio -por ejemplo, responder a preguntas de TI o prestar servicio al cliente- es en gran medida independiente de su capacidad para generalizar sin problemas en múltiples dominios no relacionados. Los modelos pequeños pueden sobresalir en lo primero, al centrar su profundidad en un conjunto más reducido de tareas, aunque es cierto que están mal equipados para competir en lo segundo; después de todo, no hay sustituto para cientos de miles de millones de parámetros cuando se quiere ser todo para todos. Pero en la empresa, esta capacidad es casi totalmente discutible.

Considere los titulares que han captado el interés del público en los últimos dos años. Muchos de ellos se refieren a la capacidad aparentemente mágica de modelos extremadamente grandes para responder a preguntas sobre casi todos los temas imaginables, e incluso cruzar dominios en un solo mensaje, como en los ejemplos de pastiche siempre populares que se ven a través de las redes sociales: una pregunta sobre fontanería respondida al estilo de Shakespeare, un resumen de la Guerra de 1812 renderizado como si fueran letras de Jay-Z, y así sucesivamente. Constituyen un divertido truco para fiestas y han hecho maravillas para popularizar el poder de la IA. Pero son un exceso que pocos usuarios de empresa necesitarán jamás, donde el entretenimiento y la novedad importan mucho menos que la productividad.

Por el contrario, para las empresas que buscan crear modelos centrados en un dominio bien definido, como la recuperación de conocimientos, el soporte técnico y la respuesta a las preguntas de los clientes, los modelos pequeños suelen estar a la altura de los grandes. De hecho, con la estrategia adecuada, pueden superarlos por completo. Una serie de modelos del mundo del código abierto, incluido nuestro propio XGen 7B -un modelo entrenado específicamente en secuencias de datos más largas, lo que le ayuda con tareas como el resumen de grandes volúmenes de texto, la escritura de código y la predicción de secuencias de proteínas-, superan sistemáticamente el rendimiento de los modelos más grandes al aprovechar mejores estrategias de preentrenamiento y curación de datos.

Prefeccionamiento, curado de datos y propiedad

Los modelos lingüísticos más pequeños presentan una ventaja convincente en el entrenamiento y el perfeccionamiento para tareas específicas. A diferencia de sus homólogos de mayor tamaño, estos modelos requieren mucha menos potencia de cálculo y datos para alcanzar un rendimiento óptimo. Esta reducción de escala se traduce en un proceso de formación más ágil y eficiente, la posibilidad de iterar y probar más rápido y la posibilidad de una validación más amplia. Además, los modelos más pequeños pueden ajustarse más eficazmente para especializarse en determinados dominios o tareas. Su naturaleza compacta permite un proceso de aprendizaje más centrado, lo que les permite adaptarse con rapidez y precisión a los matices de conjuntos de datos o aplicaciones específicos. Esta eficiencia en la formación y el ajuste fino no sólo ahorra tiempo y recursos, sino que también da como resultado un modelo que es más experto en el manejo de tareas específicas, lo que los convierte en una opción práctica para las empresas que buscan capacidades especializadas de IA.

También pueden animar a los desarrolladores a centrarse en conjuntos de datos más pequeños y más curados que describen problemas únicos en términos claros y comprensibles. Los modelos pequeños se adaptan intrínsecamente a conjuntos de datos más pequeños, lo que hace que la organización de dicho material de formación no sólo sea más fácil y rentable de encontrar, sino considerablemente más segura. Las organizaciones pueden centrarse en los datos que ya conocen y en los que confían y, lo que es más importante, que poseen, lo que ayuda a evitar los numerosos peligros de los derechos de autor, la toxicidad y la imprevisibilidad que tan a menudo socavan la fiabilidad de un despliegue de IA generativa. Y dado que estos conjuntos de datos están tan centrados en una tarea específica del dominio, pueden entrenar modelos potentes y específicos que hacen cosas que ninguna alternativa de propósito general puede hacer.

Scaling in Other Ways

Mientras hablamos de rendimiento, quiero tocar el tema de la orquestación, que es una cuestión que me ha interesado cada vez más en el último año. La orquestación se refiere a la conexión de varios modelos en un único despliegue, de forma análoga a cuando varios trabajadores se unen en un equipo. Incluso los modelos pequeños pueden hacer cosas asombrosas cuando se componen unos con otros, especialmente cuando cada uno está orientado a un punto fuerte específico del que los demás podrían carecer: un modelo para centrarse en la recuperación de información, otro para centrarse en las interacciones con el usuario, otro para centrarse en la generación de contenidos e informes, etcétera. De hecho, podría decirse que los modelos más pequeños son una opción más natural en estos casos, ya que su enfoque especializado hace que su papel en el conjunto más amplio sea más fácil de definir y validar. En otras palabras, los modelos pequeños pueden combinarse para resolver problemas cada vez mayores, conservando las virtudes de su pequeño tamaño: cada uno puede entrenarse, ajustarse y comprenderse con una facilidad que los modelos grandes no pueden igualar. Y es otro ejemplo de por qué un simple recuento de parámetros a menudo puede ser engañoso.

Un mercado de modelos personalizados

De hecho, como he comentado anteriormente, los modelos pequeños y las soluciones orquestadas que los aprovechan pueden ser tan adecuados para tareas específicas, con dominios tan claros e interfaces tan sencillas, que su aplicabilidad se extiende más allá de una sola organización. No es difícil imaginar que se formen mercados enteros en torno a esta idea, a medida que proliferen los modelos pequeños y útiles en todos los sectores. Con el tiempo, creo que estos mercados de modelos transformarán la IA empresarial del mismo modo que las tiendas de aplicaciones transformaron nuestra relación con los dispositivos móviles. Cada vez más, espero ver estos modelos aprovechados por usuarios con poca o ninguna experiencia propia en IA, contentos con simplemente conectar y jugar.

Impacto medioambiental

En una nota relacionada, a medida que las industrias de todo el mundo se enfrentan a una creciente presión para frenar las emisiones, los costes de computación se enfrentan a un fuerte escrutinio. Se trata de una verdad especialmente incómoda dado el meteórico aumento del interés por la IA empresarial y sus requisitos de silicio, a menudo significativos. Para las empresas que quieren explorar el futuro de esta tecnología sin dejar de contribuir a hacer del mundo un lugar más verde y limpio, los modelos pequeños pueden marcar la diferencia entre una estrategia de IA que funcione y otra que vaya en contra de las normativas.

Como ya se ha mencionado, la sostenibilidad forma parte de nuestro mandato incluso a nivel de investigación, y los resultados hablan por sí solos. Cuando se combina con una arquitectura de hardware eficiente y un enfoque en centros de datos con bajas emisiones de carbono, nuestra estrategia de modelos pequeños ha ayudado a reducir nuestras emisiones relacionadas con la IA en un 68,8%, evitando 105 toneladas equivalentes de dióxido de carbono en comparación con la media global.

Trust

Por último, uno de los beneficios más sutiles pero más importantes de los modelos pequeños coincide con nuestro valor central en Salesforce: la confianza. Pero la confianza es un objetivo; conseguirla en la práctica requiere medidas tangibles, la primera y más importante de las cuales es la transparencia. Aquí, los modelos pequeños realmente brillan. Como ya se ha mencionado, su reducido tamaño permite evaluar sus datos de entrenamiento de forma más clara y exhaustiva, lo que facilita más que nunca garantizar que se introducen en ellos contenidos, ideas y patrones deseables, lo que contribuye en gran medida a mejorar la calidad y la seguridad de los resultados. Además, dado que el número de parámetros es menor, también se reduce la posibilidad de que surjan capacidades o comportamientos imprevistos.

Los conjuntos de datos más pequeños también facilitan y hacen más eficiente la documentación del proceso de formación que se utilizó en el modelo, una medida de transparencia cada vez más importante a medida que el papel de los LLM crece para incluir aplicaciones de misión crítica que no sólo requieren fiabilidad, sino también rendición de cuentas, tanto por adelantado como a posteriori. Así es como nos aseguramos de que nuestros modelos cumplen las expectativas de grupos como el Centro de Investigación sobre Modelos de Fundamentos de Stanford, cuyo Informe sobre el Índice de Modelos de Fundamentos, publicado recientemente, ha contribuido a situar la cuestión de la transparencia de los modelos en el primer plano de la conversación.

Medidas como el ajuste fino también pueden ser más eficaces, dado que tienen una red neuronal más pequeña sobre la que influir, lo que potencia los esfuerzos por controlar la producción y animar al modelo a seguir las reglas. En este sentido, los modelos pequeños se asemejan más a un experto muy especializado en una sola tarea o conjunto de tareas que a un generalista que recibe peticiones de todas partes. Pueden desempeñar un papel más disciplinado y predecible, trabajando en un espacio más comprensible para desarrolladores y administradores. A medida que la IA empresarial crece para respaldar cada vez más operaciones de una empresa -por no hablar de su reputación-, no se puede exagerar el valor de esta virtud.

Conclusión

Creo que la IA generativa está entrando en una segunda fase más inteligente, habitual en la evolución de la tecnología: tras un surgimiento explosivo en el que las capacidades evolucionan rápidamente y se favorece el camino más corto hacia el éxito, estamos reevaluando nuestra estrategia en favor de algo más matizado. Los primeros días de los LLM -una frase graciosa si tenemos en cuenta que todo esto es todavía, innegablemente, pronto- nos han mostrado lo poderosa que puede ser esta tecnología. Pero ha llegado el momento de encontrar nuevos caminos para alcanzar ese poder con menos gastos, más eficiencia y un mayor énfasis en valores como la confianza y la claridad. Es poco probable que los modelos más pequeños capturen la imaginación del público como lo han hecho los grandes, pero para aquellos de nosotros que buscamos resolver problemas reales -del tipo que abarcan continentes y afectan a millones de personas, si no miles de millones- están remodelando rápidamente el panorama, y apuntan a un futuro más inclusivo para la IA en el que todos puedan beneficiarse.

Leer más de Silvio

Un agradecimiento especial a Alex Michael y Shafiq Rayhan Joty por sus contribuciones a la redacción de este artículo.

La IA está cambiando rápidamente el panorama