CodeGen2.5: pequeño, pero poderoso

Contribución equitativa entre Erik Nijkamp y Hiroaki Hayashi.

Paper
Code
Tweet

Abstract

La familia de modelos CodeGen de Salesforce crece con CodeGen2.5 – ¡un modelo pequeño, pero poderoso! Mientras que ha habido una tendencia reciente de grandes modelos de lenguaje (LLM) de tamaño cada vez mayor, mostramos que un modelo pequeño

CodeGen2.5 – pequeño pero poderoso

Seguir leyendo

PyRCA: Facilitar el análisis de causa raíz en AIOps

TL;DR:PyRCA es una biblioteca de aprendizaje automático de código abierto diseñada específicamente para realizar análisis de causa raíz (RCA) en operaciones de TI. Ofrece un marco integral que permite a los usuarios identificar fácilmente las dependencias causales métricas complicadas y localizar automáticamente las causas raíz de los incidentes. La biblioteca proporciona una interfaz unificada

Seguir leyendo

Prototipos XGen-Image-1

TLDR

Los métodos de IA generativa para la generación de imágenes tienen una amplia variedad de aplicaciones potenciales en marketing, ventas y comercio electrónico. Con estas aplicaciones en mente, el equipo de Salesforce Research ha desarrollado varias técnicas basadas en modelos de difusión de generación de imágenes, incluyendo métodos para la edición de imágenes, guía mejorada de clasificadores y métodos mejorados de generación controlada

Seguir leyendo

El código abierto y el futuro de la IA empresarial

Introducción

El código abierto se ha convertido en uno de los temas más candentes de la IA, y la fanfarria es bien merecida. La comunidad de código abierto mantiene un ritmo ágil con el estado de la técnica, ofreciendo modelos cada vez mayores y más capaces que a menudo compiten de forma impresionante con sus homólogos comerciales. Es una época apasionante

Seguir leyendo

El poder cada vez mayor de los modelos pequeños

La reciente cobertura mediática de la IA ha seguido un patrón familiar: se lanza un nuevo modelo masivo, que se da a conocer a los beta testers y, finalmente, al público, pero apenas pasan uno o dos meses antes de que empiecen a surgir rumores sobre el modelo aún mayor que supuestamente se está formando para sustituirlo.

La IA se ha convertido en una de las tecnologías más populares del mundo

Seguir leyendo

GlueGen: Codificadores multimodales Plug and Play para la generación de imágenes X a X

Otros autores son: Can Qin, Stefano Ermon, Yun Fu

GlueGen fue aceptado por el ICCV.

En el campo de la síntesis de texto a imagen, que avanza con rapidez, los notables progresos en la generación de imágenes realistas a partir de indicaciones textuales han sido evidentes. Sin embargo, sigue existiendo un reto importante: ¿cómo podemos integrar a la perfección potentes codificadores de texto preentrenados en

sistemas de síntesis de texto a imagen?

Seguir leyendo

12 días de contenido de la Oficina de Ética y Derechos Humanos de Salesforce

Hace casi 5 años, se inauguró la Oficina de Uso Ético y Humano, con el objetivo de lograr la excelencia ética de los productos de Salesforce. Lo celebramos publicando 12 días de nuestro mejor contenido sobre uso ético.

Seguir leyendo

Uso de modelos lingüísticos para diseñar anticuerpos contra enfermedades autoinmunes

TL;DR: Adaptamos nuestro modelo de lenguaje de proteínas ProGen para optimizar anticuerpos que se unen a una proteína llamada “CD40L”, un objetivo crítico para los trastornos autoinmunes. Probamos nuestros anticuerpos diseñados con IA en el laboratorio y descubrimos que se unían muy estrechamente a CD40L, lo que demuestra el potencial de este modelo

Seguir leyendo

¡Estamos contratando! Funciones de IA de confianza en Salesforce

Conozca la Oficina de uso ético y humano

La Oficina de uso ético y humano de Salesforce proporciona una guía de navegación para las preguntas difíciles que surgen cuando el potencial humano se encuentra con la tecnología emergente. Trabajamos en toda la empresa para guiar el diseño, el desarrollo y la implantación de productos fiables, con un fuerte

enfoque en la ética y el uso humano

Seguir leyendo

Investigación de Salesforce en NeurIPS 2023

Resumen de la conferencia

La semana que viene se celebrará en Nueva Orleans, Luisiana, la trigésimo séptima Conferencia anual sobre Sistemas de Procesamiento de Información Neuronal (NeurIPS), del domingo 10 al sábado 16 de diciembre. NeurIPS incluirá charlas invitadas, demostraciones y presentaciones orales y en póster de los trabajos aceptados. NeurIPS 2023 se celebrará de nuevo en el

Sede de la Universidad de Nueva Orleans

Seguir leyendo

CodeChain: Hacia la generación de código modular mediante una cadena de autorrevisiones y submódulos representativos

TL;DR: Con CodeChain, un gran modelo de lenguaje (LLM) preentrenado puede resolver problemas de codificación desafiantes integrando la modularidad en muestras de generación y auto-mejorarse empleando una cadena de auto-revisiones en submódulos representativos. CodeChain puede lograr resultados de vanguardia tanto con los modelos GPT de OpenAI como con los LLM de código abierto en pruebas de codificación exigentes como

Seguir leyendo

De copiloto a coorganizador

Introducción

En los últimos meses he escrito mucho sobre lo que yo llamo Large Action Models, o LAMs, una variación más activa y autónoma de los LLMs que no se limitan a generar contenido como texto o imágenes, sino que realizan tareas completas e incluso participan en flujos de trabajo, ya sea junto a personas

Seguir leyendo

UniControl

UniControl es aceptado en NeurIPS’23.
¿Es posible que un único modelo domine el arte de crear imágenes a partir de bocetos, mapas, diagramas y mucho más? Aunque los generadores de texto a imagen basados en la difusión, como DALL-E-3, han mostrado resultados notables a partir de instrucciones en lenguaje natural, lograr un control preciso de los diseños, los límites y la geometría sigue siendo un reto utilizando sólo descripciones de texto. Ahora, los investigadores han desarrollado UniControl, un modelo unificado capaz de manejar diversas condiciones visuales que van desde los bordes hasta los mapas de profundidad dentro de un marco unificado.

Background

La síntesis de texto a imagen (T2I) se ha disparado recientemente gracias a los avances en modelos generativos profundos. Sistemas como DALL-E 2, Imagen y Stable Diffusion pueden generar ahora imágenes de gran realismo fotográfico controlables mediante instrucciones de lenguaje natural. Estos avances se basan en modelos de difusión que han demostrado ser extremadamente eficaces para la generación de texto a imagen.

Sin embargo, el control mediante indicaciones de texto apenas es preciso para los atributos espaciales, estructurales y geométricos. Por ejemplo, pedir «añadir un gran cubo morado» depende de la comprensión implícitamente aprendida del modelo sobre la geometría 3D. Enfoques recientes como ControlNet han introducido el condicionamiento a señales visuales adicionales, como mapas de segmentación o detecciones de bordes. Esto permite un control explícito de las regiones de la imagen, los límites, la ubicación de los objetos, etc.

Pero cada modelo ControlNet sólo maneja una condición visual específica, como los bordes o los mapas de profundidad. Para ampliar las capacidades es necesario un reentrenamiento exhaustivo. La compatibilidad con diversas entradas controlables requiere el desarrollo de modelos especializados para cada tarea. Esto sobrecarga los parámetros, limita el intercambio de conocimientos y dificulta la adaptación entre modalidades o la generalización fuera del dominio.

Motivación

Existe una necesidad acuciante de modelos unificados que puedan manejar diversas condiciones visuales para la generación controlable. La consolidación de las capacidades en un único modelo mejoraría enormemente la eficiencia de la formación y el despliegue sin necesidad de múltiples modelos específicos para cada tarea. También permite explotar las relaciones entre condiciones, como la profundidad y la segmentación, para mejorar la calidad de la generación.

Por ejemplo, la estimación de la profundidad depende en gran medida de la comprensión de la segmentación semántica y el diseño global de la escena. Un modelo unificado puede aprovechar mejor estas relaciones en comparación con los modelos de tareas aisladas. Además, añadir nuevas modalidades a modelos individuales conlleva un reentrenamiento masivo, mientras que un enfoque consolidado podría generalizarse sin problemas.

El principal reto consiste en superar el desajuste entre diversas condiciones como bordes, poses, mapas, etc. Cada una de ellas requiere operaciones especializadas en función de sus características. Mezclar trivialmente diversas entradas en un modelo falla debido a este desajuste de características. El objetivo es desarrollar una arquitectura unificada que generalice las tareas y adapte sus componentes condicionantes. Y lo que es más importante, esto debe lograrse sin necesidad de un reentrenamiento exhaustivo cada vez que se amplíen las capacidades.

Methods

El UniControl propuesto introduce dos nuevos componentes para permitir la generación unificada controlable multitarea:

1. Adaptadores de Mezcla de Expertos. Adaptadores de mezcla de expertos: Módulos convolucionales paralelos, uno por tarea, que se adaptan a las características visuales de cada condición.

2. Task-Aware HyperNetwork: Modula dinámicamente los núcleos de convolución de un modelo base en función de las instrucciones de la tarea.

UniControl se ha entrenado en doce tareas distintas que abarcan bordes, regiones, mapas y mucho más. La arquitectura general del modelo se mantiene constante en todas las tareas, mientras que los componentes de acondicionamiento se especializan.

Adaptadores-mezcla-de-expertos

Los adaptadores proporcionan vías específicas para que cada tarea procese sus características visuales de forma adecuada. De este modo se supera el desajuste entre diversas condiciones que necesitan un tratamiento especializado.

Por ejemplo, una ruta de mapa de segmentación se centra más en las relaciones semánticas espaciales que en la geometría 3D. Por el contrario, un adaptador de profundidad hará hincapié en la disposición global y las orientaciones de las superficies. Con adaptadores separados por tarea, UniControl puede extraer representaciones matizadas adaptadas a cada tipo de entrada.

Esta modularización imita una mezcla de expertos. Cada adaptador actúa como un «experto» especializado para su tarea. Las vías paralelas evitan los objetivos contradictorios que surgirían de un manejo enredado de todas las condiciones. El modelo compone dinámicamente las salidas de los adaptadores relevantes en función de la tarea de entrada.

Hiperred consciente de la tarea

La hiperred permite la modulación dinámica de UniControl en función de la tarea especificada. Introduce instrucciones como «mapa de profundidad a imagen» y emite vectores de incrustación. Estas incrustaciones pueden especializar el modelo modulando sus núcleos de convolución en función de la tarea.

Por ejemplo, el condicionamiento de la profundidad puede modular las primeras capas para centrarse más en el diseño global y la geometría. Mientras tanto, la adaptación de los bordes puede enfatizar los detalles de mayor frecuencia en las etapas posteriores. La hiperred permite a UniControl aprender la comprensión y el procesamiento especializados de cada tarea y, al condicionar las instrucciones, también permite la generalización a nuevas tareas en el momento de la prueba. Las relaciones aprendidas durante el entrenamiento multitarea permiten una modulación sensible incluso para tareas desconocidas. La composición de incrustaciones de tareas conocidas relacionadas facilita la transferencia sin disparos.

Experimentos

UniControl se entrenó en un conjunto de datos MultiGen-20M con más de 20 millones de tripletas imagen-texto-condición. Los principales resultados demostraron:

  • Supera a ControlNets de una sola tarea en la mayoría de las tareas, beneficiándose del entrenamiento conjunto. El diseño unificado mejora la eficiencia.
  • Se generaliza a tareas híbridas no vistas como profundidad+pose sin reentrenamiento mediante la composición de adaptadores.
  • UniControl mantiene 1,4B parámetros mientras que un conjunto de modelos de una sola tarea (es decir, Multi-ControlNet) requeriría más de 4B parámetros.
  • La transferencia de cero disparos a nuevas tareas como la coloración y el inpainting se consigue mezclando adaptadores de tareas relacionadas.
Comparación visual entre la ControlNet oficial o reimplementada para tareas específicas y nuestro modelo propuesto.
(a)-(b): Ejemplos de resultados de UniControl sobre condiciones híbridas (combinación no vista) con las palabras clave «fondo» y «primer plano» adjuntas en los avisos. (c)-(e): Ejemplos de resultados de UniControl en tres tareas no visibles (desdibujado, coloreado, repintado).

Demostración en vídeo

Explore More

arXiv: https://arxiv.org/abs/2305.11147
Código: https://github.com/salesforce/UniControl
Web: https://canqin001.github.io/UniControl-Page/
HF Space: https://huggingface.co/spaces/Robert001/UniControl-Demo
Contacto: cqin@salesforce.com

BannerGen: Biblioteca para la generación de pancartas multimodales

Antecedentes

Los diseños de maquetación gráfica son la base de la comunicación entre los diseñadores de medios y su público objetivo. Desempeñan un papel fundamental en la organización de diversos elementos visuales, como texto renderizado, logotipos, imágenes de productos, llamadas a la acción (como botones) y texturas/imágenes de fondo. La disposición de estos elementos es el

protagonismo de la comunicación

Seguir leyendo

5 formas de identificar y promover sus habilidades militares transferibles en el ecosistema de Salesforce

De la Policía Militar Real Británica al ganador de la sudadera con capucha dorada: descubra cómo el Trailblazer Jonathan Fox consiguió el trabajo de sus sueños en tecnología y ayudó a otros veteranos y cónyuges de militares a desarrollar su potencial dentro de la Comunidad Trailblazer.

Seguir leyendo

Cómo la IA y la automatización crean magia proactiva para el servicio al cliente

Así es como las empresas inteligentes utilizan la automatización para transformar el servicio al cliente de una tarea reactiva a una fuerza proactiva que mejora la experiencia del cliente.

Seguir leyendo

4 formas de generar confianza en el equipo en inteligencia artificial (IA)

Utilice estas mejores prácticas para ayudar a sus equipos a transformar y confiar en la tecnología de IA con nuevas habilidades y confianza.

Seguir leyendo

Cómo los asesores financieros pueden utilizar la inteligencia artificial para encontrar nuevos clientes más rápido

¿No más reuniones cara a cara? Encuentre conexiones, obtenga la información correcta e inicie conversaciones importantes.

Seguir leyendo

32 citas inspiradoras sobre la inteligencia artificial

Lea citas sobre inteligencia artificial (IA) de algunos de los expertos más destacados de la industria. Inspírese con sus pensamientos sobre tecnologías emergentes, IA imparcial y el futuro del trabajo.

Seguir leyendo

Capacite a los agentes para que trabajen de manera efectiva desde cualquier lugar con voz digital

A medida que más agentes de servicio al cliente trabajan de forma remota, los gerentes necesitan nuevas herramientas para medir, orientar y equipar a sus equipos para el éxito.

Seguir leyendo

Qué significa un futuro sin cookies para el marketing basado en datos

Consulte las nuevas estrategias de marketing basadas en datos para la personalización y medición a medida que los navegadores eliminan gradualmente las cookies de terceros.

Seguir leyendo

5 veces el gasto, 2 veces el compromiso: por qué la comercialización minorista de inteligencia artificial es esencial para las fiestas

Las recomendaciones de productos de IA ayudan a aumentar los ingresos y el compromiso, y facilitan una experiencia de cliente más agradable. Agregar inteligencia artificial a su pila de comercio es un regalo para todos.

Seguir leyendo

Por qué la IA es el mejor amigo de un comerciante

Con el cambio a un mundo digital primero, un enfoque comercial centrado en el cliente se ha vuelto esencial. La IA puede ayudar.

Seguir leyendo