SFR-Embedding-Mistral: Mejora de la recuperaci贸n de textos con aprendizaje por transferencia

El SFR-Embedding-Mistral supone un avance significativo en los modelos de incrustaci贸n de textos y se basa en los s贸lidos cimientos de E5-mistral-7b-instruct y Mistral-7B-v0.1.

Seguir leyendo

BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models (Capacidad de generaci贸n de im谩genes personalizadas de disparo cero en modelos de difusi贸n preentrenados)

Presentamos una arquitectura novedosa, BootPIG, que permite la generaci贸n de im谩genes personalizadas sin necesidad de ajuste fino en tiempo de prueba.

Seguir leyendo

Adaptar los modelos de difusi贸n a las preferencias humanas

TLDR

El aprendizaje a partir de preferencias humanas, concretamente el Aprendizaje por Refuerzo a partir de la Retroalimentaci贸n Humana (RLHF) ha sido un componente reciente clave en el desarrollo de grandes modelos ling眉铆sticos como ChatGPT o Llama2. Hasta hace poco, el impacto del entrenamiento a partir de la retroalimentaci贸n humana en los modelos texto-imagen era mucho m谩s limitado. En este trabajo, Diffusion-DPO,

Seguir leyendo

Modelado de secuencias largas con XGen: Un LLM de 7B entrenado con secuencias de entrada de 8K de longitud

TLDR

Entrenamos una serie de LLMs 7B llamados XGen-7B con atenci贸n densa est谩ndar hasta 8K de longitud de secuencia para hasta 1.5T tokens. Tambi茅n afinamos los modelos en datos de instrucci贸n de dominio p煤blico. Los principales resultados son:

  • En pruebas de PNL est谩ndar, XGen consigue resultados comparables o mejores
Seguir leyendo

CodeGen2.5: peque帽o, pero poderoso

Contribuci贸n equitativa entre Erik Nijkamp y Hiroaki Hayashi.

Paper
Code
Tweet

Abstract

La familia de modelos CodeGen de Salesforce crece con CodeGen2.5 – 隆un modelo peque帽o, pero poderoso! Mientras que ha habido una tendencia reciente de grandes modelos de lenguaje (LLM) de tama帽o cada vez mayor, mostramos que un modelo peque帽o

CodeGen2.5 – peque帽o pero poderoso

Seguir leyendo

PyRCA: Facilitar el an谩lisis de causa ra铆z en AIOps

TL;DR:PyRCA es una biblioteca de aprendizaje autom谩tico de c贸digo abierto dise帽ada espec铆ficamente para realizar an谩lisis de causa ra铆z (RCA) en operaciones de TI. Ofrece un marco integral que permite a los usuarios identificar f谩cilmente las dependencias causales m茅tricas complicadas y localizar autom谩ticamente las causas ra铆z de los incidentes. La biblioteca proporciona una interfaz unificada

Seguir leyendo

Prototipos XGen-Image-1

TLDR

Los m茅todos de IA generativa para la generaci贸n de im谩genes tienen una amplia variedad de aplicaciones potenciales en marketing, ventas y comercio electr贸nico. Con estas aplicaciones en mente, el equipo de Salesforce Research ha desarrollado varias t茅cnicas basadas en modelos de difusi贸n de generaci贸n de im谩genes, incluyendo m茅todos para la edici贸n de im谩genes, gu铆a mejorada de clasificadores y m茅todos mejorados de generaci贸n controlada

Seguir leyendo

El c贸digo abierto y el futuro de la IA empresarial

Introducci贸n

El c贸digo abierto se ha convertido en uno de los temas m谩s candentes de la IA, y la fanfarria es bien merecida. La comunidad de c贸digo abierto mantiene un ritmo 谩gil con el estado de la t茅cnica, ofreciendo modelos cada vez mayores y m谩s capaces que a menudo compiten de forma impresionante con sus hom贸logos comerciales. Es una 茅poca apasionante

Seguir leyendo

El poder cada vez mayor de los modelos peque帽os

La reciente cobertura medi谩tica de la IA ha seguido un patr贸n familiar: se lanza un nuevo modelo masivo, que se da a conocer a los beta testers y, finalmente, al p煤blico, pero apenas pasan uno o dos meses antes de que empiecen a surgir rumores sobre el modelo a煤n mayor que supuestamente se est谩 formando para sustituirlo.

La IA se ha convertido en una de las tecnolog铆as m谩s populares del mundo

Seguir leyendo

GlueGen: Codificadores multimodales Plug and Play para la generaci贸n de im谩genes X a X

Otros autores son: Can Qin, Stefano Ermon, Yun Fu

GlueGen fue aceptado por el ICCV.

En el campo de la s铆ntesis de texto a imagen, que avanza con rapidez, los notables progresos en la generaci贸n de im谩genes realistas a partir de indicaciones textuales han sido evidentes. Sin embargo, sigue existiendo un reto importante: 驴c贸mo podemos integrar a la perfecci贸n potentes codificadores de texto preentrenados en

sistemas de s铆ntesis de texto a imagen?

Seguir leyendo

12 d铆as de contenido de la Oficina de 脡tica y Derechos Humanos de Salesforce

Hace casi 5 a帽os, se inaugur贸 la Oficina de Uso 脡tico y Humano, con el objetivo de lograr la excelencia 茅tica de los productos de Salesforce. Lo celebramos publicando 12 d铆as de nuestro mejor contenido sobre uso 茅tico.

Seguir leyendo

Uso de modelos ling眉铆sticos para dise帽ar anticuerpos contra enfermedades autoinmunes

TL;DR: Adaptamos nuestro modelo de lenguaje de prote铆nas ProGen para optimizar anticuerpos que se unen a una prote铆na llamada “CD40L”, un objetivo cr铆tico para los trastornos autoinmunes. Probamos nuestros anticuerpos dise帽ados con IA en el laboratorio y descubrimos que se un铆an muy estrechamente a CD40L, lo que demuestra el potencial de este modelo

Seguir leyendo

隆Estamos contratando! Funciones de IA de confianza en Salesforce

Conozca la Oficina de uso 茅tico y humano

La Oficina de uso 茅tico y humano de Salesforce proporciona una gu铆a de navegaci贸n para las preguntas dif铆ciles que surgen cuando el potencial humano se encuentra con la tecnolog铆a emergente. Trabajamos en toda la empresa para guiar el dise帽o, el desarrollo y la implantaci贸n de productos fiables, con un fuerte

enfoque en la 茅tica y el uso humano

Seguir leyendo

Investigaci贸n de Salesforce en NeurIPS 2023

Resumen de la conferencia

La semana que viene se celebrar谩 en Nueva Orleans, Luisiana, la trig茅simo s茅ptima Conferencia anual sobre Sistemas de Procesamiento de Informaci贸n Neuronal (NeurIPS), del domingo 10 al s谩bado 16 de diciembre. NeurIPS incluir谩 charlas invitadas, demostraciones y presentaciones orales y en p贸ster de los trabajos aceptados. NeurIPS 2023 se celebrar谩 de nuevo en el

Sede de la Universidad de Nueva Orleans

Seguir leyendo

CodeChain: Hacia la generaci贸n de c贸digo modular mediante una cadena de autorrevisiones y subm贸dulos representativos

TL;DR: Con CodeChain, un gran modelo de lenguaje (LLM) preentrenado puede resolver problemas de codificaci贸n desafiantes integrando la modularidad en muestras de generaci贸n y auto-mejorarse empleando una cadena de auto-revisiones en subm贸dulos representativos. CodeChain puede lograr resultados de vanguardia tanto con los modelos GPT de OpenAI como con los LLM de c贸digo abierto en pruebas de codificaci贸n exigentes como

Seguir leyendo

De copiloto a coorganizador

Introducci贸n

En los 煤ltimos meses he escrito mucho sobre lo que yo llamo Large Action Models, o LAMs, una variaci贸n m谩s activa y aut贸noma de los LLMs que no se limitan a generar contenido como texto o im谩genes, sino que realizan tareas completas e incluso participan en flujos de trabajo, ya sea junto a personas

Seguir leyendo

UniControl

UniControl es aceptado en NeurIPS’23.
驴Es posible que un 煤nico modelo domine el arte de crear im谩genes a partir de bocetos, mapas, diagramas y mucho m谩s? Aunque los generadores de texto a imagen basados en la difusi贸n, como DALL-E-3, han mostrado resultados notables a partir de instrucciones en lenguaje natural, lograr un control preciso de los dise帽os, los l铆mites y la geometr铆a sigue siendo un reto utilizando s贸lo descripciones de texto. Ahora, los investigadores han desarrollado UniControl, un modelo unificado capaz de manejar diversas condiciones visuales que van desde los bordes hasta los mapas de profundidad dentro de un marco unificado.

Background

La s铆ntesis de texto a imagen (T2I) se ha disparado recientemente gracias a los avances en modelos generativos profundos. Sistemas como DALL-E 2, Imagen y Stable Diffusion pueden generar ahora im谩genes de gran realismo fotogr谩fico controlables mediante instrucciones de lenguaje natural. Estos avances se basan en modelos de difusi贸n que han demostrado ser extremadamente eficaces para la generaci贸n de texto a imagen.

Sin embargo, el control mediante indicaciones de texto apenas es preciso para los atributos espaciales, estructurales y geom茅tricos. Por ejemplo, pedir 芦a帽adir un gran cubo morado禄 depende de la comprensi贸n impl铆citamente aprendida del modelo sobre la geometr铆a 3D. Enfoques recientes como ControlNet han introducido el condicionamiento a se帽ales visuales adicionales, como mapas de segmentaci贸n o detecciones de bordes. Esto permite un control expl铆cito de las regiones de la imagen, los l铆mites, la ubicaci贸n de los objetos, etc.

Pero cada modelo ControlNet s贸lo maneja una condici贸n visual espec铆fica, como los bordes o los mapas de profundidad. Para ampliar las capacidades es necesario un reentrenamiento exhaustivo. La compatibilidad con diversas entradas controlables requiere el desarrollo de modelos especializados para cada tarea. Esto sobrecarga los par谩metros, limita el intercambio de conocimientos y dificulta la adaptaci贸n entre modalidades o la generalizaci贸n fuera del dominio.

Motivaci贸n

Existe una necesidad acuciante de modelos unificados que puedan manejar diversas condiciones visuales para la generaci贸n controlable. La consolidaci贸n de las capacidades en un 煤nico modelo mejorar铆a enormemente la eficiencia de la formaci贸n y el despliegue sin necesidad de m煤ltiples modelos espec铆ficos para cada tarea. Tambi茅n permite explotar las relaciones entre condiciones, como la profundidad y la segmentaci贸n, para mejorar la calidad de la generaci贸n.

Por ejemplo, la estimaci贸n de la profundidad depende en gran medida de la comprensi贸n de la segmentaci贸n sem谩ntica y el dise帽o global de la escena. Un modelo unificado puede aprovechar mejor estas relaciones en comparaci贸n con los modelos de tareas aisladas. Adem谩s, a帽adir nuevas modalidades a modelos individuales conlleva un reentrenamiento masivo, mientras que un enfoque consolidado podr铆a generalizarse sin problemas.

El principal reto consiste en superar el desajuste entre diversas condiciones como bordes, poses, mapas, etc. Cada una de ellas requiere operaciones especializadas en funci贸n de sus caracter铆sticas. Mezclar trivialmente diversas entradas en un modelo falla debido a este desajuste de caracter铆sticas. El objetivo es desarrollar una arquitectura unificada que generalice las tareas y adapte sus componentes condicionantes. Y lo que es m谩s importante, esto debe lograrse sin necesidad de un reentrenamiento exhaustivo cada vez que se ampl铆en las capacidades.

Methods

El UniControl propuesto introduce dos nuevos componentes para permitir la generaci贸n unificada controlable multitarea:

1. Adaptadores de Mezcla de Expertos. Adaptadores de mezcla de expertos: M贸dulos convolucionales paralelos, uno por tarea, que se adaptan a las caracter铆sticas visuales de cada condici贸n.

2. Task-Aware HyperNetwork: Modula din谩micamente los n煤cleos de convoluci贸n de un modelo base en funci贸n de las instrucciones de la tarea.

UniControl se ha entrenado en doce tareas distintas que abarcan bordes, regiones, mapas y mucho m谩s. La arquitectura general del modelo se mantiene constante en todas las tareas, mientras que los componentes de acondicionamiento se especializan.

Adaptadores-mezcla-de-expertos

Los adaptadores proporcionan v铆as espec铆ficas para que cada tarea procese sus caracter铆sticas visuales de forma adecuada. De este modo se supera el desajuste entre diversas condiciones que necesitan un tratamiento especializado.

Por ejemplo, una ruta de mapa de segmentaci贸n se centra m谩s en las relaciones sem谩nticas espaciales que en la geometr铆a 3D. Por el contrario, un adaptador de profundidad har谩 hincapi茅 en la disposici贸n global y las orientaciones de las superficies. Con adaptadores separados por tarea, UniControl puede extraer representaciones matizadas adaptadas a cada tipo de entrada.

Esta modularizaci贸n imita una mezcla de expertos. Cada adaptador act煤a como un 芦experto禄 especializado para su tarea. Las v铆as paralelas evitan los objetivos contradictorios que surgir铆an de un manejo enredado de todas las condiciones. El modelo compone din谩micamente las salidas de los adaptadores relevantes en funci贸n de la tarea de entrada.

Hiperred consciente de la tarea

La hiperred permite la modulaci贸n din谩mica de UniControl en funci贸n de la tarea especificada. Introduce instrucciones como 芦mapa de profundidad a imagen禄 y emite vectores de incrustaci贸n. Estas incrustaciones pueden especializar el modelo modulando sus n煤cleos de convoluci贸n en funci贸n de la tarea.

Por ejemplo, el condicionamiento de la profundidad puede modular las primeras capas para centrarse m谩s en el dise帽o global y la geometr铆a. Mientras tanto, la adaptaci贸n de los bordes puede enfatizar los detalles de mayor frecuencia en las etapas posteriores. La hiperred permite a UniControl aprender la comprensi贸n y el procesamiento especializados de cada tarea y, al condicionar las instrucciones, tambi茅n permite la generalizaci贸n a nuevas tareas en el momento de la prueba. Las relaciones aprendidas durante el entrenamiento multitarea permiten una modulaci贸n sensible incluso para tareas desconocidas. La composici贸n de incrustaciones de tareas conocidas relacionadas facilita la transferencia sin disparos.

Experimentos

UniControl se entren贸 en un conjunto de datos MultiGen-20M con m谩s de 20 millones de tripletas imagen-texto-condici贸n. Los principales resultados demostraron:

  • Supera a ControlNets de una sola tarea en la mayor铆a de las tareas, benefici谩ndose del entrenamiento conjunto. El dise帽o unificado mejora la eficiencia.
  • Se generaliza a tareas h铆bridas no vistas como profundidad+pose sin reentrenamiento mediante la composici贸n de adaptadores.
  • UniControl mantiene 1,4B par谩metros mientras que un conjunto de modelos de una sola tarea (es decir, Multi-ControlNet) requerir铆a m谩s de 4B par谩metros.
  • La transferencia de cero disparos a nuevas tareas como la coloraci贸n y el inpainting se consigue mezclando adaptadores de tareas relacionadas.
Comparaci贸n visual entre la ControlNet oficial o reimplementada para tareas espec铆ficas y nuestro modelo propuesto.
(a)-(b): Ejemplos de resultados de UniControl sobre condiciones h铆bridas (combinaci贸n no vista) con las palabras clave 芦fondo禄 y 芦primer plano禄 adjuntas en los avisos. (c)-(e): Ejemplos de resultados de UniControl en tres tareas no visibles (desdibujado, coloreado, repintado).

Demostraci贸n en v铆deo

Explore More

arXiv: https://arxiv.org/abs/2305.11147
C贸digo: https://github.com/salesforce/UniControl
Web: https://canqin001.github.io/UniControl-Page/
HF Space: https://huggingface.co/spaces/Robert001/UniControl-Demo
Contacto: cqin@salesforce.com

BannerGen: Biblioteca para la generaci贸n de pancartas multimodales

Antecedentes

Los dise帽os de maquetaci贸n gr谩fica son la base de la comunicaci贸n entre los dise帽adores de medios y su p煤blico objetivo. Desempe帽an un papel fundamental en la organizaci贸n de diversos elementos visuales, como texto renderizado, logotipos, im谩genes de productos, llamadas a la acci贸n (como botones) y texturas/im谩genes de fondo. La disposici贸n de estos elementos es el

protagonismo de la comunicaci贸n

Seguir leyendo

5 formas de identificar y promover sus habilidades militares transferibles en el ecosistema de Salesforce

De la Polic铆a Militar Real Brit谩nica al ganador de la sudadera con capucha dorada: descubra c贸mo el Trailblazer Jonathan Fox consigui贸 el trabajo de sus sue帽os en tecnolog铆a y ayud贸 a otros veteranos y c贸nyuges de militares a desarrollar su potencial dentro de la Comunidad Trailblazer.

Seguir leyendo

C贸mo la IA y la automatizaci贸n crean magia proactiva para el servicio al cliente

As铆 es como las empresas inteligentes utilizan la automatizaci贸n para transformar el servicio al cliente de una tarea reactiva a una fuerza proactiva que mejora la experiencia del cliente.

Seguir leyendo

4 formas de generar confianza en el equipo en inteligencia artificial (IA)

Utilice estas mejores pr谩cticas para ayudar a sus equipos a transformar y confiar en la tecnolog铆a de IA con nuevas habilidades y confianza.

Seguir leyendo

C贸mo los asesores financieros pueden utilizar la inteligencia artificial para encontrar nuevos clientes m谩s r谩pido

驴No m谩s reuniones cara a cara? Encuentre conexiones, obtenga la informaci贸n correcta e inicie conversaciones importantes.

Seguir leyendo

32 citas inspiradoras sobre la inteligencia artificial

Lea citas sobre inteligencia artificial (IA) de algunos de los expertos m谩s destacados de la industria. Insp铆rese con sus pensamientos sobre tecnolog铆as emergentes, IA imparcial y el futuro del trabajo.

Seguir leyendo

Capacite a los agentes para que trabajen de manera efectiva desde cualquier lugar con voz digital

A medida que m谩s agentes de servicio al cliente trabajan de forma remota, los gerentes necesitan nuevas herramientas para medir, orientar y equipar a sus equipos para el 茅xito.

Seguir leyendo