El SFR-Embedding-Mistral supone un avance significativo en los modelos de incrustaci贸n de textos y se basa en los s贸lidos cimientos de E5-mistral-7b-instruct y Mistral-7B-v0.1.
Seguir leyendoBootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models (Capacidad de generaci贸n de im谩genes personalizadas de disparo cero en modelos de difusi贸n preentrenados)
Presentamos una arquitectura novedosa, BootPIG, que permite la generaci贸n de im谩genes personalizadas sin necesidad de ajuste fino en tiempo de prueba.
Seguir leyendoAdaptar los modelos de difusi贸n a las preferencias humanas
TLDR
El aprendizaje a partir de preferencias humanas, concretamente el Aprendizaje por Refuerzo a partir de la Retroalimentaci贸n Humana (RLHF) ha sido un componente reciente clave en el desarrollo de grandes modelos ling眉铆sticos como ChatGPT o Llama2. Hasta hace poco, el impacto del entrenamiento a partir de la retroalimentaci贸n humana en los modelos texto-imagen era mucho m谩s limitado. En este trabajo, Diffusion-DPO,
Seguir leyendoModelado de secuencias largas con XGen: Un LLM de 7B entrenado con secuencias de entrada de 8K de longitud
TLDR
Entrenamos una serie de LLMs 7B llamados XGen-7B con atenci贸n densa est谩ndar hasta 8K de longitud de secuencia para hasta 1.5T tokens. Tambi茅n afinamos los modelos en datos de instrucci贸n de dominio p煤blico. Los principales resultados son:
- En pruebas de PNL est谩ndar, XGen consigue resultados comparables o mejores
CodeGen2.5: peque帽o, pero poderoso
Contribuci贸n equitativa entre Erik Nijkamp y Hiroaki Hayashi.
Paper
Code
Tweet
Abstract
La familia de modelos CodeGen de Salesforce crece con CodeGen2.5 – 隆un modelo peque帽o, pero poderoso! Mientras que ha habido una tendencia reciente de grandes modelos de lenguaje (LLM) de tama帽o cada vez mayor, mostramos que un modelo peque帽o
CodeGen2.5 – peque帽o pero poderoso
Seguir leyendoPyRCA: Facilitar el an谩lisis de causa ra铆z en AIOps
TL;DR:PyRCA es una biblioteca de aprendizaje autom谩tico de c贸digo abierto dise帽ada espec铆ficamente para realizar an谩lisis de causa ra铆z (RCA) en operaciones de TI. Ofrece un marco integral que permite a los usuarios identificar f谩cilmente las dependencias causales m茅tricas complicadas y localizar autom谩ticamente las causas ra铆z de los incidentes. La biblioteca proporciona una interfaz unificada
Prototipos XGen-Image-1
TLDR
Los m茅todos de IA generativa para la generaci贸n de im谩genes tienen una amplia variedad de aplicaciones potenciales en marketing, ventas y comercio electr贸nico. Con estas aplicaciones en mente, el equipo de Salesforce Research ha desarrollado varias t茅cnicas basadas en modelos de difusi贸n de generaci贸n de im谩genes, incluyendo m茅todos para la edici贸n de im谩genes, gu铆a mejorada de clasificadores y m茅todos mejorados de generaci贸n controlada
El c贸digo abierto y el futuro de la IA empresarial
Introducci贸n
El c贸digo abierto se ha convertido en uno de los temas m谩s candentes de la IA, y la fanfarria es bien merecida. La comunidad de c贸digo abierto mantiene un ritmo 谩gil con el estado de la t茅cnica, ofreciendo modelos cada vez mayores y m谩s capaces que a menudo compiten de forma impresionante con sus hom贸logos comerciales. Es una 茅poca apasionante
Seguir leyendoEl poder cada vez mayor de los modelos peque帽os
La reciente cobertura medi谩tica de la IA ha seguido un patr贸n familiar: se lanza un nuevo modelo masivo, que se da a conocer a los beta testers y, finalmente, al p煤blico, pero apenas pasan uno o dos meses antes de que empiecen a surgir rumores sobre el modelo a煤n mayor que supuestamente se est谩 formando para sustituirlo.
La IA se ha convertido en una de las tecnolog铆as m谩s populares del mundo
Seguir leyendoGlueGen: Codificadores multimodales Plug and Play para la generaci贸n de im谩genes X a X
Otros autores son: Can Qin, Stefano Ermon, Yun Fu
GlueGen fue aceptado por el ICCV.
En el campo de la s铆ntesis de texto a imagen, que avanza con rapidez, los notables progresos en la generaci贸n de im谩genes realistas a partir de indicaciones textuales han sido evidentes. Sin embargo, sigue existiendo un reto importante: 驴c贸mo podemos integrar a la perfecci贸n potentes codificadores de texto preentrenados en
sistemas de s铆ntesis de texto a imagen?
Seguir leyendo12 d铆as de contenido de la Oficina de 脡tica y Derechos Humanos de Salesforce
Hace casi 5 a帽os, se inaugur贸 la Oficina de Uso 脡tico y Humano, con el objetivo de lograr la excelencia 茅tica de los productos de Salesforce. Lo celebramos publicando 12 d铆as de nuestro mejor contenido sobre uso 茅tico.
Seguir leyendoUso de modelos ling眉铆sticos para dise帽ar anticuerpos contra enfermedades autoinmunes
TL;DR: Adaptamos nuestro modelo de lenguaje de prote铆nas ProGen para optimizar anticuerpos que se unen a una prote铆na llamada “CD40L”, un objetivo cr铆tico para los trastornos autoinmunes. Probamos nuestros anticuerpos dise帽ados con IA en el laboratorio y descubrimos que se un铆an muy estrechamente a CD40L, lo que demuestra el potencial de este modelo
Seguir leyendo
隆Estamos contratando! Funciones de IA de confianza en Salesforce
Conozca la Oficina de uso 茅tico y humano
La Oficina de uso 茅tico y humano de Salesforce proporciona una gu铆a de navegaci贸n para las preguntas dif铆ciles que surgen cuando el potencial humano se encuentra con la tecnolog铆a emergente. Trabajamos en toda la empresa para guiar el dise帽o, el desarrollo y la implantaci贸n de productos fiables, con un fuerte
enfoque en la 茅tica y el uso humano
Seguir leyendoInvestigaci贸n de Salesforce en NeurIPS 2023
Resumen de la conferencia
La semana que viene se celebrar谩 en Nueva Orleans, Luisiana, la trig茅simo s茅ptima Conferencia anual sobre Sistemas de Procesamiento de Informaci贸n Neuronal (NeurIPS), del domingo 10 al s谩bado 16 de diciembre. NeurIPS incluir谩 charlas invitadas, demostraciones y presentaciones orales y en p贸ster de los trabajos aceptados. NeurIPS 2023 se celebrar谩 de nuevo en el
Sede de la Universidad de Nueva Orleans
Seguir leyendoCodeChain: Hacia la generaci贸n de c贸digo modular mediante una cadena de autorrevisiones y subm贸dulos representativos
Seguir leyendoTL;DR: Con CodeChain, un gran modelo de lenguaje (LLM) preentrenado puede resolver problemas de codificaci贸n desafiantes integrando la modularidad en muestras de generaci贸n y auto-mejorarse empleando una cadena de auto-revisiones en subm贸dulos representativos. CodeChain puede lograr resultados de vanguardia tanto con los modelos GPT de OpenAI como con los LLM de c贸digo abierto en pruebas de codificaci贸n exigentes como
De copiloto a coorganizador
Introducci贸n
En los 煤ltimos meses he escrito mucho sobre lo que yo llamo Large Action Models, o LAMs, una variaci贸n m谩s activa y aut贸noma de los LLMs que no se limitan a generar contenido como texto o im谩genes, sino que realizan tareas completas e incluso participan en flujos de trabajo, ya sea junto a personas
UniControl
UniControl es aceptado en NeurIPS’23.
驴Es posible que un 煤nico modelo domine el arte de crear im谩genes a partir de bocetos, mapas, diagramas y mucho m谩s? Aunque los generadores de texto a imagen basados en la difusi贸n, como DALL-E-3, han mostrado resultados notables a partir de instrucciones en lenguaje natural, lograr un control preciso de los dise帽os, los l铆mites y la geometr铆a sigue siendo un reto utilizando s贸lo descripciones de texto. Ahora, los investigadores han desarrollado UniControl, un modelo unificado capaz de manejar diversas condiciones visuales que van desde los bordes hasta los mapas de profundidad dentro de un marco unificado.
Background
La s铆ntesis de texto a imagen (T2I) se ha disparado recientemente gracias a los avances en modelos generativos profundos. Sistemas como DALL-E 2, Imagen y Stable Diffusion pueden generar ahora im谩genes de gran realismo fotogr谩fico controlables mediante instrucciones de lenguaje natural. Estos avances se basan en modelos de difusi贸n que han demostrado ser extremadamente eficaces para la generaci贸n de texto a imagen.
Sin embargo, el control mediante indicaciones de texto apenas es preciso para los atributos espaciales, estructurales y geom茅tricos. Por ejemplo, pedir 芦a帽adir un gran cubo morado禄 depende de la comprensi贸n impl铆citamente aprendida del modelo sobre la geometr铆a 3D. Enfoques recientes como ControlNet han introducido el condicionamiento a se帽ales visuales adicionales, como mapas de segmentaci贸n o detecciones de bordes. Esto permite un control expl铆cito de las regiones de la imagen, los l铆mites, la ubicaci贸n de los objetos, etc.
Pero cada modelo ControlNet s贸lo maneja una condici贸n visual espec铆fica, como los bordes o los mapas de profundidad. Para ampliar las capacidades es necesario un reentrenamiento exhaustivo. La compatibilidad con diversas entradas controlables requiere el desarrollo de modelos especializados para cada tarea. Esto sobrecarga los par谩metros, limita el intercambio de conocimientos y dificulta la adaptaci贸n entre modalidades o la generalizaci贸n fuera del dominio.
Motivaci贸n
Existe una necesidad acuciante de modelos unificados que puedan manejar diversas condiciones visuales para la generaci贸n controlable. La consolidaci贸n de las capacidades en un 煤nico modelo mejorar铆a enormemente la eficiencia de la formaci贸n y el despliegue sin necesidad de m煤ltiples modelos espec铆ficos para cada tarea. Tambi茅n permite explotar las relaciones entre condiciones, como la profundidad y la segmentaci贸n, para mejorar la calidad de la generaci贸n.
Por ejemplo, la estimaci贸n de la profundidad depende en gran medida de la comprensi贸n de la segmentaci贸n sem谩ntica y el dise帽o global de la escena. Un modelo unificado puede aprovechar mejor estas relaciones en comparaci贸n con los modelos de tareas aisladas. Adem谩s, a帽adir nuevas modalidades a modelos individuales conlleva un reentrenamiento masivo, mientras que un enfoque consolidado podr铆a generalizarse sin problemas.
El principal reto consiste en superar el desajuste entre diversas condiciones como bordes, poses, mapas, etc. Cada una de ellas requiere operaciones especializadas en funci贸n de sus caracter铆sticas. Mezclar trivialmente diversas entradas en un modelo falla debido a este desajuste de caracter铆sticas. El objetivo es desarrollar una arquitectura unificada que generalice las tareas y adapte sus componentes condicionantes. Y lo que es m谩s importante, esto debe lograrse sin necesidad de un reentrenamiento exhaustivo cada vez que se ampl铆en las capacidades.
Methods
El UniControl propuesto introduce dos nuevos componentes para permitir la generaci贸n unificada controlable multitarea:
1. Adaptadores de Mezcla de Expertos. Adaptadores de mezcla de expertos: M贸dulos convolucionales paralelos, uno por tarea, que se adaptan a las caracter铆sticas visuales de cada condici贸n.
2. Task-Aware HyperNetwork: Modula din谩micamente los n煤cleos de convoluci贸n de un modelo base en funci贸n de las instrucciones de la tarea.
UniControl se ha entrenado en doce tareas distintas que abarcan bordes, regiones, mapas y mucho m谩s. La arquitectura general del modelo se mantiene constante en todas las tareas, mientras que los componentes de acondicionamiento se especializan.
Adaptadores-mezcla-de-expertos
Los adaptadores proporcionan v铆as espec铆ficas para que cada tarea procese sus caracter铆sticas visuales de forma adecuada. De este modo se supera el desajuste entre diversas condiciones que necesitan un tratamiento especializado.
Por ejemplo, una ruta de mapa de segmentaci贸n se centra m谩s en las relaciones sem谩nticas espaciales que en la geometr铆a 3D. Por el contrario, un adaptador de profundidad har谩 hincapi茅 en la disposici贸n global y las orientaciones de las superficies. Con adaptadores separados por tarea, UniControl puede extraer representaciones matizadas adaptadas a cada tipo de entrada.
Esta modularizaci贸n imita una mezcla de expertos. Cada adaptador act煤a como un 芦experto禄 especializado para su tarea. Las v铆as paralelas evitan los objetivos contradictorios que surgir铆an de un manejo enredado de todas las condiciones. El modelo compone din谩micamente las salidas de los adaptadores relevantes en funci贸n de la tarea de entrada.
Hiperred consciente de la tarea
La hiperred permite la modulaci贸n din谩mica de UniControl en funci贸n de la tarea especificada. Introduce instrucciones como 芦mapa de profundidad a imagen禄 y emite vectores de incrustaci贸n. Estas incrustaciones pueden especializar el modelo modulando sus n煤cleos de convoluci贸n en funci贸n de la tarea.
Por ejemplo, el condicionamiento de la profundidad puede modular las primeras capas para centrarse m谩s en el dise帽o global y la geometr铆a. Mientras tanto, la adaptaci贸n de los bordes puede enfatizar los detalles de mayor frecuencia en las etapas posteriores. La hiperred permite a UniControl aprender la comprensi贸n y el procesamiento especializados de cada tarea y, al condicionar las instrucciones, tambi茅n permite la generalizaci贸n a nuevas tareas en el momento de la prueba. Las relaciones aprendidas durante el entrenamiento multitarea permiten una modulaci贸n sensible incluso para tareas desconocidas. La composici贸n de incrustaciones de tareas conocidas relacionadas facilita la transferencia sin disparos.
Experimentos
UniControl se entren贸 en un conjunto de datos MultiGen-20M con m谩s de 20 millones de tripletas imagen-texto-condici贸n. Los principales resultados demostraron:
- Supera a ControlNets de una sola tarea en la mayor铆a de las tareas, benefici谩ndose del entrenamiento conjunto. El dise帽o unificado mejora la eficiencia.
- Se generaliza a tareas h铆bridas no vistas como profundidad+pose sin reentrenamiento mediante la composici贸n de adaptadores.
- UniControl mantiene 1,4B par谩metros mientras que un conjunto de modelos de una sola tarea (es decir, Multi-ControlNet) requerir铆a m谩s de 4B par谩metros.
- La transferencia de cero disparos a nuevas tareas como la coloraci贸n y el inpainting se consigue mezclando adaptadores de tareas relacionadas.
Demostraci贸n en v铆deo
Explore More
arXiv: https://arxiv.org/abs/2305.11147
C贸digo: https://github.com/salesforce/UniControl
Web: https://canqin001.github.io/UniControl-Page/
HF Space: https://huggingface.co/spaces/Robert001/UniControl-Demo
Contacto: cqin@salesforce.com
BannerGen: Biblioteca para la generaci贸n de pancartas multimodales
Antecedentes
Los dise帽os de maquetaci贸n gr谩fica son la base de la comunicaci贸n entre los dise帽adores de medios y su p煤blico objetivo. Desempe帽an un papel fundamental en la organizaci贸n de diversos elementos visuales, como texto renderizado, logotipos, im谩genes de productos, llamadas a la acci贸n (como botones) y texturas/im谩genes de fondo. La disposici贸n de estos elementos es el
protagonismo de la comunicaci贸n
Seguir leyendo5 formas de identificar y promover sus habilidades militares transferibles en el ecosistema de Salesforce
De la Polic铆a Militar Real Brit谩nica al ganador de la sudadera con capucha dorada: descubra c贸mo el Trailblazer Jonathan Fox consigui贸 el trabajo de sus sue帽os en tecnolog铆a y ayud贸 a otros veteranos y c贸nyuges de militares a desarrollar su potencial dentro de la Comunidad Trailblazer.
Seguir leyendoC贸mo la IA y la automatizaci贸n crean magia proactiva para el servicio al cliente
As铆 es como las empresas inteligentes utilizan la automatizaci贸n para transformar el servicio al cliente de una tarea reactiva a una fuerza proactiva que mejora la experiencia del cliente.
Seguir leyendo4 formas de generar confianza en el equipo en inteligencia artificial (IA)
Utilice estas mejores pr谩cticas para ayudar a sus equipos a transformar y confiar en la tecnolog铆a de IA con nuevas habilidades y confianza.
Seguir leyendoC贸mo los asesores financieros pueden utilizar la inteligencia artificial para encontrar nuevos clientes m谩s r谩pido
驴No m谩s reuniones cara a cara? Encuentre conexiones, obtenga la informaci贸n correcta e inicie conversaciones importantes.
Seguir leyendo32 citas inspiradoras sobre la inteligencia artificial
Lea citas sobre inteligencia artificial (IA) de algunos de los expertos m谩s destacados de la industria. Insp铆rese con sus pensamientos sobre tecnolog铆as emergentes, IA imparcial y el futuro del trabajo.
Seguir leyendoCapacite a los agentes para que trabajen de manera efectiva desde cualquier lugar con voz digital
A medida que m谩s agentes de servicio al cliente trabajan de forma remota, los gerentes necesitan nuevas herramientas para medir, orientar y equipar a sus equipos para el 茅xito.
Seguir leyendo