Cómo Salesforce crea una infraestructura de Red Teaming reproducible

Introducción

Imagina que estás trabajando en un producto de IA que puede resumir las llamadas telefónicas de éxito de los clientes con fines de formación. El producto de su empresa utiliza grandes modelos lingüísticos (LLM) para resumir, sintetizar, clasificar y generar resultados relevantes. Es consciente de que los LLM pueden alucinar, generar resultados perjudiciales o sesgados

Seguir leyendo

Presentación de Generative Canvas: Experiencia de usuario generada dinámicamente, basada en datos y flujos de trabajo fiables

TLDR; Salesforce acaba de lanzar Generative Lightning Canvas (Piloto) en AppExchange, lo que permite a los usuarios visualizar e interactuar fácilmente con sus datos empresariales y flujos de trabajo de una forma completamente nueva.

Seguir leyendo

Aceleración de la evaluación y el ajuste de modelos con SFR-Judge

A medida que se acelera el desarrollo y despliegue de grandes modelos lingüísticos (LLMs), la evaluación de los resultados de los modelos se ha vuelto cada vez más importante. El método establecido para evaluar las respuestas normalmente implica reclutar y entrenar a evaluadores humanos, hacer que evalúen las respuestas del modelo y luego auditar la calidad de las evaluaciones. Por desgracia, este proceso no

Seguir leyendo

Las acciones hablan más que las palabras: Presentación de xLAM, la familia de grandes modelos de acción de Salesforce

Hemos introducido xLAM, nuestra familia de modelos internos de grandes acciones, diseñados para la llamada a funciones, el razonamiento y la planificación. Estos modelos están diseñados para agilizar y simplificar la integración de la IA en sus flujos de trabajo, reduciendo la complejidad a menudo asociada con los LLM.

Seguir leyendo

xLAM: una familia de grandes modelos de acción para agentes de IA

Huan Wang, Shelby Heinecke, Juan Carlos Niebles, Caiming Xiong

image.png

TL;DR: Lanzamos xLAM, una serie de LLMs optimizados para la llamada a funciones y Agentes AI. Ofrece varias variantes diseñadas para servir a diferentes dominios de aplicación, desde el uso móvil hasta contextos de rendimiento de alta demanda. Muestran un rendimiento competitivo en varios agentes clave

Seguir leyendo

Las prácticas de hacking ético demuestran su eficacia para garantizar la fiabilidad de los productos de IA

Salesforce premia con miles de euros a un empleado por revelar debilidades clave de un producto en "Bug Bounty."


Con la coautoría de Hannah Cha, Orlando Lugo y Sarah Tan

En Salesforce, nuestro equipo responsable de IA y tecnología emplea prácticas de red teaming para mejorar la seguridad de nuestros productos de IA mediante pruebas de uso malintencionado, intencionado

Inteligencia y Inteligencia

Seguir leyendo

Creación de aplicaciones RAG contextualmente fieles con SFR-RAG

La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) no sólo ha ganado fuerza como una de las áreas de investigación con mayor inversión en IA generativa, sino que también ha reunido una considerable popularidad y oportunidades de comercialización. La RAG se aplica normalmente a problemas de respuesta de preguntas, en los que se proporciona cierta información contextual externa recuperada de una fuente de datos (potencialmente privada)

Seguir leyendo

Creación de aplicaciones RAG contextualmente fieles con SFR-RAG

La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) no sólo ha ganado fuerza como una de las áreas de investigación con mayor inversión en IA generativa, sino que también ha reunido una considerable popularidad y oportunidades de comercialización. La RAG se aplica normalmente a problemas de respuesta de preguntas, en los que se proporciona cierta información contextual externa recuperada de una fuente de datos (potencialmente privada)

Seguir leyendo

Presentamos LlamaRank: Un reranker de última generación para IA de confianza

Como parte de nuestro compromiso con la innovación en GAR empresarial e IA de confianza, nos complace lanzar SFR LlamaRank, un reranker de última generación de Salesforce AI Research. LlamaRank es un modelo lingüístico especializado en la clasificación por relevancia de documentos. LlamaRank consigue un rendimiento al menos comparable al de las API líderes en documentos generales

Seguir leyendo

INDICT: Hacia una mejor generación de código tanto por su seguridad como por su utilidad

TL;DR: Presentamos INDICT, un novedoso marco que dota a los Grandes Modelos de Lenguaje (LLMs) de Diálogos Internos de Críticas para la orientación tanto en seguridad como en utilidad. El diálogo interno es un sistema cooperativo dual entre un crítico orientado a la seguridad y un crítico orientado a la utilidad, cada uno equipado con conocimientos relevantes de herramientas externas.


LLMs

Seguir leyendo

HIVE: Aprovechamiento de la retroalimentación humana para la edición visual didáctica

HIVE ha sido aceptado en CVPR 2024.

Otros autores son: Chia-Chih Chen, Ning Yu, Zeyuan Chen, Huan Wang, Silvio Savarese, Stefano Ermon, Caiming Xiong

Hemos visto el éxito de ChatGPT, que incorpora feedback humano para alinear el texto generado por grandes modelos lingüísticos con las preferencias humanas. ¿Es posible alinear

Seguir leyendo

Haga que tenga sentido: SFR-Embedding de Salesforce AI Research, el modelo de Text-Embedding de mayor rendimiento

¿Cómo puede un ordenador discernir el significado de una frase? Por «discernir su significado» me refiero a comprender las palabras de la frase, su contexto, sus matices y sus relaciones con otras palabras.

Seguir leyendo

Conozca a las mujeres pioneras de la IA en Salesforce y eche un vistazo a lo más destacado de nuestro Día de las mujeres en la IA.

Para celebrar el Mes de la Historia de la Mujer, la Red de Mujeres de Salesforce organizó su evento inaugural del Día de la Mujer en la IA el 26 de marzo de 2024 en la Torre Salesforce de San Francisco. El evento fue una reunión de mujeres de Salesforce que lideran el trabajo sobre IA ética y responsable en Salesforce.

Seguir leyendo

Investigación NLG de confianza @ Salesforce AI

Aunque en los últimos años hemos visto mejoras asombrosas en el rendimiento de los modelos, debemos ser conscientes de los inconvenientes que aún presentan. Creemos que la mejora conjunta de estos modelos, así como la evolución de nuestros enfoques para evaluarlos, es esencial de cara al futuro.

Seguir leyendo

Moirai: Un modelo básico de series temporales para la previsión universal

TL;DR: Moirai es un modelo fundacional de series temporales de vanguardia, que ofrece capacidades de previsión universales. Destaca como un modelo versátil de previsión de series temporales capaz de abordar diversas tareas de previsión a través de múltiples dominios, frecuencias y variables de una manera zero-shot.  Para lograrlo, Moirai aborda cuatro grandes retos: (i)

Seguir leyendo

Más allá de los nombres: Cómo la investigación en IA está revolucionando la resolución de identidades en la nube de datos

Estamos encantados de anunciar la integración de la concordancia difusa en todas las funciones del objeto de contacto, proporcionando a los clientes las soluciones a medida que necesitan.

Seguir leyendo

SFR-Embedding-Mistral: Mejora de la recuperación de textos con aprendizaje por transferencia

El SFR-Embedding-Mistral supone un avance significativo en los modelos de incrustación de textos y se basa en los sólidos cimientos de E5-mistral-7b-instruct y Mistral-7B-v0.1.

Seguir leyendo

BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models (Capacidad de generación de imágenes personalizadas de disparo cero en modelos de difusión preentrenados)

Presentamos una arquitectura novedosa, BootPIG, que permite la generación de imágenes personalizadas sin necesidad de ajuste fino en tiempo de prueba.

Seguir leyendo

Adaptar los modelos de difusión a las preferencias humanas

TLDR

El aprendizaje a partir de preferencias humanas, concretamente el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) ha sido un componente reciente clave en el desarrollo de grandes modelos lingüísticos como ChatGPT o Llama2. Hasta hace poco, el impacto del entrenamiento a partir de la retroalimentación humana en los modelos texto-imagen era mucho más limitado. En este trabajo, Diffusion-DPO,

Seguir leyendo

Modelado de secuencias largas con XGen: Un LLM de 7B entrenado con secuencias de entrada de 8K de longitud

TLDR

Entrenamos una serie de LLMs 7B llamados XGen-7B con atención densa estándar hasta 8K de longitud de secuencia para hasta 1.5T tokens. También afinamos los modelos en datos de instrucción de dominio público. Los principales resultados son:

  • En pruebas de PNL estándar, XGen consigue resultados comparables o mejores
Seguir leyendo