Tl;Dr: Salesforce AI Research y Tableau AI han colaborado para crear la función de resumen de información Pulse, GA para todos los clientes de Tableau Cloud a partir de principios de 2024. La función combina la potencia de la IA generativa con el análisis de datos para ofrecer resúmenes de información automatizados y personalizados a partir de tendencias de métricas clave. Este blog describe el proceso de desarrollo de esta función de resumen basada en LLM en Tableau Pulse.

Tableau Pulse supone un avance significativo en el panorama del análisis de datos y la inteligencia empresarial y ha beneficiado a los clientes de Tableau Cloud desde su lanzamiento. La plataforma Insights de Pulse permite a los usuarios empresariales realizar un seguimiento de sus métricas más importantes y proporciona insights automáticos mediante IA generativa. El servicio Insights aprovecha la potencia de los grandes modelos de lenguaje (LLM) para generar resúmenes en lenguaje natural de las tendencias de las métricas y ofrecérselos a los usuarios de Tableau. Los resúmenes de los cambios en las métricas transmiten a los usuarios información práctica sobre las métricas de datos más relevantes para ellos, lo que les ayuda a determinar en qué deben centrarse rápidamente y por adelantado.

Pulse permite a los usuarios estandarizar sus métricas y crear una fuente de verdad unificada para todas las fuentes de datos de la organización. Les permite escribir definiciones de métricas personalizables que pueden referirse a un contexto empresarial específico. Los usuarios de Tableau pueden definir sus métricas para capturar conceptos como ROI, Ventas, Pedidos, Churn, etc., a partir de sus datos organizativos. Pueden especificar diferentes dimensiones temporales sobre las que orientar estas métricas, e indicar si un incremento en la métrica sería favorable o desfavorable. Generamos insights a partir de estas métricas, personalizados para el usuario, que transmiten las tendencias clave de las métricas como Cambios Inusuales, Cambio Periodo sobre Periodo (PoPC), etc. Las perspectivas ayudan a los usuarios a descubrir nuevas oportunidades, adelantarse a los problemas y tomar mejores decisiones. Nuestro objetivo era utilizar los LLM para generar resúmenes de información sobre diferentes métricas, que se pueden entregar en Pulse o directamente por correo electrónico o Slack. Esto aseguraría que los patrones importantes, los cambios y los valores atípicos en los datos sean vistos primero por el usuario. La colaboración entre Tableau AI y Salesforce AI Research ha sido clave para construir con éxito componentes de Pulse que interactúan con un LLM para generar estos resúmenes ricos y perspicaces. Nuestro trabajo se ha centrado en garantizar que estos resúmenes de información generados por LLM sean personalizados, correctos y amplíen el valor de las métricas de Pulse.

Desarrollo centrado en el usuario

El resumen de información de Pulse es la primera función que lleva la IA generativa a la plataforma Tableau. Nuestro objetivo era utilizar LLM para generar un resumen atractivo y correcto de las métricas seguidas por un usuario empresarial en Pulse. Pulse clasifica las percepciones de las métricas según los cambios más notables. Nuestra tarea consistía en tomar las tres métricas más relevantes para el usuario y convertirlas en resúmenes en lenguaje natural utilizando un LLM.

El equipo de investigación de UX de Tableau llevó a cabo encuestas con un grupo piloto de usuarios para recopilar sus necesidades y preferencias específicas. Esto fue crucial para determinar el conjunto adecuado de restricciones para que el resumen se ajustara a las expectativas de los usuarios. Los estudios piloto revelaron que los usuarios realmente se beneficiarían de una función de resumen de información y que enriquecería su experiencia en la plataforma.

La información obtenida en el estudio piloto apuntaba a la fiabilidad como requisito fundamental para un resumen deseable. Para ser fiables, los resúmenes de información de Pulse debían representar con precisión los distintos tipos de información en distintos intervalos de tiempo. En segundo lugar, los usuarios piloto indicaron su preferencia por una baja verbosidad y un alto interés en los resúmenes de información. las preferencias de tono fueron variables, pero, en general, se prefirió un tono profesional y se consideró ideal un formato sencillo. Identificamos parámetros específicos y establecimos umbrales para estos requisitos con el fin de guiar nuestro proceso de desarrollo y evaluación.

Los usuarios deseaban completitud en los resúmenes generados por Pulse: el servicio de insight identifica las métricas más relevantes para cada usuario y, a continuación, exigimos que los resúmenes de insight tengan una cobertura completa de todos los hechos de las métricas que se resumen. La piedra angular del proceso de desarrollo fue un profundo conocimiento de lo que nuestros usuarios deseaban de una función de resumen de insights en Tableau.

Key Technical Challenges

La tarea específica que necesitábamos resolver era conseguir que un LLM resumiera una colección de insights de múltiples métricas únicas. Los cambios en las métricas están representados por varios hechos, incluyendo múltiples valores numéricos, un periodo de cambio asociado y un sentimiento definido por el usuario para expresar el cambio. Diseñamos las instrucciones del LLM para generar resúmenes de un conjunto de percepciones métricas, experimentando con la mezcla y separación de tipos de percepciones y periodos de tiempo. Las instrucciones del aviso guían al LLM para que se adhiera a nuestras restricciones establecidas, incluidas las preferencias del usuario y las etiquetas de formato. Las etiquetas de formato nos permiten asegurarnos de que ciertos componentes se conservan textualmente en el resumen del insight, como los nombres métricos elegidos por el usuario, independientemente de la forma o de los errores tipográficos. También nos ofrecen la opción de realizar otras acciones de postprocesamiento en el resumen. Nuestros avisos incluyen ejemplos en contexto para guiar al LLM hacia un resumen deseable.

Nuestros experimentos revelaron que traducir directamente una colección de valores métricos numéricos y metadatos asociados a resúmenes en lenguaje natural, satisfaciendo al mismo tiempo todas las restricciones de la tarea, es un reto para los LLM. Esto se debe a las diversas complejidades de los diferentes grupos de percepciones métricas que se deben resumir, que en el resumen a menudo se modifican de forma incorrecta, se omiten por completo o se incluyen de forma repetitiva.

Encontramos varios casos en los que a los LLM les resultaba especialmente difícil resumir, y la precisión factual resultante no cumplía los requisitos. Por ejemplo, un grupo de percepciones para el mismo nombre de métrica podría estar en diferentes intervalos de tiempo, cada uno transmitiendo un tipo diferente de percepción (Cambio Inusual, PoPC, etc.), pero el LLM los resumiría como la misma métrica. Al mismo tiempo, preservar el sentimiento asociado a cada percepción métrica en el resumen resultante era todo un reto; un grupo de métricas podía tener sentimientos contradictorios («Beneficios» puede ser favorable, pero «Retención de clientes» puede ser desfavorable), lo que debía reflejarse con precisión en el resumen), que deben contrastarse con precisión en el resumen generado por el LLM.

Iterative Alignment

Para abordar estos retos, optamos por un paso de planificación intermedia de la información. Convertimos los hechos de insight métrico en lenguaje natural utilizando múltiples plantillas, dependiendo de las combinaciones de hechos de las métricas que se están resumiendo. Descubrimos que los LLM pueden resumir los insights planificados mucho más fácilmente que los hechos métricos directamente. Esto reduce la incorrección de los hechos, satisface otras restricciones de la tarea y mejora en gran medida la fluidez del resumen. 

En el paso de pregunta al LLM, pedimos a un LLM fijo que genere un resumen de los 3 principales conocimientos intermedios, de acuerdo con los requisitos descritos. Dada la diversidad de restricciones, el diseño y ajuste de la solicitud para generar resúmenes alineados fue una tarea no trivial. Diseñamos ejemplos en contexto para guiar a los LLM hacia la generación de resúmenes más «alineados». Nuestros ejemplos en contexto enseñan específicamente al LLM a resumir grupos métricos «difíciles», como los que tienen una combinación de diferentes tipos de percepciones y sentimientos alternos. Se diseñaron cuidadosamente para transmitir el tono y la verbosidad esperados por nuestros usuarios.  

Ajustamos estos 2 botones en nuestro proceso de desarrollo: las propias plantillas de información y las instrucciones para satisfacer las restricciones de la tarea. Evaluamos los resúmenes resultantes después de cada ronda de ajuste mediante evaluaciones humanas y automatizadas. El desarrollo del proceso de síntesis de información requirió alternar estos dos pasos, y las evaluaciones guiaron las actualizaciones de cada botón. Este proceso de alineación iterativo ayudó a guiar la calidad del resumen a los estándares deseables.

Evaluation

En el centro del proceso de alineación iterativo estaba nuestra capa de evaluación, que informa sobre cómo afinamos el indicador LLM y actualizamos las plantillas de insight intermedias. Cada ronda de ajuste del indicador LLM y/o de las plantillas de comprensión implicaba un paso de evaluación. Creamos una evaluación exhaustiva consistente en métricas en varios dominios con conjuntos de hechos aleatorios. Incluimos combinaciones de percepciones métricas que cubren todos los casos, como diferentes tipos de percepciones pero en el mismo periodo de tiempo, tendencias para la misma métrica con sentimientos contradictorios a lo largo del tiempo, etc. Esto nos permitió medir cómo se satisfacen las restricciones de la tarea a través de diferentes tipos de combinaciones métricas, y ajustar nuestras perillas para casos específicos.

Recopilamos tanto anotaciones humanas como métricas automatizadas en este conjunto de evaluación diverso para evaluar la calidad del resumen en cada ronda de evaluación. Mientras que la anotación humana examina aspectos como el tono, la semántica del resumen, las alucinaciones, etc., las métricas automatizadas comprueban la verbosidad, la verificación del formato y otros aspectos deterministas de los requisitos. Cada ronda de evaluación nos proporcionó información específica sobre el comportamiento del LLM en nuestra tarea. Después de cada ronda, optimizamos las plantillas de instrucciones e información intermedia del LLM para adaptarlas a los requisitos. Modificamos los ejemplos en contexto para guiar al LLM en casos extremos específicos. Repetimos este proceso para alinear de forma iterativa las plantillas de información intermedia y el indicador hasta que las métricas de calidad alcanzaron nuestros umbrales de aceptabilidad.

Impact

La síntesis de información Pulse aporta el poder de la IA generativa al espacio analítico, proporcionando información inteligente, personalizada y contextual de las métricas que le importan. Algunos impactos notables creados por nuestros esfuerzos:

  • Primera función Generative AI & LLM en Tableau y la primera colaboración entre Tableau Engineering y Salesforce Research
  • Dando que hablar en TC23, DF23, World Tour NYC 23, TC24, entre otros eventos estratégicos
  • Llegando a >5K clientes a varias escalas desde el lanzamiento y ayudando a decenas de miles de usuarios empresariales cuyo trabajo no es el análisis a llegar más rápido a sus métricas y perspectivas relevantes
  • Obteniendo constantemente un >70% de tasa de comentarios positivos sobre los contenidos resumidos

Obtenga más información sobre Tableau Pulse

Entradas recomendadas