La optimización de la gestión de alertas de herramientas de supervisión es crucial para la eficacia de las operaciones. Sin embargo, puede suponer un reto debido a la falta de confirmación sobre si las alertas posteriores indican el mismo problema subyacente. Esto conduce a un proceso repetitivo y lento para el equipo de operaciones de una organización -incluidos los ingenieros de fiabilidad del sitio, los ingenieros de rendimiento y otros- que deben analizar manualmente cada alerta, descubriendo a menudo problemas duplicados. Para solucionar este problema, las organizaciones dan prioridad a la automatización (66%) y a la mejora de la productividad (61%), según revela una reciente encuesta. Estas estadísticas ponen de relieve los obstáculos diarios a los que se enfrentan los equipos de operaciones.

En consecuencia, las organizaciones están adoptando cada vez más la Inteligencia Artificial para Operaciones de TI (AIOps), que aprovecha la IA para agilizar las operaciones y mejorar el rendimiento de la red. En Salesforce, nuestro equipo de DBAIOps (Inteligencia Artificial de Bases de Datos para Operaciones) ha llevado AIOps al siguiente nivel y ha revolucionado las operaciones de bases de datos implementando el modelo de similitud.

Este modelo utiliza técnicas avanzadas comoSimilitud de coseno y Similitud de Jaccard para medir la similitud de significado entre dos fragmentos de texto. Al comparar las causas raíz y asignar puntuaciones de similitud, este modelo agiliza la resolución de incidentes y marca una transición significativa en la gestión de incidentes.

Este enfoque ayuda a identificar puntos en común entre incidentes, evitando la sobrecarga de alertas y facilitando procesos de resolución más eficaces. En última instancia, esto mejora la eficiencia operativa y reduce la carga de trabajo manual para el equipo de operaciones.

Siga leyendo para descubrir cómo el modelo de similitud ayudó a DBAIOps a superar sus cuatro desafíos técnicos más difíciles.

Desafío n.º 1: Reducir las alertas y el esfuerzo manual

Los sistemas de detección de anomalías generan tradicionalmente alertas por cada patrón anómalo detectado, sin tener en cuenta si las anomalías subsiguientes están relacionadas con la misma causa raíz que la anomalía inicial.

Los DBAIOps se enfrentaban a retos con la afluencia diaria de alertas a través de múltiples instancias a menudo duplicando problemas y requiriendo un análisis manual. Los problemas de rendimiento idénticos en diferentes instancias, como los problemas relacionados con SQL, provocaban alertas redundantes y la verificación manual por parte de cada ingeniero de rendimiento.

Para solucionar esto, el modelo de similitud de DBAIOps compara las causas raíz de las alertas. Al analizar el Análisis de Causas Raíz (RCA) de las alertas actuales y anteriores, estos modelos determinan si las alertas son duplicadas, suprimiendo eficazmente los casos posteriores. Las validaciones mostraron una reducción del 23% en los casos duplicados, identificando las investigaciones con causas compartidas e ignorándolas de forma inteligente.

Este enfoque mejora la eficiencia de la gestión de incidentes, reduce el trabajo manual y minimiza el ruido, lo que permite a los equipos operativos centrarse en resolver los problemas reales.

La gestión de incidentes se ha convertido en una de las prioridades de la empresa

Desafío nº 2: Utilizar el contexto histórico para resolver nuevos casos

En escenarios con múltiples alertas de diferentes fuentes, es crucial determinar si están relacionadas con el mismo problema. Los enfoques tradicionales carecen de la capacidad para hacer esto, lo que conduce a la duplicación de esfuerzos y la disminución de la productividad. Cada alerta se analiza individualmente, sin conocer su relación.

Para hacer frente a esto, el modelo de similitud de DBAIOps etiqueta automáticamente las investigaciones actuales con las resoluciones anteriores relevantes si se ha producido un problema similar con anterioridad. El uso de esta tecnología de Salesforce permite al equipo realizar un seguimiento de volúmenes de información histórica, posibilita el intercambio de conocimientos, garantiza un acceso rápido a resoluciones anteriores y mejora el proceso de resolución de incidencias. Aproximadamente el 50% de las investigaciones proactivas se emparejaron con casos similares anteriores a través de este eficaz etiquetado, agilizando la resolución de incidentes.

Desafío nº 3: Eficacia en la clasificación de asignaciones

Investigaciones proactivas

La asignación ineficiente de ingenieros con la experiencia necesaria puede causar retrasos en la resolución de problemas. Anteriormente, las investigaciones se solían asignar al propietario de la instancia de forma predeterminada, con una posible reasignación a otro ingeniero en función de su disponibilidad. Sin embargo, este enfoque puede pasar por alto factores importantes, como la experiencia previa con problemas similares.

La asignación de ingenieros con la experiencia necesaria puede causar retrasos en la resolución de problemas

Para hacer frente a esto, el modelo de similitud de DBAIOps analiza los datos históricos y los patrones de incidentes para asignar de forma inteligente los nuevos casos a los expertos que poseen la experiencia específica necesaria. Este proceso de triaje automatizado garantiza que se asigne el ingeniero adecuado a cada tarea, lo que conduce a una resolución de incidencias más rápida y a una mejora de la productividad general. Los comentarios positivos recibidos del equipo de ingeniería de rendimiento validan aún más la eficacia de nuestro modelo a la hora de clasificar con precisión los casos basándose en instancias etiquetadas, al tiempo que se reduce el tiempo medio de asignación (MTTA).

Tiempo medio de asignación

Reto nº 4: Aumentar la clasificación de la gravedad

Las alertas frecuentes sobre el mismo problema pueden indicar un posible incidente del cliente a punto de ocurrir. Por defecto, a las alertas proactivas se les suelen asignar niveles de gravedad más bajos. Sin embargo, es posible que este enfoque no gestione eficazmente los incidentes recurrentes.

Las alertas proactivas suelen asignarse por defecto a niveles de gravedad más bajos

Para resolver esto, el modelo de similitud de DBAIOps clasifica de forma inteligente la gravedad de los incidentes detectando patrones en incidentes con el mismo RCA. Por ejemplo, mediante la identificación de alertas que se producen con frecuencia, la clasificación de gravedad se puede aumentar automáticamente.

La actualización instantánea de la clasificación de gravedad es crucial para identificar y priorizar eficazmente los incidentes críticos, lo que conduce a un proceso de resolución más eficiente. Nuestra implementación de este modelo ha dado como resultado una significativa mejora del 23% en el ranking de severidad de incidentes, permitiendo acciones más rápidas cuando los incidentes ocurren repetidamente. Esto significa que si DBAIOps tiene 100 investigaciones en un mes y 23 de ellas experimentan alertas frecuentes hasta que se resuelve el problema principal, el modelo de similitud reconoce estos patrones y recomienda aumentar la severidad de dichos incidentes.

DBAIOps

Al abordar de forma proactiva estas alertas de alta gravedad, podemos minimizar el tiempo medio de detección (MTTD) y el tiempo medio de resolución (MTTR), mejorando así la fiabilidad y la disponibilidad del servicio.

Descubrir más: Entender cómo se calculan las puntuaciones de similitud

Entender cómo DBAIOps calcula las puntuaciones de similitud es crucial para la resolución eficiente de incidencias. He aquí un desglose de los pasos involucrados:

  1. Nueva alerta identificada: Nuestro runbook de detección recopila sistemáticamente datos de las herramientas de monitorización. Si se detectan anomalías durante el intervalo de tiempo de análisis, se activa una alerta. Una vez detectada una alerta, DBAIOps activa el flujo de trabajo RCA. Este flujo de trabajo identifica un diagnóstico inicial, como determinar el tipo de SQL que contribuye a la alerta o qué org está contribuyendo al problema. Esta alerta marca el inicio de nuestra investigación y del proceso de resolución de incidentes.
  2. Las alertas de RCA se activan cuando se detecta un problema
  3. Limpieza de datos: el texto del RCA se somete a un proceso de limpieza para refinarlo. Esto incluye la eliminación de caracteres especiales y stopwords para agilizar el análisis. También se extraen palabras clave para mejorar el cálculo de las puntuaciones de similitud
  4. Comparación de alertas: la alerta se compara con los datos almacenados en el repositorio de conocimientos, una completa base de datos que captura información detallada sobre alertas, RCA y perspectivas históricas. El flujo de trabajo RCA se activa cuando se detecta una alerta, actualizando el Repositorio de Conocimientos con los datos más recientes para una comparación precisa. Un modelo de similitud genera puntuaciones significativas para una comparación eficaz de las alertas
  5. Generación de puntuaciones: el modelo de similitud creado a tal efecto calcula las puntuaciones que guían las acciones posteriores al comparar los RCA.

Más información

  • ¿Hambre de más historias de AIOps? Echa un vistazo a cómo AIOps recorta miles de horas manuales al año en este blog.
  • Mantente conectado – ¡únete a nuestra Comunidad de Talento!
  • Consulta nuestros equipos de Tecnología y Producto para saber cómo puedes participar.

Entradas recomendadas