En nuestra serie de preguntas y respuestas «Engineering Energizers», exploramos las extraordinarias trayectorias de los líderes de ingeniería que han realizado importantes contribuciones en sus respectivos campos. Hoy, nos reunimos con Sravanthi Konduru, miembro principal del personal técnico de ingeniería de Salesforce, que ayuda a impulsar el desarrollo de la plataforma Warden AIOps.
La plataforma Warden AIOps es una de las más avanzadas del mercado
Explore cómo su equipo superó los desafíos para incorporar tecnologías de automatización e IA de vanguardia, lo que agiliza significativamente la carga de trabajo de los analistas humanos al tiempo que garantiza la continuidad del negocio en los entornos de producción de Salesforce.
¿Cómo describiría la plataforma Warden AIOps?
Nuestra plataforma AIOps integra automatización e IA, sirviendo como un asistente inteligente que ayuda a los equipos de Salesforce a agilizar la supervisión y gestión de los entornos de producción. Al recopilar y analizar datos en tiempo real como métricas, registros, informes de diagnóstico y eventos de todas las aplicaciones, identifica y mitiga de forma proactiva los posibles problemas antes de que afecten a los clientes. Esto reduce significativamente el tiempo de inactividad y minimiza la necesidad de intervención humana
Con nuestra plataforma, se simplifica el proceso de recopilación y análisis de datos de observabilidad, detección de incidencias y ejecución de medidas correctoras. Ofrece un marco personalizable, de autoservicio y plug and play para que los equipos de clientes internos adapten el sistema AIOps a sus requisitos específicos. Esto capacita a los equipos con poca experiencia en programación para escribir código fácilmente y definir reglas para si surgen problemas específicos.
Sistema de AIOps
>
–>
Sravanthi explica su papel en el equipo de la plataforma AIOps.
¿Qué papel juega la automatización y la IA en tu plataforma AIOps?
La automatización elimina la necesidad de intervención humana mediante la gestión de tareas predefinidas y la ejecución de flujos de trabajo a través de libros de ejecución automatizados. Gestiona alrededor del 30% de los incidentes mediante la monitorización de varias fuentes de datos y la realización de la remediación de incidentes. Esto libera a los equipos internos de lidiar con incidentes conocidos y repetidos relacionados con su servicio.
Para los incidentes que superan las capacidades de automatización, el motor de causalidad basado en IA de la plataforma toma datos del diagnóstico inicial de automatización, los correlaciona con datos de incidentes anteriores y recomienda estrategias de mitigación. La IA resuelve un 30% adicional de los problemas mediante un análisis similar al humano. El 40 % restante de los incidentes son casos límite en los que la IA sugiere causas potenciales y mitigación a los analistas humanos para su revisión y toma de decisiones.
La combinación de automatización e IA reduce significativamente la carga de trabajo de los operadores humanos, ahorrando miles de horas manuales al año. Esto permite que la plataforma gestione nuevos entornos sin necesidad de recursos humanos adicionales, incluso a medida que crece el entorno de producción de Salesforce.
La automatización y la IA reducen significativamente la carga de trabajo de los operadores humanos
Una mirada de alto nivel a la arquitectura de la plataforma AIOps.
Esta es la arquitectura de la plataforma AIOps
¿Cuál fue el mayor reto de IA al que se enfrentó tu equipo de AIOps?
Mejorar la cobertura y precisión de nuestros modelos de IA en la clasificación, recomendación y mitigación de incidentes supuso un reto importante. Para abordarlo, nos centramos en la formación y actualización continuas de nuestros modelos para garantizar su relevancia y precisión a lo largo del tiempo.
Un incidente notable que encontramos fue la incapacidad de nuestro modelo de IA para recomendar soluciones para incidentes sintomáticos como la degradación del tiempo medio de página (APT). Descubrimos que la IA carecía de entradas suficientes de nuestros libros de ejecución predefinidos y no tenía información suficiente sobre estos tipos de incidentes.
Para superar esto, hemos tomado tres medidas:
- Hemos proporcionado al modelo de IA más datos sobre incidentes, lo que le ha permitido aprender de una gama más amplia de ejemplos.
- Hemos mejorado los libros de ejecución automatizados que proporcionaban el diagnóstico inicial al modelo de IA
- Nos aseguramos de que los datos proporcionados al modelo estaban limpios y actualizados, ya que los datos obsoletos o inexactos podrían obstaculizar el rendimiento del modelo.
Al volver a entrenar el modelo con datos mejorados y mejorar los runbooks automatizados, la IA fue capaz de identificar y comprender mejor estos incidentes específicos, lo que dio lugar a recomendaciones más precisas.
La IA fue capaz de identificar y comprender mejor estos incidentes específicos, lo que dio lugar a recomendaciones más precisas
>
Sravanthi comparte lo que la mantiene en Salesforce Engineering.
Sravanthi comparte lo que la mantiene en Salesforce Engineering
¿Qué retos de automatización encontró su equipo?
Garantizar la seguridad de las acciones de remediación automática en un entorno de producción fue uno de nuestros principales retos. Para superar este obstáculo, colaboramos estrechamente con nuestro equipo de seguridad, obteniendo aprobaciones de seguridad para el entrenamiento de modelos de IA, determinando las entradas de datos y asegurándonos de que el radio de explosión de la auto-remediación es mínimo para evitar un impacto generalizado si algo va mal.
Sin embargo, obtener aprobaciones de seguridad en Salesforce es un proceso riguroso debido a la alta prioridad que se otorga a la confianza. Inicialmente, el equipo de seguridad tenía dudas sobre el diseño y la arquitectura propuestos, lo que les llevó a sugerir enfoques alternativos más seguros
Trabajamos codo con codo con ellos para superar el proceso de aprobación y, en última instancia, ofrecimos una solución sólida que cumplía las normas de seguridad al tiempo que garantizaba una excelente experiencia del cliente
¿Qué impulsó el desarrollo de su plataforma AIOps?
Fue impulsado en gran medida por las limitaciones de las operaciones tradicionales, en las que los ingenieros de fiabilidad del sitio tenían que supervisar manualmente los cuadros de mando para detectar problemas en los entornos de producción de Salesforce.
Cómo se desarrolló la plataforma AIOps?
A medida que Salesforce crecía, el esfuerzo manual necesario para gestionar estos entornos se hizo insostenible. Esto llevó a Salesforce a replantearse su enfoque de las operaciones. La aplicación de la automatización y la IA a los datos se convirtió en una extensión natural, que permitía un análisis más rápido y eficiente y proporcionaba valiosas recomendaciones para la resolución de problemas.
La automatización y la IA se convirtieron en una extensión natural
¿Cómo mejora continuamente su equipo la eficiencia y precisión de su plataforma AIOps?
Empleamos varias tácticas:
- Añadir runbooks: para aumentar la eficiencia, nos esforzamos constantemente por incorporar más runbooks y hacer que la IA sea más inteligente. Al incorporar más runbooks, podemos mejorar la detección y automatizar más escenarios.
- Añadir runbooks
- Descubrir oportunidades de mejora: Nuestro sistema de informes mensuales está diseñado para descubrir cualquier posible laguna de cobertura en nuestras AIOps. Al identificar los incidentes que pueden haberse pasado por alto, podemos colaborar de forma proactiva con nuestros equipos de servicio para obtener una comprensión más profunda de por qué se produjeron estos incidentes. Este proceso nos permite mejorar continuamente nuestras operaciones y garantizar una cobertura completa.
- Los informes mensuales de AIOps están diseñados para detectar posibles lagunas de cobertura en nuestros AIOps
- Recapacitación y validación: Colaboramos con el Equipo de investigación de IA de Salesforce para mejorar la precisión de las recomendaciones de corrección basadas en IA. Mientras ellos vuelven a entrenar continuamente los modelos de IA y validan sus recomendaciones con aportaciones humanas, nosotros les proporcionamos conocimientos del dominio, datos y requisitos para los modelos. Este proceso iterativo garantiza que los modelos de IA se adapten a nuestras necesidades y conocimientos específicos
>
Sravanthi explora la cultura de ingeniería de Salesforce.
Sravanthi explora la cultura de ingeniería de Salesforce
¿Cómo mide su equipo de AIOps la eficiencia de su plataforma de AIOps?
Sravanthi explora la cultura de ingeniería de Salesforce
Nuestro equipo evalúa la eficiencia, eficacia e impacto de nuestra plataforma AIOps utilizando métricas estándar como MTTD (Mean Time To Detect), MTTT (Mean Time To Triage) y MTTR (Mean Time To Remediate). El objetivo es mejorar las métricas MTT cada año aprovechando AIOps. También medimos el número de incidentes prevenidos por AIOps a través de acciones automatizadas rápidas.
Además, generamos automáticamente informes de errores para los propietarios del código basados en el análisis posterior a la reparación de los datos de diagnóstico, lo que permite una resolución rápida y la prevención de futuros incidentes.
¿Qué es lo próximo para su plataforma AIOps?
Actualmente estamos trabajando en la mejora de nuestra plataforma AIOps con la introducción de un marco AIOps Copilot. Este marco estará equipado con capacidades conversacionales, lo que permitirá a los equipos operativos preguntar fácilmente sobre los incidentes en curso utilizando el bot Copilot. El objetivo es agilizar la resolución de incidentes proporcionando una plataforma capaz de generar consultas dinámicas para obtener datos de supervisión, analizarlos de forma autónoma y tomar medidas correctoras. Nuestro objetivo es capacitar a los equipos operativos con una resolución de incidentes acelerada y una serie de otras funcionalidades.