En nuestra serie Engineering Energizers Q&A, exploramos las trayectorias de los líderes de ingeniería que han conseguido logros significativos en sus respectivos campos. Hoy, destacamos a Srinivas Ranganathan, Director de ingeniería de software en Salesforce, que dirige la plataforma de plano de control para el perímetro de Salesforce. El perímetro actúa como principal punto de entrada para el tráfico de clientes empresariales en las aplicaciones de Salesforce. Incluye puntos de entrada seguros en Hyperforce y ubicaciones de borde de confianza mantenidas por proveedores de CDN comerciales.
El perímetro de Salesforce es el principal punto de entrada del tráfico de clientes empresariales a las aplicaciones de Salesforce
Descubra cómo Srinivas y su equipo abordan cuestiones técnicas complejas, incluida la creación de una plataforma de transmisión de datos para la telemetría perimetral, que permite a los equipos de Salesforce trabajar de forma eficaz y eficiente en todos los niveles de conocimiento de datos.
¿Cuál es la misión de su equipo?
Nuestro equipo se encarga de extraer información práctica de los datos de telemetría recopilados en el perímetro de Salesforce.
La misión de nuestro equipo es extraer información práctica de los datos de telemetría recopilados en el perímetro de Salesforce
Nos enfrentamos al reto de la generación continua y de gran volumen de datos de telemetría, que están contenidos en registros, métricas, eventos y rastros. Cada dato proporciona valiosas mediciones y dimensiones que detallan la experiencia del usuario final. Dada la escala de las operaciones de Salesforce, donde cientos de miles de clientes empresariales gestionan decenas de millones de dominios, las dimensiones específicas de los clientes, como los nombres y dominios de los clientes, presentan retos de alta cardinalidad.
Datos de telemetría
Nuestro compromiso es equipar a los equipos de ingeniería de Salesforce con información específica de los clientes casi en tiempo real derivada de esta telemetría perimetral. Estos conocimientos son cruciales, ya que sirven de base para los análisis diarios y respaldan importantes decisiones empresariales en toda la empresa.
¿Cuál ha sido el reto técnico más importante al que se ha enfrentado su equipo recientemente?
Recientemente, nuestro equipo abordó un importante desafío técnico: la necesidad de una interfaz de baja latencia y fácil de usar para acceder y analizar la telemetría perimetral en Salesforce. Anteriormente, nuestros equipos tenían que elegir entre una plataforma de búsqueda de registros, que ofrecía granularidad detallada con semántica de esquema en lectura, y bases de datos de series temporales de uso general que resumían los datos a lo largo de dimensiones limitadas. Ambas opciones proporcionaban el acceso necesario a los datos, pero carecían de eficiencia, lo que dificultaba la eficacia de las operaciones
Para resolver este problema, desarrollamos una plataforma de transmisión de datos casi en tiempo real que permite a los equipos de Salesforce realizar consultas de baja latencia para un análisis eficaz de la telemetría perimetral. Utilizamos trabajos Spark Streaming para estandarizar los datos de telemetría en un formato protobuf, que luego se introdujo en un hipercubo de series temporales especialmente diseñado. Este hipercubo proporciona una visión completa de las interacciones con los clientes.
Un vistazo a la arquitectura del sistema.
Para mejorar aún más nuestro sistema, integramos Vector de Datadog para obtener telemetría de CDN comerciales y utilizamos Imply/Druid para construir un hipercubo multidimensional con 18 dimensiones y 13 medidas, adaptado para representar la telemetría de tráfico principal de Salesforce. Esto incluía dimensiones clave como el ID de cliente y el nombre de dominio, y medidas como el recuento de solicitudes y los bytes enviados. La eficacia de esta solución se muestra en un panel interno que muestra una vista de 24 horas de un dominio interno de Salesforce, destacando los beneficios prácticos de nuestro sistema a través de varios cortes de datos
El cuadro de mandos anterior muestra una vista resumida de 24 horas de un dominio de Salesforce.
El cuadro de mandos anterior muestra una vista resumida de 24 horas de un dominio de Salesforce
El cuadro de mandos anterior muestra los errores de perímetro y los aísla por ubicación.
Los errores de perímetro no se detectan
¿Cómo equilibrar la necesidad de un despliegue rápido con el mantenimiento de altos niveles de confianza y seguridad?
Equilibrar el despliegue rápido con altos estándares de confianza y seguridad es esencial en nuestras operaciones. Lo conseguimos utilizando marcos de big data probados, especialmente Imply, que supera a Apache Druid de código abierto para nuestras necesidades. Estos marcos permiten a los equipos de Salesforce acceder a información por cliente en menos de dos minutos desde la generación de telemetría en el perímetro. Estos marcos nos han permitido acelerar significativamente la entrega de funciones e impulsar la adopción
Encontramos que estas capacidades Imply son útiles sobre el código abierto Apache Druid:
- Interfaz de usuario de análisis mejorada: el lanzamiento de Pivot 2.0 ofrece una interfaz intuitiva y de baja latencia que simplifica el análisis de datos con un enfoque de apuntar y hacer clic, lo que permite a los usuarios explorar varias dimensiones de forma eficiente.
- Paneles de control de Clarity: estos paneles de control ofrecen una visión clara del uso de Imply.
- Servicios profesionales y soporte técnico: Imply proporciona un amplio soporte y servicios de consulta.
- Servicios profesionales y soporte técnico
- Integración de OAuth: perfectamente integrada con el inicio de sesión único (SSO) empresarial de Salesforce, esta función refuerza la seguridad sin ralentizar el acceso.
- Integración de OAuth: Imply ofrece una amplia gama de servicios de soporte y asistencia técnica
Además, nos dedicamos a mejorar la alfabetización de datos entre nuestra base de usuarios a través de sesiones de formación periódicas.
Documentación
¿Cómo recogen las opiniones de los usuarios de su plataforma de datos y cómo influyen en el desarrollo futuro?
El uso de los datos de Clarity, combinado con las entrevistas y los comentarios de los usuarios, da forma a nuestra hoja de ruta de desarrollo y a las mejoras de las funciones. Hemos ampliado el alcance de nuestra plataforma aumentando el número de mediciones, dimensiones y fuentes de telemetría perimetral ingeridas, mejorando nuestro servicio y ampliando nuestra base de usuarios. Nuestra plataforma es crucial para depurar incidentes del sitio en directo, como problemas de latencia, errores y ataques DDoS de nivel 7, lo que permite realizar en segundos tareas que antes llevaban 15 minutos
Además, conservamos los datos de telemetría hasta un año, lo que nos permite realizar análisis detallados de las tendencias de uso que han descubierto oportunidades de ahorro sustancial de costes. También hemos mejorado nuestras capacidades de ingestión de datos para incluir tanto la telemetría de salida perimetral como fuentes no perimetrales como Salesforce Private Connect, lo que proporciona una visión más completa de las experiencias de los clientes y aumenta la eficacia y el alcance de la plataforma.
¿Cómo gestiona los retos relacionados con la escalabilidad en su plataforma de datos?
Nuestro proyecto ha priorizado la gestión de la escalabilidad debido a un aumento significativo en el volumen de datos, en particular después de integrar la telemetría de proveedores comerciales de CDN que duplicó nuestra carga de procesamiento de datos. Hemos diseñado nuestra plataforma teniendo en cuenta la escalabilidad horizontal, lo que nos permite ampliar nuestra capa ETL (Spark), la canalización de datos (Kafka) y el sumidero de datos (Imply/Druid) de manera eficiente.
Por lo tanto, la escalabilidad horizontal de nuestra plataforma es una prioridad en nuestro proyecto
La participación de los usuarios se ha cuadruplicado en los últimos seis meses, con nuestra plataforma sirviendo ahora a cientos de usuarios diversos mensualmente, desde ingenieros a ejecutivos. A pesar de los millones de consultas mensuales, mantenemos una latencia de consulta de menos de un segundo y gestionamos los costes de forma eficaz a menos de 0,01 dólares por consulta.
La participación de los usuarios se ha cuadruplicado en los últimos seis meses
Diariamente, nuestra plataforma maneja más de 60 TB de datos de telemetría, agregando decenas de miles de millones de puntos de datos. Mediante Spark, procesamos estos datos de forma estructurada, con una ventana de volcado de una hora materializada cada minuto, lo que lleva a un aumento diario de 30 GB en el hipercubo perimetral. Este enfoque metódico garantiza que nuestra plataforma siga siendo robusta y eficiente en medio de las crecientes demandas.
Más información
- ¿Hambre de más historias de Hyperforce? Eche un vistazo a la plantilla de Hyperforce para mejorar el flujo de trabajo de los desarrolladores en este blog.
- Manténgase en contacto: únase a nuestra Comunidad de talento
- Consulta nuestros equipos de Tecnología y Producto para saber cómo puedes participar.
¡
!