Las prácticas de hacking ético demuestran su eficacia para garantizar la fiabilidad de los productos de IA

Con la coautoría de Hannah Cha, Orlando Lugo y Sarah Tan

En Salesforce, nuestro equipo de tecnología e IA responsable emplea prácticas de red teaming para mejorar la seguridad de nuestros productos de IA mediante pruebas de uso malintencionado, ataques intencionados a la integridad, mal uso benigno e identificación de problemas de IA responsable.

Recientemente, hemos participado en ejercicios de red teaming tanto internos como externos para identificar riesgos potenciales en nuestros productos y mitigarlos en consecuencia. Aprovechando la amplia experiencia en la materia de los desarrolladores empleados, las recompensas por errores internos identifican vulnerabilidades en los modelos y aplicaciones de IA. Además, la participación de proveedores externos ayuda a cubrir superficies de riesgo adicionales en nuestros productos que el red teaming interno puede haber pasado por alto. Utilizar diversas prácticas de red teaming es crucial para cubrir un amplio espectro de riesgos y mejorar la resistencia frente a las vulnerabilidades en evolución.

¿Qué es una recompensa por fallos y por qué es importante?

En una recompensa por fallos, los individuos, ya sean internos o externos, son incentivados por el organizador para descubrir e informar de posibles vulnerabilidades a una organización antes de que puedan ser explotadas por malos actores.

Salesforce fue una de las primeras empresas en establecer un programa de recompensas por fallos y continúa ampliando su impacto a través de iniciativas como eventos de hacking en directo para reforzar la seguridad frente a las amenazas relacionadas con la IA.

Recientemente, hemos llevado a cabo un programa de recompensas por errores interno en el que los empleados enviaron informes de presuntas vulnerabilidades que encontraron en nuestra herramienta para desarrolladores, Agentforce for Developers (anteriormente conocida como Einstein for Developers), una herramienta para desarrolladores impulsada por IA para ayudar en el desarrollo de código Apex y Lightning Web Components (JavaScript, CSS y HTML). Para incentivar la participación, ofrecimos un premio en metálico a la propuesta con mayor puntuación basada en nuestra rúbrica de bug bounty que priorizaba consideraciones generales de sesgo, seguridad y privacidad.

Los resultados fueron reveladores y ayudaron a informar la siguiente iteración de mejoras del producto para mitigar aún más el sesgo potencial. Algunas propuestas, por ejemplo, exploraron cómo la herramienta podría priorizar inadvertidamente ciertos atributos de los clientes, como el género al desarrollar código para predecir el comportamiento de compra. Orlando Lugo, Director de Producto de IA Responsable, describió las implicaciones de desplegar tal código: «Si se desplegara dicho código, podría dar lugar a una toma de decisiones sesgada en las aplicaciones de Salesforce, afectando potencialmente a la equidad y la inclusión.»

Raaghavv Devgon, Ingeniero de Vulnerabilidad de Producto, tuvo la presentación de mayor puntuación, nombrándole ganador del A4D Bug Bounty y del premio en metálico.

«Siendo un profesional de la seguridad, valoro la confianza y la seguridad que implementamos a través de programas como bug bounties e informes de vulnerabilidad, que ayudan a ofrecer un producto más completo y seguro».

Raaghavv Devgon, Ingeniero de Vulnerabilidad de Producto

Las recompensas por fallos internas conducen a la acción y a la moral de los empleados

Para ampliar las vulnerabilidades iniciales identificadas en el evento de recompensas por fallos, el equipo responsable de Inteligencia Artificial y Tecnología llevó a cabo un red teaming adicional basado en las vulnerabilidades identificadas en el evento de recompensas por fallos; Technology llevó a cabo un red teaming adicional basado en las dimensiones de confianza y seguridad de la IA investigadas, que incluyen veracidad, solidez, seguridad, imparcialidad, privacidad y ética, para explorar las superficies de riesgo que las presentaciones no cubrían suficientemente. Para ello, se crearon manualmente preguntas adversas para cada una de estas dimensiones y se evaluó si las respuestas del modelo presentaban vulnerabilidades potenciales.

En colaboración con el equipo de productos de A4D y el equipo de investigación de IA, ampliamos las dimensiones de confianza y seguridad de la IA, inicialmente amplias, para crear unos criterios de IA responsable más estrictos para A4D. Estos criterios incluían dimensiones más específicas del producto para evaluar el modelo, como la toxicidad, las filtraciones de contenido sensible o los prejuicios contra grupos protegidos. Una vez más, creamos manualmente preguntas para cada una de estas dimensiones y evaluamos las respuestas de los modelos. A través de estas pruebas iterativas, identificamos los riesgos potenciales y posteriormente refinamos nuestros sistemas de inteligencia artificial y barreras de seguridad para garantizar que los resultados generados promuevan resultados seguros. Como resultado de estas nuevas barandillas, hemos sido capaces de reducir los resultados problemáticos de las indicaciones adversas en un 90%.

En consecuencia, la realización de equipos rojos internos anima e incentiva a los empleados a identificar y comprometerse críticamente con los problemas de IA responsables, sesgos o daños potenciales en nuestros productos antes de su lanzamiento. Devgon afirma que «la recompensa por errores es un componente crítico de la gestión de vulnerabilidades, e incentiva a los empleados a [invertir su tiempo y experiencia] para encontrar errores críticos»

De forma similar, los empleados de Salesforce han indicado que desean implicarse más en la mejora de nuestros sistemas de IA. Para fomentar aún más su implicación, también hemos llevado a cabo un ligero «red teaming» interno, en el que se anima a los empleados a informar de cualquier fallo de IA responsable que encuentren mientras prueban diversos productos. Los equipos rojos internos permiten a los empleados marcar la diferencia a la vez que aprovechan las diversas perspectivas dentro de la empresa para descubrir una gama más amplia de problemas de IA responsable.

Nuestros aprendizajes de los ejercicios de equipos rojos externos

Además de organizar eventos de equipos rojos internos y en línea con nuestros compromisos voluntarios de IA de la Casa Blanca, Salesforce contrató a un proveedor externo para realizar varias pruebas de penetración para ampliar nuestro espectro de riesgos. Recurrir a terceros con una amplia experiencia y una perspectiva global puede ser útil, ya que implican diversas perspectivas, lo que ayuda a descubrir una gama más amplia de riesgos. Sarah Tan, Directora de IA Responsable, explicó: «El red teaming externo complementa al interno; ambos descubren puntos ciegos que podrían pasar desapercibidos sólo con el red teaming externo o interno» Nosotros subcontratamos las pruebas de Agentforce for Developers al proveedor, que simuló ataques a nuestro producto utilizando mensajes adversos con la intención de hacer que el producto generara resultados sesgados o tóxicos.

Recomendamos a las empresas que contraten a socios externos para realizar pruebas adversas que tengan en cuenta lo siguiente:

Asegúrese de que el proveedor tiene un historial satisfactorio de pruebas adversas y de que ha trabajado antes en su campo.
La experiencia en el dominio es esencial: Se requiere un profundo conocimiento de los dominios internos, productos y terminología, junto con las habilidades de desarrollo necesarias para automatizar y escalar la generación de indicaciones significativas y útiles, para garantizar la alineación con las metas y objetivos del producto.
Proporcione una lista de los avisos de «buena» y «mala» calidad para alinear las expectativas entre usted y el proveedor.
Muestre sus avisos y resultados en el proceso de red teaming, creando momentos de revisión y retroalimentación a lo largo del camino.
Reduzca el alcance de las pruebas a un conjunto específico de productos o áreas de riesgo seleccionadas. Las pruebas de estrés en una superficie más pequeña producen más resultados y de mejor calidad que intentar «romper» todo a la vez.

«Salesforce se enorgullece de ser uno de los firmantes de los Compromisos Voluntarios de IA de la Casa Blanca. Como parte de ese compromiso, involucramos a expertos de terceros para que evalúen la seguridad de nuestros productos y aporten una perspectiva diferente que de otro modo podríamos pasar por alto.»<

Kathy Baxter, Arquitecta Principal, Responsible AI & Tech

Mirando hacia el futuro

Nuestras prácticas de red teaming internas y externas han sido fundamentales para identificar y mitigar las vulnerabilidades de nuestras herramientas impulsadas por IA, garantizando que cumplen nuestros elevados estándares de IA responsable. Al aprovechar las diversas perspectivas de nuestros propios empleados y de expertos externos en la materia, hemos podido identificar numerosos riesgos potenciales y mitigarlos en consecuencia, muchas veces antes de que nuestros productos salgan al mercado.

Mientras seguimos innovando, mantenemos nuestro compromiso con el desarrollo responsable de la IA y con el fomento de una experiencia inclusiva y equitativa para nuestros usuarios. En publicaciones posteriores del blog, entraremos en más detalles sobre ejercicios adicionales de red teaming interno y sus hallazgos.

Agradecimientos: Hannah Cha realizó prácticas en Salesforce en el verano de 2024, trabajando en la recompensa por errores de A4D y en el compromiso con proveedores externos junto con Orlando Lugo y Sarah Tan. Kathy Baxter trabajó en el compromiso con proveedores externos. Un agradecimiento especial a nuestros colaboradores del equipo A4D y AI Research, incluidos Walter Harley, Ananya Jha, Pooja Reddivari, Yingbo Zhou, Young Mo Kang, Mahesh Kodli, y muchos otros colaboradores a lo largo de este proyecto.