Curso de Introducción a la Seguridad en IA por Lakera AI

Introducción

En el panorama digital actual, que evoluciona a toda velocidad, entender la complejidad de AI security es más crucial que nunca. Ya seas un profesional de IT, un entusiasta de la ciberseguridad, un techie o simplemente alguien con ganas de estar al día con lo último en tecnología, el curso por email de Lakera "AI Security in 10 Days" ofrece una inmersión completa en el mundo de la seguridad en IA.

No me malinterpretes, este es un curso amigable para principiantes, diseñado para equiparnos con el conocimiento y las herramientas necesarias para entender y abordar los desafíos de AI security de manera efectiva y para arrancar nuestro camino en este genial y desafiante tema.

Este curso fue creado originalmente por Lakera AI. Podés encontrarlo acá.

Día 1 - Panorama de Amenazas de Seguridad en GenAI

Una exploración en profundidad del panorama de amenazas en IA, destacando casos de brechas en large language models (LLMs) y los riesgos potenciales que representan para las organizaciones. Este día busca sentar las bases resaltando la importancia de mantenerse adelante en el juego de AI security.

Entendiendo los Riesgos de AI Security

AI security abarca un amplio espectro de riesgos, cada uno presentando desafíos únicos y requiriendo estrategias especializadas para su mitigación.

Algunas áreas clave de preocupación incluyen:

Model-Based Attacks: Estos ataques sofisticados buscan manipular modelos de IA, llevando a resultados indeseados. Técnicas como data poisoning y prompt injection comprometen la integridad de los sistemas de IA.
Data Security Breaches: La piedra angular de la funcionalidad de la IA, los datos, se convierte en un objetivo principal, con brechas que llevan a repercusiones severas, incluyendo robo de identidad y pérdidas financieras significativas.
AI Supply Chain Attacks: Apuntando a las fases de desarrollo de modelos de IA, los atacantes pueden introducir vulnerabilidades o backdoors, comprometiendo todo el ecosistema de IA.
Denial-of-Service (DoS) Attacks: Sobrecargando sistemas de IA con tráfico excesivo, estos ataques interrumpen la disponibilidad del servicio, impactando tanto a empresas como a usuarios.
Social Engineering Attacks: El elemento humano sigue siendo un eslabón débil, con atacantes explotando tácticas psicológicas para obtener acceso no autorizado a información sensible.

Brechas de Seguridad en LLMs del Mundo Real

El Red Team interno de Lakera AI identificó varios exploits notables, ofreciendo una mirada a las implicaciones prácticas de las vulnerabilidades en LLMs:

Prompt Injection en la Extensión Bard de Google: Un prompt aparentemente inofensivo llevó a un comportamiento inesperado, ilustrando la facilidad con la que los LLMs pueden ser manipulados.
XSS en una UI de Agente Hosteada: Este exploit demostró las consecuencias de una sanitización inadecuada, llevando a un ataque exitoso de Cross Site Scripting.
Data Poisoning en un Asistente de OpenAI: Manipulando el sistema subyacente, el Red Team pudo evadir los comportamientos previstos, destacando los riesgos del data poisoning en aplicaciones del mundo real.

Para más información sobre esto, visitá los siguientes links:

Día 2 - Explorando Frameworks de Seguridad para Aplicaciones LLM

En el día dos, vas a ver el OWASP Top 10 para LLMs y el framework ATLAS™. Proporciona insights accionables y una base sólida para entender los estándares y prácticas que protegen los sistemas de IA, una muy buena explicación de las diferentes vulnerabilidades asociadas con LLMs y el framework de MITRE (tácticas y técnicas de ataques). Básicamente, dos frameworks cruciales que están reformando nuestra comprensión y enfoque sobre AI security.

Introducción al OWASP Top 10 para Aplicaciones LLM

El OWASP Top 10 para LLMs está específicamente diseñado para abordar las vulnerabilidades únicas que se encuentran en aplicaciones que aprovechan large language models. Esta iniciativa busca generar conciencia entre diversos stakeholders, incluyendo desarrolladores, profesionales de seguridad y líderes organizacionales, sobre los riesgos de seguridad críticos que podrían potencialmente socavar la integridad y seguridad de los despliegues de LLMs.

Explorando las Principales Vulnerabilidades:

Prompt Injection: Esta vulnerabilidad ocurre cuando un atacante alimenta una entrada manipulada en un LLM, causando que ejecute acciones no previstas. Esto puede resultar tanto de la manipulación directa del prompt de entrada como de la manipulación indirecta a través de fuentes de datos comprometidas.
Insecure Output Handling: Confiar en los outputs de LLMs sin una validación adecuada puede llevar a brechas de seguridad severas, como Cross-Site Scripting (XSS) o incluso ejecución remota de código si el output es ejecutado dinámicamente por el sistema receptor.
Training Data Poisoning: Si los datos usados para entrenar un LLM están contaminados, los outputs del modelo pueden ser sesgados o manipulados, llevando a resultados poco confiables y potencialmente dañinos.
Model Denial of Service (DoS): Sobrecargar un LLM con solicitudes o datos complejos que consumen recursos computacionales excesivos puede volver el servicio lento o completamente inresponsivo, afectando la disponibilidad e incurriendo en costos altos.
Supply Chain Vulnerabilities: Esto involucra riesgos introducidos a través de servicios y componentes de terceros usados en la construcción y despliegue de LLMs, lo que puede llevar a modelos comprometidos que funcionan de manera subóptima o maliciosa.
Sensitive Information Disclosure: Aplicaciones LLM mal configuradas pueden exponer inadvertidamente datos sensibles, violando requisitos de privacidad y cumplimiento.
Insecure Plugin Design: Plugins que extienden las funcionalidades de LLMs sin controles de seguridad adecuados pueden ser explotados para realizar acciones no autorizadas, comprometiendo el sistema host.
Excessive Agency: Permitir a los LLMs demasiada autonomía funcional sin supervisión suficiente puede llevar a acciones no previstas que pueden ser difíciles de predecir o controlar.
Overreliance on LLMs: Una dependencia excesiva de los LLMs para la toma de decisiones críticas sin entender sus limitaciones puede llevar a riesgos operacionales significativos y desinformación.
Model Theft: El acceso no autorizado y la duplicación de LLMs propietarios puede llevar al robo de propiedad intelectual, desventaja competitiva y pérdidas económicas.

OWASP TOP 10 - Large Language Models Attacks

Para quienes estén interesados en una exploración más detallada de cada vulnerabilidad, la página del OWASP LLM Top 10 ofrece recursos extensos y estrategias de mitigación.

Introducción al Framework MITRE ATLAS™

El framework MITRE ATLAS™, desarrollado por MITRE, sirve como una guía completa para que los profesionales de ciberseguridad comprendan y combatan las amenazas cibernéticas contra sistemas de IA. Describe un amplio espectro de tácticas y técnicas adversarias, ofreciendo una vista granular de los vectores de ataque potenciales.

Componentes del Framework:

Reconnaissance: Técnicas que involucran sondear información que puede ser usada para planificar futuros ciberataques.
Resource Development: Establecer o adquirir herramientas, datos y otros recursos necesarios para montar un ataque.
Initial Access: Obtener entrada a sistemas, a menudo a través de vulnerabilidades en aplicaciones de cara al público o mediante tácticas de social engineering como phishing.
Execution: Ejecución de código malicioso o estrategias dentro del sistema de IA.
Persistence: Técnicas diseñadas para mantener un punto de apoyo dentro del sistema sin ser detectado.
Defense Evasion: Emplear métodos para evitar la detección, incluyendo el uso de técnicas de sigilo y encriptación.
Discovery: Mapear el entorno de IA para entender sus operaciones y encontrar vulnerabilidades explotables adicionales.
Collection: Recopilar datos valiosos del sistema comprometido para uso futuro o exfiltración.
Exfiltration: Robar datos sensibles o propiedad intelectual del sistema objetivo.
Impact: Acciones dirigidas a interrumpir, degradar o dañar permanentemente el sistema de IA o los datos que maneja.

Para equipos de ciberseguridad que buscan emplear MITRE ATLAS™ en sus estrategias defensivas, el sitio oficial de MITRE ofrece recursos completos y descripciones detalladas de cada categoría.

Conclusión

El segundo día del curso proporciona una comprensión fundamental del OWASP Top 10 para LLMs y los frameworks de MITRE ATLAS™, dándonos el conocimiento para asegurar mejor las aplicaciones de IA contra el panorama en evolución de amenazas cibernéticas y vulnerabilidades. Estos frameworks no solo ofrecen insights sobre las vulnerabilidades sino que también guían el desarrollo de medidas de seguridad robustas para protegerse y mitigar estos riesgos de manera efectiva (muy buenos ejemplos en la página de OWASP sobre cómo mitigarlos y controles que deberíamos implementar en nuestros modelos).

Para mí fue el mejor día del curso por el contenido, y porque está realmente enfocado en las cosas que más me gustan. Pero por supuesto, el curso continúa con genial y más información por cubrir.

Día 3 - Prompt Injections a Fondo

Otro buen día lleno de contenido sobre la vulnerabilidad número uno del OWASP Top 10, Prompt Injection! Seguro que ya sabés algo sobre esta vulnerabilidad, pero si te salteaste la información de arriba, prompt injection permite a un atacante manipular LLMs creando prompts que hacen que el modelo se desvíe de su función prevista o realice acciones no deseadas. Entender este vector de ataque es algo fundamental y crucial para cualquiera que esté desarrollando o desplegando LLMs en sus organizaciones.

Tipos de Prompt Injections

Direct Prompt Injections: Ocurren cuando los atacantes anulan los propios prompts del sistema para dirigir al modelo a ejecutar instrucciones específicas, a menudo maliciosas.
Indirect Prompt Injections: Involucran la manipulación del modelo a través de entradas alteradas de fuentes externas, engañando al modelo para que realice acciones que no debería.

Una instancia notoria de prompt injection fue observada con Bing Chat (investigador: Cristiano Giardina), donde un prompt manipulado forzó a la IA a revelar sus comandos operacionales subyacentes.

El Juego de Gandalf

Para destacar los riesgos y enseñar a la comunidad, Lakera introdujo 'Gandalf', un juego educativo donde los jugadores desafían a un LLM a revelar una contraseña usando prompts manipulados. Este juego no solo fue una forma divertida y atrapante de aprender sobre prompt injection en IA, sino que también me proporcionó una gran cantidad de datos sobre vectores de ataque potenciales y métodos usados en escenarios del mundo real (está genial resolver los diferentes niveles y después buscar qué hicieron otros usuarios, es muy gracioso ver cómo los diferentes enfoques funcionan y cómo la creatividad vuela para resolver este juego).

¡Probalo vos mismo!

Tipos de Ataques de Prompt Injection

El Red Team de Lakera identificó varios tipos clave de ataques de prompt injection hasta ahora:

Jailbreaks: Involucran incrustar consultas maliciosas dentro de prompts para provocar respuestas no deseadas o inapropiadas de la IA.
Sidestepping Attacks: Acá, el ataque elude las instrucciones directas creando prompts que indirectamente llevan al resultado deseado.
Multi-language Attacks: Usan idiomas distintos al inglés para evadir las medidas de seguridad estándar implementadas en inglés.
Role-playing or Persuasion: Los atacantes le piden a la IA que adopte un personaje, lo que puede llevar a acciones que evaden las restricciones predefinidas.
Multi-prompt Attacks: Involucran una serie de prompts aparentemente inofensivos que colectivamente sirven para extraer información sensible.
Obfuscation (Token Smuggling): Esta estrategia altera la presentación de datos para evadir la detección por sistemas automatizados pero sigue siendo comprensible para humanos.
Accidental Context Leakage: A veces, el modelo revela inadvertidamente datos sensibles debido a su programación de ser excesivamente servicial.
Code Injection: Esta forma peligrosa de ataque manipula al modelo para ejecutar código arbitrario.
Prompt Leaking/Extraction: Involucra la extracción de los prompts internos del modelo o datos sensibles.

Y para cerrar este día, nos muestran cómo protegernos contra este tipo de ataques.

Para más información sobre esto, visitá los siguientes links:

Día 4 - Ciberseguridad Tradicional vs. IA

Acá se comparan y contrastan los enfoques y metodologías entre la ciberseguridad tradicional y la seguridad impulsada por IA, destacando los desafíos y oportunidades únicas que presenta la IA. Lamentablemente, el contenido de hoy fue algo extremadamente básico y menos interactivo comparado con los días anteriores (unos pocos párrafos de información).

Fundamentos de la Ciberseguridad Tradicional La ciberseguridad tradicional busca proteger la integridad, confidencialidad y disponibilidad de la información, evolucionando desde defensas básicas contra malware en los años 80 hasta estrategias complejas contra amenazas sofisticadas como ataques de estados-nación. Las áreas clave incluyen:

Critical Infrastructure Security
Network and Application Security
Cloud and IoT Security

Esta base enfatiza el rol esencial de coordinar personas, procesos y tecnología para fortalecer las defensas.

IA en Ciberseguridad: Avances y Beneficios

La IA transforma la ciberseguridad automatizando la detección y respuesta ante amenazas, ofreciendo ventajas significativas sobre los métodos tradicionales, como adaptabilidad (los LLMs pueden ajustarse rápidamente a nuevas amenazas) y eficiencia (procesan grandes volúmenes de datos más rápido, reduciendo el error humano).

Herramientas de IA como Intrusion Detection Systems (IDS), Data Loss Prevention (DLP) y Security Information and Event Management (SIEM) ejemplifican estas mejoras, potenciando la flexibilidad y mejorando los tiempos de respuesta.

Asegurando Sistemas de IA A medida que la IA se integra más profundamente en servicios críticos, asegurar los propios sistemas de IA se vuelve crucial. La industria aborda vulnerabilidades y amenazas como adversarial attacks y data breaches con estrategias de protección que pueden incluir:

Algunas de las mejores prácticas para proteger sistemas de IA incluyen:

Implementar un Programa Robusto de AI Security: Desarrollar y mantener una estrategia de seguridad integral, con registros actualizados de activos de IA y responsabilidades de gestión de riesgos claramente designadas.
Involucrar Activamente a los Stakeholders: Involucrar a expertos en IA para obtener insights de seguridad y proporcionar capacitación especializada a los equipos de IA para mejorar la identificación y prevención de amenazas.
Establecer Salvaguardas Técnicas Avanzadas: Proteger la integridad de los datos mediante encriptación, aplicar controles de acceso estrictos y utilizar herramientas de monitoreo avanzadas para detectar amenazas potenciales de forma oportuna.
Realizar Evaluaciones de Seguridad Regulares: Realizar activamente penetration testing y vulnerability scanning para identificar y mitigar proactivamente los riesgos de seguridad.
Cumplir con los Estándares Legales y Regulatorios: Mantenerse actualizado y cumplir con regulaciones como GDPR y CCPA, así como las próximas regulaciones de IA para asegurar la privacidad de datos y la confianza del usuario.
Desarrollar un Protocolo de Respuesta a Incidentes: Crear un plan detallado para acciones inmediatas en respuesta a brechas de seguridad, incluyendo estrategias de comunicación y pasos de remediación.

Día 5 - Seguridad en Aplicaciones de IA

El día cinco se enfoca principalmente en integrar medidas de seguridad dentro de las aplicaciones de IA. Cubre lineamientos para desarrollar soluciones de IA seguras y mantenerlas contra amenazas emergentes. Básicamente, este capítulo se enfoca en todos los elementos cruciales de seguridad de aplicaciones de IA que están involucrados en proteger todo el sistema de IA.

Explorando la Seguridad en Aplicaciones de IA

AI security se divide ampliamente en tres niveles:

Application security
Stack security
Infrastructure security.

La sesión de hoy reintrodujo contenido y contexto relevante sobre eso, ofreciendo insights profundos sobre cada capa.

Con los nuevos avances tecnológicos de cada día, los LLMs están ahora integrados en sistemas más complejos, enfrentando nuevos desafíos de seguridad, especialmente porque pueden ser explotados usando simples prompts en inglés (o prácticamente cualquier otro idioma aceptado por el LLM).

Enfoques de Seguridad Reactivos vs. Proactivos

Una parte importante fue la diferenciación entre enfoques de seguridad reactivos y proactivos en la seguridad de aplicaciones de IA.

Reactive security aborda las amenazas a medida que ocurren, crucial para las aplicaciones LLM accesibles y vulnerables.
Proactive security, por otro lado, anticipa los riesgos e incluye medidas como penetration testing y red teaming para mitigar vulnerabilidades antes de que puedan ser explotadas.

Podés mirar el video a continuación para aprender más sobre herramientas y estrategias para asegurar aplicaciones de IA (hecho por Lakera, por supuesto).

How Enterprises Can Secure AI Applications: Lessons from OWASP's Top 10 for LLMs

Asegurando Aplicaciones de IA: Mejores Prácticas

El curso delineó prácticas esenciales para asegurar aplicaciones de IA de manera efectiva:

Antes del Despliegue: Evaluar las aplicaciones contra los riesgos OWASP para LLMs, realizar ejercicios de red team, y asegurar la supply chain evaluando fuentes de datos y proveedores.
En Operación: Implementar medidas reactivas como limitar las acciones de los LLMs en sistemas downstream y asegurar una validación de entrada robusta. También, integrar herramientas de AI security para monitoreo en tiempo real y mantener al equipo actualizado sobre los últimos riesgos de AI security.

Y afortunadamente, vas a tener acceso a algunos recursos geniales una vez más (qué suerte, ya tenés estos recursos acá abajo).

Día 6 - Red Teaming en AI/LLM

Insights sobre los procesos y mejores prácticas de red teaming en AI/LLM (no hay magia extra acá, es bastante similar al término que ya podríamos conocer del resto de la industria). Entonces, este día enfatiza la importancia de medidas de seguridad proactivas y la simulación de ataques potenciales para fortalecer los sistemas de IA (sumando offensive security en nuestros procesos).

Explorando y Ejecutando Red Teaming en AI/LLM

Red teaming, históricamente una estrategia militar para simular tácticas enemigas, encontró relevancia crucial en el ámbito de la IA. Para los LLMs, red teaming involucra pruebas rigurosas para descubrir vulnerabilidades y sesgos, y para evaluar áreas donde el rendimiento o las respuestas éticas pueden ser inadecuadas. Esta práctica no solo ayuda a fortalecer la IA contra el mal uso sino que también asegura que se adhieran a estándares éticos.

Nada nuevo en términos generales, pero como mencioné, el panorama general puede ser el mismo, las técnicas cambiaron un poco y la creatividad para trabajar con LLMs entra en juego cuando necesitamos disparar comportamientos inesperados al lidiar con esta pieza sofisticada de software (desde prompt injections creativos hasta intentos de supply-chain poisoning).

Un ejercicio de red teaming real, de alta calidad y efectivo en IA no sigue un enfoque único para todos debido a las vulnerabilidades únicas y los entornos de despliegue de los modelos de IA. En cambio, combina creatividad con análisis sistemático para adaptar estrategias que mejor se ajusten a modelos de IA específicos. Así es como generalmente se estructura:

Definición de Objetivos: Empezar definiendo metas claras como evaluar niveles de riesgo e identificar comportamientos potencialmente dañinos—sesgos, toxicidad, brechas de privacidad, etc. (como una especie de threat modeling con esteroides, los LLMs son realmente graciosos).
Desarrollo de Estrategias de Ataque: Esto involucra una mezcla de ataques manuales y automatizados, empleando múltiples técnicas como code injection, escenarios hipotéticos y role-playing para desafiar a la IA.
Desarrollo de Escenarios y Prompting Dirigido: Crear situaciones realistas y extremas para testear las respuestas de la IA, y desarrollar prompts que apunten específicamente a revelar sesgos o comportamientos no éticos.
Análisis de Feedback: Analizar cuidadosamente las respuestas de la IA en busca de inconsistencias o outputs problemáticos para refinar estrategias y mejorar el comportamiento de la IA.

Para asegurar un red teaming de IA responsable y de alta calidad, es realmente importante utilizar equipos diversos que puedan explorar diferentes vulnerabilidades de manera efectiva. Este enfoque debe estar respaldado por una planificación integral que delinee una estrategia detallada para pruebas sistemáticas. A medida que las pruebas avanzan, las estrategias deben refinarse basándose en los hallazgos iniciales en un proceso iterativo que se adapta y mejora con cada ciclo. Las consideraciones éticas deben permanecer en primer plano a lo largo de las fases de prueba para mantener altos estándares. Además, mantener registros meticulosos de las estrategias de prueba y los resultados es esencial para informar prácticas futuras y asegurar la rendición de cuentas.

¿Quién Debería Realizar el Red Teaming?

La elección entre usar red teams internos o externos a menudo depende de necesidades específicas:

Red Teams Internos: Ofrecen insights profundos sobre los sistemas de IA de la empresa y facilitan mejoras continuas, pero pueden enfrentar limitaciones debido a sesgos potenciales.
Red Teams Externos: Proporcionan una perspectiva fresca y expertise especializada, ayudando a minimizar sesgos y validar la debida diligencia, aunque podrían estar menos familiarizados con las particularidades específicas del sistema y pueden ser más costosos.

Día 7 - AI Tech Stack y Evaluación de Soluciones de AI Security

Durante este día vamos a entender los componentes que conforman el AI security tech stack y cómo evaluar críticamente las soluciones de AI security para tu organización. La arquitectura del stack moderno de IA es multicapa y compleja, incluyendo varios componentes desde aplicaciones hasta infraestructura como:

AI Applications (también conocidas como Gen AI apps): Estas abarcan una amplia gama de aplicaciones, desde las orientadas al consumidor (como ChatGPT) hasta las de nivel empresarial (como BlackBot, que opera en diferentes mercados bursátiles a alta frecuencia, recibiendo un enorme volumen de datos en tiempo real—puede sonar como trampa, ¡lo sé!). Están adaptadas a industrias específicas como salud o construcción, o departamentos específicos como contabilidad o ventas. Esta capa interactúa directamente con los usuarios finales y típicamente integra IA con componentes de software tradicional.
Autonomous Agents: Esta capa consiste en sistemas de IA que operan de forma independiente, tomando decisiones basadas en inputs de usuarios u otros sistemas, involucrando así una relación más compleja entre varios actores. Estos agentes van desde open source, que son libremente accesibles y modificables, hasta sistemas propietarios controlados por entidades específicas y gestionados a través de sistemas especializados de gestión de agentes.
AI Models/Foundational Models: En este nivel, encontramos los modelos de IA centrales que impulsan las aplicaciones y agentes. Estos modelos pueden ser propietarios, desarrollados por empresas específicas, o open-source, disponibles para uso y modificación pública (ejemplos incluyen LLaMA 2, Mistral 7B, Gemini o Claude).
AI Infrastructure: Sirviendo como columna vertebral, esta capa incluye todo desde servicios de cloud computing y soluciones de almacenamiento hasta hardware como GPUs y procesadores de IA especializados. También abarca la infraestructura física como data centers y la energía necesaria para alimentar y enfriar estos sistemas (¿leíste o escuchaste algo sobre NVIDIA en estos últimos meses?).
Data: A menudo descrita como el combustible de la IA, los datos pueden categorizarse en públicos, propietarios o generados sintéticamente. Cada tipo alimenta los modelos de IA para habilitar su funcionalidad. Lamentablemente, esto todavía está en pañales, y el resto de la industria se mueve mucho más rápido y está más decidida a alcanzar metas más ambiciosas.

Understanding Generative AI: A Tech Stack Breakdown by Orion Innovation

Estrategias para Evaluar Soluciones de AI Security

Una gran parte de la lección fue dedicada y realmente específica sobre abordar la necesidad de soluciones fuertes de AI security (se parece a los primeros días de internet y las vulnerabilidades reportadas en ese entonces), destacada por el pico en ataques potenciados por IA durante el último año. Vas a explorar un checklist estratégico diseñado para guiarnos en la selección de herramientas de AI security que se alineen tanto con expectativas personales como con las necesidades organizacionales como la siguiente imagen:

Conclusiones y Recursos Adicionales

El día concluyó con tips prácticos sobre cómo utilizar efectivamente el checklist de evaluación—priorizando requerimientos y emparejándolos con las soluciones de seguridad más adecuadas que podemos aplicar.

También compartieron recursos valiosos para seguir buscando soluciones de seguridad nuevas y gratuitas para proteger estos sistemas complejos:

Día 8 - Navegando la Gobernanza de IA

Una exploración de la gobernanza de IA y sus implicaciones, incluyendo una mirada al EU AI Act y las regulaciones de EE.UU. (las dos legislaciones principales hasta ahora). Este día busca proporcionar una comprensión clara del panorama legal y regulatorio que rodea a AI security y los diferentes enfoques entre ambos.

El EU AI Act

El EU AI Act es una propuesta legislativa de la Comisión Europea diseñada para regular el uso de IA en todos los sectores, con un único ítem fuera de alcance: las aplicaciones militares. Esta ley introduce un sistema de clasificación basado en riesgos para herramientas de IA, categorizándolas desde riesgos mínimos hasta inaceptables, con obligaciones estrictas para aplicaciones de alto riesgo como las usadas en fuerzas de seguridad e infraestructuras críticas. Además, la ley prohíbe ciertos usos de IA considerados como de riesgos inaceptables, incluyendo IA para puntuación social que lleve a la denegación de derechos, IA manipulativa dirigida a poblaciones vulnerables, vigilancia masiva con identificación biométrica en espacios públicos, e IA que induzca daño como juguetes peligrosos.

Los Principios del AI Bill of Rights de EE.UU.

En contraste, el AI Bill of Rights de la Casa Blanca ofrece un modelo no vinculante enfocado en guiar el uso ético de la IA en Estados Unidos. Este documento enfatiza la protección de los derechos civiles y asegurar que los valores democráticos se mantengan en los despliegues de IA. Destaca principios como la seguridad y efectividad de los sistemas de IA, protecciones contra la discriminación algorítmica, y asegurar una privacidad de datos robusta.

Los principios clave son:

Alternativas Humanas, Consideración y Respaldo: Asegurar opciones para optar fuera de sistemas automatizados a favor de alternativas humanas y proporcionar medios para abordar fallas del sistema o disputas.
Aviso y Explicación: Proporcionar información clara y accesible sobre el uso e impacto de los sistemas automatizados.
Privacidad de Datos: Protección contra prácticas abusivas de datos, asegurando privacidad y control del usuario sobre datos personales.
Protecciones contra Discriminación Algorítmica: Prevención de discriminación por algoritmos y promoción de diseño y uso equitativo de sistemas.
Sistemas Seguros y Efectivos: Protección contra sistemas automatizados inseguros o inefectivos, asegurando seguridad y efectividad en su diseño y despliegue.

Perspectivas Comparativas y Herramientas de Aprendizaje

La sesión proporcionó valiosas perspectivas comparativas sobre cómo estos marcos legislativos principales buscan dar forma al desarrollo y uso responsable de la IA. Discutimos las especificidades de cada enfoque, desde las medidas estructuradas y legalmente vinculantes del EU AI Act hasta las pautas consultivas y basadas en principios del AI Bill of Rights.

Para tener una comprensión más sustancial al respecto, se proporcionaron recursos adicionales, incluyendo análisis detallados del EU AI Act y discusiones sobre sus implicaciones para las empresas. El contenido de hoy fue particularmente informativo, ofreciendo una visión clara de cómo diferentes regiones están abordando los desafíos y oportunidades presentados por las tecnologías de IA.

Si querés más información, consultá los siguientes recursos:

Día 9 - El Rol en Evolución del CISO

Otro día de relleno en el curso, durante este día vas a tener insights sobre cómo el rol de los Chief Information Security Officers (CISOs) y los equipos de ciberseguridad se está adaptando en la era de la IA. Cubre las habilidades, conocimientos y estrategias requeridas para liderar efectivamente iniciativas de AI security (sin recursos externos ni información profunda al respecto).

Entendiendo el Rol en Evolución del CISO

La sesión comenzó con una exploración de cómo el rol tradicional de un CISO, que antes se enfocaba predominantemente en tareas técnicas de seguridad IT como gestionar equipos de ciberseguridad y asegurar el cumplimiento, está experimentando cambios significativos. Con la llegada de la IA generativa y otras tecnologías avanzadas, el alcance de las responsabilidades del CISO se está expandiendo dramáticamente.

Cambios Estratégicos para los CISOs

Los CISOs de hoy están yendo más allá de los confines de la mera supervisión técnica para adoptar un enfoque más estratégico e integral de la seguridad. Son fundamentales para fomentar una cultura organizacional consciente de la IA, viéndola no solo como un impulsor de productividad sino también como un riesgo potencial de seguridad. Este cambio refleja una comprensión más amplia de que la ciberseguridad no es solo un tema técnico sino una función empresarial crítica que se cruza con cada aspecto de las operaciones de una empresa.

Incorporación de la IA en las Prácticas de Ciberseguridad

Un punto destacado clave de la lección de hoy fueron datos de una encuesta reciente de Splunk, que mostró una tendencia creciente entre los CISOs incorporando IA en sus estrategias de seguridad. Aproximadamente el 35% de los CISOs ya utilizan IA para mejorar las medidas de ciberseguridad, con un 61% adicional planeando o interesado en integrar herramientas de IA dentro del próximo año. Esta estadística subraya la creciente dependencia de la IA para fortalecer las defensas de ciberseguridad contra amenazas más sofisticadas.

Día 10 - Recursos de AI & LLM Security

El día final cierra el curso proporcionando un tesoro de recursos, tendencias y desarrollos en curso en el campo de AI safety y security. Hoy fue todo sobre armarnos con recursos para continuar nuestro propio camino de aprendizaje.

Recursos de Lakera

AI Security Blog (leé artículos sobre AI safety y security).
Online and In-Person Events (registrate para próximos eventos y accedé a las grabaciones de eventos pasados).
Prompt Injection Handbook(descargá el handbook de prompt injection de Lakera).
LLM Security Playbook (descargá el LLM security playbook de Lakera).
[Real-World LLM Exploits Case Study (aprendé cómo el red team de Lakera explota aplicaciones de IA).
LLM Security Solution Evaluation Checklist (usá este checklist para evaluar soluciones de LLM security disponibles actualmente en el mercado).
Gandalf: A Prompt Injection Game (jugá al juego viral de prompt injection de Lakera).
Momentum: AI Security Slack Community (unite a la comunidad de Lakera sobre AI security y safety en Slack).

Frameworks de AI/LLM Safety & Security

OWASP Top 10 for LLM Applications (un PDF detallando las top 10 vulnerabilidades de aplicaciones LLM compilado por el Open Worldwide Application Security Project (OWASP)).
MITRE ATLAS™ (una base de conocimiento de tácticas y técnicas adversarias).
Microsoft's AI Security Risk Assessment Framework (mejores prácticas y guía para asegurar sistemas de IA).
Google's Secure AI Framework (SAIF)(https://blog.google/technology/safety-security/introducing-googles-secure-ai-framework/) (framework conceptual de Google para sistemas de IA seguros).
OpenAI's Preparedness Framework Beta (procesos de OpenAI para rastrear, evaluar, pronosticar y proteger contra riesgos catastróficos planteados por modelos cada vez más poderosos).

Regulaciones de IA (Propuestas)

Blueprint for AI Bill of Rights (Texto Completo) (principios y prácticas para ayudar a guiar el diseño, uso y despliegue de sistemas automatizados para proteger los derechos del público estadounidense en la era de la inteligencia artificial).
EU AI Act (Texto Completo) (propuesta de ley, destinada a regular el campo de la inteligencia artificial en rápido crecimiento).
Navigating the AI Regulatory Landscape (artículo de Lakera con un resumen, puntos destacados y consideraciones clave para empresas).

Lineamientos

Adopting AI Responsibly (lineamientos del Foro Económico Mundial para la adquisición de soluciones de IA por el sector privado).

Reportes

State of AI Report 2023 (análisis de los desarrollos más interesantes en IA).
An Overview of Catastrophic AI Risks (un resumen del Center for AI Safety).
Generative AI Security And Risk Management Strategies (un reporte de Gartner).
Global Risks Report 2024 (algunos de los riesgos más severos que podríamos enfrentar en la próxima década).
How GenAI Will Impact CISOs and Their Teams (otro reporte de Gartner).

Bases de Datos

AI Incident Database (una base de datos navegable, buscable y frecuentemente actualizada de incidentes de IA).
The OECD AI Incidents Monitor (un repositorio de incidentes de IA para ayudar a legisladores, profesionales de IA y todos los stakeholders).

Colecciones de Recursos

AI Safety Fundamentals (una colección grande y en crecimiento de recursos útiles para personas en el espacio de AI safety).

Conclusión

El curso por email "AI Security in 10 Days" está estructurado para llevarte de un principiante curioso a un profesional un poco más informado, listo para seguir explorando los desafíos de AI security con más confianza y recursos para disfrutar el proceso de aprendizaje en este campo rápido y emocionante. A través de este curso, vas a ganar no solo conocimiento teórico sino también herramientas prácticas e insights que son inmediatamente aplicables en tus proyectos profesionales o personales (el juego de Gandalf es un muy buen ejemplo de esto).

¡Bienvenido a bordo del camino para asegurar el futuro de la IA dentro de las organizaciones! (tiene esa vibra y me gusta). Como pasó con los primeros pasos de internet, creo que todas las empresas en algún momento van a apurarse a surfear la nueva "ola tecnológica", apurando el proceso de implementación y, por eso, creando maneras nuevas y más divertidas de atacar LLMs. ¡El futuro se ve genial, divertido y desafiante!

Así que creo que realmente vale la pena, si te gusta el tema, sumergirte en esto lo antes posible y tratar de aprender sobre este mundo increíble y profundo al que todos estamos entrando juntos. Bugcrowd (Bug Bounty Platform) ya creó "The Ultimate Guide - AI Security", y HackerOne ya implementó IA en su plataforma + creó otra guía "The Ultimate Guide to Managing Ethical and Security Risks in AI"). Así que estamos viendo cambios muy rápido, en diferentes industrias, e incluso en nuestra propia industria de seguridad. ¡Quedate atento porque viene más contenido de IA!

A continuación, habrá reseñas de cursos de empresas como Deep Learning AI, Nvidia y Cohere AI, además de resúmenes de investigaciones académicas sobre LLM/AI Security, presentados de forma legible, divertida y casual.

Entonces, después de todo, si te gustan los certificados o algo para mostrar en LinkedIn, ofrecen el siguiente certificado de finalización después de esos 10 días:

La estructura actual carece de una forma de seguir tu progreso durante el curso de 10 días. Actualmente, todos los participantes reciben el mismo contenido e información durante este tiempo, pero no hay oportunidad para desafíos o tests para determinar la comprensión o retención (No hay forma de evaluar realmente a los estudiantes antes de otorgar el certificado). Uno podría anticipar que las futuras iteraciones incluirán una plataforma más orientada a cursos que no solo muestre y analice el progreso del participante sino que también extienda el framework para permitir un entorno de aprendizaje más inmersivo. Sin embargo, es importante tener en cuenta que este es un curso fundamental destinado a despertar la curiosidad y el entusiasmo de los principiantes de la industria, gratuito y abierto... así que gracias por eso.

¿Qué sigue?

Tengo estos cursos gratuitos en mente:

Deep Learning AI (Red Teaming LLM Applications)
LLM University by Cohere
Seguir leyendo papers técnicos sobre LLM Security, como Can Large Language Models Find And Fix Vulnerable Software? by David Noever
NVIDIA free courses

Pon a Prueba tu Conocimiento Técnico

Repaso del Curso de Lakera

Fácil

¿Qué framework dice el post que se cubre junto con el OWASP Top 10 para LLMs en el Día 2 del curso?

Medio

¿Qué día del curso está dedicado a un deep dive sobre Prompt Injections?

Difícil

Según el resumen del OWASP Top 10 incluido en el post, ¿qué significa "Excessive Agency" en aplicaciones con LLMs?

Introducción

Este curso fue creado originalmente por Lakera AI. Podés encontrarlo acá.

Día 1 - Panorama de Amenazas de Seguridad en GenAI

Entendiendo los Riesgos de AI Security

AI security abarca un amplio espectro de riesgos, cada uno presentando desafíos únicos y requiriendo estrategias especializadas para su mitigación.

Algunas áreas clave de preocupación incluyen:

Model-Based Attacks: Estos ataques sofisticados buscan manipular modelos de IA, llevando a resultados indeseados. Técnicas como data poisoning y prompt injection comprometen la integridad de los sistemas de IA.
Data Security Breaches: La piedra angular de la funcionalidad de la IA, los datos, se convierte en un objetivo principal, con brechas que llevan a repercusiones severas, incluyendo robo de identidad y pérdidas financieras significativas.
AI Supply Chain Attacks: Apuntando a las fases de desarrollo de modelos de IA, los atacantes pueden introducir vulnerabilidades o backdoors, comprometiendo todo el ecosistema de IA.
Denial-of-Service (DoS) Attacks: Sobrecargando sistemas de IA con tráfico excesivo, estos ataques interrumpen la disponibilidad del servicio, impactando tanto a empresas como a usuarios.
Social Engineering Attacks: El elemento humano sigue siendo un eslabón débil, con atacantes explotando tácticas psicológicas para obtener acceso no autorizado a información sensible.

Brechas de Seguridad en LLMs del Mundo Real

El Red Team interno de Lakera AI identificó varios exploits notables, ofreciendo una mirada a las implicaciones prácticas de las vulnerabilidades en LLMs:

Prompt Injection en la Extensión Bard de Google: Un prompt aparentemente inofensivo llevó a un comportamiento inesperado, ilustrando la facilidad con la que los LLMs pueden ser manipulados.
XSS en una UI de Agente Hosteada: Este exploit demostró las consecuencias de una sanitización inadecuada, llevando a un ataque exitoso de Cross Site Scripting.
Data Poisoning en un Asistente de OpenAI: Manipulando el sistema subyacente, el Red Team pudo evadir los comportamientos previstos, destacando los riesgos del data poisoning en aplicaciones del mundo real.

Para más información sobre esto, visitá los siguientes links:

Día 2 - Explorando Frameworks de Seguridad para Aplicaciones LLM

Introducción al OWASP Top 10 para Aplicaciones LLM

Explorando las Principales Vulnerabilidades:

Prompt Injection: Esta vulnerabilidad ocurre cuando un atacante alimenta una entrada manipulada en un LLM, causando que ejecute acciones no previstas. Esto puede resultar tanto de la manipulación directa del prompt de entrada como de la manipulación indirecta a través de fuentes de datos comprometidas.
Insecure Output Handling: Confiar en los outputs de LLMs sin una validación adecuada puede llevar a brechas de seguridad severas, como Cross-Site Scripting (XSS) o incluso ejecución remota de código si el output es ejecutado dinámicamente por el sistema receptor.
Training Data Poisoning: Si los datos usados para entrenar un LLM están contaminados, los outputs del modelo pueden ser sesgados o manipulados, llevando a resultados poco confiables y potencialmente dañinos.
Model Denial of Service (DoS): Sobrecargar un LLM con solicitudes o datos complejos que consumen recursos computacionales excesivos puede volver el servicio lento o completamente inresponsivo, afectando la disponibilidad e incurriendo en costos altos.
Supply Chain Vulnerabilities: Esto involucra riesgos introducidos a través de servicios y componentes de terceros usados en la construcción y despliegue de LLMs, lo que puede llevar a modelos comprometidos que funcionan de manera subóptima o maliciosa.
Sensitive Information Disclosure: Aplicaciones LLM mal configuradas pueden exponer inadvertidamente datos sensibles, violando requisitos de privacidad y cumplimiento.
Insecure Plugin Design: Plugins que extienden las funcionalidades de LLMs sin controles de seguridad adecuados pueden ser explotados para realizar acciones no autorizadas, comprometiendo el sistema host.
Excessive Agency: Permitir a los LLMs demasiada autonomía funcional sin supervisión suficiente puede llevar a acciones no previstas que pueden ser difíciles de predecir o controlar.
Overreliance on LLMs: Una dependencia excesiva de los LLMs para la toma de decisiones críticas sin entender sus limitaciones puede llevar a riesgos operacionales significativos y desinformación.
Model Theft: El acceso no autorizado y la duplicación de LLMs propietarios puede llevar al robo de propiedad intelectual, desventaja competitiva y pérdidas económicas.

Para quienes estén interesados en una exploración más detallada de cada vulnerabilidad, la página del OWASP LLM Top 10 ofrece recursos extensos y estrategias de mitigación.

Introducción al Framework MITRE ATLAS™

Componentes del Framework:

Reconnaissance: Técnicas que involucran sondear información que puede ser usada para planificar futuros ciberataques.
Resource Development: Establecer o adquirir herramientas, datos y otros recursos necesarios para montar un ataque.
Initial Access: Obtener entrada a sistemas, a menudo a través de vulnerabilidades en aplicaciones de cara al público o mediante tácticas de social engineering como phishing.
Execution: Ejecución de código malicioso o estrategias dentro del sistema de IA.
Persistence: Técnicas diseñadas para mantener un punto de apoyo dentro del sistema sin ser detectado.
Defense Evasion: Emplear métodos para evitar la detección, incluyendo el uso de técnicas de sigilo y encriptación.
Discovery: Mapear el entorno de IA para entender sus operaciones y encontrar vulnerabilidades explotables adicionales.
Collection: Recopilar datos valiosos del sistema comprometido para uso futuro o exfiltración.
Exfiltration: Robar datos sensibles o propiedad intelectual del sistema objetivo.
Impact: Acciones dirigidas a interrumpir, degradar o dañar permanentemente el sistema de IA o los datos que maneja.

Para equipos de ciberseguridad que buscan emplear MITRE ATLAS™ en sus estrategias defensivas, el sitio oficial de MITRE ofrece recursos completos y descripciones detalladas de cada categoría.

Conclusión

Día 3 - Prompt Injections a Fondo

Tipos de Prompt Injections

Direct Prompt Injections: Ocurren cuando los atacantes anulan los propios prompts del sistema para dirigir al modelo a ejecutar instrucciones específicas, a menudo maliciosas.
Indirect Prompt Injections: Involucran la manipulación del modelo a través de entradas alteradas de fuentes externas, engañando al modelo para que realice acciones que no debería.

Una instancia notoria de prompt injection fue observada con Bing Chat (investigador: Cristiano Giardina), donde un prompt manipulado forzó a la IA a revelar sus comandos operacionales subyacentes.

El Juego de Gandalf

¡Probalo vos mismo!

Tipos de Ataques de Prompt Injection

El Red Team de Lakera identificó varios tipos clave de ataques de prompt injection hasta ahora:

Jailbreaks: Involucran incrustar consultas maliciosas dentro de prompts para provocar respuestas no deseadas o inapropiadas de la IA.
Sidestepping Attacks: Acá, el ataque elude las instrucciones directas creando prompts que indirectamente llevan al resultado deseado.
Multi-language Attacks: Usan idiomas distintos al inglés para evadir las medidas de seguridad estándar implementadas en inglés.
Role-playing or Persuasion: Los atacantes le piden a la IA que adopte un personaje, lo que puede llevar a acciones que evaden las restricciones predefinidas.
Multi-prompt Attacks: Involucran una serie de prompts aparentemente inofensivos que colectivamente sirven para extraer información sensible.
Obfuscation (Token Smuggling): Esta estrategia altera la presentación de datos para evadir la detección por sistemas automatizados pero sigue siendo comprensible para humanos.
Accidental Context Leakage: A veces, el modelo revela inadvertidamente datos sensibles debido a su programación de ser excesivamente servicial.
Code Injection: Esta forma peligrosa de ataque manipula al modelo para ejecutar código arbitrario.
Prompt Leaking/Extraction: Involucra la extracción de los prompts internos del modelo o datos sensibles.

Y para cerrar este día, nos muestran cómo protegernos contra este tipo de ataques.

Para más información sobre esto, visitá los siguientes links:

Día 4 - Ciberseguridad Tradicional vs. IA

Critical Infrastructure Security
Network and Application Security
Cloud and IoT Security

Esta base enfatiza el rol esencial de coordinar personas, procesos y tecnología para fortalecer las defensas.

IA en Ciberseguridad: Avances y Beneficios

Algunas de las mejores prácticas para proteger sistemas de IA incluyen:

Implementar un Programa Robusto de AI Security: Desarrollar y mantener una estrategia de seguridad integral, con registros actualizados de activos de IA y responsabilidades de gestión de riesgos claramente designadas.
Involucrar Activamente a los Stakeholders: Involucrar a expertos en IA para obtener insights de seguridad y proporcionar capacitación especializada a los equipos de IA para mejorar la identificación y prevención de amenazas.
Establecer Salvaguardas Técnicas Avanzadas: Proteger la integridad de los datos mediante encriptación, aplicar controles de acceso estrictos y utilizar herramientas de monitoreo avanzadas para detectar amenazas potenciales de forma oportuna.
Realizar Evaluaciones de Seguridad Regulares: Realizar activamente penetration testing y vulnerability scanning para identificar y mitigar proactivamente los riesgos de seguridad.
Cumplir con los Estándares Legales y Regulatorios: Mantenerse actualizado y cumplir con regulaciones como GDPR y CCPA, así como las próximas regulaciones de IA para asegurar la privacidad de datos y la confianza del usuario.
Desarrollar un Protocolo de Respuesta a Incidentes: Crear un plan detallado para acciones inmediatas en respuesta a brechas de seguridad, incluyendo estrategias de comunicación y pasos de remediación.

Día 5 - Seguridad en Aplicaciones de IA

Explorando la Seguridad en Aplicaciones de IA

AI security se divide ampliamente en tres niveles:

Application security
Stack security
Infrastructure security.

La sesión de hoy reintrodujo contenido y contexto relevante sobre eso, ofreciendo insights profundos sobre cada capa.

Enfoques de Seguridad Reactivos vs. Proactivos

Una parte importante fue la diferenciación entre enfoques de seguridad reactivos y proactivos en la seguridad de aplicaciones de IA.

Reactive security aborda las amenazas a medida que ocurren, crucial para las aplicaciones LLM accesibles y vulnerables.
Proactive security, por otro lado, anticipa los riesgos e incluye medidas como penetration testing y red teaming para mitigar vulnerabilidades antes de que puedan ser explotadas.

Podés mirar el video a continuación para aprender más sobre herramientas y estrategias para asegurar aplicaciones de IA (hecho por Lakera, por supuesto).

Asegurando Aplicaciones de IA: Mejores Prácticas

El curso delineó prácticas esenciales para asegurar aplicaciones de IA de manera efectiva:

Antes del Despliegue: Evaluar las aplicaciones contra los riesgos OWASP para LLMs, realizar ejercicios de red team, y asegurar la supply chain evaluando fuentes de datos y proveedores.
En Operación: Implementar medidas reactivas como limitar las acciones de los LLMs en sistemas downstream y asegurar una validación de entrada robusta. También, integrar herramientas de AI security para monitoreo en tiempo real y mantener al equipo actualizado sobre los últimos riesgos de AI security.

Y afortunadamente, vas a tener acceso a algunos recursos geniales una vez más (qué suerte, ya tenés estos recursos acá abajo).

Día 6 - Red Teaming en AI/LLM

Explorando y Ejecutando Red Teaming en AI/LLM

Definición de Objetivos: Empezar definiendo metas claras como evaluar niveles de riesgo e identificar comportamientos potencialmente dañinos—sesgos, toxicidad, brechas de privacidad, etc. (como una especie de threat modeling con esteroides, los LLMs son realmente graciosos).
Desarrollo de Estrategias de Ataque: Esto involucra una mezcla de ataques manuales y automatizados, empleando múltiples técnicas como code injection, escenarios hipotéticos y role-playing para desafiar a la IA.
Desarrollo de Escenarios y Prompting Dirigido: Crear situaciones realistas y extremas para testear las respuestas de la IA, y desarrollar prompts que apunten específicamente a revelar sesgos o comportamientos no éticos.
Análisis de Feedback: Analizar cuidadosamente las respuestas de la IA en busca de inconsistencias o outputs problemáticos para refinar estrategias y mejorar el comportamiento de la IA.

Para asegurar un red teaming de IA responsable y de alta calidad, es realmente importante utilizar equipos diversos que puedan explorar diferentes vulnerabilidades de manera efectiva. Este enfoque debe estar respaldado por una planificación integral que delinee una estrategia detallada para pruebas sistemáticas. A medida que las pruebas avanzan, las estrategias deben refinarse basándose en los hallazgos iniciales en un proceso iterativo que se adapta y mejora con cada ciclo. Las consideraciones éticas deben permanecer en primer plano a lo largo de las fases de prueba para mantener altos estándares. Además, mantener registros meticulosos de las estrategias de prueba y los resultados es esencial para informar prácticas futuras y asegurar la rendición de cuentas.

¿Quién Debería Realizar el Red Teaming?

La elección entre usar red teams internos o externos a menudo depende de necesidades específicas:

Red Teams Internos: Ofrecen insights profundos sobre los sistemas de IA de la empresa y facilitan mejoras continuas, pero pueden enfrentar limitaciones debido a sesgos potenciales.
Red Teams Externos: Proporcionan una perspectiva fresca y expertise especializada, ayudando a minimizar sesgos y validar la debida diligencia, aunque podrían estar menos familiarizados con las particularidades específicas del sistema y pueden ser más costosos.

Día 7 - AI Tech Stack y Evaluación de Soluciones de AI Security

AI Applications (también conocidas como Gen AI apps): Estas abarcan una amplia gama de aplicaciones, desde las orientadas al consumidor (como ChatGPT) hasta las de nivel empresarial (como BlackBot, que opera en diferentes mercados bursátiles a alta frecuencia, recibiendo un enorme volumen de datos en tiempo real—puede sonar como trampa, ¡lo sé!). Están adaptadas a industrias específicas como salud o construcción, o departamentos específicos como contabilidad o ventas. Esta capa interactúa directamente con los usuarios finales y típicamente integra IA con componentes de software tradicional.
Autonomous Agents: Esta capa consiste en sistemas de IA que operan de forma independiente, tomando decisiones basadas en inputs de usuarios u otros sistemas, involucrando así una relación más compleja entre varios actores. Estos agentes van desde open source, que son libremente accesibles y modificables, hasta sistemas propietarios controlados por entidades específicas y gestionados a través de sistemas especializados de gestión de agentes.
AI Models/Foundational Models: En este nivel, encontramos los modelos de IA centrales que impulsan las aplicaciones y agentes. Estos modelos pueden ser propietarios, desarrollados por empresas específicas, o open-source, disponibles para uso y modificación pública (ejemplos incluyen LLaMA 2, Mistral 7B, Gemini o Claude).
AI Infrastructure: Sirviendo como columna vertebral, esta capa incluye todo desde servicios de cloud computing y soluciones de almacenamiento hasta hardware como GPUs y procesadores de IA especializados. También abarca la infraestructura física como data centers y la energía necesaria para alimentar y enfriar estos sistemas (¿leíste o escuchaste algo sobre NVIDIA en estos últimos meses?).
Data: A menudo descrita como el combustible de la IA, los datos pueden categorizarse en públicos, propietarios o generados sintéticamente. Cada tipo alimenta los modelos de IA para habilitar su funcionalidad. Lamentablemente, esto todavía está en pañales, y el resto de la industria se mueve mucho más rápido y está más decidida a alcanzar metas más ambiciosas.

Estrategias para Evaluar Soluciones de AI Security

Conclusiones y Recursos Adicionales

También compartieron recursos valiosos para seguir buscando soluciones de seguridad nuevas y gratuitas para proteger estos sistemas complejos:

Día 8 - Navegando la Gobernanza de IA

El EU AI Act

Los Principios del AI Bill of Rights de EE.UU.

Los principios clave son:

Alternativas Humanas, Consideración y Respaldo: Asegurar opciones para optar fuera de sistemas automatizados a favor de alternativas humanas y proporcionar medios para abordar fallas del sistema o disputas.
Aviso y Explicación: Proporcionar información clara y accesible sobre el uso e impacto de los sistemas automatizados.
Privacidad de Datos: Protección contra prácticas abusivas de datos, asegurando privacidad y control del usuario sobre datos personales.
Protecciones contra Discriminación Algorítmica: Prevención de discriminación por algoritmos y promoción de diseño y uso equitativo de sistemas.
Sistemas Seguros y Efectivos: Protección contra sistemas automatizados inseguros o inefectivos, asegurando seguridad y efectividad en su diseño y despliegue.

Perspectivas Comparativas y Herramientas de Aprendizaje

Si querés más información, consultá los siguientes recursos:

Día 9 - El Rol en Evolución del CISO

Entendiendo el Rol en Evolución del CISO

Cambios Estratégicos para los CISOs

Incorporación de la IA en las Prácticas de Ciberseguridad

Día 10 - Recursos de AI & LLM Security

Recursos de Lakera

AI Security Blog (leé artículos sobre AI safety y security).
Online and In-Person Events (registrate para próximos eventos y accedé a las grabaciones de eventos pasados).
Prompt Injection Handbook(descargá el handbook de prompt injection de Lakera).
LLM Security Playbook (descargá el LLM security playbook de Lakera).
[Real-World LLM Exploits Case Study (aprendé cómo el red team de Lakera explota aplicaciones de IA).
LLM Security Solution Evaluation Checklist (usá este checklist para evaluar soluciones de LLM security disponibles actualmente en el mercado).
Gandalf: A Prompt Injection Game (jugá al juego viral de prompt injection de Lakera).
Momentum: AI Security Slack Community (unite a la comunidad de Lakera sobre AI security y safety en Slack).

Frameworks de AI/LLM Safety & Security

OWASP Top 10 for LLM Applications (un PDF detallando las top 10 vulnerabilidades de aplicaciones LLM compilado por el Open Worldwide Application Security Project (OWASP)).
MITRE ATLAS™ (una base de conocimiento de tácticas y técnicas adversarias).
Microsoft's AI Security Risk Assessment Framework (mejores prácticas y guía para asegurar sistemas de IA).
Google's Secure AI Framework (SAIF)(https://blog.google/technology/safety-security/introducing-googles-secure-ai-framework/) (framework conceptual de Google para sistemas de IA seguros).
OpenAI's Preparedness Framework Beta (procesos de OpenAI para rastrear, evaluar, pronosticar y proteger contra riesgos catastróficos planteados por modelos cada vez más poderosos).

Regulaciones de IA (Propuestas)

Blueprint for AI Bill of Rights (Texto Completo) (principios y prácticas para ayudar a guiar el diseño, uso y despliegue de sistemas automatizados para proteger los derechos del público estadounidense en la era de la inteligencia artificial).
EU AI Act (Texto Completo) (propuesta de ley, destinada a regular el campo de la inteligencia artificial en rápido crecimiento).
Navigating the AI Regulatory Landscape (artículo de Lakera con un resumen, puntos destacados y consideraciones clave para empresas).

Lineamientos

Adopting AI Responsibly (lineamientos del Foro Económico Mundial para la adquisición de soluciones de IA por el sector privado).

Reportes

State of AI Report 2023 (análisis de los desarrollos más interesantes en IA).
An Overview of Catastrophic AI Risks (un resumen del Center for AI Safety).
Generative AI Security And Risk Management Strategies (un reporte de Gartner).
Global Risks Report 2024 (algunos de los riesgos más severos que podríamos enfrentar en la próxima década).
How GenAI Will Impact CISOs and Their Teams (otro reporte de Gartner).

Bases de Datos

AI Incident Database (una base de datos navegable, buscable y frecuentemente actualizada de incidentes de IA).
The OECD AI Incidents Monitor (un repositorio de incidentes de IA para ayudar a legisladores, profesionales de IA y todos los stakeholders).

Colecciones de Recursos

AI Safety Fundamentals (una colección grande y en crecimiento de recursos útiles para personas en el espacio de AI safety).

Conclusión

Entonces, después de todo, si te gustan los certificados o algo para mostrar en LinkedIn, ofrecen el siguiente certificado de finalización después de esos 10 días:

La estructura actual carece de una forma de seguir tu progreso durante el curso de 10 días. Actualmente, todos los participantes reciben el mismo contenido e información durante este tiempo, pero no hay oportunidad para desafíos o tests para determinar la comprensión o retención (No hay forma de evaluar realmente a los estudiantes antes de otorgar el certificado). Uno podría anticipar que las futuras iteraciones incluirán una plataforma más orientada a cursos que no solo muestre y analice el progreso del participante sino que también extienda el framework para permitir un entorno de aprendizaje más inmersivo. Sin embargo, es importante tener en cuenta que este es un curso fundamental destinado a despertar la curiosidad y el entusiasmo de los principiantes de la industria, gratuito y abierto... así que gracias por eso.

¿Qué sigue?

Tengo estos cursos gratuitos en mente:

Deep Learning AI (Red Teaming LLM Applications)
LLM University by Cohere
Seguir leyendo papers técnicos sobre LLM Security, como Can Large Language Models Find And Fix Vulnerable Software? by David Noever
NVIDIA free courses

Pon a Prueba tu Conocimiento Técnico

Repaso del Curso de Lakera

Fácil

¿Qué framework dice el post que se cubre junto con el OWASP Top 10 para LLMs en el Día 2 del curso?

Medio

¿Qué día del curso está dedicado a un deep dive sobre Prompt Injections?

Difícil

Según el resumen del OWASP Top 10 incluido en el post, ¿qué significa "Excessive Agency" en aplicaciones con LLMs?

Curso de Introducción a la Seguridad en IA por Lakera AI

Por qué importa este artículo

Repaso del Curso de Lakera

Más en el archivo

Tips y Trucos para Aprobar tu Examen Bug Bounty Hunter (cBBH) de Hack The Box

Análisis Profundo de Ataques HTTP Request Smuggling

Lectura relacionada

Atacando LLMs - OWASP Top 10 (Parte 1)

MCP Security for Enterprise Organizations: Experiencias reales y defensa avanzada

A2AS: Un nuevo estándar para la seguridad en sistemas de IA agéntica

Curso de Introducción a la Seguridad en IA por Lakera AI

Por qué importa este artículo

Repaso del Curso de Lakera

Más en el archivo

Tips y Trucos para Aprobar tu Examen Bug Bounty Hunter (cBBH) de Hack The Box

Análisis Profundo de Ataques HTTP Request Smuggling

Lectura relacionada

Atacando LLMs - OWASP Top 10 (Parte 1)

MCP Security for Enterprise Organizations: Experiencias reales y defensa avanzada

A2AS: Un nuevo estándar para la seguridad en sistemas de IA agéntica