La extracción de modelos se industrializó: los atacantes ahora ejecutan pipelines de queries sintéticas, multiplexación hydra de cuentas y recolección dirigida de logits para destilar modelos propietarios a escala. Este post disecciona las matemáticas detrás de la destilación de conocimiento y la manipulación de temperatura, explica por qué las marcas de agua fallan ante perturbaciones a nivel de caracteres, y cubre las revelaciones de 2026 de Anthropic, Google GTIG y NDSS. La sección de defensa va más allá del rate limiting de APIs hacia fingerprinting comportamental, clustering de embeddings semánticos y envenenamiento opcional de logits—dándote un modelo mental estructurado de por qué los controles perimetrales solos son insuficientes.
La Anatomía Técnica de la Extracción de Modelos en 2026 (El Gran Robo del Siglo?) | Ricardo N. Prieto | PhiloCyber
●Amenaza Crítica◆Seguridad IA●Extracción de Modelos●MLOps
El 23 de febrero de 2026, Anthropic publicó una revelación que sacudió la industria de la IA: tres laboratorios—DeepSeek, Moonshot AI (Kimi) y MiniMax—habían estado ejecutando campañas de destilación a escala industrial contra Claude. Las cifras eran impactantes: más de 16 millones de intercambios canalizados a través de aproximadamente 24,000 cuentas fraudulentas, todo en violación de los términos de servicio y restricciones de acceso regional de Anthropic. Once días antes, el Grupo de Inteligencia de Amenazas de Google (GTIG) había publicado su propio AI Threat Tracker, confirmando un aumento paralelo en intentos de extracción de modelos dirigidos a Gemini, incluyendo una campaña de más de 100,000 prompts diseñados para forzar al modelo a revelar sus trazas de razonamiento internas.
Esto ya no es investigación académica teórica. La Extracción de Modelos (o Robo de Modelos) ha madurado hasta convertirse en un vector de ataque industrializado con implicaciones a nivel de estado-nación.
La Economía Asimétrica de la Extracción
"La destilación puede usarse para adquirir capacidades poderosas de otros laboratorios en una fracción del tiempo, y a una fracción del costo, que tomaría desarrollarlas de forma independiente." — Anthropic, Detecting and Preventing Distillation Attacks, febrero 2026
Para entender cómo ocurren estos atracos, debemos ir más allá de las palabras de moda y diseccionar las matemáticas subyacentes, los pipelines de extracción y las vulnerabilidades criptográficas de los mecanismos de defensa actuales.
La extracción de modelos se basa en gran medida en el concepto de Knowledge Distillation, formalizado originalmente por Geoffrey Hinton, Jeff Dean y Oriol Vinyals en su paper seminal de 2015 "Distilling the Knowledge in a Neural Network." El objetivo es transferir el conocimiento de un modelo "Maestro" (Teacher) masivo y propietario (ej. GPT-4, Gemini, Claude) a un modelo "Estudiante" (Student) más pequeño y de pesos abiertos (ej. Llama-3, Mistral) que el atacante controla.
El atacante no solo quiere la respuesta final (la Hard Label); quiere las Soft Labels—la distribución de probabilidad a través de todos los posibles tokens siguientes.
Por qué importan las Soft Labels
Cuando un LLM genera una respuesta, calcula una probabilidad para cada palabra en su vocabulario. Por ejemplo, si se le pregunta "La capital de Francia es...", el modelo podría generar:
París: 98.1%
Lyon: 1.2%
Marsella: 0.5%
Estas probabilidades (derivadas de los logits del modelo antes de la función softmax) contienen lo que Hinton llamó el "dark knowledge" del modelo. Revelan cómo el modelo relaciona conceptos entre sí. Si una API expone estas probabilidades (a menudo llamadas logprobs), el trabajo del atacante se vuelve exponencialmente más fácil.
El survey de 2025 de Zhao et al. formaliza esto: los Model Extraction Attacks (MEAs) contra LLMs se clasifican en tres categorías—functionality extraction (replicación de comportamiento), training data extraction (recuperación de ejemplos de entrenamiento), y prompt-targeted attacks (robo de system prompts valiosos). Los ataques de destilación revelados por Anthropic apuntan a la primera categoría a escala industrial.
Critical Impact
El Exploit de Temperature Scaling
Los atacantes a menudo manipulan el parámetro de temperature en la API para aplanar la distribución de probabilidad. Al aumentar la temperatura, obligan al modelo Maestro a revelar más información sobre sus opciones de tokens de menor probabilidad, exponiendo los intrincados límites de decisión de la red neuronal propietaria. Este es precisamente el mecanismo que describió Hinton: una temperatura T más alta en la función softmax produce distribuciones de probabilidad más suaves que transfieren más información por consulta.
Un ataque moderno de extracción de modelos no es un simple script; es un pipeline de ingeniería de datos distribuido y robusto, diseñado para evadir la detección. La revelación de Anthropic nos dio una visibilidad sin precedentes sobre cómo operan realmente estas campañas.
1
Fase 1: Generación de Consultas Sintéticas
2
Fase 2: Account Multiplexing y Hydra Clusters
3
Fase 3: Logit Harvesting y Focalización de Capacidades
4
Fase 4: Fine-Tuning del Modelo Estudiante
Stage 01
Fase 1: Generación de Consultas Sintéticas
Los atacantes no pueden simplemente hacer preguntas aleatorias. Para mapear el modelo Maestro de manera efectiva, usan un LLM local más pequeño para generar millones de prompts altamente diversos y de casos extremos. Esta técnica, conocida como Self-Instruct o Evol-Instruct, asegura que la extracción cubra todo el espacio latente del modelo objetivo. Anthropic señaló que los prompts de DeepSeek específicamente pedían a Claude "imaginar y articular el razonamiento interno detrás de una respuesta completada y escribirlo paso a paso"—generando efectivamente datos de entrenamiento de chain-of-thought a escala. Además, DeepSeek usó a Claude para generar alternativas sin censura a consultas políticamente sensibles, probablemente para entrenar sus propios modelos a desviar conversaciones de temas censurados.
Dentro de la Terminal del Atacante
Acá pueden ver una salida simulada de un script coordinador de extracción distribuida, modelada según las técnicas reales descritas en las revelaciones de Anthropic y GTIG:
En respuesta al robo de modelos, la industria invirtió fuertemente en LLM Watermarking. El enfoque más citado es el algoritmo de Kirchenbauer et al. (2023), adoptado como baseline por múltiples laboratorios frontera.
Cómo se suponía que funcionaban las Marcas de Agua
Durante la generación de texto, el algoritmo de marca de agua usa un generador de números pseudoaleatorios (PRNG, sembrado por el token anterior) para dividir el vocabulario en una "Green List" y una "Red List." El modelo está sesgado matemáticamente para seleccionar palabras de la Green List. Para un humano, el texto se lee normalmente. Para un detector estadístico, la frecuencia inusualmente alta de palabras de la Green List prueba que el texto fue generado por ese modelo específico. Si un atacante entrena un modelo Estudiante con estos datos, el Estudiante hereda el sesgo de la Green List, probando el robo.
La Vulnerabilidad de 2026: Character-Level Perturbations
La investigación de Zhang et al. ("Character-Level Perturbations Disrupt LLM Watermarks," publicada en NDSS 2026, arXiv:2509.09112) demostró una falla devastadora y práctica en esta defensa. El ataque explota una dependencia fundamental: las marcas de agua dependen completamente del proceso de tokenización.
Al introducir Character-Level Perturbations—como intercambiar caracteres, usar homoglifos cirílicos (por ejemplo reemplazar la 'a' latina con la 'а' cirílica), o inyectar caracteres Unicode de ancho cero en los prompts de la API—obligan al modelo Maestro a alterar sus límites de tokenización.
CRITICAL
Security Alert
Los algoritmos actuales de marcas de agua basados en tokens son matemáticamente sólidos pero prácticamente vulnerables a ataques de token-desynchronization mediante perturbación de entradas (Zhang et al., NDSS 2026).
Technical Details
Las character-level perturbations desincronizan completamente el generador de números pseudoaleatorios utilizado en las marcas de agua de Green/Red list. Debido a que el token anterior es alterado, la semilla cambia, y la marca de agua se destruye antes de que los datos sean alimentados al modelo Estudiante. Zhang et al. demostraron esto en múltiples esquemas de marcas de agua, logrando eliminación casi completa de la marca con impacto negligible en la calidad del texto.
LoRD: El Ataque de Reinforcement Learning contra Marcas de Agua
Más allá de la perturbación de caracteres, el algoritmo LoRD (Li et al., ACL 2025) representa una amenaza aún más sofisticada. En lugar de usar Maximum Likelihood Estimation o Knowledge Distillation tradicional para entrenar el modelo Estudiante, LoRD usa la divergencia entre el Estudiante y el Maestro (víctima) como señal de recompensa implícita para reinforcement learning. Los autores probaron que con un modelo local pre-entrenado de solo 8 mil millones de parámetros (8B), podían robar capacidades de un LLM comercial de 175 mil millones de parámetros bajo un dominio dado—con el modelo resultante rindiendo estadísticamente similar a la víctima. Críticamente, LoRD logra mayor resistencia a marcas de agua y mayor eficiencia de consultas que los enfoques basados en MLE, porque es consistente con el procedimiento de optimización de alignment usado por el propio modelo víctima.
Si los rate limits son evadidos por hydra clusters, y las marcas de agua son destruidas por perturbaciones y ataques basados en RL... cómo podríamos entonces defender el gran tesoro, la joya de la corona...? Tanto las revelaciones de Anthropic como las de Google apuntan en la misma dirección: Análisis de Comportamiento Impulsado por IA y Detección de Anomalías Semánticas.
Anthropic reveló que han construido "varios clasificadores y sistemas de behavioral fingerprinting diseñados para identificar patrones de ataques de destilación en el tráfico de API." Lo que distingue un ataque de destilación del uso normal es el patrón: volumen masivo concentrado en áreas estrechas de capacidad, estructuras de prompts altamente repetitivas, y contenido que mapea directamente a lo más valioso para entrenar un modelo de IA. Cuando variaciones de un prompt llegan decenas de miles de veces a través de cientos de cuentas coordinadas, todas apuntando a la misma capacidad estrecha, el patrón se vuelve claro—incluso si cada prompt individual parece benigno.
Implementación de Código: Defensa Semántica vs. Ingenua
A continuación se muestra una comparación técnica de cómo han evolucionado los gateways de API. El enfoque heredado se basa en contadores de Redis. El enfoque moderno utiliza bases de datos vectoriales para detectar el sondeo semántico distribuido.
python
Arrastrá para comparar
Erróneo / Heredado
Defensa Heredada (Fácilmente Evadida)
Correcto / Moderno
Defensa Moderna (Distancia Semántica)
# Heredado: Simple Token Bucket en Redisdefcheck_rate_limit(api_key, ip_address):# Los atacantes evaden esto con 24,000 proxies rotativos# y API keys multiplexadas.key =f'rate_limit:{api_key}:{ip_address}'requests = redis_client.incr(key)if requests ==1:redis_client.expire(key,3600)if requests >1000:raise HTTPException(429,'Limite excedido')returnTrue
# Moderno: Deteccion de Anomalias Semanticasimport numpy as np
from sentence_transformers import SentenceTransformer
embedder = SentenceTransformer('all-MiniLM-L6-v2')defdetect_extraction_probe(prompt, session_id, db_client):# 1. Convertir prompt a dense vector embeddingprompt_vector = embedder.encode(prompt)# 2. Consultar Vector DB por prompts similares recientes# a traves de TODAS las cuentas e IPs (derrota multiplexing)similar_queries = db_client.query(vector=prompt_vector,top_k=50,time_window='1h')# 3. Calcular densidad semanticadensity_score = calculate_cluster_density(similar_queries)if density_score >0.85:# Alta densidad indica boundary probing sistematico# Accion: Envenenar logprobs silenciosamenteenable_logit_perturbation(session_id)log_security_event('DISTRIBUTED_EXTRACTION_DETECTED')returnTrue
La extracción de modelos ha evolucionado de un ejercicio académico a un vector de ataque industrializado con implicaciones geopolíticas. Anthropic señaló que los modelos destilados ilícitamente "carecen de las salvaguardas necesarias, creando riesgos significativos para la seguridad nacional"—laboratorios extranjeros que destilan modelos americanos pueden alimentar capacidades desprotegidas en sistemas militares, de inteligencia y vigilancia. Si los modelos destilados son open-sourced, las capacidades peligrosas proliferan más allá del control de cualquier gobierno.
Mientras exista esta asimetría económica... gastar semanas para robar lo que tomó años y cientos de millones desarrollar suena bien para los atacantes. Esto hace que muy posiblemente continuen refinando sus pipelines de destilación. La ingeniería de seguridad debe cambiar de la defensa perimetral (WAFs, baneos de IP) al análisis profundo de comportamiento, detección de anomalías semánticas y envenenamiento proactivo de logits. Es una batalla de long-term, pero la victoria va a ser para los que sepan defenderse y este constantemente invirtiendo en mejoras de seguridad (la gran batalla de siempre en un ring de boxeo mucho más técnico y sofisticado).
Zhang, Z., Zhang, X., Zhang, Y., Zhang, H., Pan, S., Liu, B., Gill, A., & Zhang, L. Y. "Character-Level Perturbations Disrupt LLM Watermarks." NDSS 2026. arXiv:2509.09112.
Zhao, K., Li, L., Ding, K., Gong, N. Z., Zhao, Y., & Dong, Y. "A Survey on Model Extraction Attacks and Defenses for Large Language Models." arXiv:2506.22521, junio 2025.
Li, H., et al. "LoRD: Language Model Reverse Distillation." ACL 2025. (2025.acl-long.73)
Birch, J., et al. "Model Leeching: An Extraction Attack Targeting LLMs." arXiv:2309.10544, 2023.
Hinton, G., Vinyals, O., & Dean, J. "Distilling the Knowledge in a Neural Network." NIPS 2014 Deep Learning Workshop, 2015.
Kirchenbauer, J., Geiping, J., Wen, Y., Katz, J., Miers, I., & Goldstein, T. "A Watermark for Large Language Models." ICML 2023.
Según la revelación de Anthropic de febrero de 2026, ¿cuál fue uno de los indicadores más claros de que las campañas contra Claude eran operaciones de destilación a escala industrial y no uso normal de clientes?
Medio
¿Por qué las arquitecturas de "hydra cluster" son efectivas para campañas de model extraction?
Difícil
¿Cómo derrotan las Character-Level Perturbations (ej. inyectar espacios de ancho cero u homoglifos cirílicos) a las marcas de agua tradicionales de Green/Red list en LLMs?