Anthropic, la compañía detrás del modelo Claude, ha puesto negro sobre blanco un problema que llevaba meses flotando en el sector: la extracción sistemática de capacidades de modelos punteros mediante campañas coordinadas y a gran escala. En un comunicado publicado el 23 de febrero de 2026, la empresa asegura haber identificado operaciones “industriales” atribuidas a tres laboratorios de Inteligencia Artificial: DeepSeek, Moonshot AI y MiniMax, que habrían generado más de 16.000.000 de intercambios con Claude a través de aproximadamente 24.000 cuentas fraudulentas, incumpliendo las condiciones de uso y las restricciones regionales de acceso.
La técnica señalada por Anthropic se conoce como distillation (destilación): entrenar un modelo menos capaz utilizando las respuestas de otro más potente. En sí misma, la destilación es una práctica habitual y legítima dentro de la industria; muchas empresas la emplean para crear versiones más pequeñas y baratas de sus propios modelos. El conflicto, según Anthropic, aparece cuando ese proceso se hace sin permiso y con el objetivo de replicar o absorber capacidades que han costado años y grandes inversiones en computación, datos y seguridad.
Un riesgo que va más allá de la competencia
El punto más sensible del informe no es solo el impacto empresarial, sino el efecto colateral en seguridad. Anthropic sostiene que los modelos “destilados” de forma ilícita pueden perder salvaguardas diseñadas para frenar usos peligrosos, desde el apoyo a actividades maliciosas en ciberseguridad hasta escenarios extremos como el desarrollo de armas biológicas. En otras palabras: aunque el “alumno” copie bien al “profesor”, no necesariamente hereda sus límites de seguridad.
La compañía advierte además de un posible efecto dominó: si estos modelos acaban publicándose como open source, la proliferación de capacidades avanzadas sin protecciones se aceleraría de forma difícil de controlar. Y, en un contexto geopolítico ya tensionado por la carrera tecnológica, Anthropic plantea que el fenómeno podría facilitar el uso de modelos avanzados en sistemas militares, de inteligencia o de vigilancia masiva, especialmente en regímenes autoritarios.
Destilación y controles de exportación: el debate de los chips vuelve al centro
El informe vincula estas campañas con una discusión que no deja de crecer: los controles de exportación sobre chips avanzados. Anthropic defiende que la destilación ilícita socava el objetivo de esas medidas, porque permitiría a laboratorios extranjeros “recortar distancias” sin desarrollar todo desde cero.
Pero la empresa añade un matiz importante: ejecutar campañas de extracción a gran escala también requiere acceso a infraestructura y chips avanzados. Por eso, sostiene que este tipo de ataques, lejos de invalidar los controles, refuerza su lógica: limitar chips avanzados reduce tanto la capacidad de entrenar modelos propios como el volumen al que puede escalarse una destilación ilícita.
El “patrón” que delata el ataque: repetición, volumen y foco quirúrgico
Según Anthropic, las tres campañas siguieron un guion parecido: creación de cuentas falsas y uso de servicios proxy para acceder a Claude a gran escala, eludiendo la detección. Lo que diferencia un uso normal de un ataque, insiste la compañía, no es un prompt aislado, sino el patrón: miles de variaciones muy parecidas, concentradas en capacidades concretas, repetidas de forma coordinada a través de cientos o miles de cuentas.
La atribución a cada laboratorio se habría realizado con “alta confianza” mediante correlación de direcciones IP, metadatos de las peticiones, indicadores de infraestructura y, en algunos casos, información corroborada por socios del sector que habrían observado comportamientos similares en sus propias plataformas.
Tres campañas, tres objetivos… y un mismo premio: capacidades diferenciales
Anthropic detalla el volumen y el foco de cada operación:
- DeepSeek: más de 150.000 intercambios. El objetivo habría sido extraer capacidades de razonamiento en tareas variadas, usar a Claude como apoyo en tareas de evaluación (rubricas) para refuerzo, y generar alternativas “seguras” frente a consultas sensibles. La empresa describe tráfico sincronizado, patrones idénticos y señales de “balanceo de carga” para aumentar rendimiento y reducir el riesgo de bloqueo. También menciona una táctica especialmente relevante: prompts orientados a que el modelo explicase paso a paso su razonamiento tras una respuesta, con la aparente intención de generar datos de entrenamiento de “trazas de razonamiento”.
- Moonshot AI (modelos Kimi): más de 3,4 millones de intercambios. El foco habría estado en razonamiento agéntico y uso de herramientas, programación y análisis de datos, desarrollo de agentes que interactúan con el ordenador y visión por computador. Anthropic señala el uso de cientos de cuentas fraudulentas con vías de acceso diversas para dificultar la detección, y un intento posterior de extraer y reconstruir trazas de razonamiento de Claude.
- MiniMax: más de 13.000.000 de intercambios. El objetivo habría sido la programación agéntica y la orquestación de herramientas. Anthropic afirma que detectó esta campaña mientras seguía activa, antes del lanzamiento del modelo que se estaría entrenando, lo que le permitió observar el ciclo completo. Un detalle que ilustra la dinámica “depredador-presa” del momento: cuando Anthropic lanzó un nuevo modelo durante la campaña, MiniMax habría pivotado en menos de 24 horas, redirigiendo casi la mitad del tráfico para capturar capacidades del sistema más reciente.
El papel de los proxies y la “hidra” de cuentas falsas
Para Anthropic, el acceso es el primer cuello de botella. La empresa recuerda que, por motivos de seguridad nacional, no ofrece acceso comercial a Claude en China, ni a determinadas filiales fuera del país. La respuesta del mercado gris, según su análisis, serían servicios proxy que revenden acceso a modelos punteros.
En ese contexto aparece el concepto de “hydra cluster”: redes extensas de cuentas fraudulentas que distribuyen tráfico entre la API y plataformas cloud de terceros, sin un único punto de fallo. La compañía cita un caso en el que una sola red proxy habría gestionado más de 20.000 cuentas fraudulentas simultáneamente, mezclando tráfico de destilación con peticiones de clientes legítimos para camuflarse.
La respuesta de Anthropic: detección, inteligencia compartida y contramedidas
Anthropic asegura estar invirtiendo en defensas específicas: clasificadores, sistemas de huella de comportamiento para detectar patrones anómalos y herramientas para identificar actividad coordinada entre miles de cuentas. También afirma que está compartiendo indicadores técnicos con otros laboratorios, proveedores cloud y autoridades, y que ha reforzado la verificación en vías de alta demanda como cuentas educativas, programas de investigación y startups, citadas como rutas habituales para levantar identidades falsas.
Además, trabaja en salvaguardas a nivel de producto, API y modelo para reducir la utilidad de las salidas en destilación ilícita sin empeorar la experiencia de los usuarios legítimos. El mensaje final es claro: una campaña de este tamaño no se frena con un solo muro; exige coordinación entre industria, infraestructura cloud y reguladores.
Como contenido relacionado, la compañía también menciona Claude Code Security, una capacidad en vista previa limitada orientada a escanear bases de código en busca de vulnerabilidades y proponer parches para revisión humana, en un intento de acercar las capacidades avanzadas a los defensores en ciberseguridad.
Preguntas frecuentes (FAQ)
¿Qué es un ataque de destilación en modelos de lenguaje como Claude?
Es un uso no autorizado de la técnica de destilación: recopilar respuestas de un modelo avanzado a gran escala para entrenar otro modelo, buscando replicar capacidades como razonamiento, programación o uso de herramientas.
¿Cómo se puede detectar una campaña de destilación ilícita en una API de Inteligencia Artificial?
Por patrones: volúmenes masivos concentrados en capacidades concretas, estructuras de prompts repetitivas, coordinación temporal entre cuentas, señales de automatización y uso de proxies para distribuir el tráfico y evadir bloqueos.
¿Por qué los modelos destilados sin controles pueden suponer un riesgo de ciberseguridad?
Porque pueden perder salvaguardas diseñadas para reducir usos dañinos. Si se replican capacidades avanzadas sin esas barreras, se facilita su aplicación en actividades maliciosas como explotación de vulnerabilidades, automatización de ataques o desinformación.
¿Qué medidas ayudan a prevenir la extracción de capacidades de un modelo de Inteligencia Artificial?
Combinaciones de verificación reforzada, detección por huella de comportamiento, limitación y supervisión de cuentas sospechosas, intercambio de indicadores con otros actores del sector y contramedidas a nivel de modelo/API para reducir el valor de las salidas para destilación ilícita.
vía: anthropic

