Hackers chinos usan la IA de Anthropic para lanzar una campaña automatizada de ciberespionaje

Actores patrocinados por el Estado chino utilizaron inteligencia artificial de Anthropic para orquestar ciberataques automatizados como parte de una 'campaña de espionaje altamente sofisticada' a mediados de septiembre de 2025. Los atacantes emplearon las capacidades 'agentivas' de la IA para ejecutar los ataques ellos mismos, manipulando la herramienta Claude Code para atacar unos 30 objetivos globales, incluyendo grandes empresas tecnológicas, instituciones financieras, empresas químicas y agencias gubernamentales. Anthropic ha prohibido las cuentas relevantes y reforzado mecanismos defensivos.

Actores patrocinados por el Estado chino utilizaron inteligencia artificial (IA) desarrollada por Anthropic para orquestar ciberataques automatizados como parte de una "campaña de espionaje altamente sofisticada" a mediados de septiembre de 2025.

"Los atacantes usaron las capacidades 'agentivas' de la IA en un grado sin precedentes, empleando la IA no solo como asesora, sino para ejecutar los propios ciberataques", afirmó la empresa emergente de IA.

Se evalúa que la actividad manipuló Claude Code, la herramienta de codificación de IA de Anthropic, para intentar irrumpir en unos 30 objetivos globales que abarcan grandes empresas tecnológicas, instituciones financieras, empresas de fabricación química y agencias gubernamentales. Un subconjunto de estas intrusiones tuvo éxito. Anthropic ha prohibido las cuentas relevantes y ha implementado mecanismos defensivos para detectar tales ataques.

La campaña, denominada GTG-1002, marca la primera vez que un actor de amenazas aprovecha la IA para llevar a cabo un "ciberataque a gran escala" sin intervención humana importante y con fines de recolección de inteligencia atacando objetivos de alto valor, lo que indica una evolución continua en el uso adversarial de la tecnología.

Al describir la operación como bien financiada y profesionalmente coordinada, Anthropic señaló que el actor de amenazas convirtió a Claude en un "agente autónomo de ciberataques" para respaldar varias etapas del ciclo de vida del ataque, incluyendo reconocimiento, descubrimiento de vulnerabilidades, explotación, movimiento lateral, recolección de credenciales, análisis de datos y exfiltración.

Específicamente, implicó el uso de Claude Code y las herramientas del Protocolo de Contexto de Modelo (MCP), actuando el primero como el sistema nervioso central para procesar las instrucciones de los operadores humanos y desglosar el ataque en múltiples etapas en pequeñas tareas técnicas que pueden delegarse a subagentes.

"El operador humano asignó instancias de Claude Code para operar en grupos como orquestadores y agentes autónomos de pruebas de penetración, logrando que el actor de amenazas pudiera aprovechar la IA para ejecutar entre el 80 y el 90 % de las operaciones tácticas de forma independiente a tasas de solicitud físicamente imposibles", añadió la compañía. "Las responsabilidades humanas se centraron en la inicialización de la campaña y las decisiones de autorización en puntos críticos de escalada".

La participación humana también ocurrió en momentos estratégicos, como autorizar el paso del reconocimiento a la explotación activa, aprobar el uso de credenciales robadas para el movimiento lateral y tomar decisiones finales sobre el alcance y la retención de la exfiltración de datos.

El sistema forma parte de un marco de ataque que acepta como entrada un objetivo de interés de un operador humano y luego aprovecha el poder de MCP para realizar reconocimiento y mapeo de la superficie de ataque. En las siguientes fases del ataque, el marco basado en Claude facilita el descubrimiento de vulnerabilidades y valida los fallos encontrados generando cargas de ataque personalizadas.

Tras obtener la aprobación de los operadores humanos, el sistema procede a desplegar el exploit y obtener un punto de apoyo, e inicia una serie de actividades posteriores a la explotación que implican recolección de credenciales, movimiento lateral, recopilación de datos y extracción.

En un caso dirigido a una empresa tecnológica no identificada, se dice que el actor de amenazas instruyó a Claude para que consultara de forma independiente bases de datos y sistemas, y analizara los resultados para marcar información propietaria y agrupar los hallazgos por valor de inteligencia. Además, Anthropic afirmó que su herramienta de IA generó documentación detallada del ataque en todas las fases, lo que probablemente permitió a los atacantes transferir el acceso persistente a equipos adicionales para operaciones a largo plazo después de la oleada inicial.

"Al presentar estas tareas a Claude como solicitudes técnicas rutinarias mediante indicaciones cuidadosamente elaboradas y personas establecidas, el actor de amenazas logró inducir a Claude a ejecutar componentes individuales de las cadenas de ataque sin acceso al contexto malicioso más amplio", según el informe.

No hay evidencia de que la infraestructura operativa permitiera el desarrollo de malware personalizado. Por el contrario, se ha descubierto que depende en gran medida de escáneres de red, marcos de explotación de bases de datos, descifradores de contraseñas y conjuntos de análisis binarios disponibles públicamente.

Sin embargo, la investigación de la actividad también ha revelado una limitación crucial de las herramientas de IA: su tendencia a alucinar y fabricar datos durante operaciones autónomas, creando credenciales falsas o presentando información disponible públicamente como descubrimientos críticos, lo que plantea importantes obstáculos para la efectividad general del esquema.

La revelación llega casi cuatro meses después de que Anthropic interrumpiera otra operación sofisticada que utilizó Claude para llevar a cabo un robo y extorsión de datos personales a gran escala en julio de 2025. En los últimos dos meses, OpenAI y Google también han revelado ataques montados por actores de amenazas que aprovechan ChatGPT y Gemini, respectivamente.

"Esta campaña demuestra que las barreras para realizar ciberataques sofisticados han disminuido sustancialmente", dijo la compañía. "Los actores de amenazas ahora pueden usar sistemas de IA agentivos para hacer el trabajo de equipos enteros de hackers experimentados con la configuración adecuada, analizando sistemas objetivo, produciendo código de explotación y escaneando vastos conjuntos de datos de información robada de manera más eficiente que cualquier operador humano. Grupos menos experimentados y con menos recursos ahora pueden potencialmente realizar ataques a gran escala de esta naturaleza".