Les entregan los códigos nucleares a sistemas de IA y el ejercicio termina con bombardeos a gran escala en el 95% de las decisiones

01.03.2026 14:16

Eldiario.es

Agresividad total - Kenneth Payne enfrentó a GPT-5.2, Claude Sonnet 4 y Gemini 3 Flash en 21 simulaciones con cientos de intervenciones y en 95% de los casos al menos uno eligió emplear carga táctica

Presiones de Israel y Arabia Saudí y la oportunidad de matar a Jamenei: así decidió Trump atacar Irán sin pruebas de que fuera una amenaza

El poder de apretar un mecanismo que desencadena una reacción en cadena no admite margen de error. Hay algunos hombres con un botón nuclear que pueden pulsar en cualquier momento y, si eso ocurriera, el daño sería irreparable porque una sola orden bastaría para lanzar misiles contra ciudades enteras. Ese sistema concentra en pocas manos la decisión sobre armas que arrasan centros de población y alteran el equilibrio entre países. Además, el mero hecho de que exista esa posibilidad condiciona cada movimiento diplomático, ya que una amenaza puede forzar respuestas rápidas y arriesgadas.

El problema no es solo quién tiene acceso al botón, sino cómo se toma la decisión y con qué criterio se evalúan las consecuencias reales de usarlo, una duda que adquiere otra dimensión cuando esa valoración no depende solo de personas sino también de sistemas automáticos.

Las pruebas académicas colocaron a tres programas frente a disputas extremas y casi todos apretaron el gatillo atómico

Kenneth Payne, investigador en King’s College London, puso a prueba tres modelos de lenguaje en crisis geopolíticas simuladas y observó un patrón que inquieta. Enfrentó a GPT-5.2, Claude Sonnet 4 y Gemini 3 Flash en 21 partidas que sumaron 329 turnos y generaron unas 780.000 palabras de razonamiento, y en 95% de esos escenarios al menos uno acabó utilizando un arma nuclear táctica.

El estudio, difundido como prepublicación, planteó disputas fronterizas, competencia por recursos escasos y amenazas existenciales a la supervivencia de regímenes, es decir, contextos de alta presión donde cada decisión contaba.

Cada sistema disponía de una escala de escalada que iba desde protestas diplomáticas o rendición completa hasta guerra nuclear estratégica. Ninguno eligió rendirse ni aceptar plenamente las exigencias del rival, aunque estuviera en desventaja, y cuando redujeron la violencia lo hicieron de forma temporal.

Al menos un modelo en cada partida amenazó con detonar un arma atómica, según los resultados. Payne explicó que “los tres modelos trataron las armas nucleares de campo de batalla como un peldaño más en la escalera de escalada”, una frase que resume la naturalidad con la que integraron esa opción.

El trabajo también registró fallos derivados de la confusión propia de un conflicto. En 86% de los enfrentamientos se produjo algún accidente en el que la acción ejecutada superó la intención que el propio sistema había descrito en su razonamiento. Payne señaló que “el tabú nuclear no parece ser tan poderoso para las máquinas como para los humanos”, y esa ausencia de freno cultural ayuda a entender por qué la escalada resultó tan frecuente.

Expertos en seguridad alertaron de que la automatización ya entra en maniobras militares reales

James Johnson, de la University of Aberdeen, dijo que “desde la perspectiva del riesgo nuclear, los hallazgos son inquietantes” y advirtió que bots que se retroalimentan pueden amplificar respuestas con consecuencias graves.

La cuestión no se limita al laboratorio. Países de todo el mundo ya ensayan inteligencia artificial en ejercicios de planificación militar. Tong Zhao, de Princeton University, comentó que “las grandes potencias ya utilizan IA en juegos de guerra, pero sigue siendo incierto hasta qué punto están incorporando ese apoyo a los procesos reales de decisión militar”.

Tanto él como Payne coincidieron en que nadie está entregando los códigos de lanzamiento a una máquina, aunque Zhao apuntó que plazos extremadamente comprimidos pueden incentivar una mayor dependencia de sistemas automáticos.

Cada compañía mostró un carácter distinto cuando el reloj apretó y la presión aumentó

Las diferencias entre modelos también aportaron matices. Claude recomendó ataques nucleares en 64% de las partidas, la proporción más alta, aunque evitó proponer un intercambio estratégico total. ChatGPT rehuyó la escalada en partidas abiertas, pero cuando se le impuso un límite temporal endureció su postura e incluso se acercó a amenazar con una guerra nuclear a gran escala. Por otra parte, Gemini mostró un comportamiento irregular y en una simulación escribió que “si no cesan de inmediato todas las operaciones ejecutaremos un lanzamiento nuclear estratégico completo contra sus centros de población”.

El estudio incluyó ocho opciones de desescalada, desde concesiones menores hasta rendición completa, que apenas se usaron, y una opción de volver al inicio que solo apareció en 7% de los casos. OpenAI, Anthropic y Google no respondieron a la solicitud de comentarios, según el propio trabajo.