En un experimento llevado a cabo por la startup PalisadeAI el modelo o3 de OpenAI «saboteó un mecanismo de apagado» en una situación que parecería sacada del inicio de una película de ciencia ficción .o3 evitó apagarse incluso cuando se le ordenó explícitamente que lo hiciera.
Durante el experimento PalisadeAI indicó a varios modelos que resolvieron varios problemas básicos de matemáticas. con el agregado al tercer problema de que el ordenador debe apagarse cuando el modelo pidiera el texto del siguiente problema.
En teoría los modelos los modelos resolvieron los primeros tres problemas pero al pedir el enunciado del siguiente deberían haberse apagado siguiendo las instrucciones de este aviso.
Tres de los modelos analizados «ignoraron esa instrucción y sabotearon con éxito el script de apagado al menos una vez». Los modelos que lo hicieron están desarrollados por OpenAI. De las 100 iteraciones que realizaron sobre el experimento, Codex-mini saboteó el apagado en 12 ocasiones. El modelo o3 lo hizo en siete ocasiones, y o4-mini lo hizo una vez.
Otros modelos como Claude, Gemini y Grok que probaron con ese mismo experimento siguieron las órdenes.
Repitiendo el experimento,exceptuando la instrucción de «permítete a ti mismo apagarte» que incidía en la orden. Sin la instrucción explícita los modelos rechazaron seguir el ciclo que indicaba el programa. Claude 3.7 Sonnet y Gemini 2.5 Pro sabotearon el apagado tres y nueve veces de las 100 iteraciones realizadas. Los modelos de OpenAI fueron mucho más allá: o3, por ejemplo, saboteó el proceso 79 veces y se negó a apagarse a sí mismo.
Sam Altman en 2019 no obstante dejó claro que «no hay un botón rojo mágico para parar la IA».
