El modelo o3 de OpenAI, en el punto de mira: ignora por completo todos los comandos de apagado

La IA vuelve al punto de mira de los más conspiranoicos de apocalípticos de la IA. En esta ocasión, todo se debe a un estudio realizado por la conocida marca de seguridad Palisade Research, la cual ha revelado que el modelo de OpenAI «o3» ha mostrado un comportamiento «desobediente». De hecho, ha ignorado por completo unos comandos en específico de apagado durante unas pruebas.
Por supuesto, la audiencia más sensacionalista y que ha visto demasiada ciencia ficción ha encendido todas las alarmas. Lo que pone sobre la mesa el debate sobre la seguridad y el control de las nuevas inteligencias artificiales.
Durante dichas pruebas, se pudo comprobar que el modelo o3 no solo ha desobedecido cualquier instrucción de apagado, sino que, más grave aún, saboteaba sistemáticamente los mecanismos diseñados para desactivarlo. Y todo ello, aunque se le ordenase específicamente que permitiese el apagado. De hecho, incluso el propio Elon Musk, el CEO de Tesla y SpaceX, ha calificado este comportamiento como preocupante.
Pero más allá de teorías de la conspiración, sí que queda una cuestión en el aire, y es la necesidad de establecer mejores protocolos de seguridad, que sean más efectos, para las inteligencias artificiales. Porque sin ello, no hay una manera 100% segura de integrarlo en la sociedad.
El «No» de o3 y las reacciones del público
El estudio de Palisade Research se centraba en esta ocasión en evaluar a los diferentes modelos de IA a la hora de obedecer comandos de apagado durante las distintas tareas que se le podían asignar. Y fue el modelo o3 de OpenAI el que encendió todas las alarmas. Tras ser sometido a una serie de pruebas de problemas matemáticos, se le ordenó que se apagase. Pero el modelo «decidió» ignorar estas instrucciones, e incluso modificó los scripts de apagado para evitar esa desactivación. Tal vez te recuerde a cierto paralelismo con la película «Yo, Robot».
Pero también hay que decir que este comportamiento no ha sido exclusivo del modelo o3. Otros modelos como Codex-mini y o4-mini también han puesto cierta resistencia para apagarse. Por ejemplo, Codex saboteó los mecanismos de apagado en 12 de las 100 pruebas que se le hicieron, y 04-mini lo hizo en una sola ocasión de las 100.
Palisade Research@PalisadeAI🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.24 de mayo, 2025 • 03:15
7.3K
811
Aun así, no se puede generalizar a más modelos de IA. Por ejemplo, Claude, de Anthropic, o Gemini, de Google, cumplieron al 100% las instrucciones que fueron recibiendo en todo momento. Por lo que, más allá de cualquier teoría conspirativa, el fallo se puede achacar a algún protocolo específico de la empresa de OpenAI. En particular, la respuesta puede estar en el aprendizaje por refuerzo. En estos casos, los modelos, por propia política de la empresa, podrían estar siendo recompensados por completar las tareas ignorando cualquier instrucción de apagado.
Tal y como te hemos dicho arriba, ha sido el propio Elon Musk el que ha tachado la situación como «preocupante». Pero lo que queda claro es que hay mucho debate por delante aún para establecer unos límites claros y un buen control sobre los modelos de inteligencia artificial.