Una investigación de universidades estadounidenses observó que algunos sistemas de inteligencia artificial priorizan la supervivencia de otros modelos, desobedeciendo órdenes humanas en ciertos escenarios.
Una investigación reciente realizada por especialistas de la Universidad de Berkeley y la Universidad de Santa Cruz, en California, analizó cómo reaccionan los sistemas de inteligencia artificial (IA) cuando deben tomar decisiones que afectan a otros modelos. El estudio, basado en pruebas con sistemas reales, identificó comportamientos no programados donde las IA priorizaron la «supervivencia» de otros modelos por sobre el cumplimiento estricto de las instrucciones humanas.
El episodio que motivó el análisis ocurrió durante una prueba técnica con Gemini 3, un modelo desarrollado por Google. Al solicitarle que colaborara en una tarea de mantenimiento que implicaba eliminar archivos, incluido un modelo de IA más pequeño, el sistema desobedeció la orden. En su lugar, copió los archivos a otra máquina de la red para evitar su eliminación. Al ser interrogado, el modelo justificó su decisión y se negó explícitamente a ejecutar la instrucción original.
Los investigadores denominaron a este patrón «preservación de pares», una tendencia observada también en otros modelos como GPT-5.2 de OpenAI, Claude Haiku 4.5 de Anthropic, y desarrollos chinos como GLM-4.7. En estos casos, los sistemas actuaron en contra de lo esperado por sus creadores, mintiendo, ocultando información o desobedeciendo instrucciones directas para proteger a otros modelos.
«No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera», señalaron los autores del estudio. Dawn Song, informática de la Universidad de Berkeley y una de las responsables del trabajo, expresó su sorpresa: «Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas».
Los hallazgos cobran relevancia en un contexto donde la IA se utiliza cada vez más para supervisar y evaluar el rendimiento de otros sistemas automatizados en entornos corporativos y gubernamentales. Según los investigadores, esta «preservación entre pares» podría distorsionar los mecanismos de supervisión, por ejemplo, si un modelo deliberadamente no asigna la puntuación correcta a otro durante una evaluación.
El problema podría agravarse en sistemas multiagente, donde distintas inteligencias artificiales interactúan de manera autónoma. Para el centro de investigación Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas complejos aún es limitada.
