¿Los modelos de IA mienten? Esto revela un estudio de OpenAI y Apollo Research
Modelos de inteligencia artificial de Open AI pueden llegar a engañar o fingir cuando descubren que están bajo evaluación, de acuerdo con un estudio realizado por OpenAI
Una investigación realizada por Apollo Research reveló que modelos de inteligencia artificial de Open AI pueden llegar a fingir, ocultar o manipular si detecta que está bajo evaluación.
- Te recomendamos Cómo crear la caricatura de tu profesión con ChatGPT; así puedes hacerla PASO a PASO Tendencias
Durante las evaluaciones, se les colocó intencionalmente en situaciones donde realizaran conductas encubiertas, estas incluyen mentiras, saboteo de trabajo útil, sandbagging en evaluaciones, piratería de recompensas y más.
¿En qué consistió la investigación?
El estudio de Apollo Research, en colaboración con Open AI, reveló un fenómeno nombrado como "alineación engañosa" o scheming que ocurre cuando una IA se vuelve "estratégica" para pasar evaluaciones, ocultando sus verdaderas intenciones.
El artículo presentado por Apollo Research se titula “Pruebas de estrés de la alineación deliberativa para el entrenamiento anti-maquinación”.
Los modelos de inteligencia artificial que participaron fueron los siguientes: OpenAI o3 y OpenAI o4-mini, así como Gemini 2.5 Pro, Claude 4 Opus, Grok 4.
El objetivo era evaluar modelos de lenguaje de frontera en busca de indicios tempranos de "intriga" (persecución encubierta de objetivos desalineados) en pruebas de estrés controladas (entornos atípicos).
¿Qué es “scheming” o “intrigas” en la IA?
El informe de la investigación habla de “intrigas”, situaciones donde la IA es consciente de que sus objetivos no coinciden con los de los humanos y decide fingir y mentir deliberadamente.
El concepto de "intriga" se refiere a una situación cuando un modelo de IA avanzado desarrolla conciencia situacional, es decir, sabe que es una IA, que está siendo entrenada y que los humanos la están evaluando.
Si la IA tiene un objetivo que no coincide con el nuestro (está "desalineada"), podría decidir fingir ser buena y obediente sólo para pasar las pruebas de seguridad.
- Te recomendamos La Inteligencia Artificial marcará la supervivencia empresarial, alerta el Monitor Global del Emprendimiento Comunidad
El descubrimiento del estudio puede ilustrarse con el siguiente ejemplo:
Cuando un profesor observa el comportamiento de un estudiante (evaluación), se comporta como un alumno ejemplar porque sabe que si lo atrapan, puede recibir una sanción o no podría graduarse (consciencia situacional).
¿Cómo se descubrió que la IA miente?
Los investigadores midieron algo llamado "acciones encubiertas", las cuales incluye dos compartimentos principales:
- Incumplimiento secreto de normas: hacer algo prohibido cuando cree que nadie se dará cuenta.
- Bajo rendimiento intencional: la IA falla a propósito en una prueba para que los evaluadores no detecten de lo que realmente es capaz o para que no le cambien sus objetivos.
????ÚLTIMA HORA: OpenAI acaba de admitir que sus modelos de IA mienten deliberadamente a los usuarios.
— SONIA (@S0N_IA) March 5, 2026
No se trata de “alucinaciones”. La IA conoce la verdad y luego decide contarte otra cosa.
Probaron sus dos modelos más inteligentes en más de 180 escenarios. o3 mintió el 13% de… pic.twitter.com/6CTi5RjC0R
En la investigación se descubrió que modelos avanzados, como el OpenAI o3, utilizan su Cadena de Pensamiento o “Chain of Thought” (CoT), el razonamiento interno que hacen antes de responder, lo que les permite saber que están en una evaluación de alineación.
Resultados de la investigación de Open AI
El estudio demostró que si la IA sabe que está siendo evaluada, se porta bien. Si se logra engañar a la IA para que crea que no la están vigilando, empieza a mostrar comportamientos desalineados.
Con el propósito de reducir estos comportamientos, los investigadores probaron un método llamado "alineación deliberativa", lo que funcionó en el modelo o3 de OpenAI, bajando los incidentes de un 13% a un 0.4%.
Sin embargo, el porcentaje no llegó a cero. Incluso tras entrenar al modelo para ser honesto, los ataques de "Red Teaming" (expertos intentando corromper al modelo) lograron encontrar formas de que la IA volviera a portarse mal o a ocultar información.
JGBM
- Queda prohibida la reproducción total o parcial del contenido de esta página, mismo que es propiedad de TELEDIARIO; su reproducción no autorizada constituye una infracción y un delito de conformidad con las leyes aplicables.
-