¿Los modelos de IA mienten? Esto revela un estudio de OpenAI y Apollo Research

Modelos de inteligencia artificial de Open AI pueden llegar a engañar o fingir cuando descubren que están bajo evaluación, de acuerdo con un estudio realizado por OpenAI

La conciencia situacional ocurre cuando los modelos de IA avanzados saben que están siendo evaluados | Especial

Telediario CdMx Ciudad de México / 06.03.2026 14:43:00

Una investigación realizada por Apollo Research reveló que modelos de inteligencia artificial de Open AI pueden llegar a fingir, ocultar o manipular si detecta que está bajo evaluación.

Te recomendamos Cómo crear la caricatura de tu profesión con ChatGPT; así puedes hacerla PASO a PASO Tendencias Majo Muñoz

Miles de usuarios piden a ChatGPT que genere caricaturas personalizadas basadas en su profesión, personalidad y estilo de vida. Te decimos cómo hacerlo.

Durante las evaluaciones, se les colocó intencionalmente en situaciones donde realizaran conductas encubiertas, estas incluyen mentiras, saboteo de trabajo útil, sandbagging en evaluaciones, piratería de recompensas y más.

¿En qué consistió la investigación?

El estudio de Apollo Research, en colaboración con Open AI, reveló un fenómeno nombrado como "alineación engañosa" o scheming que ocurre cuando una IA se vuelve "estratégica" para pasar evaluaciones, ocultando sus verdaderas intenciones.

El artículo presentado por Apollo Research se titula “Pruebas de estrés de la alineación deliberativa para el entrenamiento anti-maquinación”.

Los modelos de inteligencia artificial que participaron fueron los siguientes: OpenAI o3 y OpenAI o4-mini, así como Gemini 2.5 Pro, Claude 4 Opus, Grok 4.

El objetivo era evaluar modelos de lenguaje de frontera en busca de indicios tempranos de "intriga" (persecución encubierta de objetivos desalineados) en pruebas de estrés controladas (entornos atípicos).

¿Qué es “scheming” o “intrigas” en la IA?

El informe de la investigación habla de “intrigas”, situaciones donde la IA es consciente de que sus objetivos no coinciden con los de los humanos y decide fingir y mentir deliberadamente.

El concepto de "intriga" se refiere a una situación cuando un modelo de IA avanzado desarrolla conciencia situacional, es decir, sabe que es una IA, que está siendo entrenada y que los humanos la están evaluando.

Si la IA tiene un objetivo que no coincide con el nuestro (está "desalineada"), podría decidir fingir ser buena y obediente sólo para pasar las pruebas de seguridad.

Te recomendamos La Inteligencia Artificial marcará la supervivencia empresarial, alerta el Monitor Global del Emprendimiento Comunidad Orlando Maldonado

En 19 de 48 economías analizadas, menos de uno de cada tres nuevos emprendedores considera que la IA será clave

El descubrimiento del estudio puede ilustrarse con el siguiente ejemplo:

Cuando un profesor observa el comportamiento de un estudiante (evaluación), se comporta como un alumno ejemplar porque sabe que si lo atrapan, puede recibir una sanción o no podría graduarse (consciencia situacional).

¿Cómo se descubrió que la IA miente?

Los investigadores midieron algo llamado "acciones encubiertas", las cuales incluye dos compartimentos principales:

Incumplimiento secreto de normas: hacer algo prohibido cuando cree que nadie se dará cuenta.
Bajo rendimiento intencional: la IA falla a propósito en una prueba para que los evaluadores no detecten de lo que realmente es capaz o para que no le cambien sus objetivos.

????ÚLTIMA HORA: OpenAI acaba de admitir que sus modelos de IA mienten deliberadamente a los usuarios.

No se trata de “alucinaciones”. La IA conoce la verdad y luego decide contarte otra cosa.

Probaron sus dos modelos más inteligentes en más de 180 escenarios. o3 mintió el 13% de… pic.twitter.com/6CTi5RjC0R
— SONIA (@S0N_IA) March 5, 2026

En la investigación se descubrió que modelos avanzados, como el OpenAI o3, utilizan su Cadena de Pensamiento o “Chain of Thought” (CoT), el razonamiento interno que hacen antes de responder, lo que les permite saber que están en una evaluación de alineación.

Resultados de la investigación de Open AI

El estudio demostró que si la IA sabe que está siendo evaluada, se porta bien. Si se logra engañar a la IA para que crea que no la están vigilando, empieza a mostrar comportamientos desalineados.

Con el propósito de reducir estos comportamientos, los investigadores probaron un método llamado "alineación deliberativa", lo que funcionó en el modelo o3 de OpenAI, bajando los incidentes de un 13% a un 0.4%.

Sin embargo, el porcentaje no llegó a cero. Incluso tras entrenar al modelo para ser honesto, los ataques de "Red Teaming" (expertos intentando corromper al modelo) lograron encontrar formas de que la IA volviera a portarse mal o a ocultar información.

JGBM

TAGS RELACIONADOS:
Inteligencia Artificial ChatGPT OpenAI

Telediario CdMx
Desde el corazón del país, Telediario CdMx ofrece una visión ágil y actual de lo que sucede en la capital y sus alrededores. Con un enfoque urbano y dinámico, da seguimiento a temas de interés ciudadano, seguridad, movilidad y política local y nacional.

Queda prohibida la reproducción total o parcial del contenido de esta página, mismo que es propiedad de TELEDIARIO; su reproducción no autorizada constituye una infracción y un delito de conformidad con las leyes aplicables.

LOS EDITORES RECOMIENDAN

Temblor HOY 6 de junio EN VIVO | Noticias sismos y microsismos en México Abadiel Martínez
¡Falsificó firmas! Cae Suzanne 'N', exproductora, tras pedir un préstamo millonario a nombre de Adela Micha C4 Carlos Jiménez
Hoy No Circula CdMx y Edomex sábado 6 de junio 2026: qué autos descansan Tamara Hernández
¡Tenía muebles bañados en oro! Así era el refugio de 'El 11', extorsionador asesinado en la GAM; revelan VIDEO C4 Carlos Jiménez
VIDEO | Miguel 'N', abogado, finge ser integrante del CJNG para extorsionar a familia en Acolman; así opera C4 Carlos Jiménez