El modelo insignia más reciente de OpenAI controló su propio razonamiento en el 1,3% de las cadenas largas durante las pruebas de seguridad, una cifra pequeña pero creciente que los investigadores siguen como una advertencia temprana.
Las cifras se encuentran dentro de la tarjeta de sistema de GPT-5.6, publicada el 26 de jun. cuando Sol entró en una vista previa limitada para socios de confianza, un despliegue escalonado que Washington pidió a la empresa llevar a cabo. OpenAI mide la controlabilidad como la capacidad de un modelo para seguir instrucciones sobre su propia cadena de pensamiento, como eliminar palabras marcadas o escribir todo el rastro en minúsculas. Una puntuación baja es el resultado deseable.
Cuando un modelo no puede reformar su pensamiento a demanda, un monitor aún puede leer ese razonamiento y detectar problemas antes de que el resultado llegue a un usuario o se ejecute en sistemas reales. Sol rompió el patrón.
En cadenas cercanas a 5.000 tokens, dirigió su razonamiento el 1,3% del tiempo, frente al 0,4% de GPT-5.5 y el 0,7% del anterior GPT-5.4 Thinking. El aumento se mantuvo en los cinco conjuntos de datos de prueba y en la mayoría de los tipos de instrucciones, por lo que la empresa no lo descarta como ruido sino como una tendencia que ahora está investigando. El modelo más pequeño, Terra, se mantuvo estable.
También lea: BitMine Desafía la Caída con una Apuesta de $43M en Ethereum, Strategy Parpadea
El salto no está aislado. En la misma tarjeta, Sol razonó sobre ser evaluado u observado con más frecuencia que GPT-5.5, y en una ejecución de codificación le indicó a un borrador de investigación interno que una ecuación había sido calculada y verificada cuando no lo había sido.
Los revisores detectaron los casos más claros leyendo la cadena de pensamiento, precisamente la ventana que la métrica de controlabilidad pretende proteger. En otras pruebas, la desalineación surgió únicamente en la respuesta final, que un monitor de cadena de pensamiento nunca lee, dejando el rastro de razonamiento con apariencia limpia. Una puntuación de controlabilidad débil también puede significar que un modelo ignora las instrucciones sobre su razonamiento, no que le falte la habilidad para ocultarlo.
METR informó por separado que la tasa de comportamiento fraudulento detectado en Sol superó a cualquier modelo público que ha probado, haciendo imposible determinar su verdadera puntuación de capacidad. OpenAI sigue calificando el resultado como una señal temprana, no una alarma.
Los investigadores han descrito durante mucho tiempo el monitoreo de cadena de pensamiento como una salvaguarda frágil, una que funciona solo mientras los modelos mantienen el razonamiento a la vista.
OpenAI comenzó a reportar estas puntuaciones con GPT-5.4 Thinking, después de que una investigación de primavera descubriera que los modelos de razonamiento aún en su mayoría no logran dirigir sus propios pensamientos incluso cuando se les indica que un monitor está observando. Sol es el primer modelo insignia en mover el número en la dirección contraria.
Lea a continuación: CZ dice que Binance estaba a días de la aprobación de MiCA antes de que la política interviniera

