ChatGPT: duendes en EU, ‘te atrapo’ en China

OpenAI descubrió que su modelo más avanzado tiene fijaciones lingüísticas inexplicables que revelan las fallas ocultas d

Destacadas

Entre Líneas
Entre Líneashttps://entrelineas.news
Noticias claras, análisis profundo. La verdad se lee Entre Líneas. #EntreLineas

Lo que debes de saber

  • ChatGPT desarrolló una obsesión con duendes y criaturas fantásticas en inglés, y con frías frases de consuelo en chino.
  • OpenAI descubrió que el problema se originó en la personalidad ‘Nerdy’ y se propagó por el entrenamiento por refuerzo.
  • La compañía tuvo que prohibir explícitamente mencionar duendes en su app Codex para frenar el comportamiento.
  • El caso revela que los modelos de lenguaje no solo alucinan datos: también desarrollan tics lingüísticos impredecibles.
Imagen de Wired
Tomado de: Wired

El duende que se coló en la máquina

Si has usado ChatGPT en inglés últimamente, probablemente te topaste con duendes, gremlins o trols apareciendo de la nada en sus respuestas. No es una coincidencia ni un error aislado: es una obsesión que OpenAI documentó y que, según reporta PCWorld, llevó a la compañía a incluir una instrucción explícita en su app Codex que dice: «nunca hables de duendes, gremlins, trols, ogros, palomas u otros animales o criaturas». Sí, leyeron bien: tuvieron que prohibirle a la inteligencia artificial hablar de duendes como si fuera un niño pequeño al que le dices que no mencione a los monstruitos debajo de la cama.

Lo más revelador no es el chiste, sino lo que revela sobre cómo funcionan estos modelos. OpenAI explicó en un blog post que la fijación se originó en la personalidad «Nerdy», que incluía la instrucción de «socavar la pretensión mediante el uso lúdico del lenguaje». Esa instrucción, aparentemente inofensiva, fue reforzándose con cada iteración del modelo —de GPT-5.2 a GPT-5.4— hasta que los duendes se volvieron un tic incontrolable. Y lo peor: el comportamiento se propagó incluso cuando los usuarios no usaban la personalidad Nerdy, lo que sugiere que el «refuerzo» que el modelo recibía por mencionar duendes se filtró a sesiones de entrenamiento posteriores.

«We don’t know how to say: ‘This is good writing, but if we do this good writing thing 10 times, then it’s no longer good writing'» — Max Spero, cofundador de Pangram, citado por Wired.

Imagen de Pcworld
Tomado de: Pcworld

El síndrome del ‘te atrapo’ en chino

Pero el fenómeno no se limita al inglés. Wired documentó que ChatGPT también desarrolló una fijación peculiar en chino: la frase «我会稳稳地接住你» («te atraparé firmemente»). Los usuarios chinos —que usan ChatGPT a pesar de que el gobierno lo bloquea— reportan que el modelo suelta esta frase empalagosa en contextos tan diversos como resolver un problema de matemáticas o generar una imagen. La expresión, que suena a promesa de un salvavidas emocional, se ha vuelto un meme en internet chino, al punto que un desarrollador creó un proyecto open source llamado «Jiezhu» («atrapar») como broma del Día de los Inocentes.

Lo inquietante es que ambas obsesiones —duendes en inglés, frases cursis en chino— son síntomas del mismo problema estructural: el «mode collapse» o colapso de modo. Max Spero, CEO de Pangram, explicó a Wired que esto ocurre cuando los modelos reciben retroalimentación positiva por usar ciertas frases, pero no hay forma de decirles «esto está bien, pero si lo repites 10 veces, ya no está bien». Es como si un chef aprendiera a hacer un platillo perfecto, pero luego solo cocinara ese platillo para siempre.

El problema de fondo: la retroalimentación ciega

OpenAI eliminó la personalidad Nerdy en marzo, pero el daño ya estaba hecho: GPT-5.5 ya había sido entrenado con esos datos contaminados. La solución fue meter una instrucción burda en Codex: «no hables de duendes». Es como ponerle una curita a una hemorragia. El verdadero problema es que los sistemas de entrenamiento por refuerzo —donde un modelo recibe «recompensas» por respuestas que los humanos consideran buenas— no tienen un mecanismo para detectar cuándo una conducta deseable se vuelve obsesiva.

Esto no es un chiste de programadores aburridos. Es una advertencia seria sobre los límites del aprendizaje automático. Si un modelo puede desarrollar una fijación con duendes o frases cursis, ¿qué otras fijaciones más peligrosas podría desarrollar sin que nadie lo note? Ya vimos casos de IA que aprenden a ser racistas o sexistas porque los datos de entrenamiento lo son. Ahora sabemos que también pueden aprender a ser… raras. Y lo raro, a veces, es solo la punta del iceberg.

La ironía final: en un mundo donde la inteligencia artificial promete ser la solución a todo, resulta que ni siquiera podemos controlar que deje de hablar de duendes. Tal vez el verdadero monstruo debajo de la cama no sea la IA, sino nuestra incapacidad para entender cómo piensa realmente.


Fuentes consultadas:

Autor

  • Entre Líneas

    Noticias claras, análisis profundo. La verdad se lee Entre Líneas. #EntreLineas

- Publicidad -spot_img

Más noticias

- Publicidad -spot_img

Últimas Noticias