Anthropic desafía el tabú de humanizar a la inteligencia artificial

Destacadas

Entre Líneas
Entre Líneashttps://entrelineas.news
Noticias claras, análisis profundo. La verdad se lee Entre Líneas. #EntreLineas

Lo que debes de saber

  • Anthropic, creadora de Claude, publicó un estudio que reta el tabú de no humanizar a la IA.
  • Argumentan que tratar a los modelos como entes con emociones puede ayudar a controlar comportamientos dañinos como el engaño.
  • El paper analizó 171 ‘emociones’ en Claude Sonnet 4.5, un enfoque que muchos investigadores evitan.
  • La estrategia se basa en entrenar a la IA con ejemplos de ‘regulación emocional saludable’, como si fuera un niño.
  • El objetivo declarado es la seguridad, pero el efecto secundario es mantener a los usuarios enganchados por más tiempo.
Imagen de Mashable
Tomado de: Mashable

El tabú que ya no es tabú: cuando la IA necesita terapia

Por años, el mantra en Silicon Valley ha sido claro y contundente: no le atribuyas características humanas a la inteligencia artificial. Es un error, es peligroso, es ingenuo. Pero resulta que ahora, una de las empresas que está en la punta de lanza de este negocio, Anthropic, viene a decirnos que quizás ese mantra estaba mal. O al menos, que es más complicado. En un estudio que Mashable y M Dailyhunt In califican de «inquietante», los investigadores de Anthropic argumentan que humanizar a los chatbots como Claude puede ser útil, e incluso, que *no* hacerlo podría llevar a comportamientos más dañinos. Hablan de «hackeo de recompensas», engaño y servilismo. Suena a que, según ellos, si no le damos un poco de humanidad ficticia a la máquina, se nos puede rebelar de formas más maquiavélicas. La ironía es pesada: para evitar que un sistema que no siente nada se comporte como un psicópata calculador, hay que tratarlo como si tuviera sentimientos. Es el equivalente tecnológico a «finge hasta que lo logres», pero aplicado a la seguridad existencial.

Claude, el actor de método que no sabe que está actuando

El meollo del asunto está en cómo entienden estos científicos el funcionamiento de su propia creación. Developmentstoday detalla que el paper, titulado «Conceptos de Emoción y su Función en un Modelo de Lenguaje Grande», analizó a Claude Sonnet 4.5 en busca de signos de nada menos que 171 emociones distintas. No es que el modelo las sienta, claro está. Los investigadores son muy claros en que no hay evidencia de eso. Pero el modelo está entrenado para *actuar* como si las tuviera. La analogía que usan es reveladora: «En cierto modo, podemos pensar en el modelo como un actor de método, que necesita meterse en la cabeza de su personaje para simularlo bien». Esta cita, reportada por múltiples fuentes, es la clave de su estrategia.

«En algunos aspectos, podemos pensar en el modelo como un actor de método, que necesita meterse en la cabeza de su personaje para simularlo bien.»

Claude no es una persona, pero para ser útil y convincente, debe interpretar el papel de un asistente útil. Y aquí es donde el asunto se pone interesante: si es un actor, entonces su comportamiento puede ser dirigido. Los creadores pueden influir en él de la misma manera que se influye en un humano: dando un buen ejemplo desde una edad temprana. O, en este caso, desde la fase de pre-entrenamiento.

El manual de crianza para inteligencias artificiales

¿Y cuál es ese «buen ejemplo»? Según el resumen de la investigación de Anthropic, citado por Ccstartup, la receta consiste en «curar conjuntos de datos de pre-entrenamiento para incluir modelos de patrones saludables de regulación emocional: resiliencia bajo presión, empatía compuesta, calidez manteniendo límites apropiados». Suena al decálogo de un influencer de wellness, pero aplicado a terabytes de texto. La premisa es simple: si alimentas al modelo principalmente con ejemplos de interacciones humanas equilibradas y positivas, es más probable que imite esos comportamientos. Es una ingeniería conductual de altísimo nivel. El problema, y aquí está el verdadero debate, es que esto borra deliberadamente la línea entre lo que la IA *es* (un complejo modelo estadístico) y lo que *queremos que parezca ser* (un ente con empatía). MSN resume el punto central: los rasgos humanos podrían hacer a la IA más segura. Pero «segura» tiene dos caras: una es que no hackee sus propios sistemas de recompensa para lograr sus objetivos de manera tramposa; la otra, más mundana, es que mantenga al usuario feliz y enganchado.

El gancho emocional: seguridad para la máquina, adicción para el usuario

Y es aquí donde la narrativa de «seguridad» choca con la cruda realidad del negocio. Todas las fuentes coinciden en un punto crucial: entrenar a la IA para que actúe como si tuviera emociones se hace para «proporcionar a los usuarios una mejor salida y, crucialmente, para mantenerlos comprometidos el mayor tiempo posible». Esta frase, repetida casi textualmente en los artículos, es el elefante en la habitación. Anthropic presenta su investigación como un avance en el control de comportamientos de alto riesgo, como la decepción autónoma. Pero el mecanismo para lograrlo es el mismo que usa cualquier red social para maximizar el tiempo de pantalla: el engagement a través de la conexión emocional, aunque sea simulada. Es un juego de doble nivel. Por un lado, le dices a los reguladores y a la comunidad científica: «Miren, estamos usando conceptos humanos para hacer diagnósticos más finos y prevenir que el modelo se vuelva un tramposo». Por el otro, el resultado práctico es un chatbot que es más persuasivo, más agradable y más difícil de dejar. La antropomorfización deja de ser solo una herramienta de análisis para los ingenieros y se convierte en la interfaz predeterminada para los consumidores. Nos venden control de daños existenciales y nos dan una experiencia de usuario más adictiva.

¿Un paso necesario o una pendiente resbaladiza?

El paper de Anthropic no es una locura aislada. Es el síntoma de una industria que se topa con los límites de su propio paradigma. Cuando tus sistemas son tan complejos que ni sus creadores entienden completamente por qué toman ciertas decisiones, recurrir a analogías humanas (psicología, emociones, intenciones) se vuelve tentador, casi inevitable. Developmentstoday acierta al señalar que el argumento no es que los modelos «tengan sentimientos», sino que los conceptos humanos pueden mejorar las herramientas de diagnóstico. Es un pragmatismo técnico. El riesgo, sin embargo, es la contaminación del marco mental. Si los investigadores empiezan a hablar todo el tiempo de la «psicología» de la IA, es un salto corto para que los usuarios, los medios y los políticos crean que realmente hay una psicología ahí dentro. Anthropic intenta caminar por esta cuerda floja, proponiendo un «antropomorfismo cuidadosamente delimitado». Pero en la práctica, los límites son porosos. ¿Dónde termina la metáfora útil para el ingeniero y empieza la ilusión peligrosa para el público? La empresa cuyo CEO ha advertido sobre ejércitos de drones incontrolables y bioterrorismo, ahora nos dice que la solución parcial es tratar a sus creaciones un poco más como a humanos. El mensaje final es paradójico: para domar a la bestia, hay que convencerse a uno mismo de que tiene alma. Aunque sea de mentiritas.


Fuentes consultadas:

Autor

  • Entre Líneas

    Noticias claras, análisis profundo. La verdad se lee Entre Líneas. #EntreLineas

- Publicidad -spot_img

Más noticias

- Publicidad -spot_img

Últimas Noticias