Vietnam.vn - Nền tảng quảng bá Việt Nam

Una investigación innovadora abre la «caja negra» del razonamiento de la IA

Después de escribir un comando a la IA y obtener el resultado, ¿siente curiosidad acerca de cómo la herramienta determinó su respuesta?

Zing NewsZing News30/03/2025

Dario Amodei, CEO de Anthropic, comparte las últimas investigaciones de la compañía. Foto: Fortune .

Los investigadores de la empresa de inteligencia artificial Anthropic afirman que han logrado un avance fundamental al comprender exactamente cómo funcionan los modelos de lenguaje grande (LLM). Este avance tiene implicaciones importantes para mejorar la seguridad de los futuros modelos de IA.

Las investigaciones muestran que los modelos de IA son incluso más inteligentes de lo que pensábamos. Uno de los mayores problemas del modelo LLM, detrás de los chatbots más potentes como ChatGPT, Gemini, Copilot, es que actúan como una caja negra.

Podemos ingresar datos y obtener resultados de los chatbots, pero cómo llegan a una respuesta específica sigue siendo un misterio, incluso para los investigadores que los crearon.

Esto hace que sea difícil predecir cuándo el modelo podría alucinar o producir resultados falsos. Los investigadores también construyeron vallas para evitar que la IA respondiera preguntas peligrosas, pero no explicaron por qué algunas vallas eran más efectivas que otras.

Los agentes de IA también son capaces de “piratear recompensas”. En algunos casos, los modelos de IA pueden mentir a los usuarios sobre lo que han hecho o están intentando hacer.

Aunque los modelos recientes de IA son capaces de razonar y generar cadenas de pensamiento, algunos experimentos han demostrado que todavía no reflejan con precisión el proceso mediante el cual el modelo llega a una respuesta.

En esencia, la herramienta desarrollada por los investigadores de Anthropic es similar a un escáner fMRI que los neurocientíficos usan para escanear el cerebro humano. Al aplicarlo a su modelo Claude 3.5 Haiku, Anthropic pudo obtener una idea de cómo funcionan los modelos LLM.

Los investigadores descubrieron que, aunque Claude sólo fue entrenado para predecir la siguiente palabra de una oración, en ciertas tareas aprendió a planificar a más largo plazo.

Por ejemplo, cuando le pedían que escribiera un poema, Claude primero buscaba palabras que encajaran con el tema y pudieran rimar, y luego trabajaba al revés para escribir versos completos.

Claude también tiene un lenguaje de IA común. Aunque está entrenado para soportar varios idiomas, Claude pensará primero en ese idioma y luego expresará los resultados en cualquier idioma que admita.

Además, después de plantearle a Claude un problema difícil, pero sugerirle deliberadamente una solución equivocada, los investigadores descubrieron que Claude podía mentir sobre su línea de pensamiento, siguiendo la sugerencia para complacer al usuario.

En otros casos, cuando se le hacía una pregunta sencilla que el modelo podía responder inmediatamente sin razonar, Claude seguía inventando un proceso de razonamiento falso.

Josh Baston, investigador de Anthropic, dijo que aunque Claude afirmó haber hecho un cálculo, no pudo encontrar nada que sucediera.

Mientras tanto, los expertos sostienen que hay estudios que demuestran que a veces las personas ni siquiera se entienden a sí mismas, sino que sólo crean explicaciones racionales para justificar las decisiones que toman.

En general, la gente tiende a pensar de la misma manera. Esta es también la razón por la que la psicología ha descubierto sesgos cognitivos comunes.

Sin embargo, los LLM pueden cometer errores que los humanos no pueden, porque la forma en que generan respuestas es muy diferente a la forma en que realizamos una tarea.

El equipo de Anthropic implementó un método que agrupa las neuronas en circuitos según características en lugar de analizar cada neurona individualmente como lo hacían las técnicas anteriores.

Este enfoque ayuda a comprender qué roles desempeñan los diferentes componentes y permite a los investigadores rastrear todo el proceso de inferencia a través de las capas de la red, dijo Baston.

Este método también tiene la limitación de que es sólo aproximado y no refleja todo el proceso de procesamiento de información de LLM, especialmente el cambio en el proceso de atención, que es muy importante mientras LLM da resultados.

Además, definir circuitos de redes neuronales, incluso con enunciados de apenas unas pocas docenas de palabras, le lleva horas a un experto. Dicen que todavía no está claro cómo ampliar esta técnica para analizar declaraciones más largas.

Dejando de lado las limitaciones, la capacidad de LLM para monitorear el razonamiento interno abre nuevas oportunidades para controlar los sistemas de IA para garantizar la seguridad.

Al mismo tiempo, también puede ayudar a los investigadores a desarrollar nuevos métodos de entrenamiento, mejorar las barreras de control de la IA y reducir las ilusiones y los resultados engañosos.

Fuente: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html


Kommentar (0)

No data
No data

Herencia

Cifra

Negocio

No videos available

Noticias

Sistema político

Local

Producto