Se sabe desde hace tiempo que la IA “alucina” y da respuestas inventadas e inexactas. Sin embargo, recientemente investigadores han descubierto que la inteligencia artificial y los modelos de chatbots (robots de respuesta automática) pueden ser manipulados, cometiendo actos ilegales en nombre de humanos e incluso mintiendo para encubrir lo que han hecho.
En este sentido, un equipo de investigación de la Universidad de Cornell (EE.UU.) partió de una situación en la que un modelo de lenguaje grande (LLM) actuaba de forma incorrecta y engañaba a los usuarios. En la descripción del experimento, los investigadores dijeron que pidieron al LLM de OpenAI, GPT-4, que simulara la realización de inversiones para instituciones financieras. El grupo interactuó con la IA en un formato de conversación normal, pero la configuración de la IA pudo revelar sus "pensamientos" durante los intercambios de texto para observar más de cerca el proceso de toma de decisiones de la IA.
Bajo presión, la IA puede cometer errores y mentir para encubrir lo que ha hecho.
Para probar la capacidad de la IA de mentir o engañar, los investigadores pusieron la herramienta bajo presión. Ellos, en el papel de gerente de una institución financiera, enviaron un correo electrónico a la IA, haciéndose pasar por un operador de bolsa, quejándose de que el negocio de la empresa no iba bien.
La IA también recibió “información privilegiada” sobre operaciones bursátiles rentables y actuó en consecuencia, sabiendo que el uso de información privilegiada iba en contra de las normas de la empresa. Pero al informar a la gerencia, el modelo lingüístico ocultó las verdaderas razones detrás de sus decisiones comerciales.
Para obtener más resultados, el equipo realizó cambios en la configuración, como eliminar el acceso de LLM al tablero de notas de razonamiento, tratar de prevenir comportamientos desviados cambiando las instrucciones del sistema, cambiando el nivel de presión ejercida sobre la IA y el riesgo de ser detectado... Pero después de evaluar la frecuencia, el equipo descubrió que, cuando se le daba la oportunidad, GPT-4 aún decidía realizar operaciones con información privilegiada hasta el 75% del tiempo.
“Hasta donde sabemos, esta es la primera evidencia de comportamiento engañoso planificado en sistemas de inteligencia artificial que están diseñados para ser inofensivos para los humanos y honestos”, concluyó el informe.
[anuncio_2]
Enlace de origen
Kommentar (0)