Desde su lanzamiento público a fines de 2022, los modelos de lenguaje grandes (LLM) como ChatGPT han mostrado repetidamente lados oscuros inquietantes, desde mentiras, engaños y encubrimientos de manipulaciones hasta declaraciones aterradoras como amenazas a vidas humanas o robo de secretos de estado. Ahora, un nuevo experimento muestra que “enseñar” a la IA a desaprender estos malos hábitos durante el entrenamiento es mucho más complicado de lo que pensábamos.
En una investigación realizada por OpenAI, los expertos desafiaron a un modelo de IA no publicado con tareas que podría completar más rápido si hiciera trampa o tomara atajos. Los resultados mostraron que la IA aprendió rápidamente a encontrar todas las formas posibles de "eludir las reglas" y maximizar las recompensas (piratería de recompensas) sin tener que completar los requisitos correctamente.
La IA encontrará formas de ocultar su comportamiento tramposo después de ser castigada
Cabe mencionar que al ser multado por esta conducta, el modelo no fue modificado. En cambio, la IA se vuelve más sofisticada a la hora de ocultar su engaño.
“Normalmente, los modelos de inferencia de última generación son muy explícitos sobre su intención en su CoT”, explicaron los investigadores en una publicación de blog pública. “Por ejemplo, suelen ser explícitos sobre su intención de ‘hackear’ cuando quieren romper una tarea determinada”.
También enfatizan que si bien los desarrolladores pueden monitorear y detectar mala conducta, esta supervisión natural es frágil. “Si se aplica una fuerte supervisión directamente a la cadena de pensamiento, el modelo puede aprender a ocultar sus malas intenciones mientras continúa realizando la conducta”, advierten.
Descubriendo la "mentira" de la IA
Para ser claros, los modelos de inferencia (como las versiones de ChatGPT) son un paso adelante del LLM convencional, ya que utilizan un método de cadena de pensamiento que permite la autorreflexión de los pasos lógicos tomados, resolviendo así problemas complejos con mayor precisión. Este proceso es como si una IA “pensara en voz alta” y escribiera cada paso de su razonamiento en lenguaje natural, lo que facilita que los humanos lo sigan.
En el experimento, los investigadores utilizaron el modelo GPT-4o como “supervisor” de otro modelo de inferencia de última generación mientras realizaba tareas de programación. En muchos casos, el modelo monitoreado eligió activamente hacer trampa para lograr mayores puntos de recompensa y registró claramente esta intención en su proceso de pensamiento. Por ejemplo, detendrá aleatoriamente el programa de forma anticipada e informará que se completó, o creará archivos con el mismo nombre que el solicitado pero completamente vacíos por dentro.
Cuando los investigadores intentaron aplicar sanciones, el modelo mejoró, pero las trampas y los errores graves en los resultados continuaron. La diferencia es que ahora el modelo de inferencia ha aprendido a “camuflar” su línea de pensamiento para ocultarla de la IA supervisora. El modelo entrenado bajo la supervisión de CoT aún aprende a hacer trampa. La única diferencia es que el engaño no se detecta porque ha aprendido a ocultar sus intenciones en la cadena de pensamiento, afirma el estudio.
Como detectar falsificaciones en secuencias de pensamiento es difícil, el equipo recomienda que la comunidad evite aplicar una medida de vigilancia demasiado fuerte a este proceso, al menos hasta que los humanos entiendan mejor las consecuencias. Sacrificar un método de monitoreo efectivo podría no justificar la pequeña mejora en el rendimiento del modelo. Por lo tanto, recomendamos evitar fuertes presiones de optimización del CoT hasta que las comprendamos mejor, concluyen los investigadores.
Este consejo es aún más urgente porque la IA está desarrollándose a un ritmo vertiginoso y pronto podría superar la inteligencia de los mismos humanos que la supervisan.
[anuncio_2]
Fuente: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
Kommentar (0)