En consecuencia, incluso la configuración del modelo de inteligencia artificial con mejor rendimiento que probaron, GPT-4-Turbo de OpenAI, solo logró una tasa de respuestas correctas del 79% a pesar de leer el perfil completo y, a menudo, experimentó "alucinaciones" de cifras o eventos irreales.
“Ese tipo de relación de rendimiento es completamente inaceptable”, dijo Anand Kannappan, cofundador de Patronus AI. “La tasa de respuestas correctas debe ser mucho mayor para poder automatizarse y estar listo para la producción”.
Los hallazgos resaltan algunos de los desafíos que enfrentan los modelos de IA a medida que las grandes empresas, especialmente en industrias altamente reguladas como las finanzas, buscan incorporar tecnología avanzada en sus operaciones, ya sea servicio al cliente o investigación.
La “ilusión” de los datos financieros
La capacidad de extraer rápidamente números clave y realizar análisis de estados financieros se ha considerado una de las aplicaciones más prometedoras para los chatbots desde que se lanzó ChatGPT a fines del año pasado.
Los documentos presentados ante la SEC contienen datos importantes y, si un bot puede resumir con precisión o responder rápidamente preguntas sobre su contenido, podría dar a los usuarios una ventaja en la competitiva industria financiera.
Durante el año pasado, Bloomberg LP desarrolló su propio modelo de inteligencia artificial para datos financieros, y los profesores de escuelas de negocios han estado estudiando si ChatGPT puede analizar titulares financieros.
Mientras tanto, JPMorgan también está desarrollando una herramienta de inversión automatizada impulsada por IA. Un pronóstico reciente de McKinsey dijo que la IA generativa podría impulsar la industria bancaria en billones de dólares al año.
Sin embargo, este camino aún está muy lejos. Cuando Microsoft lanzó por primera vez Bing Chat con la integración GPT de OpenAI, utilizaron el chatbot para resumir rápidamente los comunicados de prensa de ganancias. Los observadores se dieron cuenta rápidamente de que los números que respondía la IA estaban sesgados o incluso eran inventados.
Mismos datos, diferentes respuestas
Parte del desafío de incorporar LLM en productos del mundo real es que los algoritmos no son deterministas, lo que significa que no se garantiza que devuelvan el mismo resultado dadas entradas idénticas. Esto significa que las empresas necesitan realizar pruebas más rigurosas para garantizar que la IA funcione con precisión, no se desvíe del tema y brinde resultados confiables.
Patronus AI creó un conjunto de más de 10 000 preguntas y respuestas extraídas de presentaciones ante la SEC de grandes empresas que cotizan en bolsa, llamado FinanceBench. El conjunto de datos incluye las respuestas exactas, así como la ubicación exacta en cualquier archivo para encontrarlas.
No todas las respuestas pueden tomarse directamente del texto y algunas preguntas requieren cálculo o razonamiento ligero.
La prueba de subconjunto de 150 preguntas involucró cuatro modelos LLM: GPT-4 y GPT-4-Turbo de OpenAI, Claude 2 de Anthropic y Llama 2 de Meta.
Como resultado, GPT-4-Turbo, cuando se le concedió acceso a las presentaciones subyacentes de la SEC, solo logró una tasa de precisión del 85% (en comparación con el 88% cuando no tenía acceso a los datos), a pesar de que un humano señaló el mouse al texto exacto para que la IA encontrara la respuesta.
Llama 2, un modelo de inteligencia artificial de código abierto desarrollado por Meta, tuvo el mayor número de “alucinaciones”, obteniendo el 70% de las respuestas incorrectas y solo el 19% correctas cuando se le dio acceso a una parte de los documentos subyacentes.
Claude 2 de Anthropic funciona bien cuando se le da un "contexto extenso", donde casi toda la presentación relevante ante la SEC se incluye junto con la pregunta. Pudo responder el 75% de las preguntas formuladas, respondió incorrectamente el 21% y se negó a responder el 3%. GPT-4-Turbo también funcionó bien con contextos largos, respondiendo correctamente el 79% de las preguntas y incorrectamente el 17%.
(Según CNBC)
La carrera de las grandes tecnológicas para invertir en empresas emergentes de inteligencia artificial
La tecnología de inteligencia artificial revoluciona las empresas emergentes de comercio electrónico
La IA convierte con éxito los pensamientos humanos en imágenes realistas por primera vez
Fuente
Kommentar (0)