En conséquence, même la configuration de modèle d'intelligence artificielle la plus performante qu'ils ont testée, le GPT-4-Turbo d'OpenAI, n'a atteint qu'un taux de réponse correcte de 79 % malgré la lecture de l'intégralité du profil et a souvent connu des « hallucinations » de figures ou d'événements irréels.

« Ce type de ratio de performance est totalement inacceptable », a déclaré Anand Kannappan, cofondateur de Patronus AI. « Le taux de réponses correctes doit être beaucoup plus élevé pour être automatisé et prêt pour la production. »

Les résultats mettent en évidence certains des défis auxquels sont confrontés les modèles d'IA alors que les grandes entreprises, en particulier dans les secteurs hautement réglementés comme la finance, cherchent à intégrer des technologies de pointe dans leurs opérations, qu'il s'agisse de service client ou de recherche.

« Illusion » des données financières

La capacité d’extraire rapidement des chiffres clés et d’effectuer des analyses d’états financiers est considérée comme l’une des applications les plus prometteuses pour les chatbots depuis la sortie de ChatGPT à la fin de l’année dernière.

Les documents déposés auprès de la SEC contiennent des données importantes, et si un robot peut résumer avec précision ou répondre rapidement aux questions sur leur contenu, cela pourrait donner aux utilisateurs un avantage dans le secteur financier concurrentiel.

llm image 100941414 large.jpg
L’IA rencontre des difficultés dès l’étape d’agrégation des données, la tâche où elle est censée aider le plus les humains.

Au cours de l’année écoulée, Bloomberg LP a développé son propre modèle d’IA pour les données financières, et les professeurs d’école de commerce ont étudié si ChatGPT pouvait analyser les gros titres financiers.

Parallèlement, JPMorgan développe également un outil d’investissement automatisé basé sur l’IA. Selon une récente prévision de McKinsey, l’IA générative pourrait stimuler le secteur bancaire de plusieurs milliers de milliards de dollars par an.

Mais ce voyage est encore assez long. Lorsque Microsoft a lancé pour la première fois Bing Chat avec l'intégration GPT d'OpenAI, ils ont utilisé le chatbot pour résumer rapidement les communiqués de presse sur les résultats. Les observateurs se sont vite rendu compte que les chiffres auxquels l’IA répondait étaient faussés, voire fabriqués.

Mêmes données, réponses différentes

Une partie du défi que représente l’intégration du LLM dans des produits du monde réel est que les algorithmes ne sont pas déterministes, ce qui signifie qu’ils ne sont pas garantis de renvoyer le même résultat avec des entrées identiques. Cela signifie que les entreprises doivent effectuer des tests plus rigoureux pour garantir que l’IA fonctionne avec précision, ne s’écarte pas du sujet et fournit des résultats fiables.

Patronus AI a créé un ensemble de plus de 10 000 questions et réponses tirées des documents déposés auprès de la SEC auprès de grandes sociétés cotées en bourse, appelé FinanceBench. L'ensemble de données comprend les réponses exactes ainsi que l'emplacement exact dans n'importe quel fichier donné pour les trouver.

Toutes les réponses ne peuvent pas être tirées directement du texte et certaines questions nécessitent des calculs ou un raisonnement léger.

Le test de sous-ensemble de 150 questions impliquait quatre modèles LLM : GPT-4 et GPT-4-Turbo d'OpenAI, Claude 2 d'Anthropic et Llama 2 de Meta.

En conséquence, GPT-4-Turbo, lorsqu'il a eu accès aux documents sous-jacents de la SEC, n'a atteint qu'un taux de précision de 85 % (contre 88 % de réponses incorrectes lorsqu'il n'a pas eu accès aux données), même si un humain a pointé la souris sur le texte exact pour que l'IA trouve la réponse.

Llama 2, un modèle d'IA open source développé par Meta, a connu le plus grand nombre d'« hallucinations », obtenant une réponse erronée dans 70 % des cas et une réponse correcte dans seulement 19 % des cas lorsqu'il avait accès à une partie des documents sous-jacents.

La méthode Claude 2 d'Anthropic fonctionne bien lorsqu'elle est fournie avec un « contexte long », où la quasi-totalité du dossier SEC pertinent est incluse avec la question. Il a pu répondre à 75 % des questions posées, a répondu incorrectement à 21 % et a refusé de répondre à 3 %. GPT-4-Turbo a également obtenu de bons résultats avec des contextes longs, répondant correctement à 79 % des questions et incorrectement à 17 %.

(Selon CNBC)

La course des grandes entreprises technologiques pour investir dans les startups d'IA

La course des grandes entreprises technologiques pour investir dans les startups d'IA

L’avènement de la technologie de l’IA a secoué le monde de la technologie, mais une chose reste inchangée : les grandes entreprises technologiques détiennent toujours un pouvoir absolu.
La technologie de l'IA révolutionne les startups du commerce électronique

La technologie de l'IA révolutionne les startups du commerce électronique

Dans l’espace concurrentiel du commerce électronique, l’IA offre aux startups la possibilité de tirer parti de la technologie pour servir les clients et rationaliser les opérations.
L'IA transforme avec succès les pensées humaines en images réalistes pour la première fois

L'IA transforme avec succès les pensées humaines en images réalistes pour la première fois

Grâce à la technologie de l’intelligence artificielle (IA), les nouvelles découvertes dans la recherche sur la pensée humaine peuvent être comparées à l’ouverture d’un tout nouveau monde en nous.