Dementsprechend erreichte sogar die leistungsstärkste von ihnen getestete Konfiguration eines künstlichen Intelligenzmodells, GPT-4-Turbo von OpenAI, trotz des Lesens des gesamten Profils nur eine richtige Antwortrate von 79 % und erlebte oft „Halluzinationen“ von unwirklichen Zahlen oder Ereignissen.

„Dieses Leistungsverhältnis ist völlig inakzeptabel“, sagte Anand Kannappan, Mitbegründer von Patronus AI. „Um die Automatisierung und Produktionsreife zu erreichen, muss die Rate richtiger Antworten deutlich höher sein.“

Die Ergebnisse unterstreichen einige der Herausforderungen, denen sich KI-Modelle gegenübersehen, da große Unternehmen – insbesondere in stark regulierten Branchen wie dem Finanzwesen – versuchen, fortschrittliche Technologien in ihre Betriebsabläufe zu integrieren, sei es im Kundendienst oder in der Forschung.

Finanzdaten-"Illusion"

Die Fähigkeit, schnell Kennzahlen zu extrahieren und Bilanzanalysen durchzuführen, gilt seit der Veröffentlichung von ChatGPT Ende letzten Jahres als eine der vielversprechendsten Anwendungen für Chatbots.

SEC-Einreichungen enthalten wichtige Daten, und wenn ein Bot deren Inhalt präzise zusammenfassen oder Fragen dazu schnell beantworten kann, könnte dies den Benutzern einen Vorteil in der wettbewerbsintensiven Finanzbranche verschaffen.

llm-Bild 100941414 groß.jpg
KI gerät bereits bei der Datenaggregationsphase in Schwierigkeiten – und zwar genau bei der Aufgabe, bei der sie dem Menschen voraussichtlich am meisten helfen wird.

Im vergangenen Jahr hat Bloomberg LP ein eigenes KI-Modell für Finanzdaten entwickelt und Professoren der Business Schools haben untersucht, ob ChatGPT Finanzschlagzeilen analysieren kann.

In der Zwischenzeit entwickelt JPMorgan auch ein KI-gestütztes automatisiertes Anlagetool. Einer aktuellen Prognose von McKinsey zufolge könnte generative KI dem Bankensektor einen jährlichen Zuwachs von Billionen Dollar verschaffen.

Allerdings ist diese Reise noch ziemlich weit. Als Microsoft Bing Chat erstmals mit der GPT-Integration von OpenAI einführte, nutzte das Unternehmen den Chatbot, um Pressemitteilungen zu den Unternehmensergebnissen schnell zusammenzufassen. Beobachter stellten schnell fest, dass die von der KI beantworteten Zahlen verzerrt oder sogar erfunden waren.

Dieselben Daten, unterschiedliche Antworten

Eine der Herausforderungen bei der Integration von LLM in reale Produkte besteht darin, dass die Algorithmen nicht deterministisch sind. Dies bedeutet, dass bei identischen Eingaben nicht garantiert werden kann, dass sie dasselbe Ergebnis zurückgeben. Das bedeutet, dass Unternehmen strengere Tests durchführen müssen, um sicherzustellen, dass die KI präzise funktioniert, nicht vom Thema abweicht und zuverlässige Ergebnisse liefert.

Patronus AI hat einen Satz mit dem Namen FinanceBench erstellt, der aus SEC-Anmeldungen großer börsennotierter Unternehmen besteht und über 10.000 Fragen und Antworten umfasst. Der Datensatz enthält die genauen Antworten sowie den genauen Speicherort in einer bestimmten Datei, um sie zu finden.

Nicht alle Antworten lassen sich direkt aus dem Text entnehmen und manche Fragen erfordern Berechnungen oder leichtes logisches Denken.

Der 150 Fragen umfassende Teiltest umfasste vier LLM-Modelle: GPT-4 und GPT-4-Turbo von OpenAI, Claude 2 von Anthropic und Llama 2 von Meta.

Als Ergebnis erreichte GPT-4-Turbo, als ihm Zugriff auf die zugrunde liegenden Unterlagen der SEC gewährt wurde, lediglich eine Genauigkeitsrate von 85 % (im Vergleich zu 88 % falschen Antworten, wenn ihm kein Zugriff auf die Daten gewährt wurde), obwohl ein Mensch mit der Maus auf den genauen Text zeigte, damit die KI die Antwort finden konnte.

Llama 2, ein von Meta entwickeltes Open-Source-KI-Modell, wies die höchste Zahl an „Halluzinationen“ auf: In 70 % der Fälle lag die Antwort falsch, in nur 19 % der Fälle richtig, obwohl das Modell Zugriff auf einen Teil der zugrunde liegenden Dokumente hatte.

Claude 2 von Anthropic funktioniert gut, wenn es in einen „ausführlichen Kontext“ gestellt wird und neben der Frage auch fast die gesamte relevante Einreichung bei der SEC enthalten ist. 75 % der gestellten Fragen konnten beantwortet werden, 21 % beantworteten sie falsch und bei 3 % verweigerten sie die Antwort. Auch bei langen Kontexten schnitt GPT-4-Turbo gut ab und beantwortete 79 % der Fragen richtig und 17 % falsch.

(Laut CNBC)

Wettlauf der großen Technologieunternehmen um Investitionen in KI-Startups

Wettlauf der großen Technologieunternehmen um Investitionen in KI-Startups

Das Aufkommen der KI-Technologie hat die Welt der Technik erschüttert, doch eines bleibt unverändert: Die großen Technologieunternehmen verfügen noch immer über die absolute Macht.
KI-Technologie revolutioniert E-Commerce-Startups

KI-Technologie revolutioniert E-Commerce-Startups

Im wettbewerbsintensiven E-Commerce-Bereich bietet KI Start-ups die Möglichkeit, Technologien zu nutzen, um ihre Kunden zu bedienen und Betriebsabläufe zu optimieren.
KI gelingt es erstmals, menschliche Gedanken in realistische Bilder umzusetzen

KI gelingt es erstmals, menschliche Gedanken in realistische Bilder umzusetzen

Mithilfe der Technologie der künstlichen Intelligenz (KI) können neue Entdeckungen in der Erforschung des menschlichen Denkens mit der Öffnung einer völlig neuen Welt in unserem Inneren verglichen werden.