Соответственно, даже самая эффективная конфигурация модели искусственного интеллекта, которую они протестировали, GPT-4-Turbo от OpenAI, по-прежнему достигала лишь 79% правильных ответов, несмотря на прочтение всего профиля и частое возникновение «галлюцинаций» нереальных цифр или событий.

«Такое соотношение производительности совершенно неприемлемо», — заявил Ананд Каннаппан, соучредитель Patronus AI. «Чтобы автоматизировать процесс и подготовить его к производству, процент правильных ответов должен быть намного выше».

Результаты исследования подчеркивают некоторые проблемы, с которыми сталкиваются модели ИИ, поскольку крупные компании, особенно в таких строго регулируемых отраслях, как финансы, стремятся внедрить передовые технологии в свою деятельность, будь то обслуживание клиентов или исследования.

«Иллюзия» финансовых данных

Возможность быстрого извлечения ключевых цифр и проведения анализа финансовой отчетности рассматривалась как одно из самых перспективных применений чат-ботов с момента выхода ChatGPT в конце прошлого года.

Документы SEC содержат важные данные, и если бот сможет точно обобщить их содержание или быстро ответить на вопросы об этом, это может дать пользователям преимущество в конкурентной финансовой отрасли.

llm изображение 100941414 большое.jpg
ИИ испытывает трудности именно на этапе агрегации данных — в этой задаче он должен больше всего помочь людям.

За последний год компания Bloomberg LP разработала собственную модель искусственного интеллекта для финансовых данных, а профессора бизнес-школ изучали, может ли ChatGPT анализировать финансовые заголовки.

Тем временем JPMorgan также разрабатывает автоматизированный инвестиционный инструмент на базе искусственного интеллекта. Согласно недавнему прогнозу McKinsey, генеративный ИИ может стимулировать банковскую отрасль на триллионы долларов в год.

Однако этот путь еще довольно далек. Когда Microsoft впервые запустила Bing Chat с интеграцией GPT OpenAI, они использовали чат-бота для быстрого обобщения пресс-релизов о доходах. Наблюдатели быстро поняли, что цифры, которые выдавал ИИ, были искажены или даже сфальсифицированы.

Те же данные, разные ответы

Частью проблемы внедрения LLM в реальные продукты является то, что алгоритмы недетерминированы, то есть они не гарантируют возврата одинакового результата при идентичных входных данных. Это означает, что компаниям необходимо проводить более тщательное тестирование, чтобы убедиться, что ИИ работает точно, не отклоняется от темы и предоставляет надежные результаты.

Patronus AI создал набор из более чем 10 000 вопросов и ответов, взятых из документов, поданных в SEC крупными публичными компаниями, под названием FinanceBench. Набор данных включает в себя точные ответы, а также точное местоположение в любом файле, где их можно найти.

Не все ответы можно взять непосредственно из текста, а некоторые вопросы требуют расчетов или легкого рассуждения.

В тесте из 150 вопросов использовались четыре модели LLM: GPT-4 и GPT-4-Turbo от OpenAI, Claude 2 от Anthropic и Llama 2 от Meta.

В результате GPT-4-Turbo, получив доступ к основным документам SEC, достигла точности только 85% (по сравнению с 88% неправильных ответов без доступа к данным), даже несмотря на то, что человек указал мышкой на точный текст, чтобы ИИ нашел ответ.

Llama 2, модель искусственного интеллекта с открытым исходным кодом, разработанная Meta, продемонстрировала наибольшее количество «галлюцинаций», давая неверный ответ в 70% случаев и правильный — только в 19% случаев, когда ей предоставлялся доступ к части базовых документов.

Claude 2 от Anthropic хорошо работает, когда предоставляется «расширенный контекст», когда вместе с вопросом приводится почти вся соответствующая документация SEC. Он может ответить на 75% заданных вопросов, ошибается на 21% и отказывается отвечать на 3%. GPT-4-Turbo также хорошо показал себя при работе с длинными контекстами, ответив правильно на 79% вопросов и неправильно на 17% вопросов.

(По данным CNBC)

Крупные технологические компании стремятся инвестировать в стартапы в сфере искусственного интеллекта

Крупные технологические компании стремятся инвестировать в стартапы в сфере искусственного интеллекта

Появление технологий искусственного интеллекта потрясло мир технологий, но одно осталось неизменным — технологические гиганты по-прежнему обладают абсолютной властью.
Технология искусственного интеллекта производит революцию в стартапах электронной коммерции

Технология искусственного интеллекта производит революцию в стартапах электронной коммерции

В конкурентной среде электронной коммерции ИИ дает стартапам возможность использовать технологии для обслуживания клиентов и оптимизации операций.
Искусственный интеллект впервые успешно превращает человеческие мысли в реалистичные изображения

Искусственный интеллект впервые успешно превращает человеческие мысли в реалистичные изображения

Благодаря технологиям искусственного интеллекта (ИИ) новые открытия в исследовании человеческого мышления можно сравнить с открытием совершенно нового мира внутри нас.