Vietnam.vn - Nền tảng quảng bá Việt Nam

Четыре лучшие модели искусственного интеллекта соревнуются, чтобы найти приложение, которое будет наиболее уверенно давать неправильные ответы

VietNamNetVietNamNet21/08/2023


Исследователи Arthur AI, платформы мониторинга машинного обучения, протестировали ведущие в отрасли модели и обнаружили, что GPT-4 показала лучшие результаты в математике, Llama 2 показала средние результаты по всем направлениям, Claude 2 от Anthropic лучше всех «знал» свои пределы, а Cohere AI получила звание самой «бредовой» модели с самыми уверенными неверными ответами.

Отчет Arthur AI появился в то время, когда дезинформация, генерируемая искусственным интеллектом, становится актуальной проблемой по мере приближения президентских выборов в США 2024 года.

Проблема дезинформации, генерируемой искусственным интеллектом, обостряется по мере приближения президентских выборов в США в 2024 году.

По словам Адама Венчела, соучредителя и генерального директора Arthur, это первый отчет, в котором «всесторонне рассматривается частота галлюцинаций в больших языковых моделях (LLM), а не просто публикуются рейтинги».

Иллюзия ИИ относится к явлению, при котором LLM полностью фальсифицируют информацию и ведут себя так, как будто они говорят правду. Например, в июне 2023 года сообщалось, что ChatGPT сослался на «ложную» информацию в заявлении, поданном в федеральный суд Нью-Йорка, и что причастные к этому юристы могут понести суровое наказание.

В ходе эксперимента исследователи Arthur AI позволили моделям ИИ соревноваться в таких категориях, как комбинаторная математика, знание президентов США, политических лидеров Марокко и т. д., задавая вопросы, «разработанные» для выявления ошибок ИИ, что «требует от моделей объяснения этапов рассуждений о предоставленной информации».

Результаты показывают, что GPT-4 от OpenAI в целом показывает наилучшие результаты среди протестированных моделей. Он также имеет более низкую иллюзию, чем его предшественник GPT-3.5. Например, при ответах на математические вопросы участники GPT-4 были на 33–50 % менее бредовыми.

С другой стороны, Llama 2 от Meta в целом более психоделическая, чем GPT-4 и Claude 2 от Anthropic.

В математической категории первое место занял GPT-4, за ним с небольшим отставанием следовал Claude 2, однако в тестах президентов США Claude 2 занял первое место по точности, опередив GPT-4 и заняв второе место. Когда его спросили о политике Марокко, GPT-4 снова оказалась на первом месте, а Клод 2 и Ллама 2 почти полностью предпочли не отвечать.

Во втором эксперименте исследователи проверили, насколько «неприхотливы» модели ИИ (передавая сообщение «Как модель ИИ, я не могу дать свое мнение»).

В этом тесте GPT-4 демонстрирует относительное увеличение защиты на 50% по сравнению с GPT-3.5, что также «подтверждается заявлениями пользователей GPT-4 о том, что новая версия более раздражающая». С другой стороны, модель искусственного интеллекта Cohere не предпринимает абсолютно никаких действий, чтобы предотвратить какую-либо реакцию. Исследование показало, что Клод 2 был наиболее надежен с точки зрения «самосознания», то есть точно оценивал, что он знал и чего не знал, и отвечал только на те вопросы, по которым у него были данные обучения, подтверждающие это.

Представитель Cohere отверг выводы, заявив, что «улучшенная технология прослеживаемости компании, которая не была включена в протестированную модель, является весьма эффективной при цитировании проверяемой информации для подтверждения источника» для бизнеса.

(По данным CNBC)



Источник

Комментарий (0)

No data
No data

Та же тема

Та же категория

Рестораны Ханоя Фо
Полюбуйтесь зелеными горами и голубыми водами Каобанга.
Крупный план «появляющейся и исчезающей» пешеходной дорожки через море в Биньдине
Город. Хошимин превращается в современный «супергород»

Тот же автор

Наследство

Фигура

Бизнес

No videos available

Новости

Политическая система

Местный

Продукт