Фатальная слабость ИИ

ИИ пока не может заменить человека в области программирования. Фото: Джон Макгуайр .

В последнее время ведущие модели искусственного интеллекта от OpenAI и Anthropic все шире используются для программирования приложений. ChatGPT и Claude увеличили объем памяти и вычислительную мощность, чтобы иметь возможность анализировать сотни строк кода, а Gemini интегрировал отображение результатов Canvas специально для программистов.

В октябре 2024 года генеральный директор Google Сундар Пичаи заявил, что 25% нового кода в компании генерируется с помощью ИИ. Генеральный директор Meta Марк Цукерберг также выразил намерение широко внедрить модели кодирования ИИ в корпорации.

Однако новое исследование Microsoft Research, научно-исследовательского подразделения Microsoft, показывает, что модели искусственного интеллекта, включая Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, не справились со многими ошибками в тесте производительности программирования под названием SWE-bench Lite.

Авторы исследования протестировали девять различных моделей ИИ, которые были интегрированы с различными инструментами отладки, такими как отладчик Python, и смогли решить проблему одним оператором. Модели должны были решить 300 ошибок программного обеспечения, выбранных из набора данных SWE-bench Lite.

Процент успешности решения задач программирования из набора данных SWE-bench Lite. Фото: Microsoft.

Результаты показывают, что даже при использовании более новых и мощных моделей агенты ИИ редко успешно выполняют более половины поставленных задач по отладке. Среди протестированных моделей Claude 3.7 Sonnet показала самый высокий средний показатель успешности — 48,4%, за ней следует o1 от OpenAI — 30,2% и o3-mini — 22,1%.

Одной из причин такой низкой производительности является то, что некоторые модели не понимают, как применять предоставленные инструменты отладки. Более того, по мнению авторов, более серьезная проблема заключается в недостаточности данных.

Они утверждают, что система обучения моделей по-прежнему не располагает данными, которые имитировали бы этапы отладки, выполняемые человеком от начала до конца. Другими словами, ИИ недостаточно изучил, как люди думают и действуют шаг за шагом, сталкиваясь с реальной ошибкой программного обеспечения.

Обучение и тонкая настройка моделей позволят им эффективнее отлаживать программное обеспечение. «Однако для этого потребуются специализированные наборы данных для обучения», — отмечают авторы.

Во многих исследованиях были выявлены уязвимости безопасности и ошибки в ИИ во время генерации кода, вызванные такими недостатками, как ограниченная способность понимать логику программирования. Недавний обзор Devin, инструмента программирования искусственного интеллекта, показал, что он выполнил только 3 из 20 тестов программирования.

Возможность программирования ИИ остается спорной. Ранее Кевин Вайль, директор по продуктам OpenAI, заявил, что к концу этого года ИИ превзойдет программистов-людей.

С другой стороны, Билл Гейтс, соучредитель Microsoft, считает, что программирование по-прежнему останется стабильной карьерой в будущем. Другие лидеры, такие как Амджад Масад (генеральный директор Replit), Тодд Маккиннон (генеральный директор Okta) и Арвинд Кришна (генеральный директор IBM), также высказались в поддержку этой точки зрения.

Исследование Microsoft, хотя и не является новым, также является напоминанием программистам, включая менеджеров, о необходимости более тщательно подумать, прежде чем предоставить полный контроль над кодированием ИИ.

Источник: https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html