Исследователи искусственного интеллекта в Microsoft случайно слили 38 ТБ данных

По данным The Hacker News , Wiz Research — стартап, занимающийся облачной безопасностью — недавно обнаружил утечку данных в репозитории Microsoft AI GitHub, которая, как сообщается, была случайно раскрыта при публикации группы обучающих данных с открытым исходным кодом.

Утечка данных включает резервную копию рабочих станций двух бывших сотрудников Microsoft с секретными ключами, паролями и более 30 000 внутренних сообщений приложения Teams.

Репозиторий с именем «robust-models-transfer» теперь недоступен. До закрытия репозитория в нем содержался исходный код и модели машинного обучения, относящиеся к исследовательской работе 2020 года.

Wiz сообщил, что утечка данных произошла из-за уязвимости токенов SAS — функции Azure, которая позволяет пользователям обмениваться данными, которые трудно отследить и отозвать. О проблеме было сообщено в Microsoft 22.06.2023.

Соответственно, файл README.md репозитория предписывал разработчикам загружать модели с URL-адреса хранилища Azure, непреднамеренно предоставляя доступ ко всей учетной записи хранилища и тем самым раскрывая дополнительные конфиденциальные данные.

Исследователи Wiz заявили, что помимо чрезмерно широкого диапазона доступа токен SAS также был неправильно настроен, что позволяло осуществлять полный контроль вместо простого чтения. В случае эксплуатации хакер может не только просмотреть, но и удалить и перезаписать все файлы в учетной записи хранилища.

В ответ на отчет компания Microsoft заявила, что расследование не выявило никаких доказательств раскрытия данных клиентов, а также что никакие другие внутренние службы не подверглись риску из-за инцидента. Группа подчеркнула, что клиентам не нужно предпринимать никаких действий, заявив, что она отозвала токены SAS и заблокировала весь внешний доступ к учетным записям хранения.

Чтобы снизить подобные риски, Microsoft расширила возможности своей секретной службы сканирования на предмет любых токенов SAS, которые могут иметь ограниченные или чрезмерные привилегии. Компания также выявила ошибку в системе сканирования, которая помечала URL-адреса SAS в репозитории как имеющие неверные результаты.

Исследователи предполагают, что из-за отсутствия безопасности и управления токенами учетных записей SAS мерой предосторожности будет избегать их использования для внешнего обмена. Ошибки генерации токенов можно легко не заметить и раскрыть конфиденциальные данные.

Ранее, в июле 2022 года, JUMPSEC Labs раскрыла угрозу, которая может использовать эти учетные записи для получения доступа к компаниям.

Các nhà nghiên cứu AI tại Microsoft vô tình lộ 38TB dữ liệu - Ảnh 1. — Wiz Research обнаружила в резервной копии конфиденциальные файлы

Это последняя уязвимость системы безопасности Microsoft. Две недели назад компания сообщила, что хакеры из Китая взломали систему и похитили высокозащищенные ключи. Хакеры взломали учетную запись инженера этой корпорации и получили доступ к хранилищу цифровых подписей пользователя.

Последний инцидент демонстрирует потенциальные риски внедрения ИИ в крупные системы, сказал Эми Люттвак, технический директор Wiz. Технический директор компании Wiz заявил, что ИИ открывает огромный потенциал для технологических компаний. Однако, поскольку специалисты по обработке данных и инженеры стремятся внедрить новые решения в области искусственного интеллекта, огромные объемы данных, которые они обрабатывают, требуют дополнительных мер безопасности и проверок.

Поскольку многим командам разработчиков приходится работать с огромными объемами данных, делиться этими данными с коллегами или сотрудничать в рамках публичных проектов с открытым исходным кодом, отслеживать и предотвращать такие инциденты, как в случае с Microsoft, становится все сложнее.

Ссылка на источник