Доктор Дао Дук Минь: «Освоение вьетнамских данных — первый шаг в развитии и освоении вьетнамских технологий»
Báo Thanh niên•27/05/2024
Поработав в крупной организации по искусственному интеллекту в США, почему вы решили вернуться домой и присоединиться к VinBigdata? За время работы в США, хотя я и принимал участие во многих крупных государственных проектах, достигнутые мной результаты зачастую представляли собой всего лишь несколько шагов в большой процедуре обработки. На самом деле, зачастую из-за очень строгих процедур конфиденциальности проектов я даже не знаю, как используются разработанные мной решения. В 2017 году я вернулся во Вьетнам, когда страна находилась на стадии развития и требовалось решить множество проблем, связанных с большими данными и искусственным интеллектом. Я принял приглашение профессора Ву Ха Вана для совместной реализации цели разработки вьетнамских технологических решений, которые будут служить жизни вьетнамского народа. Я считаю свое возвращение во Вьетнам гораздо более значимым, потому что смогу решать проблемы с большим эффектом.
Доктор Дао Дук Минь в мастерской
НВКК
Какую роль и влияние играют большие данные в стратегии развития искусственного интеллекта, сэр? Данные играют огромную и ценную роль в обучении искусственного интеллекта. Обучение высококачественной модели искусственного интеллекта обычно начинается с обучения большого набора данных. Поэтому для создания качественного искусственного интеллекта нам в первую очередь нужны качественные данные. Хорошие данные должны быть надлежащего качества с точки зрения количества и масштаба, качества, разнообразия и универсальности. Процесс сбора и обработки тысяч часов данных — от очистки необработанных данных до создания данных высочайшего качества для загрузки в модели искусственного интеллекта — дорогостоящий и сложный. Напротив, для анализа больших данных нам необходимо использовать искусственный интеллект, чтобы обеспечить возможность точной обработки данных в больших масштабах, тем самым создавая более обоснованные и прогнозируемые результаты. Например, в процессе разработки продукта виртуального помощника для вьетнамцев (ViVi) нам пришлось собрать и обработать десятки тысяч часов высококачественных аудиоданных от сотен тысяч голосов из разных регионов, разных возрастов и полов, с контентом, охватывающим сотни областей... Или совсем недавно, запуск ViGPT - «первой вьетнамской версии ChatGPT для конечных пользователей», разработанной на основе большой языковой модели, полностью принадлежащей VinBigdata. Эта модель обучена на 600 ГБ точно настроенных вьетнамских данных из различных доменов. Благодаря нашим знаниям вьетнамского языка и данным мы нашли новый подход к сокращению времени запуска ViGPT всего за 9 месяцев после появления ChatGPT. Это резонанс между большими данными и искусственным интеллектом.
Каково ваше мнение о связи исследований с практической ценностью на благо общества? - Я считаю, что технологические исследования по-настоящему успешны только тогда, когда они действительно воплощаются в жизнь, решают социальные проблемы и улучшают жизнь людей. Чтобы создавать практические коммерческие продукты, решающие деловые и социальные проблемы, мы всегда должны обращать внимание и задавать себе вопрос: какую ценность данные принесут в жизнь? К настоящему времени мы исследовали и разработали множество продуктов и решений для различных отраслей и областей, среди которых наиболее распространены ViGPT, VinDr — решения на основе искусственного интеллекта для медицинской визуализации, VinBase — платформа биологического искусственного интеллекта или Vizone — набор решений для интеллектуального анализа изображений.
С ключевыми сотрудниками VinBigdata на мероприятии корпорации Vingroup
НВКК
Четвертая промышленная революция активно развивается в глобальном масштабе. Какие преимущества, по вашему мнению, есть у Вьетнама? По сравнению с предыдущими революциями, я думаю, что у Вьетнама в настоящее время есть много преимуществ для прорыва в эту промышленную революцию 4.0, что поможет улучшить положение страны на карте мира. Два ключа к достижению этой цели — данные и люди. В настоящее время во Вьетнаме проживает около 100 миллионов человек, из которых значительная часть молодежи пользуется телефонами и персональными компьютерами. Кроме того, у нас есть авторитетные специалисты в области искусственного интеллекта и молодые, высококвалифицированные кадры в области информационных технологий, а также очень хорошая база в области математики. Так в чем же заключаются ограничения? Первым очевидным ограничением является то, что, несмотря на большую численность населения, мы по-прежнему испытываем трудности с управлением данными, в частности со стандартизацией и синхронизацией данных на объектах, в бизнес-подразделениях и администрациях. Кроме того, мы сталкиваемся и с другими ограничениями, такими как ограниченность инвестиционных ресурсов, особенно инвестиций в высокопроизводительную вычислительную инфраструктуру.
По вашему мнению, насколько важна роль вьетнамского владения данными в процессе создания и освоения технологий, которые будут служить жизни вьетнамского народа? В настоящее время в мире существует множество ведущих продуктов искусственного интеллекта, как правило, это приложения ИИ, которые генерируют данные на основе больших языковых моделей, таких как ChatGPT от OpenAI или Bard от Google. Однако вьетнамский язык не является основной языковой группой для разработки этих продуктов. Таким образом, качество контента на вьетнамском языке, возвращаемого пользователям, в той или иной степени страдает и имеет высокую вероятность ошибок, а что еще опаснее, ошибок в базовых знаниях. Будучи вьетнамцами, мы имеем преимущество в виде доступа к собственным источникам данных. Только мы способны понять особенности вьетнамских данных, потребности и особенности вьетнамского народа. Таким образом, овладение вьетнамскими данными на самом деле является ключом к овладению основными технологиями, которые будут служить вьетнамскому народу.
Внутреннее обучение для членов VinBigdata
НВКК
Как получить доступ к определенным источникам данных, особенно если учесть, что большинство вьетнамцев сегодня пользуются сайтами социальных сетей из-за рубежа? Дело в том, что сегодня крупнейшим источником данных о людях (не только о вьетнамцах) является Интернет и социальные сети. Тем не менее, мы по-прежнему можем получать доступ к данным и собирать их из разных источников, основываясь на понимании характеристик вьетнамских данных, в зависимости от характеристик, установленных каждым проектом. Например, модели GPT компании OpenAI имеют сотни или даже триллионы параметров, обучаются на огромных объемах данных и стоят миллиарды долларов. По сравнению с ними мы выбрали совершенно иное направление, основанное на наших исследованиях, возможностях и ресурсах: а именно, создание модели вьетнамского языка с архитектурой всего из нескольких миллиардов параметров, обученной на наборе вьетнамских данных объемом 600 ГБ, который мы собрали и уточнили самостоятельно, но с эквивалентными возможностями с точки зрения способности обработки вьетнамского языка. Результаты показывают, что наша самостоятельно разработанная архитектура способна самооптимизироваться, сокращать время обучения языковой модели, снижать затраты, сохраняя при этом качество модели. С какими трудностями вы и ваша команда столкнулись в процессе исследования и разработки продуктов искусственного интеллекта? Первая проблема — это, конечно, время. Волна технологий искусственного интеллекта наступает очень быстро и находится в периоде бума. Ведущие технологические компании по всему миру быстро выпустили на рынок высококомплексные продукты, которые постоянно обновляются и совершенствуются. Если мы будем действовать медленно и не поставим продукцию вовремя, мы обязательно отстанем. С другой стороны, если мы хотим создавать продукты, которые можно применять и решать практические социальные проблемы, мы должны также рассмотреть возможность поиска и разработки выдающихся, особых и уникальных характеристик продукта.
Презентация на Дне искусственного интеллекта во Вьетнаме (AI4VN 2023)
НВКК
Фактически, многие люди и организации во Вьетнаме и по всему миру понесли большие потери из-за утечки данных. Как вы оцениваете проблемы безопасности данных? Можно сказать, что сегодня любое приложение исходит из данных. При работе с данными, с одной стороны, мы должны обеспечить цель применения данных для создания лучших технологий для жизни, а с другой стороны, мы должны обеспечить безопасность данных для отдельных лиц и организаций. Человеческий фактор является очень важным звеном в процессе обеспечения безопасности данных. К ним относятся разработчики, пользователи продукта и просто пользователи. Разработчикам необходимо осознавать важность безопасности данных с самого начала сбора и обработки данных. Часто, когда ничего не происходит, мы не осознаем важности безопасности данных. Однако если утечка данных все же произойдет, ущерб может быть огромным. Утечки данных могут произойти из-за технических проблем или преднамеренных атак с целью кражи данных. В случае утечки данных информация отдельных лиц или организаций может быть использована злоумышленниками в незаконных целях, в то время как предприятия могут понести финансовые потери из-за необходимости устранения связанных с этим проблем и даже нанести ущерб своему бренду.
Доктор Дао Дук Минь и команда VinBigdata на мероприятии
НВКК
После стремления освоить технологии для служения вьетнамскому народу будут ли предприняты шаги для продвижения в мир? Любая организация или предприятие, желающие вывести свою продукцию на международный рынок, должны соответствовать международным стандартам. У VinBigdata есть сильные стороны в решениях и технологиях, поэтому постановка цели покорить мир вполне естественна. Конечно, для развертывания множества различных продуктов и приложений необходима поддержка международных подразделений с многолетним опытом и пониманием пользователей по всему миру. Спасибо!
Комментарий (0)