'베트남 데이터 습득은 베트남 기술 개발 및 습득의 첫 걸음'

Báo Thanh niênBáo Thanh niên27/05/2024

[광고1]
TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 1.

미국의 대형 인공지능 기업에서 근무하셨는데, 왜 한국으로 돌아와 VinBigdata에 합류하기로 결정하셨나요?

제가 미국에서 일할 당시, 대규모 정부 프로젝트에 많이 참여했지만 제가 달성한 결과는 대개 대규모 처리 절차의 몇 단계에 불과했습니다. 사실, 프로젝트의 매우 엄격한 비밀 유지 절차 때문에 제가 개발한 솔루션이 어떻게 사용되는지 전혀 알 수 없는 경우도 많습니다.

2017년에 제가 베트남으로 돌아왔을 때 그 나라는 개발 단계에 있었고, 빅데이터와 인공지능에 대한 많은 문제를 해결해야 했습니다. 저는 베트남 국민의 삶에 도움이 되는 베트남 기술 솔루션을 개발한다는 목표를 공동으로 실현하기 위해 부하반 교수님의 초대를 수락했습니다. 저는 베트남으로 돌아가는 것이 훨씬 더 의미 있다고 생각합니다. 더 큰 영향을 미치는 문제들을 해결할 수 있을 테니까요.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 2.

워크숍에 참석한 Dao Duc Minh 박사

인공지능을 개발하는 전략에 있어서 빅데이터는 어떤 역할과 영향을 미칩니까?

데이터는 인공지능을 훈련하는 데 있어서 매우 중요하고 귀중한 역할을 합니다. 고품질 인공지능 모델을 훈련하는 것은 일반적으로 대규모 데이터 세트를 훈련하는 것으로 시작됩니다. 따라서 양질의 인공지능을 갖추려면 먼저 좋은 데이터가 필요합니다.

좋은 데이터는 양과 규모, 품질, 다양성, 보편성 측면에서 적절한 품질을 가져야 합니다. 원시 데이터 정리부터 인공 지능 모델에 입력할 최고 품질의 데이터 생성까지 수천 시간에 달하는 데이터를 수집하고 처리하는 과정은 비용이 많이 들고 복잡합니다. 반면, 빅데이터를 분석하려면 인공지능을 이용해 대규모의 데이터를 정확하게 처리할 수 있는 능력을 확보하고, 이를 통해 더 나은 결정적 결과나 예측적 결과를 도출해야 합니다.

예를 들어, 베트남 사람들을 위한 가상 비서 제품(ViVi)을 개발하는 과정에서 우리는 수백 개 분야에 걸쳐 다양한 지역, 연령대, 성별의 수십만 개 목소리에서 수만 시간 분량의 고품질 오디오 데이터를 수집하고 처리해야 했습니다.

또는 가장 최근에는 VinBigdata가 완전히 소유한 대규모 언어 모델을 기반으로 개발된 "최종 사용자를 위한 ChatGPT의 첫 번째 베트남어 버전"인 ViGPT가 출시되었습니다. 이 모델은 다양한 도메인의 600GB에 달하는 미세 조정된 베트남 데이터를 기반으로 훈련되었습니다. 우리는 베트남어와 데이터에 대한 지식을 바탕으로 ChatGPT가 탄생한 후 불과 9개월 만에 ViGPT의 출시 기간을 단축하는 새로운 접근 방식을 발견했습니다.

이는 빅데이터와 인공지능의 공명입니다.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 3.
TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 4.

연구를 실질적 가치와 연결해 지역 사회에 봉사하는 것에 대한 당신의 견해는 무엇입니까?

- 저는 기술 연구가 실제로 삶에 적용되어 사회 문제를 해결하고 사람들의 삶을 개선할 때에만 진정한 성공을 거둘 수 있다고 믿습니다.

비즈니스 및 사회 문제를 해결하는 실용적인 상업 제품을 만들려면 항상 주의를 기울이고 '데이터가 삶에 어떤 가치를 가져다 줄 것인가?'라는 질문을 던져야 합니다.

지금까지 우리는 다양한 산업과 분야를 위한 다양한 제품과 솔루션을 연구하고 개발해 왔습니다. 대표적인 제품으로는 ViGPT, 의료 영상 진단에 AI 솔루션을 제공하는 VinDr, 바이오 인공 지능 플랫폼인 VinBase, 스마트 이미지 분석 솔루션 세트인 Vizone이 있습니다.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 5.

Vingroup Corporation 행사에 VinBigdata의 핵심 인력과 함께

제4차 산업혁명이 전 세계적으로 강력하게 일어나고 있습니다. 베트남에는 어떤 장점이 있다고 생각하시나요?

저는 베트남이 이전 혁명에 비해 현재 4차 산업 혁명에서 돌파구를 찾을 수 있는 많은 이점을 가지고 있다고 생각하며, 이를 통해 베트남이 세계 지도에서 차지하는 위치를 개선하는 데 도움이 될 것이라고 생각합니다. 이 목표를 달성하기 위한 두 가지 핵심은 데이터와 사람입니다.

베트남은 현재 거의 1억 명의 인구를 가지고 있으며, 그 중 많은 젊은 사람들이 휴대폰과 개인용 컴퓨터를 사용합니다. 또한 우리 회사는 인공지능 분야의 명성 있는 전문가들과 정보기술 분야의 젊고 유능한 인력을 보유하고 있으며, 수학에 대한 매우 훌륭한 기초를 갖추고 있습니다.

그렇다면 한계는 무엇일까요?

첫 번째 분명한 한계는 인구가 많음에도 불구하고 여전히 데이터를 마스터링하는 데 어려움을 겪고 있다는 것입니다. 특히 시설, 사업부 및 행정부에서 데이터를 표준화하고 동기화하는 데 어려움을 겪고 있습니다.

게다가 우리는 제한된 투자 자원, 특히 고성능 컴퓨팅 인프라에 대한 투자 등 다른 제약에도 직면해 있습니다.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 6.

베트남 국민의 삶에 도움이 되는 기술을 창출하고 습득하는 과정에서 베트남의 데이터 습득이 얼마나 중요한 역할을 한다고 생각하십니까?

현재 세계에는 선도적인 인공지능 제품이 많이 있으며, 대표적인 AI 애플리케이션 제품으로는 OpenAI의 ChatGPT나 Google의 Bard가 있습니다. 하지만 베트남어는 이들 제품 개발에 사용된 주요 언어그룹이 아니다.

따라서 사용자에게 제공되는 베트남어 관련 콘텐츠의 품질이 다소 영향을 받으며, 오류가 발생할 가능성이 높고, 더 위험한 것은 기본 지식에 오류가 있을 가능성이 높습니다.

베트남인인 우리는 자체 데이터 소스에 접근할 수 있는 이점이 있습니다. 베트남 데이터의 특성, 베트남 국민의 요구와 특성을 이해할 수 있는 능력은 우리만이 가지고 있습니다. 따라서 베트남 데이터를 숙지하는 것은 핵심 기술, 즉 베트남 국민에게 도움이 되는 기술을 숙지하는 데 매우 중요합니다.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 7.

VinBigdata 회원을 위한 내부 교육

오늘날 대부분의 베트남 사람들이 해외의 소셜 네트워크 사이트를 사용하고 있는데, 특정 데이터 소스에 접근하는 방법은 무엇일까요?

사실 오늘날 가장 큰 인적 데이터의 원천(베트남 사람들뿐만 아니라)은 인터넷과 소셜 네트워크에 있습니다. 그러나 우리는 각 프로젝트에서 설정한 특성에 따라 베트남 데이터의 특성을 이해하고 이를 바탕으로 다양한 출처에서 데이터에 접근하여 수집할 수 있습니다.

예를 들어, OpenAI의 GPT 모델은 수백 개 또는 수조 개의 매개변수를 가지고 있으며, 엄청난 양의 데이터로 학습되었으며, 비용이 수십억 달러에 달합니다. 이와 비교해서 우리는 연구, 역량, 리소스에 기반하여 완전히 다른 방향을 선택했습니다. 즉, 우리가 직접 수집하고 개선한 600GB의 베트남어 데이터 세트를 기반으로 학습한 몇십억 개의 매개변수로 구성된 아키텍처의 베트남어 모델을 만든 것입니다. 그러나 베트남어 처리 능력 면에서는 동등한 역량을 가집니다. 결과는 우리가 자체적으로 개발한 아키텍처가 모델 품질을 보장하면서도 자체 최적화하고, 언어 모델 훈련 시간을 단축하고, 비용을 절감할 수 있음을 보여줍니다.

당신과 당신의 팀은 인공지능 제품을 연구하고 개발하는 과정에서 어떤 어려움을 겪었나요?

첫 번째 과제는 바로 시간입니다. 인공지능 기술의 흐름은 매우 빠르게 다가오고 있으며, 붐을 이루고 있습니다. 전 세계적으로 선도적인 기술 기업들은 지속적으로 업데이트되고 개선되는 매우 완벽한 제품을 빠르게 출시했습니다. 만약 우리가 느리고 제 시간에 제품을 배송하지 못한다면, 우리는 확실히 뒤처지게 될 것입니다.

반면, 실제 사회 문제에 적용 및 해결할 수 있는 제품을 만들고 싶다면, 제품의 뛰어나고 특별하고 고유한 특징을 찾아 개발하는 것도 고려해야 합니다.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 8.

베트남 인공지능의 날(AI4VN 2023) 프레젠테이션

실제로 베트남과 전 세계의 많은 개인과 조직이 데이터 유출로 인해 큰 손실을 입었습니다. 데이터 보안 문제를 어떻게 보시나요?

오늘날 모든 응용 프로그램은 데이터로부터 시작된다고 할 수 있다. 한편으로는 데이터를 사용하여 삶에 가장 적합한 기술을 창출하는 목표를 보장해야 하며, 다른 한편으로는 개인과 조직의 데이터 보안을 보장해야 합니다.

데이터 보안 프로세스에 있어서 인적 요소는 매우 중요한 요소입니다. 여기에는 개발자, 제품 사용자, 사용자가 포함됩니다. 개발자의 경우, 데이터 수집 및 처리의 초기 단계부터 데이터 보안에 대한 인식이 필요합니다.

아무 일도 일어나지 않을 때 우리는 데이터 보안의 중요성을 인식하지 못하는 경우가 많습니다. 하지만 데이터 침해가 발생하면 피해는 엄청날 수 있습니다. 데이터 침해는 기술적 문제나 의도적인 데이터 도용 공격으로 인해 발생할 수 있습니다. 데이터가 유출되면 개인이나 조직의 정보가 악의적인 사람들에게 불법적인 목적으로 사용될 수 있으며, 기업은 관련 문제를 해결하기 위해 재정적 손실을 입거나 심지어 브랜드 가치가 손상될 수도 있습니다.

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 9.

행사에 참석한 Dao Duc Minh 박사와 VinBigdata 팀

베트남 국민을 위해 기술을 습득하고자 하는 열망을 갖고 있다면, 세계로 진출하기 위한 조치가 있을까요?

해외 시장에 제품을 출시하려는 조직이나 기업은 국제 표준을 준수해야 합니다. VinBigdata는 솔루션과 기술에 강점이 있기 때문에 세계를 정복하겠다는 비전을 세우는 것은 당연한 일입니다.

물론, 다양한 제품과 애플리케이션에 배포하려면 전 세계 사용자에 대한 수년간의 경험과 이해가 있는 국제적 조직의 지원이 필요합니다.

감사합니다!


[광고2]
출처: https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm

댓글 (0)

No data
No data

같은 태그

같은 카테고리

인도네시아는 토람 사무총장과 그의 부인을 환영하기 위해 대포 7발을 발사했습니다.
하노이 거리에 공안부가 전시한 최첨단 장비와 장갑차를 감상해보세요.
“터널: 어둠 속의 태양”: 국가 자금 없이 제작된 최초의 혁명 영화
호치민시에서는 지하철 1호선 개통 당일, 수천 명의 사람들이 지하철을 타기 위해 기다리고 있습니다.

같은 저자

유산

수치

사업

No videos available

소식

사역 - 지부

현지의

제품