기계 번역은 자연어 처리 분야에서 인공지능 기술을 가장 성공적으로 적용한 사례 중 하나입니다. Google Translate나 Microsoft의 Bing Translator와 같은 고품질 기계 번역 시스템은 모델을 훈련하기 위해 최대 수백만 개의 문장 쌍으로 구성된 대규모 이중 언어 데이터 세트가 필요합니다.
하지만 세계의 많은 언어들은 충분한 자원이 부족합니다. 따라서 동남아시아 지역을 포함하여 자원이 부족한 언어에 대한 효과적인 기계 번역 모델을 구축하는 것이 시급하고 어려운 일입니다.
최근, 정보기술연구소(베트남 과학기술 아카데미)는 현존하는 가장 진보된 기계번역 기술을 연구하고 습득했습니다. 이 부서는 또한 베트남어와 라오어, 크메르어, 태국어, 말레이시아어, 인도네시아어 등 지역 언어 간의 다국어 텍스트 번역 시스템을 성공적으로 구축했습니다.
개발자에 따르면, 라오어, 태국어, 크메르어와 같은 언어는 기계 번역 모델을 구축할 때 큰 어려움을 겪습니다. 이러한 어려움은 단순히 이중 언어 데이터가 부족하기 때문만은 아니며, 이러한 언어들이 형태학적으로 풍부하고, 단어 분할, 문장 분할 및 다의성이 부족하기 때문이기도 합니다.
정보기술원이 개발한 AI 모델은 위 언어들의 모든 특수한 특징에 "적응"하는 방법을 "학습"했습니다. 이를 통해 소프트웨어는 필요할 때 다른 언어를 빠르게 추가할 수 있으며, 고급 외국 제품과 동등한 번역 품질을 제공합니다.
특별한 점은 이 다국어 번역 소프트웨어가 별도로 실행되고, 데이터를 로컬에 저장하며, 다른 서비스 제공자의 API를 사용할 필요가 없다는 것입니다. 이를 통해 보안, 안전 및 정보 유출을 방지할 수 있습니다.
Google Translate나 Bing Translator와 같은 번역 시스템의 한 가지 문제는 도메인별 적응성 부족입니다. 즉, 대중에게 서비스되는 일반적이고 인기 있는 언어 도메인은 잘 번역할 수 있지만, 의학, 법률, 보안 등과 같은 특수 언어 도메인에서는 번역 품질이 좋지 않습니다.
정보기술원 연구팀은 위와 같은 단점을 극복하고자 베트남어 중심 번역 시스템을 개발하였으며, 자원이 부족한 언어도 좋은 품질로 양방향 번역이 가능합니다.
구체적으로 이 소프트웨어는 동일한 텍스트에 대해 Google Translate와 동일하거나 더 높은 품질을 제공합니다. 더불어 소프트웨어는 텍스트의 길이에 제한을 두지 않습니다.
2022~2023년 동안 시스템은 대규모 언어 모델(LLM) 기술을 배포하는 데 중점을 두고 다음 언어 쌍을 우선시합니다. 베트남어-크메르어, 베트남어-라오어, 베트남어-태국어, 베트남어-말레이어, 베트남어-인도네시아어.
영어(매우 풍부한 데이터 리소스이자 구글의 우선 강점)를 사용하여, 정보기술연구소의 소프트웨어는 구글 번역과 거의 동일한 품질을 보장합니다. 특히, 이 시스템은 파트너의 특정 요구 사항에 따라 의학, 법률 등의 전문 언어 영역에 맞게 세부적으로 조정할 수 있는 기능을 갖추고 있습니다.
이 시스템은 베트남에서 가장 강력한 인공지능/머신러닝(AI/ML) 슈퍼컴퓨팅 용량과 대용량 언어 데이터 저장을 지원하는 기술 인프라를 바탕으로 연구팀이 자체적으로 개발한 것입니다.
정보기술연구소는 관련 기술을 완벽하게 갖추고 있습니다. 따라서 이 단원은 베트남의 소수 민족 언어(종종 데이터 리소스가 매우 부족함)인 무옹어, 태국어 등과 같은 새로운 대상 언어와 중국어, 프랑스어와 같은 인기 있는 외국어로 쉽게 적용 범위를 확장할 수 있습니다. 러시아어...필요한 경우.
베트남에서 제작된 이 다국어 번역 소프트웨어는 소수 민족의 정보 접근 문제를 해결하는 해결책이 될 것으로 기대됩니다.
[광고2]
원천
Comment (0)