베트남어 언어 및 음성 처리(VLSP) 대회는 베트남 정보기술 협회의 지부인 VLSP 클럽이 주최하는 베트남어 언어 및 음성 처리 국제 학술 대회의 일부입니다. VLSP 2023은 주요 연구자, 전문가 및 기술 개발 부문을 한자리에 모아 음성 및 텍스트 처리에 대한 10개 대회를 개최합니다.

이번이 Viettel AI가 대회에 참여한 네 번째이자 이전에 세 번이나 우승했지만, Viettel 엔지니어들은 대회 카테고리 구조의 변화로 인해 여전히 많은 어려움에 직면했습니다.

구체적으로, 작년에 비해 올해는 음성 인식과 감정 인식 부문이 하나의 부문으로 통합되었습니다. 팀은 텍스트와 문장의 감정을 모두 인식할 수 있도록 두 가지 문제를 동시에 풀어야 했고, 이로 인해 작업 부하와 난이도가 두 배로 증가했습니다.

낮은 품질이든 높은 품질이든 모든 데이터를 활용하세요

올해의 시험은 카테고리 구조를 바꾸는 것뿐만 아니라, 원시 데이터, 레이블이 지정되지 않은 데이터, 낮은 품질의 데이터를 포함하여 제한된 데이터 조건을 사용하여 처음부터 모델을 구축하는 데 중점을 두고 있습니다. 이 테스트는 서로 다른 품질과 형식의 4개 그룹의 데이터를 제공합니다. 레이블이 지정되지 않은 오디오만 포함된 데이터 세트, 오디오와 텍스트만 포함된 데이터 세트, 감정과 오디오를 포함하고 품질이 좋고 레이블이 잘 지정된 데이터 세트, 그리고 감정과 오디오를 포함하고 품질이 낮은 데이터 세트가 있습니다. 각 데이터세트는 각 목적과 시험 범주에 맞게 명확하게 정의되어 있으며, 모든 데이터세트를 합친 총 시간은 300시간이 넘습니다. 이 수치는 일반적으로 1,000~2,000시간 이상이 필요한 음성 인식 훈련에 필요한 표준 데이터 세트와 비교하면 상당히 적은 숫자입니다.

각 팀이 작업하고 결과물을 제출할 때까지 2개월도 안 되는 시간이 주어졌지만, 실제로 해결책을 조사하는 데 소요된 시간은 리소스 부족으로 인해 훨씬 ​​짧았습니다.

"올해 Viettel AI는 새로운 기술과 제품 개발을 연구하는 데 많은 컴퓨팅 인프라 리소스를 투자했습니다. 음성 인식은 많은 하드웨어 리소스를 필요로 하는 기술입니다." Viettel AI의 가상 비서 플랫폼 인공지능 엔지니어인 Dang Dinh Son 씨가 말했습니다.

그림 1.jpg
인공지능 엔지니어링 그룹, 가상 비서 플랫폼 블록, Viettel AI 대표, 음성 인식 및 음성 감정 인식 부문 참여 - VLSP 2023

연구팀은 데이터 양과 질이 낮은 상황에 직면하여, "낮든 높든 모든 데이터를 활용해야 한다"는 관점을 바로 정했다. 이를 위해서는 모든 데이터를 처리하는 학습 주기를 구축해야 하며, 여러 모델 대신 다양한 문제를 해결하는 단 하나의 모델을 구축해야 합니다.

선구적인 기술 습득의 결과

데이터와 자원이 부족한 상황에서 연구팀은 규모가 크지는 않지만 중요하게도 가장 세부적인 사항까지 정교하게 처리되는 간단한 처리 프로세스를 구축하기로 결정했습니다.

Viettel AI 엔지니어는 전 세계의 주요 컨퍼런스와 저널에서 최신 연구 결과를 주의 깊게 연구하여 접근 방식을 찾습니다. 연구팀은 모델을 효과적으로 훈련하기 위해 데이터 처리 방법을 결합하여, 사용 가능한 모든 데이터를 처리하는 데 도움이 되는 훈련 주기를 구축했습니다. 이 사이클은 세 단계로 구성됩니다. 레이블 없이 음성을 특성화하기 위한 사전 학습 모델을 구축하고, 음성 인식과 감정 인식의 두 가지 작업을 위해 사전 학습 모델을 미세 조정하고, 추론합니다.

“이전 제품 개발 및 배포 과정에서 데이터 부족 문제를 해결한 경험도 팀이 의사 결정 방법을 찾는 데 큰 도움이 되었습니다. 반면, 테스트를 통해 얻은 지식과 결과는 Viettel AI 제품에 즉시 적용될 수 있는 잠재력도 있으므로 테스트를 치르면서 일하는 과정은 매우 유리합니다."라고 Viettel AI의 가상 비서 플랫폼 엔지니어인 Bui Tien Dat 씨가 말했습니다.

그 결과, Viettel AI는 음성 인식 및 음성 감정 인식 부문에서 1등을 차지했을 뿐만 아니라, 89.18%라는 인상적인 점수를 달성했습니다(다음 팀은 각각 83.40%와 78.45%).

손 씨는 핵심 요인은 Viettel AI가 오랫동안 개발한 베트남어 전용 음성 처리 모델에 있다고 말했습니다.

"Viettel AI는 사용 가능한 연구 결과의 모델과 지침을 사용하는 대신 베트남어 음성 처리를 위한 자체 모델을 구축하고 개발하기로 했습니다. 손 씨는 "이 모델은 지속적으로 업데이트되고 최적화되며 점점 더 효과적이 되고 있습니다."라고 말했습니다.

Viettel AI의 이 솔루션은 경쟁 프레임워크에만 그치지 않고 가상 교환 제품인 Viettel 가상 비서를 업그레이드하여 대화에서 고객의 감정을 보다 정확하게 파악하여 피드백을 제공하거나 적절한 뉘앙스를 선택하는 데 도움이 될 것입니다. 이렇게 하면 인간과 AI의 대화가 더 자연스러워지고 사용자 경험이 향상됩니다. 고객 불만 사항과 전화 상담 신청을 적시에 처리하거나 정보를 활용할 수 있는 자동 시스템을 구축하는 등 고객 관리 분야에서 많은 새로운 응용 분야가 개척되었습니다.

그림 2.jpg
Bui Tien Dat 씨는 Viettel AI의 가상 비서 플랫폼 엔지니어로서 팀을 대표하여 컨퍼런스에서 연구 결과를 발표했습니다.

해당 부서 대표는 Viettel AI가 앞으로도 기술을 개발하고, 정확성을 높이고, 사용자 경험과 제품 효율성을 개선하기 위해 제품을 끊임없이 업그레이드할 것이라고 밝혔습니다.

꾸옥 투안