OpenAI는 ChatGPT-4가 어떻게 훈련되었는지에 대해 많은 것을 공개하지 않았습니다. 그러나 일반적으로 대규모 언어 모델(LLM)은 영어가 공용어인 인터넷에서 검색한 텍스트를 기반으로 훈련됩니다. ChatGPT-3의 훈련 데이터의 약 93%는 영어입니다.

AI 모델이 훈련된 데이터 세트 중 하나인 Common Crawl에서 영어는 전체 코퍼스의 47%를 차지하고, 다른 유럽 언어는 38%를 차지합니다. 반면, 중국과 일본을 합치면 9%에 불과합니다.

스크린샷 2024 01 31 at 151709.png
LLM 교육에 사용되는 대부분의 데이터는 영어나 다른 유럽 언어로 되어 있습니다.

존스홉킨스 대학의 연구자인 나다니엘 로빈슨과 그의 동료들이 실시한 검토에 따르면, 이 문제는 ChatGPT에만 국한된 것이 아니라는 것을 발견했습니다. 모든 LLM은 학습 데이터가 풍부한 "리소스가 많은" 언어에서 학습 데이터가 부족한 "리소스가 적은" 언어보다 더 나은 성과를 보입니다.

이는 교육, 의료 등의 분야를 개선하기 위해 AI를 가난한 나라에 도입하고자 하는 사람들에게는 문제가 됩니다. 따라서 전 세계 연구자들은 AI를 보다 다국어화하기 위해 노력하고 있습니다.

작년 9월, 인도 정부는 농부들이 정부로부터 유용한 정보를 계속 받아볼 수 있도록 돕는 챗봇을 출시했습니다.

챗봇을 만드는 데 도움을 준 비영리 단체인 엑스텝 재단의 샨카르 마루와다는 챗봇이 두 가지 유형의 언어 모델을 결합하여 작동하며, 사용자는 모국어로 질문을 제출할 수 있다고 말했습니다. 이러한 모국어 질의는 인도 연구 시설의 기계 번역 소프트웨어로 전달되고, 이 소프트웨어는 질의를 영어로 번역한 후 LLM으로 전달하여 응답을 처리합니다. 마지막으로, 응답은 사용자의 모국어로 다시 번역됩니다.

이 프로세스는 효과적일 수 있지만, 쿼리를 LLM의 "선호" 언어로 번역하는 것은 어색한 해결책입니다. 언어는 문화와 세계관을 반영하는 수단이다. 시드니 대학의 연구원인 레베카 존슨이 2022년에 발표한 논문에 따르면, ChatGPT-3는 총기 규제와 난민 정책과 같은 주제에 대한 답변을 생성했는데, 이러한 답변은 세계 가치 조사에서 표현된 미국적 가치와 비슷한 수준이었습니다.

그래서 많은 연구자들은 LLM이 덜 쓰이는 언어에 대해서도 유창해지도록 만들려고 노력하고 있습니다. 기술적으로 한 가지 접근 방식은 언어의 토큰화를 수정하는 것입니다. Sarvam AI라는 인도 스타트업은 데바나가리(인도어) 언어에 최적화된 힌디어 최적화 토크나이저 또는 OpenHathi-LLM 모델을 작성했는데, 이를 통해 질문에 대한 답변 비용을 크게 줄일 수 있습니다.

또 다른 방법은 LLM이 훈련되는 데이터 세트를 개선하는 것입니다. 11월, 아부다비의 모하메드 빈 자이드 대학의 연구진은 "자이스(Jais)"라는 아랍어 모델의 최신 버전을 출시했습니다. ChatGPT-3에 비해 매개변수 수가 1/6에 불과하지만 아랍어의 경우 비슷한 성능을 보입니다.

모하메드 빈 자이드 대학 총장인 티머시 볼드윈은 그의 팀이 많은 아랍어 텍스트를 디지털화했지만, 그 모델에는 여전히 일부 영어 텍스트가 포함되어 있다고 언급했습니다. 어떤 개념은 모든 언어에서 동일하며, 어떤 언어로든 배울 수 있습니다.

세 번째 접근 방식은 모델을 훈련한 후에 조정하는 것입니다. Jais와 OpenHathi는 둘 다 사람이 생성한 여러 개의 질문과 답변 쌍을 제공합니다. 잘못된 정보를 방지하기 위해 서양의 챗봇에도 동일한 원칙이 적용됩니다.

중국 주요 기술 기업인 바이두의 어니 봇 LLM은 정부를 불쾌하게 할 수 있는 발언을 제한하기 위해 규제를 받았습니다. 모델은 사용자가 LLM의 답변을 평가하는 등 인간의 피드백을 통해서도 학습할 수 있습니다. 하지만 덜 발달된 지역의 많은 언어에서는 기계의 반응을 비판할 자격을 갖춘 사람을 고용해야 하기 때문에 이를 구현하기 어렵습니다.

(이코노미스트에 따르면)

미국 육군, AI를 활용해 중요 광물 가격 추산 미국 육군은 니켈, 코발트 및 기타 중요 광물의 가격을 추산하고 공급을 예측할 수 있는 컴퓨터 프로그램을 개발할 계획입니다.