OpenAI는 ChatGPT-4의 훈련 방법에 대해 많은 것을 공개하지 않았습니다. 그러나 일반적으로 대규모 언어 모델(LLM)은 영어가 공용어인 인터넷에서 검색한 텍스트를 기반으로 훈련됩니다. ChatGPT-3의 훈련 데이터의 약 93%는 영어입니다.

AI 모델이 훈련된 데이터 세트 중 하나인 Common Crawl에서 영어는 전체 코퍼스의 47%를 차지하고, 다른 유럽 언어는 38%를 차지합니다. 반면, 중국과 일본을 합치면 9%에 불과하다.

스크린샷 2024 01 31 at 151709.png
LLM 교육에 사용되는 대부분의 데이터는 영어나 다른 유럽 언어로 되어 있습니다.

존스홉킨스 대학의 연구자인 나다니엘 로빈슨과 그의 동료들이 실시한 검토 결과, 이 문제가 ChatGPT에만 국한되지 않는다는 것을 발견했습니다. 모든 LLM은 훈련 데이터가 풍부한 "고리소스" 언어에서 부족한 "저리소스" 언어보다 더 나은 성과를 보입니다.

이는 교육부터 의료까지 다양한 분야를 개선하기 위해 AI를 가난한 나라에 도입하고자 하는 이들에게는 문제가 됩니다. 따라서 전 세계 연구자들은 AI를 더 다국어화하기 위해 노력하고 있습니다.

작년 9월, 인도 정부는 농부들이 주정부에서 제공하는 유용한 정보를 계속 받아볼 수 있도록 돕는 챗봇을 출시했습니다.

챗봇 구축에 도움을 준 비영리 단체인 엑스텝 재단의 샨카르 마루와다는 챗봇이 두 가지 유형의 언어 모델을 결합하여 작동하며, 사용자는 모국어로 질문을 제출할 수 있다고 말했습니다. 이러한 모국어 질의는 인도 연구 시설의 기계 번역 소프트웨어에 전달되고, 이를 통해 영어로 번역된 후 LLM으로 전달되어 응답을 처리합니다. 마지막으로, 응답은 사용자의 모국어로 다시 번역됩니다.

이 프로세스는 효과적일 수 있지만, 쿼리를 LLM의 "선호" 언어로 번역하는 것은 어색한 해결책입니다. 언어는 문화와 세계관을 반영하는 수단이다. 시드니 대학의 연구자인 레베카 존슨이 2022년에 발표한 논문에 따르면, ChatGPT-3는 총기 규제와 난민 정책과 같은 주제에 대한 답변을 생성했는데, 이러한 답변은 세계 가치 조사에서 표현된 미국적 가치와 유사했습니다.

따라서 많은 연구자들은 LLM 학위 소지자들이 덜 사용되는 언어에 능통해지도록 노력하고 있습니다. 기술적으로 한 가지 접근 방식은 언어의 토큰화를 수정하는 것입니다. Sarvam AI라는 인도의 스타트업은 힌디어에 최적화된 토크나이저 또는 데바나가리(인도) 언어에 최적화된 OpenHathi-LLM 모델을 작성하여 질문에 답변하는 데 드는 비용을 크게 줄일 수 있습니다.

또 다른 방법은 LLM이 훈련되는 데이터 세트를 개선하는 것입니다. 11월, 아부다비의 모하메드 빈 자이드 대학의 연구진은 "Jais"라는 아랍어 모델의 최신 버전을 출시했습니다. ChatGPT-3의 매개변수 수의 1/6에 불과하지만 아랍어의 경우 비슷한 성능을 보입니다.

모하메드 빈 자이드 대학 총장인 티머시 볼드윈은 그의 팀이 많은 아랍어 텍스트를 디지털화했지만 모델에는 여전히 일부 영어 텍스트가 포함되어 있다고 언급했습니다. 어떤 개념은 모든 언어에서 동일하며, 어떤 언어로든 배울 수 있습니다.

세 번째 방법은 모델을 훈련한 후에 튜닝하는 것입니다. Jais와 OpenHathi에는 둘 다 인간이 생성한 여러 개의 질문과 답변 쌍이 있습니다. 동일한 원칙이 서양의 챗봇에도 적용되어 잘못된 정보를 방지합니다.

중국 주요 기술 기업인 바이두의 어니 봇 LLM은 정부를 불쾌하게 할 수 있는 발언을 제한하기 위해 규제를 받았습니다. 모델은 사용자가 LLM의 답변을 평가하는 등 인간의 피드백을 통해서도 학습할 수 있습니다. 하지만 덜 발달된 지역의 많은 언어에서는 기계의 응답 방식을 비판할 자격을 갖춘 사람을 고용해야 하기 때문에 이를 구현하기가 어렵습니다.

(이코노미스트에 따르면)

미국 육군이 AI를 활용해 중요 광물 가격 추산 미국 육군은 니켈, 코발트 및 기타 중요 광물의 가격을 추산하고 공급량을 예측할 수 있는 컴퓨터 프로그램을 개발할 계획입니다.