OpenAI는 ChatGPT-4의 훈련 방법에 대해 많은 것을 공개하지 않았습니다. 그러나 일반적으로 대규모 언어 모델(LLM)은 영어가 공용어인 인터넷에서 검색한 텍스트를 기반으로 훈련됩니다. ChatGPT-3의 훈련 데이터의 약 93%는 영어입니다.
AI 모델이 훈련된 데이터 세트 중 하나인 Common Crawl에서 영어는 전체 코퍼스의 47%를 차지하고, 다른 유럽 언어는 38%를 차지합니다. 반면, 중국과 일본을 합치면 9%에 불과하다.
존스홉킨스 대학의 연구자인 나다니엘 로빈슨과 그의 동료들이 실시한 검토 결과, 이 문제가 ChatGPT에만 국한되지 않는다는 것을 발견했습니다. 모든 LLM은 훈련 데이터가 풍부한 "고리소스" 언어에서 부족한 "저리소스" 언어보다 더 나은 성과를 보입니다.
이는 교육부터 의료까지 다양한 분야를 개선하기 위해 AI를 가난한 나라에 도입하고자 하는 이들에게는 문제가 됩니다. 따라서 전 세계 연구자들은 AI를 더 다국어화하기 위해 노력하고 있습니다.
작년 9월, 인도 정부는 농부들이 주정부에서 제공하는 유용한 정보를 계속 받아볼 수 있도록 돕는 챗봇을 출시했습니다.
챗봇 구축에 도움을 준 비영리 단체인 엑스텝 재단의 샨카르 마루와다는 챗봇이 두 가지 유형의 언어 모델을 결합하여 작동하며, 사용자는 모국어로 질문을 제출할 수 있다고 말했습니다. 이러한 모국어 질의는 인도 연구 시설의 기계 번역 소프트웨어에 전달되고, 이를 통해 영어로 번역된 후 LLM으로 전달되어 응답을 처리합니다. 마지막으로, 응답은 사용자의 모국어로 다시 번역됩니다.
이 프로세스는 효과적일 수 있지만, 쿼리를 LLM의 "선호" 언어로 번역하는 것은 어색한 해결책입니다. 언어는 문화와 세계관을 반영하는 수단이다. 시드니 대학의 연구자인 레베카 존슨이 2022년에 발표한 논문에 따르면, ChatGPT-3는 총기 규제와 난민 정책과 같은 주제에 대한 답변을 생성했는데, 이러한 답변은 세계 가치 조사에서 표현된 미국적 가치와 유사했습니다.
따라서 많은 연구자들은 LLM 학위 소지자들이 덜 사용되는 언어에 능통해지도록 노력하고 있습니다. 기술적으로 한 가지 접근 방식은 언어의 토큰화를 수정하는 것입니다. Sarvam AI라는 인도의 스타트업은 힌디어에 최적화된 토크나이저 또는 데바나가리(인도) 언어에 최적화된 OpenHathi-LLM 모델을 작성하여 질문에 답변하는 데 드는 비용을 크게 줄일 수 있습니다.
또 다른 방법은 LLM이 훈련되는 데이터 세트를 개선하는 것입니다. 11월, 아부다비의 모하메드 빈 자이드 대학의 연구진은 "Jais"라는 아랍어 모델의 최신 버전을 출시했습니다. ChatGPT-3의 매개변수 수의 1/6에 불과하지만 아랍어의 경우 비슷한 성능을 보입니다.
모하메드 빈 자이드 대학 총장인 티머시 볼드윈은 그의 팀이 많은 아랍어 텍스트를 디지털화했지만 모델에는 여전히 일부 영어 텍스트가 포함되어 있다고 언급했습니다. 어떤 개념은 모든 언어에서 동일하며, 어떤 언어로든 배울 수 있습니다.
세 번째 방법은 모델을 훈련한 후에 튜닝하는 것입니다. Jais와 OpenHathi에는 둘 다 인간이 생성한 여러 개의 질문과 답변 쌍이 있습니다. 동일한 원칙이 서양의 챗봇에도 적용되어 잘못된 정보를 방지합니다.
중국 주요 기술 기업인 바이두의 어니 봇 LLM은 정부를 불쾌하게 할 수 있는 발언을 제한하기 위해 규제를 받았습니다. 모델은 사용자가 LLM의 답변을 평가하는 등 인간의 피드백을 통해서도 학습할 수 있습니다. 하지만 덜 발달된 지역의 많은 언어에서는 기계의 응답 방식을 비판할 자격을 갖춘 사람을 고용해야 하기 때문에 이를 구현하기가 어렵습니다.
(이코노미스트에 따르면)
[광고2]
원천
댓글 (0)