1월에 중국 스타트업 DeepSeek이 오픈소스 R1 추론 모델을 출시했습니다. 이 회사는 R1의 기반이 되는 대규모 언어 모델은 서양의 AI 모델보다 성능이 떨어지는 칩을 사용하여 훨씬 낮은 비용으로 개발되었다고 말합니다.

투자자들은 이 소식에 엔비디아와 다른 기술 기업의 주식을 매도하며 반응했고, 그로 인해 엔비디아는 단 하루 만에 시가총액이 6,000억 달러를 잃었습니다. 그러나 세계 최대의 반도체 회사는 이제 손실한 것의 대부분을 회복했습니다.

딥시크 블룸버그
DeepSeek의 대규모 언어 모델은 서양 모델보다 훨씬 약하고 저렴한 칩을 사용하여 개발되었습니다. 사진: 블룸버그

젠슨 황은 그의 최신 영상에서 시장의 극단적인 반응은 투자자들이 DeepSeek의 진행 상황을 잘못 해석한 데서 비롯되었다고 주장합니다.

그들은 모델을 훈련하는 데 필요한 컴퓨팅 성능이 줄어들면 Big Tech가 AI 인프라에 지출하는 수조 달러가 꼭 필요한지 의문을 제기합니다.

하지만 황 씨는 업계에는 여전히 AI 모델이 훈련을 받은 후에 결론이나 예측을 도출할 수 있도록 하는 훈련 후 방법을 위한 컴퓨팅 파워가 필요하다고 말했습니다.

사후 훈련 방법이 더욱 다양하고 진보됨에 따라, Nvidia 칩이 제공하는 컴퓨팅 성능에 대한 수요도 커지고 있습니다.

엔비디아 CEO에 따르면, 투자자들은 세상에는 사전 훈련과 추론(AI에 질문을 하고 즉시 답변을 얻는 것)만 있다고 생각하지만, 사후 훈련이 AI에서 가장 중요한 부분이라고 합니다. 이곳에서 전문적인 문제를 해결하는 방법을 배우게 됩니다.

그럼에도 불구하고 황 씨는 DeepSeek이 AI 세계에 더 많은 에너지를 "주입"했다는 사실을 부인하지 않습니다. AMD CEO Lisa Su도 이번 달 초 인터뷰에서 DeepSeek이 "AI 애플리케이션에 좋은" 혁신을 주도하고 있다고 언급했습니다.

사전 학습이라는 용어는 대규모 언어 모델(LLM)을 학습하는 초기 단계를 의미하며, 여기서 모델은 일반적으로 최대 수조 개의 토큰인 방대하고 다양한 데이터 세트로부터 학습합니다.

여기서 목표는 모델이 언어, 맥락, 그리고 일반적인 지식 유형에 대한 전반적인 이해를 얻도록 돕는 것입니다. 이 단계에는 엄청난 컴퓨팅 파워와 데이터가 필요한 경우가 많으며, 비용이 수억 달러에 달합니다.

사후 학습이나 미세 조정이라는 용어는 이전에 학습한 모델을 가져와서 더 구체적인 데이터 세트로 다시 학습시키는 것을 말합니다. 이러한 데이터 세트는 일반적으로 규모가 작으며 특정 도메인이나 작업에 초점을 맞춥니다.

이 기능의 목적은 사전 훈련에서 심도 있게 다루지 않는 특정 시나리오와 작업에서 모델의 성능을 향상하도록 조정하는 것입니다. 학습 후 새로운 지식을 추가하면 일반적인 지식을 확장하는 것보다 모델의 성능이 더 향상됩니다.

(Insider, Reddit에 따르면)