Vietnam.vn - Nền tảng quảng bá Việt Nam

잭마의 회사가 다시 주목을 받고 있다

중국 억만장자의 회사가 비용을 크게 절감할 수 있는 개발 기술을 선보이며 저비용 AI 경쟁에 뛰어들었지만 여전히 많은 과제에 직면해 있습니다.

Zing NewsZing News24/03/2025

잭 마의 앤트 그룹이 중국의 저비용 AI 시장에 진출합니다. 사진: 블룸버그 .

블룸버그 에 따르면, 억만장자 잭 마가 지원하는 회사인 앤트 그룹(Ant Group)은 중국에서 공급받은 반도체 칩을 사용하여 AI 기술에 대한 교육 비용을 20%까지 절감할 수 있는 기술을 개발하고 있습니다.

이 회사는 알리바바와 화웨이에서 구매한 칩을 사용하고 DeepSeek R1에 사용된 Mixture of Experts 머신 러닝 방법을 적용하여 AI를 훈련시킵니다.

비용 절감에도 불구하고 Ant Group의 성과는 Nvidia의 H800 등 오늘날 가장 강력한 칩을 사용하는 AI 회사의 성과와 비슷합니다.

이 회사는 최신 AI 모델에 주로 AMD와 중국 칩의 대체 제품을 사용하고 있으며 점차 전환하고 있습니다.

Ant Group은 고성능 소프트웨어를 통해 최대 635만 위안( 88만 달러 )을 투자해 1조 개의 토큰을 훈련시켰습니다. 하지만 최적화 방법을 적용하면 그 숫자는 510만 위안으로 줄어들었습니다. 토큰은 모델이 세상에 대해 배우고 유용한 응답을 제공하기 위해 수집하는 정보 단위입니다.

이를 통해 Ant는 중국과 미국 간의 치열해지는 AI 경쟁에 뛰어들게 되었는데, DeepSeek은 OpenAI나 Google이 지출한 수십억 달러보다 훨씬 적은 비용으로 모델을 훈련시킬 수 있음을 보여주었기 때문입니다.

엔비디아의 H800은 가장 진보된 칩은 아니지만 여전히 강력한 프로세서이며 미국은 중국으로의 수출을 금지하고 있습니다. 그래서 중국 기업들은 경쟁에서 앞서 나가기 위해 대안을 찾기 위해 애쓰고 있습니다.

Ant Group은 이전에 자사 모델이 특정 평가 지표에서 Meta Platforms보다 우수한 성과를 보이는 경우가 있다고 주장하는 연구 결과를 발표했습니다. 사실이라면, 이 모델은 개발 비용을 크게 절감하면서 중국 AI의 양자 도약을 가져올 것입니다.

이러한 성과는 성능을 높이고 계산 비용을 줄이는 데 도움이 되는 MoE 머신 러닝 방법을 탑재한 DeepSeek 덕분입니다. 구체적으로, 이 방법은 AI 모델이 문제를 분해하고 작업을 처리하는 데 충분한 작은 부분의 데이터만 활성화하는 데 도움이 됩니다.

그러나 MoE 모델을 훈련하려면 여전히 Nvidia가 제공하는 그래픽 처리 장치(GPU)와 같은 고성능 칩이 필요합니다. Ant의 연구 논문 제목인 "고급 GPU 없이 MoE 모델 개발"에서 회사가 위의 장벽을 깨려고 노력하고 있음을 알 수 있습니다.

이는 엔비디아의 전략에 어긋납니다. 이 회사의 CEO인 젠슨 황은 DeepSeek R1과 같은 보다 효율적인 모델이 등장하더라도 컴퓨팅 수요는 계속해서 증가할 것이라고 주장합니다.

그는 기업들이 비용을 절감하기 위해 저렴한 칩을 사용하는 것보다는, 매출 증대를 지속하기 위해 더 강력한 칩을 사용할 것이라고 믿습니다. 그래서 엔비디아는 더 많은 처리 코어, 트랜지스터, 더 높은 메모리 용량을 갖춘 GPU를 개발한다는 전략을 고수하고 있습니다.

한편, Ant는 Ling-Plus와 Ling-Lite를 포함하여 자사가 개발한 대규모 언어 모델의 최근 획기적인 발전을 활용해 의료 및 금융을 포함한 산업에 AI 솔루션을 제공할 계획입니다.

이 회사는 2025년에 의료 분야의 인공지능 서비스를 강화하기 위해 중국 온라인 플랫폼 Haodf.com을 인수했으며, AI 생활 도우미 앱 Zhixiaobao와 AI 금융 컨설팅 서비스 Maxiaocai도 소유하고 있습니다.

Ant는 논문에서 Ling-Lite가 영어 이해의 핵심 측정 항목에서 Meta의 Llama 모델 중 하나보다 우수한 성과를 보였다고 밝혔습니다.

Ling-Lite와 Ling-Plus는 모두 중국어 테스트에서 DeepSeek의 동등 모델보다 우수한 성과를 보였습니다.

링 모델도 대중에 공개되었습니다. Ling-Lite는 매개변수가 168억 개, Ling-Plus는 2,900억 개로 언어 모델링 분야에서 상당히 큰 규모로 평가받는 반면, ChatGPT GPT-4.5는 1,8000억 개, DeepSeek R1은 671억 개입니다.

하지만 앤트는 훈련 중에 안정성 문제에 직면했습니다. 회사 측은 모델의 하드웨어나 구조에 작은 변화가 생기더라도 모델의 오류율이 갑자기 증가할 수 있다고 밝혔습니다.

출처: https://znews.vn/cong-ty-cua-jack-ma-lai-gay-chu-y-post1540514.html


댓글 (0)

No data
No data

유산

수치

사업

No videos available

소식

정치 체제

현지의

제품