GPU는 AI 컴퓨터의 두뇌입니다
간단히 말해서, 그래픽 처리 장치(GPU)는 AI 컴퓨터의 두뇌 역할을 합니다.
아시다시피, 중앙처리장치(CPU)는 컴퓨터의 두뇌입니다. GPU의 장점은 본질적으로 복잡한 계산을 수행하는 데 특화된 CPU라는 점입니다. 이 수학 문제를 해결하는 가장 빠른 방법은 GPU 그룹을 사용하여 같은 문제를 푸는 것입니다. 하지만 AI 모델을 훈련하는 데는 여전히 몇 주 또는 몇 달이 걸릴 수 있습니다. 일단 만들어지면 프런트엔드 컴퓨팅 시스템에 배치되고 사용자는 AI 모델에 질문을 할 수 있는데, 이 과정을 추론이라고 합니다.
여러 개의 GPU를 포함하는 AI 컴퓨터
AI 문제를 해결하는 데 가장 좋은 아키텍처는 랙에 GPU 클러스터를 설치하고, 랙 상단의 스위치에 연결하는 것입니다. 여러 개의 GPU 랙을 네트워크 연결 계층 구조로 추가로 연결할 수 있습니다. 해결해야 할 문제가 점점 더 복잡해짐에 따라 GPU 요구 사항도 늘어나고, 일부 프로젝트에서는 수천 개의 GPU 클러스터를 배포해야 할 수도 있습니다.
각 AI 클러스터는 작은 네트워크입니다
AI 클러스터를 구축할 때는 GPU가 서로 연결하고 효율적으로 데이터를 공유할 수 있도록 소규모 컴퓨터 네트워크를 설정하는 것이 필요합니다.
위 그림은 AI 클러스터를 보여주며, 하단의 원은 GPU에서 실행되는 워크플로를 나타냅니다. GPU는 랙 상단의 스위치(ToR)에 연결됩니다. ToR 스위치는 다이어그램 위에 표시된 네트워크 백본 스위치에도 연결되어 여러 GPU가 관련된 경우 필요한 명확한 네트워크 계층 구조를 보여줍니다.
네트워크는 AI 배포의 병목 현상입니다.
작년 가을, 대표단이 차세대 AI 인프라를 구축하기 위해 함께 작업했던 OCP(Open Computer Project) 글로벌 서밋에서 Marvell Technology의 대표인 Loi Nguyen은 "네트워킹이 새로운 병목 현상입니다."라는 중요한 점을 지적했습니다.
기술적으로, 네트워크 혼잡으로 인한 대규모 패킷 지연이나 패킷 손실로 인해 패킷이 재전송될 수 있으며, 이로 인해 작업 완료 시간(JCT)이 크게 늘어날 수 있습니다. 그 결과, 비효율적인 AI 시스템으로 인해 수백만 또는 수천만 달러 상당의 GPU가 기업에서 낭비되고, 기업은 수익과 출시 시간 측면에서 손실을 입습니다.
측정은 AI 네트워크의 성공적인 운영을 위한 핵심 조건입니다.
AI 클러스터를 효율적으로 실행하려면 GPU를 최대한 활용하여 학습 시간을 단축하고 학습 모델을 배포하여 투자 수익을 극대화해야 합니다. 따라서 AI 클러스터의 성능을 시험하고 평가하는 것이 필요하다(그림 2). 하지만 이 작업은 쉽지 않습니다. 시스템 아키텍처 측면에서 보면 문제를 처리하기 위해 GPU와 네트워크 구조 사이에 많은 설정과 관계가 있으며, 이를 서로 보완해야 하기 때문입니다.
이로 인해 AI 네트워크 측정에 많은 어려움이 발생합니다.
- 비용, 장비, 숙련된 네트워크 AI 엔지니어 부족, 공간, 전력 및 온도의 제약으로 인해 실험실에서 전체 생산 네트워크를 재현하는 데 어려움이 있습니다.
- 생산 시스템에서 측정을 수행하면 생산 시스템 자체의 사용 가능한 처리 용량이 감소합니다.
- 문제의 규모와 범위의 차이로 인해 문제를 정확하게 재현하는 데 어려움이 있습니다.
- GPU가 전체적으로 연결되는 방식의 복잡성.
이러한 과제를 해결하기 위해 기업은 제안된 설정의 하위 집합을 랩 환경에서 테스트하여 JCT(작업 완료 시간), AI 팀이 달성할 수 있는 대역폭과 같은 주요 매개변수를 벤치마킹하고 이를 스위칭 플랫폼 활용도 및 캐시 활용도와 비교할 수 있습니다. 이 벤치마크는 GPU/처리 작업 부하와 네트워크 설계/설정 간의 적절한 균형을 찾는 데 도움이 됩니다. 결과에 만족하면 컴퓨터 설계자와 네트워크 엔지니어가 이러한 설정을 프로덕션에 적용하고 새로운 결과를 측정할 수 있습니다.
기업 연구실, 연구 기관, 대학은 대규모 네트워크에서 작업할 때 발생하는 과제를 해결하기 위해 효과적인 AI 네트워크를 구축하고 운영하는 모든 측면을 분석하기 위해 노력하고 있습니다. 특히 모범 사례가 계속해서 변화하고 있기 때문입니다. 이러한 반복 가능한 협업 방식은 기업이 반복 가능한 측정을 수행하고 "가정" 시나리오를 신속하게 테스트할 수 있는 유일한 방법이며, AI를 위한 네트워크 최적화의 기반입니다.
(출처: 키사이트 테크놀로지스)
[광고_2]
출처: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html
댓글 (0)