GPU는 AI 컴퓨터의 두뇌다
간단히 말해서, 그래픽 처리 장치(GPU)는 AI 컴퓨터의 두뇌 역할을 합니다.
아시다시피, 중앙처리장치(CPU)는 컴퓨터의 두뇌입니다. GPU의 장점은 본질적으로 복잡한 계산을 수행하는 데 특화된 CPU라는 것입니다. 이 수학 문제를 해결하는 가장 빠른 방법은 여러 GPU가 같은 문제를 푸는 것입니다. 하지만 AI 모델을 훈련하는 데는 여전히 몇 주 또는 몇 달이 걸릴 수 있습니다. 일단 만들어지면 프런트엔드 컴퓨팅 시스템에 배치하고 사용자는 AI 모델에 질문을 할 수 있는데, 이 과정을 추론이라고 합니다.
여러 개의 GPU를 포함하는 AI 컴퓨터
AI 문제를 해결하는 가장 좋은 아키텍처는 랙에 있는 GPU 클러스터를 사용하고, 랙 위의 스위치에 연결하는 것입니다. 여러 개의 GPU 랙을 네트워크 연결 계층으로 추가로 연결할 수 있습니다. 해결해야 할 문제의 복잡성이 커짐에 따라 GPU 요구 사항도 늘어나고, 일부 프로젝트에서는 수천 개의 GPU 클러스터를 배포해야 할 수도 있습니다.
각 AI 클러스터는 작은 네트워크입니다.
AI 클러스터를 구축할 때는 여러 GPU가 서로 연결하고 효율적으로 데이터를 공유할 수 있도록 소규모 컴퓨터 네트워크를 설정하는 것이 필요합니다.
위 그림은 AI 클러스터를 보여주며, 하단의 원은 GPU에서 실행되는 워크플로를 나타냅니다. GPU는 랙 상단(ToR)의 스위치에 연결됩니다. ToR 스위치는 다이어그램 위에 표시된 네트워크 백본 스위치에도 연결되어 여러 GPU가 관련된 경우 명확한 네트워크 계층이 필요하다는 것을 보여줍니다.
네트워크는 AI 배포의 병목 현상입니다.
작년 가을, 대의원들이 차세대 AI 인프라를 구축하기 위해 함께 일했던 Open Computer Project(OCP) 글로벌 서밋에서 Marvell Technology의 대의원 Loi Nguyen은 "네트워킹이 새로운 병목 현상입니다."라는 핵심 요점을 제기했습니다.
기술적으로, 네트워크 혼잡으로 인한 대량의 패킷 지연이나 패킷 손실이 발생하면 패킷이 재전송되어 작업 완료 시간(JCT)이 크게 늘어날 수 있습니다. 결과적으로 수백만 또는 수천만 달러 상당의 기업 GPU가 비효율적인 AI 시스템으로 인해 낭비되고, 이는 매출과 제품 출시 시간 측면에서 기업에 피해를 입힙니다.
측정은 AI 네트워크의 성공적인 운영을 위한 핵심 조건입니다.
AI 클러스터를 효율적으로 실행하려면 GPU를 최대한 활용하여 학습 시간을 단축하고 학습 모델을 배포하여 투자 수익을 극대화해야 합니다. 따라서 AI 클러스터의 성능을 시험하고 평가하는 것이 필요하다(그림 2). 하지만 이 작업은 쉽지 않습니다. 시스템 아키텍처 측면에서 문제를 처리하기 위해 GPU와 네트워크 구조 사이에 많은 설정과 관계가 있으며 이를 서로 보완해야 하기 때문입니다.
이로 인해 AI 네트워크 측정에 많은 과제가 발생합니다.
- 비용, 장비, 숙련된 네트워크 AI 엔지니어 부족, 공간, 전력 및 온도의 제약으로 인해 실험실에서 전체 생산 네트워크를 재현하는 데 어려움이 있습니다.
- 생산 시스템에서 측정하면 생산 시스템 자체의 가용 처리 용량이 줄어듭니다.
- 문제의 규모나 범위의 차이로 인해 문제를 정확하게 재현하는 데 어려움이 있습니다.
- GPU가 전체적으로 연결되는 방식의 복잡성.
이러한 과제를 해결하기 위해 기업은 제안된 설정의 하위 집합을 실험실 환경에서 테스트하여 JCT(작업 완료 시간), AI 팀이 달성할 수 있는 대역폭과 같은 주요 매개변수를 벤치마킹하고 이를 스위칭 플랫폼 사용률 및 캐시 사용률과 비교할 수 있습니다. 이 벤치마크는 GPU/처리 워크로드와 네트워크 설계/설정 간의 적절한 균형을 찾는 데 도움이 됩니다. 결과에 만족하면 컴퓨터 설계자와 네트워크 엔지니어가 이러한 설정을 프로덕션에 적용하고 새로운 결과를 측정할 수 있습니다.
기업 연구실, 연구 기관, 대학은 대규모 네트워크에서 작업하는 데 따르는 과제를 해결하기 위해 효과적인 AI 네트워크를 구축하고 운영하는 모든 측면을 분석하기 위해 노력하고 있으며, 특히 모범 사례가 계속해서 변화함에 따라 더욱 그렇습니다. 이러한 반복 가능한 협업적 접근 방식은 기업이 반복 가능한 측정을 수행하고 "가정" 시나리오를 빠르게 테스트할 수 있는 유일한 방법이며, AI를 위한 네트워크 최적화의 기반입니다.
(출처: Keysight Technologies)
[광고2]
출처: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html
Comment (0)