ภาพ001.jpg

GPU คือสมองของคอมพิวเตอร์ AI

พูดอย่างง่ายๆ ก็คือหน่วยประมวลผลกราฟิก (GPU) ทำหน้าที่เป็นสมองของคอมพิวเตอร์ AI

อย่างที่คุณอาจทราบ หน่วยประมวลผลกลาง (CPU) ถือเป็นสมองของคอมพิวเตอร์ ข้อดีของ GPU คือเป็น CPU เฉพาะทางสำหรับการคำนวณที่ซับซ้อน วิธีที่เร็วที่สุดในการทำคณิตศาสตร์นี้คือการให้กลุ่ม GPU แก้ไขปัญหาเดียวกัน ถึงกระนั้นก็ตาม การฝึกอบรมโมเดล AI อาจต้องใช้เวลาหลายสัปดาห์หรือหลายเดือน เมื่อสร้างเสร็จแล้วจะถูกวางไว้ในระบบคอมพิวเตอร์ส่วนหน้าและผู้ใช้สามารถถามคำถามกับโมเดล AI ได้ ซึ่งเป็นกระบวนการที่เรียกว่าการอนุมาน

คอมพิวเตอร์ AI ที่มี GPU หลายตัว

สถาปัตยกรรมที่ดีที่สุดในการแก้ปัญหา AI คือการใช้คลัสเตอร์ GPU ในชั้นวาง โดยเชื่อมต่อกับสวิตช์ที่ด้านบนของชั้นวาง นอกจากนี้สามารถเชื่อมต่อแร็ค GPU หลายแร็คในลำดับชั้นการเชื่อมต่อเครือข่ายได้ เนื่องจากปัญหาที่ต้องแก้ไขมีความซับซ้อนเพิ่มมากขึ้น ความต้องการ GPU ก็เพิ่มขึ้นตามไปด้วย และบางโปรเจ็กต์อาจต้องปรับใช้คลัสเตอร์ GPU หลายพันตัว

แต่ละคลัสเตอร์ AI เป็นเครือข่ายขนาดเล็ก

เมื่อสร้างคลัสเตอร์ AI จำเป็นต้องตั้งค่าเครือข่ายคอมพิวเตอร์ขนาดเล็กเพื่อเชื่อมต่อและอนุญาตให้ GPU ทำงานร่วมกันและแบ่งปันข้อมูลอย่างมีประสิทธิภาพ

ภาพ002.jpg
คลัสเตอร์ AI

รูปด้านบนแสดงให้เห็น AI Cluster โดยวงกลมด้านล่างแสดงถึงเวิร์กโฟลว์ที่ทำงานบน GPU GPU เชื่อมต่อกับสวิตช์ที่ด้านบนของแร็ค (ToR) สวิตช์ ToR ยังเชื่อมต่อกับสวิตช์กระดูกสันหลังของเครือข่ายดังแสดงเหนือแผนภาพ ซึ่งแสดงให้เห็นลำดับชั้นของเครือข่ายที่ชัดเจนซึ่งจำเป็นเมื่อมี GPU หลายตัวเข้ามาเกี่ยวข้อง

เครือข่ายคือคอขวดในการใช้งาน AI
เมื่อฤดูใบไม้ร่วงที่ผ่านมา ในการประชุมสุดยอดระดับโลกของ Open Computer Project (OCP) ซึ่งผู้แทนทำงานร่วมกันเพื่อสร้างโครงสร้างพื้นฐาน AI รุ่นถัดไป ผู้แทน Loi Nguyen จาก Marvell Technology ได้ชี้ประเด็นสำคัญว่า "การทำงานเครือข่ายคือปัญหาคอขวดใหม่"

ตามหลักเทคนิค ความล่าช้าของแพ็กเก็ตขนาดใหญ่หรือการสูญหายของแพ็กเก็ตอันเนื่องมาจากความแออัดของเครือข่ายอาจทำให้ต้องส่งแพ็กเก็ตใหม่ ส่งผลให้เวลาในการดำเนินงานให้เสร็จสิ้น (JCT) เพิ่มสูงขึ้นอย่างมาก ส่งผลให้ธุรกิจต่างๆ สูญเสีย GPU มูลค่านับล้านหรือหลายสิบล้านดอลลาร์เนื่องจากระบบ AI ที่ไม่มีประสิทธิภาพ ส่งผลให้ธุรกิจได้รับความเสียหายทั้งในด้านรายได้และเวลานำออกสู่ตลาด

การวัดผลถือเป็นเงื่อนไขสำคัญสำหรับการดำเนินงานเครือข่าย AI ให้ประสบความสำเร็จ

ในการรันคลัสเตอร์ AI ให้มีประสิทธิภาพ จำเป็นต้องใช้ GPU อย่างเต็มที่เพื่อลดระยะเวลาการฝึกอบรมและปรับใช้โมเดลการเรียนรู้เพื่อเพิ่มผลตอบแทนจากการลงทุนให้สูงสุด ดังนั้นจึงจำเป็นต้องทดสอบและประเมินประสิทธิภาพการทำงานของคลัสเตอร์ AI (รูปที่ 2) อย่างไรก็ตาม งานนี้ไม่ใช่เรื่องง่าย เพราะในแง่ของสถาปัตยกรรมระบบ มีการตั้งค่าและความสัมพันธ์มากมายระหว่าง GPU และโครงสร้างเครือข่ายที่ต้องเสริมซึ่งกันและกันเพื่อจัดการกับปัญหา

ภาพ005.jpg
แพลตฟอร์มทดสอบศูนย์ข้อมูล AI และวิธีการทดสอบคลัสเตอร์ศูนย์ข้อมูล AI

สิ่งนี้สร้างความท้าทายมากมายในการวัดผลเครือข่าย AI:

- ความยากลำบากในการสร้างเครือข่ายการผลิตทั้งหมดในห้องปฏิบัติการเนื่องจากข้อจำกัดด้านต้นทุน อุปกรณ์ การขาดแคลนวิศวกร AI เครือข่ายที่มีทักษะ พื้นที่ พลังงาน และอุณหภูมิ

- การวัดผลบนระบบการผลิตทำให้ความสามารถในการประมวลผลที่มีอยู่ของระบบการผลิตนั้นลดลง

- มีความยากลำบากในการจำลองปัญหาได้อย่างแม่นยำเนื่องจากความแตกต่างในด้านขนาดและขอบเขตของปัญหา

- ความซับซ้อนในการเชื่อมต่อ GPU ร่วมกัน

เพื่อรับมือกับความท้าทายเหล่านี้ องค์กรต่างๆ สามารถทดสอบชุดย่อยของการตั้งค่าที่เสนอในสภาพแวดล้อมแล็บเพื่อเปรียบเทียบเกณฑ์มาตรฐานพารามิเตอร์สำคัญ เช่น JCT (เวลาในการทำงานให้เสร็จ) แบนด์วิดท์ที่ทีม AI สามารถทำได้ และเปรียบเทียบกับการใช้งานแพลตฟอร์มการสลับและการใช้งานแคช การประเมินประสิทธิภาพนี้ช่วยค้นหาสมดุลที่เหมาะสมระหว่างภาระงานของ GPU/การประมวลผลและการออกแบบ/การตั้งค่าเครือข่าย เมื่อพอใจกับผลลัพธ์แล้ว สถาปนิกคอมพิวเตอร์และวิศวกรเครือข่ายสามารถนำการตั้งค่าเหล่านี้ไปใช้กับการผลิตและวัดผลลัพธ์ใหม่ได้

ห้องปฏิบัติการวิจัยขององค์กร สถาบันวิจัย และมหาวิทยาลัยต่างทำงานเพื่อวิเคราะห์ทุกแง่มุมของการสร้างและการดำเนินการเครือข่าย AI ที่มีประสิทธิภาพ เพื่อรับมือกับความท้าทายในการทำงานบนเครือข่ายขนาดใหญ่ โดยเฉพาะอย่างยิ่งเมื่อแนวทางปฏิบัติที่ดีที่สุดยังคงเปลี่ยนแปลงไป แนวทางการทำงานร่วมกันแบบทำซ้ำได้นี้เป็นวิธีเดียวที่ทำให้ธุรกิจต่างๆ สามารถวัดผลซ้ำได้ และทดสอบสถานการณ์ "จะเกิดอะไรขึ้นถ้า" ได้อย่างรวดเร็ว ซึ่งเป็นรากฐานสำหรับการเพิ่มประสิทธิภาพเครือข่ายสำหรับ AI

(ที่มา: Keysight Technologies)