10월 15일에 진행된 NVIDIA AI Expert Day가 성황리에 마무리됐습니다! 약 200명이 참석한 이번 행사는 AI Factory 구축을 위한 NVIDIA Reference Architecture에 대한 내용으로 진행됐습니다.
이번 행사에서는 AI를 위한 데이터센터를 구축하는 데 필요한 NVIDIA Reference Architecture와 관련 기술들을 소개했는데요. 환영사를 시작으로 NVIDIA 전문가들이 NVIDIA Reference Architecture, 차세대 AI 데이터센터 디자인 가이드, 거대 언어 모델(LLM) 학습시 장애 유형별 대응 가이드에 대한 세션을 진행했습니다. 세션 이후에는 NVIDIA 전문가와 질문하고 답변을 받을 수 있는 Q&A 시간이 이어졌으며, 네트워킹 시간과 함께 NVIDIA의 파트너사 부스 투어도 진행되었습니다.
참가자들은 NVIDIA Reference Architecture에 대한 이해를 높이고, 데이터센터 규모의 AI 인프라에 대한 투자의 중요성을 다시 한번 확인할 수 있었습니다. 앞으로도 NVIDIA는 NVIDIA의 최신 기술 동향과 인사이트를 공유하기 위한 다양한 노력을 이어갈 예정입니다.
세션 한눈에 보기
NVIDIA 이민형 솔루션 아키텍트는 NVIDIA Reference Architecture에 대해 소개했습니다. LLM 학습을 지원하는 하이퍼스케일 AI 데이터 센터에 대한 수요가 급증하고 있습니다. NVIDIA의 AI Factory는 이러한 AI 데이터센터를 위한 최적의 청사진을 제시합니다. 세션에서는 AI 인프라의 주요 특징을 분석하고, 특히 네트워크 인프라를 중심으로 NVIDIA AI Factory를 구성하는 핵심 기술들을 심도 있게 소개했습니다.
NVIDIA 김창민 솔루션 아키텍트는 차세대 AI 데이터센터 디자인 가이드를 중점으로 세션을 진행했습니다. 최신 Blackwell 아키텍처 기반 GPU 서버들을 최적으로 구축하고 운영하기 위해 AI 데이터센터에서 고려되어야 하는 전력, 상면, 케이블링과 냉각 기술을 설명했습니다. 그리고 이와 관련된 NVIDIA의 권장 모범 사례도 함께 소개했습니다.
NVIDIA 정구형 솔루션 아키텍트 팀장은 LLM 학습시 장애 유형별 대응 가이드에 대해 소개했습니다. LLM 학습 시 발생할 수 있는 문제는 다양할 뿐만 아니라 그 원인 또한 하드웨어에서부터 개발자가 작성한 코드에 이르기까지 다양합니다. 세션에서는 다수의 LLM 프로젝트를 지원하면서 쌓은 경험을 통해 LLM 학습시 발생되는 문제와 해결 사례를 소개했습니다.
NVIDIA 파트너사 부스
이번 행사에는 6개의 NVIDIA 파트너스 부스 전시가 진행됐습니다. 유클릭(UCLICK), 리더스시스템즈(LeadersSystems), 아이크래프트(iCRAFT), 비엔아이엔씨(BNINC), 엠키스코어(MKIS CORE), 메이머스트(MAYMUST)가 참여했습니다.
유클릭은 NVIDIA DGX SuperPoD, 오큘러스 퀘스트3를 활용한 NVIDIA Omniverse 체험을 제공했습니다.
리더스시스템즈는 NVIDIA GPU에 최적화된 최신 엔드 투 엔드 플랫폼인 NVIDIA AI Enterprise를 기반으로 쉽게 접근하고 활용할 수 있는 혁신적인 클라우드 서비스 AIRS(AI Reference Service)를 소개했습니다.
아이크래프트는 하드웨어 인프라부터 데이터처리에 이르기까지, AI/머신 러닝(ML)에 필요한 아키텍처 설계 서비스를 소개했습니다 또한 AI Factory 데이터센터의 Blackwell GPU 고성능 처리를 위한 800Gb/s Infiniband 플랫폼 및 AI 클라우드(AI/고성능 컴퓨팅(HPC))에 최적화된 RoCE 솔루션을 소개했습니다.
비엔아이엔씨는 NVIDIA AI Enterprise 기반의 Base Command Manager라는 HPC와 클러스터 컴퓨팅 환경에서 사용되는 소프트웨어 솔루션을 소개했습니다. 클러스터 리소스 및 관리를 간단하게 하고, 효율적으로 관리할 수 있도록 도와주는 통합 관리 도구입니다.
엠키스코어는 NVIDIA 고성능 GPU의 최고 성능 발휘를 위한 수랭식 데이터센터와 데이터센터의 최적 성능 유지, 효율적 운영을 위한 모니터링 솔루션을 소개했습니다.
메이머스트는 생성형 AI 도입을 고려하고 있는 고객을 대상으로 AI 도입 전략 수립, PoC 테스트, 플랫폼 구축과 운영에 걸쳐 최적화된 AI 풀 스택 플랫폼 환경을 소개했습니다. NVIDIA DGX, Infiniband, DPU, IP/이더넷 솔루션을 함께 전시했습니다.
세계 최초 턴키 AI 데이터센터 인프라인 NVIDIA DGX SuperPOD에 대해 더 자세히 살펴보세요.