빛의 속도로 AI 팩토리 운영하는 새로운 NVIDIA Mission Control 소프트웨어

NVIDIA Mission Control 소프트웨어는 NVIDIA DGX 시스템에서 사용 가능하며, 곧 주요 시스템 공급업체에서 출시될 예정입니다. 이 소프트웨어는 GPU 활용도를 5배 높이고, 모든 규모에서 훈련과 추론 효율성을 개선합니다
by NVIDIA Korea

산업 시대는 증기라는 동력으로 촉발됐으며, 디지털 시대는 소프트웨어를 통한 변혁을 가져왔습니다. 그리고 현재, AI 시대는 생성형 AI, 에이전틱 AI(agentic AI), AI 추론 개발로 특징되죠. 이를 통해 모델은 더 많은 데이터를 처리, 학습, 추론해 복잡한 문제를 해결할 수 있습니다.

산업 시대의 공장이 원자재를 상품으로 전환하는 것처럼, 현대의 기업은 데이터를 확장 가능하고 정확하며 신뢰할 수 있는 인사이트로 신속하게 전환하기 위해 AI 팩토리가 필요합니다.

이 새로운 인프라를 조율하는 것은 증기 동력 공장을 건설하는 것보다 훨씬 더 복잡합니다. 최첨단 모델에는 슈퍼컴퓨팅 규모의 리소스가 필요합니다. 다운타임이 발생하면 몇 주간 진행됐던 일이 지연되고 GPU 활용률이 감소할 위험이 있죠.

NVIDIA는 GTC에서 AI 데이터센터와 워크로드의 복잡한 관리를 자동화하는 유일한 통합 운영과 오케스트레이션 소프트웨어 플랫폼인 NVIDIA Mission Control을 발표했습니다. 이 플랫폼은 기업과 개발자가 빛의 속도로 AI 팩토리를 관리하고 운영할 수 있도록 지원합니다.

NVIDIA Mission Control은 AI 팩토리 운영의 모든 측면을 개선합니다. 배포 구성부터 인프라 검증, 개발자 워크로드 운영에 이르기까지 기업이 최첨단 모델을 더 빠르게 시작하고 실행할 수 있도록 지원합니다.

이 소프트웨어는 NVIDIA Blackwell 기반 시스템을 사전 훈련에서 사후 훈련으로, 그리고 이제 테스트 시간 확장으로 빠르고 효율적인 전환을 돕도록 설계됐습니다. 이를 통해 기업은 Blackwell 기반 NVIDIA DGX 시스템NVIDIA Grace Blackwell 시스템에서 훈련과 추론 워크로드 사이를 쉽게 전환해, 변화하는 우선 순위에 맞게 클러스터 리소스를 동적으로 재할당할 수 있습니다.

또한, Mission Control에는 개발, 훈련, 추론을 위한 운영과 작업 오케스트레이션을 간소화하는 NVIDIA Run:ai 기술이 포함돼 인프라 활용도를 최대 5배까지 높일 수 있습니다.

Mission Control의 자율 복구 기능은 신속한 체크포인트와 자동화된 계층형 재시작 기능을 지원합니다. 이는 수동 개입에 의존하는 기존 방법에 비해 최대 10배 더 빠른 작업 복구를 제공할 수 있는데요. 또한, AI 훈련과 추론 효율성을 높여 AI 애플리케이션을 계속 운영할 수 있습니다.

수십 년간 축적된 NVIDIA 슈퍼컴퓨팅 전문 지식을 기반으로 개발된 Mission Control은 AI 인프라 관리에 소요되는 시간을 최소화해 기업이 모델을 간단하게 실행할 수 있도록 지원합니다. 이는 NVIDIA Blackwell 기반 NVIDIA DGX 시스템과 NVIDIA Grace Blackwell 시스템 위에 지어진 AI 팩토리 인프라의 수명 주기를 자동화하죠. 델 테크놀로지스(Dell Technologies), 휴렛팩커드 엔터프라이즈(Hewlett Packard Enterprise, HPE), 레노버(Lenovo), 슈퍼마이크로(Supermicro)와 같은 주요 파트너사의 시스템에서도 원활하게 작동하며, 전 세계 다양한 산업에서 고급 AI 인프라에 보다 쉽게 접근할 수 있도록 합니다.

기업들은 전 세계 45개 시장의 에퀴닉스(Equinix) AI 지원 데이터센터에 사전 구성된 NVIDIA Instant AI 팩토리 서비스와 함께 Mission Control을 사용해 NVIDIA DGX GB300과 DGX B300 시스템 배포를 더욱 간소화하고 가속화할 수 있습니다.

기업에 중단 없는 인프라 관리를 제공하는 첨단 소프트웨어

Mission Control은 프로비저닝, 모니터링, 오류 진단을 포함한 엔드 투 엔드 인프라 관리를 자동화해 중단 없는 운영을 제공합니다. 또한, 애플리케이션과 인프라 스택의 모든 계층을 지속적으로 모니터링하고 다운타임과 비효율성의 원인을 예측하고 식별해 시간, 에너지, 비용을 절약하죠.

NVIDIA Mission Control 소프트웨어의 추가 이점은 다음과 같습니다.

  • 클러스터 설정과 프로비저닝 간소화: 자동화, 표준화된 API를 통해 배포 시간을 단축하고, 통합 재고 관리와 시각화를 제공합니다.
  • 원활한 워크로드 오케스트레이션: 슬럼(Slurm), 쿠버네티스(Kubernetes) 워크플로우와의 원활한 통합을 제공합니다.
  • 에너지 최적화 전력 프로필: 다양한 워크로드 유형에 맞춰 전력 요구사항과 GPU 성능을 조정하고, 개발자가 선택 가능한 제어 기능을 제공합니다.
  • 자율 작업 복구: 비효율성을 식별, 격리, 복구해 수동 개입 없이 개발자 생산성과 인프라 회복력을 극대화합니다.
  • 맞춤형 대시보드: 클러스터의 중요 텔레메트리 데이터에 접근해 핵심 성과 지표(key performance indicators, KPI)와 실시간 추적할 수 있습니다.
  • 온디맨드 상태 점검: 인프라 수명 주기 전반에 걸쳐 하드웨어와 클러스터의 성능을 검증합니다.
  • 건물 관리 연동: 건물 관리 시스템과의 조정 강화로 신속한 누출 감지를 포함한 전력과 냉각 이벤트에 대한 보다 세밀한 제어를 제공합니다.

NVIDIA Mission Control을 Blackwell 서버에 도입하는 주요 시스템 제조 선도 기업들

주요 시스템 제조업체들은 NVIDIA Mission Control이 탑재된 NVIDIA GB200 NVL72와  GB300 NVL72 시스템을 제공할 계획입니다.

델은 NVIDIA와 함께 델 AI 팩토리(AI Factory)의 일부로 NVIDIA Mission Control 소프트웨어를 제공할 예정인데요.

델 테크놀로지스의 최고기술책임자 겸 수석 부사장인 아이합 타라지(Ihab Tarazi)는 “AI 산업 혁명은 비즈니스가 발전함에 따라 빠르게 적응하는 효율적인 인프라를 요구하는데요. NVIDIA와 함께하는 델 AI 팩토리는 포괄적인 컴퓨팅, 네트워킹, 스토리지, 지원을 제공합니다. NVIDIA Mission Control 소프트웨어와 델 파워엣지(PowerEdge) XE9712와 XE9680 서버를 함께 사용하면, 기업이 훈련과 추론 요구 사항을 충족하기 위해 모델을 손쉽게 확장합니다. 이를 통해 데이터를 그 어느 때보다 빠르게 실행 가능한 인사이트로 전환할 수 있습니다”고 말했습니다.

HPE는 NVIDIA Mission Control 소프트웨어가 포함된 HPE의 NVIDIA GB200 NVL72와 HPE 시스템의 GB300 NVL72를 제공할 예정입니다.

HPE의 HPC 및 AI 인프라 솔루션 부문 수석 부사장 겸 총괄 트리시 댐크로거(Trish Damkroger)는 “HPE는 서비스 제공업체와 최첨단 기업이 1조 개의 매개변수 모델을 훈련할 수 있는 복잡한 AI 클러스터를 신속하게 배포, 확장, 최적화할 수 있도록 지원합니다. 양사간 협력의 일환으로 HPE의 글로벌 서비스와 직접 액체 냉각 전문 지식이 포함된 NVIDIA Grace Blackwell 랙 스케일 시스템, 그리고 Mission Control 소프트웨어를 제공해 새로운 AI 시대를 지원할 것”이라고 말했습니다.

레노버는 NVIDIA Mission Control 소프트웨어를 포함하도록 NVIDIA 시스템으로 레노버 하이브리드 AI 어드밴티지(Hybrid AI Advantage)를 업데이트할 계획입니다.

레노버의 ESMB과 AI 비즈니스 부문 부사장 겸 총괄 브라이언 코너스(Brian Connors)는 “NVIDIA 시스템과 함께 레노버 하이브리드 AI 어드밴티지에 NVIDIA Mission Control 소프트웨어를 도입하는 기업은 타의 추종을 불허하는 민첩성으로 생성형 AI와 에이전트 AI 워크로드의 요구 사항을 탐색할 수 있습니다. 레노버와 NVIDIA는 인프라 오케스트레이션을 자동화하고 훈련과 추론 워크로드 간의 원활한 전환을 지원함으로써 고객이 비즈니스 속도에 맞춰 AI 혁신을 확장할 수 있도록 돕습니다”고 말했습니다.

슈퍼마이크로는 NVIDIA Mission Control 소프트웨어를 자사의 슈퍼클러스터(SuperCluster) 시스템에 통합할 계획입니다.

슈퍼마이크로의 최고성장책임자 센리 첸(Cenly Chen)은 “슈퍼마이크로는 NVIDIA Mission Control 소프트웨어가 완벽하게 지원하는 Grace Blackwell NVL72 시스템을 개발하기 위해 NVIDIA와 협력하게 된 것을 자랑스럽게 생각합니다. NVIDIA Grace Blackwell과 함께 슈퍼마이크로의 AI 슈퍼클러스터 시스템에서 실행되는 NVIDIA Mission Control 소프트웨어는 현재의 NVIDIA GB200 NVL72 시스템, NVIDIA GB300 NVL72와 같은 미래 플랫폼 모두에서 성능을 극대화할 수 있는 완벽한 관리 소프트웨어 제품군을 고객에게 제공합니다”고 말했습니다.

무료로 제공되는 AI 클러스터 관리

기업의 인프라 관리를 지원하기 위해 NVIDIA Base Command Manager 소프트웨어는 곧 모든 클러스터 크기에 대해 시스템당 최대 8개의 가속기에 대해 무료로 제공될 예정입니다. 또한, NVIDIA Enterprise Support를 별도로 구매할 수 있는 옵션도 제공됩니다.

이용 정보

현재 NVIDIA DGX GB200과 DGX B200 시스템용 NVIDIA Mission Control을 사용할 수 있습니다. Mission Control이 탑재된 NVIDIA GB200 NVL72 시스템은 델, HPE, 르뉴포노보(LeNewfonovo), 슈퍼마이크로에서 곧 출시될 예정입니다.

NVIDIA Mission Control은 최신 NVIDIA DGX GB300, DGX B300 시스템과 주요 글로벌 공급업체의 GB300 NVL72 시스템에서 사용할 수 있을 것으로 예상됩니다.

소프트웨어 제품 정보에 대한 고지 사항 참조하세요.