AI 팩토리 구축 청사진 제공하는 NVIDIA DSX 플랫폼

NVIDIA DSX 플랫폼은 AI 팩토리 아키텍처 스택 전반을 통합하고, 인프라 설계, 배포, 운영 기준을 제시합니다. 그리고 토큰 비용 최소화와 첫 프로덕션 가동까지의 시간 단축을 지원합니다.
by
AI 팩토리 구축 청사진 제공하는 NVIDIA DSX 플랫폼

AI 팩토리 인프라 구축 기업에 종합적인 청사진을 제공하는 NVIDIA DSX™ 플랫폼을 공개합니다!

NVIDIA DSX는 모듈형 오픈소스 소프트웨어 라이브러리, API, 레퍼런스 디자인, NVIDIA 가속 컴퓨팅 플랫폼, 파트너사 기술을 공동 설계된 하나의 플랫폼으로 통합합니다. 이는 AI 팩토리의 설계와 배포, 운영 전 과정을 지원하죠.

NVIDIA는 AI 팩토리 전반을 직접 구축하는 유일한 기업입니다. DSX는 컴퓨팅, 소프트웨어, 시설, 파트너사 기술에 이르는 스택 전반의 모든 레이어를 긴밀히 통합하는데요. 이를 통해 대규모 AI 팩토리의 설계와 배포, 운영에 필요한 검증된 프레임워크를 제공합니다.

이 통합 플랫폼은 배포 속도를 높이고, 대규모 가동 환경에서 운영 신뢰성과 복원력을 강화합니다. 아울러 메가와트당 더 많은 인텔리전스를 구현하면서 토큰당 비용은 최소화하도록 설계된 광범위한 솔루션 생태계를 지원합니다.

NVIDIA  젠슨 황 CEO는 “저희가 공급하는 것은 단순한 칩이 아닙니다. 개별 인프라 구축 기업들에 AI 팩토리 구축을 위한 종합적인 청사진을 제공하고 있는 것입니다. DSX 플랫폼을 활용하면 돈 한 푼 들이지 않고 AI 팩토리 전체를 시뮬레이션할 수 있고, 서버 랙 하나 없이도 성능을 검증할 수 있으며, 실제 운영 환경에서 AI가 요구하는 수준의 신뢰성을 바탕으로 시스템을 운영할 수 있습니다”라고 말했습니다.

DSX 플랫폼 구성 요소

DSX는 실리콘과 시스템부터 인프라 소프트웨어, 시설, 파트너사 기술에 이르기까지 AI 팩토리 스택 전반을 포함합니다. DSX 플랫폼에는 오픈소스 소프트웨어가 새롭게 추가됐습니다.

  • DSX MaxLPS: 일정한 전력 한도 내에서 메가와트당 토큰 성능을 극대화해 AI 팩토리의 토큰 비용을 최소화하는 기술 제품군입니다. 45°C 액체 냉각과 와트당 성능을 최적화하는 랙 내 기술을 결합하는데요. 이를 통해 운영자는 GPU를 가장 에너지 효율적인 지점에서 구동하면서, 워크로드 성능에 미치는 영향을 최소화한 채 최대 40% 더 많은 GPU를 운영할 수 있습니다.
  • DSX OS: AI 팩토리 운영을 위해 특별히 설계된 모듈형 오픈소스 소프트웨어로 수명 주기 관리, 지능형 스케줄링, 일관된 런타임 환경, 상태 자동화, 복원력, 멀티 테넌트 운영, 플랫폼 서비스를 제공합니다.

DSX MaxLPS와 DSX OS는 DSX 플랫폼이 제공하는 기존 기능군에 통합됩니다.

  • DSX 레퍼런스 디자인: 각 세대 맞춤형의 검증된 AI 팩토리 아키텍처로 컴퓨팅과 네트워킹, 스토리지, 하드웨어 클러스터 설계, 시설 인프라를 포괄합니다. 여기에는 전력과 냉각, 제어 시스템은 물론 토목, 구조, 건축 설계도 포함되죠.
  • DSX Sim™: AI 팩토리의 전체 수명 주기를 위한 고충실도 시뮬레이션 레이어입니다. NVIDIA를 비롯한 파트너사와 고객이 인프라의 계획과 설계부터 배포와 운영에 이르는 모든 단계에서 의사 결정을 모델링하고 검증하며 최적화할 수 있습니다.
  • DSX Flex: AI 팩토리와 전력망 서비스를 연결해 부하 차단, 수요 반응, 전력 가격 변동 등의 전력망 조건 변화에 맞춰 워크로드를 동적으로 조정할 수 있도록 지원합니다. 또한 공공 전력, 부지 내 재생에너지, 스토리지를 아우르는 재생에너지와 하이브리드 전력원을 통합 관리합니다.
  • DSX Exchange™: IT와 운영기술(OT), 운영 에이전트 간에 발생하는 컴퓨팅, 네트워크, 에너지, 전력, 냉각 설비 신호가 확장 가능하며 안전하게 통합될 수 있도록 지원합니다.

확장을 거듭하는 DSX 생태계

대만의 선도적인 시스템 제조사들은 협력을 통해 DSX 생태계를 확장하고 있으며, 철저한 공동 설계를 기반으로 AI 팩토리 구축을 돕고 있습니다.

NVIDIA 클라우드 파트너사인 코어위브(CoreWeave), 크루소(Crusoe), 퍼머스(Firmus), 아이렌(IREN), 람다(Lambda), 네비우스(Nebius), 엔스케일(Nscale), 요타 데이터 서비스(Yotta Data Services)는 DSX 플랫폼 스택의 핵심 구성 요소인 DSX Sim과 DSX MaxLPS, DSX OS를 도입했습니다. 이를 통해 리스크를 줄이고 GPU 활용률을 높이면서, AI 클라우드 용량을 더욱 신속하게 가동합니다.

델 테크놀로지스(Dell Technologies), HPE, 레노버(Lenovo), 슈퍼마이크로(Supermicro)를 비롯해 에이수스(ASUS), 폭스콘(Foxconn), 기가바이트(GIGABYTE), 페가트론(Pegatron), 퀀타 클라우드 테크놀로지(Quanta Cloud Technology, QCT), 위스트론(Wistron), 위윈(Wiwynn)은 NVIDIA DSX 레디 시스템을 구축 중입니다. 또한 고객들이 AI 팩토리 솔루션을 세계적인 규모로 배포할 수 있도록 시뮬레이션에 즉시 활용이 가능한 에셋을 제공하고 있습니다.

DSX 생태계 내에서 모델 기반 시스템 엔지니어링은 랙 설계와 시설 구축을 연결하는 가교 역할을 하는데요. 이는 메가와트당 토큰 성능이 최적화된 AI 인프라를 구현합니다. QCT와 페가트론은 다쏘 시스템(Dassault Systèmes)과 협력해 실시간 AI 팩토리 디지털 트윈 구성 도구를 개발하고 있습니다. 이를 통해 랙부터 시설 전체에 이르는 설계 과정을 자동화해 품질을 높이고 작업 부담은 줄일 계획이죠. 시스템 제조사들의 DSX Sim 도입에 힘입어 NVIDIA Omniverse DSX Blueprint 생태계는 확장을 거듭하고 있으며, 케이던스(Cadence), PTC, 지멘스(Siemens) 등 소프트웨어 파트너사와의 통합도 한층 강화되고 있습니다.

DSX Flex는 에메랄드 AI(Emerald AI)와 실리콘 밸리 파워(Silicon Valley Power)의 메가와트급 상용 파일럿 프로그램에 활용됐는데요. 전력회사의 신호에 따라 전력 소비를 동적으로 조정하면서도 AI 워크로드 성능은 유지하는 전력망 반응형 AI 팩토리의 가능성을 보여주고 있죠. 이는 전력망 안정성과 경제성을 높이는 동시에 AI 성장을 뒷받침할 추가 전력을 확보하도록 돕고 있습니다.

NVIDIA 파트너사들은 수명 주기 관리, 멀티 테넌시, 보안, 상태 관리 자동화, 복원력, 플랫폼 서비스를 위해 DSX OS의 다양한 소프트웨어 구성 요소들을 채택하고 있습니다. DSX OS 구성 요소를 도입한 생태계 파트너사에는 에이블(Aible), 비욘드AI(BeyondAI), 바시니(Bhashini), DCAI, 미란티스(Mirantis), 오픈네뷸라 시스템즈(OpenNebula Systems), 라페이(Rafay), 레드햇(Red Hat), 사르밤(Sarvam), 심플리스마트(Simplismart), 스펙트로 클라우드(Spectro Cloud), 슈퍼마이크로, v클러스터(vCluster), 벌처(Vultr) 등이 있습니다.

NVIDIA 젠슨 황 CEO의 키노트를 시청하고, NVIDIA GTC Taipei에 대해 자세히 알아보세요.