NVIDIA Omniverse Blueprint로 발전하는 AI 팩토리 설계와 운영

엔지니어는 케이던스(Cadence), ETAP, 슈나이더 일렉트릭(Schneider Electric), 버티브(Vertiv) 솔루션과 연결된 NVIDIA Omniverse Blueprint를 통해 디지털 트윈으로 차세대 인텔리전스 제조 데이터센터를 설계, 테스트, 최적화할 수 있습니다
by NVIDIA Korea

이제 AI는 하나의 주류로 자리 잡았으며, AI 훈련과 추론 전용 인프라이자 인텔리전스 생산의 핵심인 AI 팩토리에 대한 수요는 그 어느 때보다 급증하고 있습니다.

AI 팩토리는 AI 훈련과 추론을 전담하는 특수 목적의 인프라인데요. AI 팩토리의 대부분은 기가와트급 규모로 건설될 예정입니다. 이러한 규모의 AI 팩토리를 구축하는 것은 엄청난 엔지니어링과 물류 작업이 필요한데요. 1기가와트 규모의 AI 팩토리 건설에는 공급업체, 건축가, 시공업체, 엔지니어 등 수만 명의 인력이 필요하며, 약 50억 개의 부품과 21만 마일 이상의 광케이블을 제작, 배송, 조립해야 합니다.

AI 팩토리의 설계와 최적화를 지원하기 위해 NVIDIA는 GTC에서 AI 팩토리의 설계와 운영을 위한 새로운 NVIDIA Omniverse Blueprint를 공개했습니다.

NVIDIA 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 GTC 키노트에서 NVIDIA의 데이터센터 엔지니어링 팀이 Omniverse Blueprint에서 1기가와트급 AI 팩토리를 계획, 최적화, 시뮬레이션할 수 있는 애플리케이션을 어떻게 개발했는지 그 과정을 소개했습니다. 엔지니어링 팀은 케이던스 리얼리티 디지털 트윈 플랫폼(Cadence Reality Digital Twin Platform)과 ETAP와 같은 선도적인 시뮬레이션 툴에 연결해 인프라 건설이 시작되기 훨씬 전, 전력과 냉각 그리고 네트워킹을 테스트하고 최적화할 수 있습니다.

시뮬레이션 우선 접근 방식을 채택하는 엔지니어링 AI 팩토리

AI 팩토리 설계와 운영을 위한 NVIDIA Omniverse Blueprint는 오픈USD(OpenUSD) 라이브러리를 사용합니다. 이를 통해 개발자는 건물 자체, NVIDIA 가속 컴퓨팅 시스템, 슈나이더 일렉트릭(Schneider Electric)이나 버티브(Vertiv)와 같은 공급업체의 전력 또는 냉각 장치 등 서로 다른 소스에서 3D 데이터를 수집할 수 있죠.

이 Blueprint는 수십억 개의 AI 팩토리 구성 요소에 대한 설계와 시뮬레이션을 통합함으로써 엔지니어가 다음과 같은 복잡한 문제를 해결할 수 있도록 돕습니다.

  • 구성 요소 통합과 공간 최적화NVIDIA DGX SuperPOD, GB300 NVL72 시스템 그리고 50억 개의 구성 요소의 설계와 시뮬레이션을 통합합니다.
  • 냉각 시스템 성능과 효율성NVIDIA CUDA와 Omniverse 라이브러리로 가속화된 케이던스 리얼리티 디지털 트윈 플랫폼을 사용해 버티브와 슈나이더 일렉트릭의 하이브리드 공랭식 또는 수랭식 솔루션을 시뮬레이션하고 평가합니다.
  • 전력 분배와 신뢰성 – ETAP로 확장 가능한 이중화 전력 시스템을 설계해 전력 블록의 효율성과 신뢰성을 시뮬레이션합니다.
  • 네트워킹 토폴로지(Networking topology)와 논리NVIDIA Spectrum-X 네트워킹과 NVIDIA Air 플랫폼으로 고대역폭 인프라를 미세 조정합니다.

Omniverse로 엔지니어링 사일로 해소

AI 팩토리 건설에서 가장 큰 과제 중 하나는 전력, 냉각, 네트워킹 등 각 분야의 팀이 개별적으로 운영되면서 비효율성과 잠재적인 오류를 초래한다는 점인데요.

Omniverse Blueprint를 활용하면 엔지니어들은 다음과 같은 방식으로 협업할 수 있습니다.

  • 맥락을 공유하며 협업 – 여러 엔지니어링 분야가 실시간 시뮬레이션을 공유하며 병렬로 설계하고 조정할 수 있어, 한 영역의 변경이 다른 영역에 미치는 영향을 즉시 파악할 수 있습니다.
  • 에너지 사용 최적화 – 실시간 시뮬레이션 업데이트를 통해 AI 워크로드에 가장 효율적인 설계를 도출할 수 있습니다.
  • 오류 발생 지점 제거 – 배포 전에 이중화 구성을 검증함으로써 비용이 많이 드는 다운타임 위험을 최소화할 수 있습니다.
  • 실제 환경 모델링 – 다양한 AI 워크로드가 냉각 성능, 전력 안정성, 네트워크 혼잡도에 미치는 영향을 예측하고 테스트할 수 있습니다.

이 Blueprint는 실시간 시뮬레이션을 각 엔지니어링 분야와 통합함으로써 운영 비용 모델링과 전력 활용 최적화를 위한 다양한 구성 방안을 탐색할 수 있도록 합니다.

실시간 시뮬레이션으로 빨라지는 의사 결정

젠슨 황 CEO의 시연에서 엔지니어들은 실시간으로 AI 팩토리 구성 요소를 조정하고 그 영향을 즉시 확인할 수 있었습니다.

예를 들어, 냉각 레이아웃을 조금만 조정해도 효율성이 크게 개선됐는데, 이는 기존 문서 기반 설계에서는 놓치기 쉬운 요소입니다. 또한, 기존에는 몇 시간씩 소요되던 시뮬레이션 결과를 단 몇 초 만에 확인해 전략을 테스트하고 개선할 수 있었죠.

최적의 설계가 확정된 후에는 공급업체와 건설 팀의 원활한 소통을 도와 실제 건축물이 모델 그대로 정확한 시공이 이루어질 수 있도록 보장했습니다.

미래를 대비하는 AI 팩토리

AI 워크로드는 지속적으로 변화합니다. AI 애플리케이션의 차세대 물결은 전력, 냉각, 네트워킹에 대한 수요를 더욱 증가시킬 것입니다. AI 팩토리 설계와 운영을 위한 Omniverse Blueprint는 이러한 변화에 대비할 수 있도록 다음과 같은 기능을 제공합니다.

  • 워크로드 인식 시뮬레이션 – AI 워크로드의 변화가 데이터센터 규모에서 전력과 냉각에 어떤 영향을 미칠지 예측합니다.
  • 장애 시나리오 테스트 – 전력망 장애, 냉각 누수, 전력 급등을 모델링해 시스템 회복력을 보장합니다.
  • 확장 가능한 업그레이드 – AI 팩토리 확장을 계획하고, 몇 년 후의 인프라 요구 사항을 예측합니다.

또한, 개조와 업그레이드를 계획할 때 비용과 다운타임을 쉽게 테스트하고 시뮬레이션해 미래에 대비한 AI 팩토리를 구축할 수 있죠.

AI 팩토리 운영자에게 앞서 나간다는 것은 단순히 효율성을 높이는 것만이 아니라, 하루에 수백만 달러의 비용이 발생할 수 있는 인프라 장애를 방지하는 것이기도 합니다.

1기가와트 AI 팩토리의 경우, 매일 발생하는 다운타임으로 1억 달러 이상의 비용이 발생할 수 있는데요. 이 Blueprint는 인프라 문제를 미리 해결함으로써 위험과 배포 시간을 모두 줄여줍니다.

AI 팩토리 운영을 위한 에이전틱 AI로 가는 길

NVIDIA는 AI 기반 운영으로 확장하기 위한 다음 단계의 Blueprint를 마련하기 위해 버테크(Vertech), 파이드라(Phaidra)와 같은 주요 기업들과 협력하고 있습니다.

버테크는 NVIDIA 데이터센터 엔지니어링 팀과 협력해 고급 AI 팩토리 제어 시스템을 개발하고 있습니다. 이 시스템은 IT와 운영 기술 데이터를 통합해 운영 안정성과 가시성을 향상시킵니다.

파이드라는 NVIDIA와 협력해 강화 학습 기반 AI 에이전트를 Omniverse에 통합하고 있습니다. 이러한 에이전트는 실시간 시나리오 시뮬레이션을 통해 열 안정성과 에너지 효율을 최적화하죠. 그리고 하드웨어와 환경 변화에 맞춰 지속적으로 적응하는 디지털 트윈을 생성합니다.

AI 데이터센터의 폭발적 성장

AI는 전 세계 데이터센터 환경을 빠르게 재편하고 있습니다. AI 기반 데이터센터 업그레이드에 1조 달러가 투자될 것으로 예상되는 가운데, 디지털 트윈 기술은 더 이상 선택이 아닌 필수죠.

AI 팩토리 설계와 운영을 위한 NVIDIA Omniverse Blueprint는 NVIDIA와 파트너 에코시스템이 이러한 변화를 주도할 수 있도록 지원합니다. 이를 통해 AI 팩토리 운영자는 끊임없이 진화하는 AI 워크로드에 앞서 나가고, 다운타임을 최소화하며, 효율성을 극대화할 수 있습니다.

NVIDIA Omniverse에 대해 자세히 알아보세요 또한, GTC 키노트를 시청하고 Omniverse Blueprint를 실제로 확인해 보세요. AI 팩토리에 대해 자세히 알아보세요.

소프트웨어 제품 정보에 관한 공지를 참조하세요.