AI 팩토리가 전력망의 부하를 완화하는 방법

NVIDIA Inception 스타트업인 Emerald AI는 데이터 센터 AI 워크로드의 성능 요구 사항을 충족하면서 전력망 수요가 가장 많은 시간대의 전력 사용을 제어하는 소프트웨어를 개발하고 있습니다.
by NVIDIA Korea

미국 주요 기술 허브를 포함한 전 세계 여러 지역에서는 새로운 에너지 인프라가 구축될 때까지 AI 팩토리의 가동이 수년 동안 지연되고 있습니다.

이러한 상황에서 Washington D.C.에 본사를 둔 스타트업 Emerald AI는 기존 에너지 자원을 보다 유연하고 전략적으로 활용함으로써 차세대 데이터 센터를 더 빠르게 가동할 수 있도록 돕는 AI 솔루션을 개발하고 있습니다.

Emerald AI의 창립자이자 CEO인 Varun Sivaram은 “전력망은 일반적으로 데이터 센터를 전력 사용 조정이 불가능한 고정적인 시설로 여겨 왔습니다. 에너지 시스템 운영자들은 500메가와트 규모의 AI 팩토리가 언제나 그만큼의 전력을 지속적으로 소비할 것이라고 가정해 왔지요. 하지만 전력망의 수요가 급증하고 공급이 부족한 시점에서, AI 팩토리의 워크로드도 유연하게 조정할 수 있습니다”라고 설명했습니다.

이러한 유연성은 Emerald AI의 Emerald Conductor 플랫폼을 통해 실현됩니다. 이 플랫폼은 전력망과 데이터 센터 사이에서 스마트한 중재자 역할을 하는 AI 기반 시스템입니다. 최근 Arizona주 Phoenix에서 진행된 현장 테스트에서는, 이 소프트웨어가 256개의 NVIDIA GPU로 구성된 클러스터에서 실행 중인 AI 워크로드의 전력 소비를 전력망에 과부하가 걸린 3시간 동안 25% 절감하면서도 컴퓨팅 서비스 품질은 동일하게 유지할 수 있음을 입증했습니다.

Emerald AI는 AI 팩토리에서 실행되는 다양한 워크로드를 유기적으로 조율함으로써 이러한 성과를 이끌어냈습니다. 예를 들어, 학술 연구용 거대 언어 모델의 학습이나 파인튜닝(fine-tuning) 작업은 일시적으로 멈추거나 속도를 늦출 수 있습니다. 반면, 수천에서 수백만 명이 이용하는 AI 서비스의 추론 요청처럼 즉각적인 처리가 필요한 작업은 중단할 수 없지만, 전력 여유가 있는 다른 데이터 센터로 우회시키는 방식으로 대응할 수 있습니다.

Emerald Conductor는 이러한 AI 워크로드를 데이터 센터 네트워크 전반에 걸쳐 조율하여 전력망의 수요 변화에 능동적으로 대응합니다. 시간에 민감한 워크로드는 성능을 그대로 유지하고, 유연하게 조정 가능한 워크로드는 허용 가능한 범위 내에서 처리량을 동적으로 줄이는 방식입니다.

기존 전력 시스템을 활용해 AI 팩토리를 더 빠르게 가동할 수 있도록 돕는 것을 넘어, 이러한 전력 사용 조절 능력은 도시의 순환 정전을 방지하고, 지역 사회가 전기 요금 상승으로부터 보호받으며, 전력망이 청정 에너지를 보다 수월하게 통합하는 데에도 기여할 수 있습니다.

Emerald AI의 최고 과학자이자 Boston University 교수인 Ayse Coskun은 “간헐적이고 변동성이 큰 재생 에너지는, 전력 공급 변화에 유연하게 반응할 수 있는 완충 장치가 많이 갖춰진 전력망일수록 통합이 수월합니다”라며 “데이터 센터가 그런 완충 장치 역할을 할 수 있습니다”라고 말했습니다.

스타트업을 위한 NVIDIA Inception 프로그램에 참여하고 있으며 NVentures의 포트폴리오 기업이기도 한 Emerald AI는 최근 시드 투자로 2,400만 달러 이상을 유치했다고 발표했습니다. Arizona주 Phoenix에서 진행된 이번 데모는 EPRI의 DCFlex 데이터 센터 유연성 이니셔티브의 일환으로, NVIDIA, Oracle Cloud Infrastructure(OCI), 지역 전력회사인 Salt River Project(SRP)와 협력해 실행됐습니다.

EPRI의 DCFlex 컨소시엄을 이끄는 Anuja Ratnayake는 “Phoenix에서 진행된 기술 실증은 데이터 센터 유연성의 핵심 요소가 지닌 막대한 잠재력을 입증한 사례입니다”라고 밝혔습니다.

EPRI는 또한 Open Power AI Consortium을 주도하고 있으며, 이 컨소시엄은 NVIDIA를 포함한 에너지 기업, 연구자, 기술 기업들이 모여 에너지 분야에 AI를 적용하는 방안을 공동으로 연구하고 있습니다.

전력망의 잠재력을 최대한 활용하기

전력망 용량은 일반적으로 한여름 무더위나 한겨울 한파 같은 피크 상황을 제외하면 대부분 과소 활용되고 있습니다. 냉방이나 난방 수요로 전력 사용이 급증하는 시기를 제외하면, 기존 전력망에도 새로운 데이터 센터를 수용할 여력이 있다는 뜻입니다. 단, 피크 수요 시 일시적으로 전력 사용량을 줄일 수 있어야 합니다.

Duke University의 최근 연구에 따르면, 새로운 AI 데이터 센터가 한 번에 2시간씩, 연간 200시간 미만으로 전력 소비를 25%만 유연하게 조정할 수 있다면, 데이터 센터 연결을 위한 100기가와트의 신규 전력 용량을 확보할 수 있다고 합니다. 이는 2조 달러 이상의 데이터 센터 투자에 해당하는 규모입니다.

AI 팩토리의 유연성을 테스트하다

Emerald AI의 최근 테스트는 Oracle Cloud Phoenix Region에서 NVIDIA GPU를 활용해 진행됐으며, Databricks MosaicML을 통해 관리되는 멀티 랙 클러스터 상에서 실행됐습니다.

이번 테스트에 전력 사용량 측정 데이터를 제공한 Oracle Cloud Infrastructure의 최고 기술 설계자이자 수석 부사장인 Pradeep Vincent는 “AI 고객에게 고성능 컴퓨팅을 신속하게 제공하는 것이 중요하지만, 이는 전력망의 가용성에 제약을 받습니다”라며 “실시간 전력망 상황에 유연하게 반응하면서도 성능 요구를 충족하는 컴퓨팅 인프라는, AI를 더 빠르고 친환경적이며 전력망 친화적인 방식으로 확장할 수 있는 새로운 모델을 가능하게 합니다”라고 설명했습니다.

Databricks의 Chief AI Scientist인 Jonathan Frankle은 테스트에 사용된 AI 워크로드의 선정과 유연성 한계치를 정의하는 데 관여했습니다.

Frankle은 “AI 워크로드의 실행 방식에는 일정 수준의 잠재적인 유연성이 존재합니다”라며 “실제로 중단이 불가능한 작업은 일부에 불과하고, 학습이나 배치 추론, 파인튜닝과 같은 많은 작업은 사용자에 따라 우선순위가 달라질 수 있습니다”라고 말했습니다.

Arizona는 데이터 센터 성장률이 가장 높은 지역 중 하나이기 때문에, SRP는 Phoenix의 전력망 제약을 완화할 수 있음을 입증하고자 AI 컴퓨팅 클러스터에 25% 전력 소비 절감이라는 도전적인 유연성 목표를 설정했습니다.

SRP의 사장 David Rousseau는 “이번 테스트는 AI 데이터 센터를 전력망 운영에 실질적인 도움을 주는 자원으로 완전히 새롭게 재정의할 수 있는 기회였습니다”라고 말했습니다.

5월 3일, 냉방 수요가 높았던 Phoenix의 더운 날 오후 6시에 SRP의 시스템은 피크 수요를 기록했습니다. 테스트 당시 데이터 센터 클러스터는 15분 동안 점진적으로 전력 소비를 줄였고, 이후 3시간 동안 25% 절감된 수준을 유지했으며, 다시 원래 수준까지 전력을 올리는 과정에서도 기준 소비량을 초과하지 않았습니다.

AI 팩토리 사용자는 각 워크로드에 레이블을 붙여 어떤 작업을 느리게 하거나 일시 중단하거나 재조정할 수 있는지 Emerald의 소프트웨어에 지시할 수 있으며, 또는 Emerald의 AI 에이전트가 이를 자동으로 예측해 조정할 수도 있습니다.

(왼쪽 패널): 2025년 5월 3일 SRP 전력망 피크 수요 시 AI GPU 클러스터의 전력 소비량; (오른쪽 패널): 유연성 등급별 AI 작업 성능. Flex 1은 6시간 동안 평균 처리량 감소가 최대 10%, Flex 2는 최대 25%, Flex 3은 최대 50%까지 허용됩니다. Emerald AI 제공

워크로드 조율 결정은 Emerald Simulator에 의해 이루어졌습니다. 이 시뮬레이터는 시스템 동작을 정밀하게 모델링해 에너지 사용량과 AI 성능 간의 균형을 최적화합니다. 데이터 제공업체인 Amperon의 과거 전력망 수요 데이터를 통해, AI 클러스터가 전력망 피크 시간 동안 올바르게 작동했음을 확인할 수 있었습니다.

Emerald 시뮬레이터의 AI GPU 클러스터 전력 예측과 실제 측정된 전력 소비량의 비교. 그림은 에메랄드 AI에서 제공되었습니다.

에너지 회복력을 갖춘 미래를 향해

국제에너지기구(IEA)는 전 세계 데이터 센터의 전력 수요가 2030년까지 두 배 이상 증가할 수 있다고 전망하고 있습니다. 이러한 전력망 수요 증가에 대비해 텍사스 주는, 전력 부하 분산(load shed) 상황에서 전력회사의 요청에 따라 데이터 센터가 전력 소비를 줄이거나 전력망에서 분리되도록 요구하는 법안을 통과시켰습니다.

Sivaram은 “이런 상황에서 데이터 센터가 에너지 소비를 동적으로 줄일 수 있다면, 전력 공급에서 완전히 차단되는 일을 피할 수 있을지도 모릅니다”라고 설명했습니다.

Emerald AI는 앞으로 Arizona를 포함한 다양한 지역에서 기술 실증을 확대할 계획이며, NVIDIA와의 협업을 지속해 AI 팩토리에서 자사 기술을 테스트해 나갈 예정입니다.

Sivaram은 “우리는 데이터 센터를 제어 가능하게 만들면서도 AI 성능은 충분히 보장할 수 있습니다”라며 “전력망이 빠듯할 때는 유연하게 반응하고, 사용자가 필요로 할 때는 전력을 다해 가속할 수 있는 것이 AI 팩토리의 미래입니다”라고 말했습니다.

NVIDIA Inception에 대해 더 알아보고, 에너지 및 유틸리티 산업을 위해 설계된 AI 플랫폼을 살펴보세요.