수자원 효율성 300배 이상 향상시키는 ‘NVIDIA Blackwell 플랫폼’

GB200 NVL72와 GB300 NVL72는 AI 인프라를 위한 수랭식 방식으로 데이터센터와 AI 팩토리 전반의 효율성을 더욱 높입니다
by NVIDIA Korea

전통적으로 데이터센터는 공랭식에 의존해왔습니다. 이 방식은 기계식 냉각기가 차가운 공기를 순환시켜 서버에서 발생하는 열을 흡수하고, 이를 통해 서버가 최적의 상태를 유지하도록 돕는 방식이죠. 그러나 AI 모델의 규모가 커지고 AI 추론 모델의 사용이 증가함에 따라, 이러한 최적 조건을 유지하는 것은 점점 더 어려워지고 있습니다. 비용과 에너지 소비 또한 더 많아지고 있죠.

과거에는 데이터센터가 랙당 20킬로와트(kW) 수준에서 운영됐지만, 오늘날의 하이퍼스케일 시설은 랙당 135kW 이상의 전력을 지원합니다. 이에 고밀도 랙에서 발생하는 열을 방출하는 일은 훨씬 더 어려워졌습니다. 따라서 AI 서버를 최상의 성능으로 유지하기 위해서는 효율성과 확장성을 동시에 확보할 수 있는 새로운 접근 방식이 필요합니다.

이에 대한 핵심적인 해결책 중 하나는 수랭식 기술입니다. 이 방식은 냉각기에 대한 의존도를 줄이고 보다 효율적인 열 배출을 가능하게 해 고성능, 고에너지 효율 AI 인프라의 차세대를 이끌고 있습니다.

NVIDIA GB200 NVL72NVIDIA GB300 NVL72는 수조 개 파라미터를 사용하는 거대 언어 모델(LLM) 추론의 까다로운 작업을 처리하도록 설계된 랙 스케일 수랭식 시스템입니다. 이 시스템들의 아키텍처는 테스트 타임 스케일링(test-time scaling, TTS) 정확도와 성능을 위해 최적화돼 있습니다. 따라서 에너지 비용과 열을 효율적으로 관리해 AI 추론 모델을 실행하는 데 이상적입니다.

수랭식 NVIDIA Blackwell 컴퓨팅 트레이

AI 데이터센터에서 전례 없는 수자원 효율성과 비용 절감 추진

과거에는 냉각만으로도 데이터센터 전체 전력 소비의 최대 40%를 차지했습니다. 이는 운영 비용과 에너지 수요를 동시에 줄일 수 있는 가장 중요한 효율화 대상 중 하나였습니다.

수랭식 냉각은 열을 발생원에서 직접 잡아내 비용과 에너지 사용을 줄입니다. 다이렉트 투 칩(direct-to-chip) 수랭식 냉각은 공기를 매개체로 사용하는 대신, 냉각 시스템 순환 루프에서 열을 전달합니다. 이 열은 액체 간 열교환기를 통해 냉각수 분배 장치(Coolant Distribution Unit, CDU)를 거쳐 순환되며, 최종적으로 시설 냉각 루프로 전달됩니다. 이 같은 열 전달 방식은 효율성이 훨씬 높기 때문에 데이터센터와 AI 팩토리는 더 높은 온도의 물로도 효과적인 운영이 가능해지죠. 그 결과 다양한 기후 환경에서 기계식 냉각기의 사용을 줄이거나 아예 없앨 수 있습니다.

NVIDIA Blackwell 플랫폼에 구축된 NVIDIA GB200 NVL72 랙 스케일 수랭식 시스템은 탁월한 성능을 제공하는 동시에 에너지 비용과 발열의 균형을 맞춥니다. 각 서버 랙에 전례 없는 컴퓨팅 밀도를 제공해 기존 공랭식 아키텍처보다 40배 높은 수익 잠재력, 30배 높은 처리량, 25배 높은 에너지 효율성, 300배 높은 수자원 효율성을 제공합니다. Blackwell Ultra 플랫폼에 구축된 최신 NVIDIA GB300 NVL72 시스템은 50배 높은 수익 잠재력과 35배 높은 처리량, 30배 높은 에너지 효율성을 자랑합니다.

데이터센터는 연간 메가와트(MW)당 약 190만~280만 달러를 지출하며, 이 중 약 50만 달러는 냉각 관련 에너지와 물 사용 비용으로 쓰입니다. GB200 NVL72 수랭식 시스템을 도입하면, 하이퍼스케일 데이터센터와 AI 팩토리는 최대 25배의 비용 절감을 누릴 수 있습니다. 이는 50MW 규모의 하이퍼스케일 데이터센터 기준 연간 400만 달러 이상의 비용 절감으로 이어집니다.

이로써 데이터센터와 AI 팩토리 운영자들은 운영 비용을 절감하고 에너지 효율성 지표도 개선할 수 있습니다. 또한, 기존 냉각 방식의 지속 가능하지 않은 물 사용량 없이도 AI 워크로드를 효율적으로 확장하는 미래지향적 인프라를 가져옵니다.

데이터센터 외부로 열 이동하기

컴퓨팅 밀도가 높아지고 AI 워크로드가 전례 없는 열 부하를 유발함에 따라, 데이터센터와 AI 팩토리는 인프라에서 열을 제거하는 방법을 재고해야 합니다. CPU 중심의 예측 가능한 확장에 맞춰 설계된 기존의 열 제거 방식만으로는 이제 충분하지 않죠. 오늘날 열을 시설 외부로 이동시키는 여러 방법 중 네 가지 주요 방식이 현재와 미래의 적용 사례에서 핵심적인 역할을 하고 있습니다.

변화하는 환경 속 핵심 냉각 방식들

  • 기계식 냉각기: 기계식 냉각기는 증기 압축 사이클을 사용해 물을 냉각한 후, 그 물을 데이터센터 내에서 순환시켜 열을 흡수하게 합니다. 이러한 시스템은 일반적으로 공랭식 또는 수랭식으로 구성되며, 후자는 냉각탑과 결합해 열을 제거하는 경우가 많죠. 다양한 기후에서 신뢰성과 성능이 뛰어난 방식이지만, 동시에 에너지 소모가 크다는 단점이 있습니다. 전력 소비와 지속 가능성이 최우선 과제인 AI 규모 시설에서는 기계식 냉각기에 의존할 경우 운영 비용과 탄소 배출량이 크게 증가할 수 있습니다.
  • 증발 냉각: 증발 냉각은 물의 증발을 이용해 열을 흡수하고 제거하는 방식입니다. 이는 직접 혹은 간접 시스템이나 하이브리드 설계를 통해 달성할 수 있습니다. 이러한 시스템은 기계식 냉각기보다 에너지 효율이 훨씬 높지만 물 소비량이 높습니다. 대규모 시설에서는 연간 메가와트당 수백만 갤런의 물을 소비할 수도 있습니다. 또한, 기후에 따라 성능이 달라지므로 습하거나 물이 부족한 지역에서는 효율성이 떨어집니다.
  • 건식 냉각기: 건식 냉각기는 밀폐된 액체 루프 내의 열을 대기 중으로 방출하는 방식으로, 대형 핀 코일을 통해 열을 이동시키며 자동차 라디에이터와 유사한 원리로 작동합니다. 이 시스템은 물에 의존하지 않으며, 물 사용량을 줄이거나 건조한 기후에서 운영하려는 시설에 이상적이죠. 그러나 열 제거 효과는 주변 기온에 따라 크게 달라집니다. 더 따뜻한 환경에서는 높은 작동 온도를 견딜 수 있는 수랭식 IT 시스템과 함께 사용하지 않으면 고밀도 냉각 수요를 따라잡기 어려울 수 있습니다.
  • 펌프 냉매 시스템: 펌프 냉매 시스템은 액체 냉매를 사용해 데이터센터에서 실외 열교환기로 열을 이동시킵니다. 기계식 냉각기와 달리 이 시스템은 시설 내부의 대형 압축기에 의존하지 않으며, 물 사용 없이 작동하죠. 이 방식은 열역학적으로 효율적이고, 공간을 적게 차지하며 확장성이 뛰어납니다. 특히, 엣지 환경이나 물 사용이 제한적인 환경에 적합합니다. 냉매의 적절한 취급과 모니터링이 필요하지만, 전력과 물 소비 측면에서 큰 이점을 제공합니다.

각 냉각 방식은 기후, 랙 밀도, 시설 설계, 지속 가능성 목표 등 다양한 요소에 따라 서로 다른 장점을 가집니다. 수랭식 방식이 보편화되고 서버가 더 높은 온도의 물에서도 작동 가능하도록 설계되면서, 냉각 전략도 점점 더 효율적이고 환경 친화적인 방향으로 발전하고 있습니다. 이로 인해 에너지와 물 사용을 줄이면서도 더 높은 컴퓨팅 성능을 실현할 수 있게 됐습니다.

AI 인프라에 최적화된 데이터센터

AI 워크로드가 기하급수적으로 증가함에 따라, 운영자는 고성능 AI와 에너지 효율을 위해 특별히 구축된 인프라로 데이터센터 설계를 재구상하고 있습니다. 전체 환경을 AI 전용 팩토리로 전환하거나 모듈식 구성 요소를 업그레이드하는 데 있어, 추론 성능을 최적화하는 일은 비용과 운영 효율성 관리에 매우 중요하죠.

최고의 성능을 얻으려면 단순히 연산 성능이 높은 GPU만으로는 부족합니다. 이 GPU들이 서로 광속에 가까운 속도로 통신할 수 있어야 합니다.

NVIDIA NVLink는 이러한 통신 기능을 향상시켜 GPU가 120kW의 풀랙 전력 밀도로 최대 성능을 발휘하는 강력한 통합 처리 장치로 작동하도록 지원합니다. 이러한 긴밀한 고속 통신은 데이터 전송 시간을 절약할 때마다 초당 더 많은 토큰과 더 효율적인 AI 모델을 확보할 수 있는 오늘날의 AI 작업에 매우 중요합니다.

기존의 공랭식 방식은 같은 전력 수준에서는 한계를 갖습니다. 부족한 성능을 만회하기 위해선 데이터센터의 공기를 영하로 냉각하거나, 강풍처럼 빠르게 순환시켜야 합니다. 따라서 공기만으로 밀집된 랙을 냉각하는 것은 갈수록 비현실적인 방법입니다.

공기보다 밀도가 약 1,000배 높은 액체를 활용한 수랭식 방식은 뛰어난 열용량과 열전도율 덕분에 열을 제거하는 데 탁월합니다. 이 방식은 고성능 GPU에서 발생한 열을 효율적으로 이동시켜, 에너지 집약적이고 소음이 큰 냉각 팬에 대한 의존도를 줄입니다. 따라서 냉각 시스템이 아닌 실제 연산 작업에 더 많은 전력이 할당될 수 있습니다.

수랭식 방식의 실제 적용

업계 전반의 혁신 기업들은 에너지 비용을 절감, 밀도 개선, AI 효율성 강화를 위해 수랭식 방식을 적극적으로 도입하고 있습니다.

클라우드 서비스 제공업체들도 최첨단 냉각과 전력 혁신 기술을 도입하고 있습니다. 차세대 아마존 웹 서비스(Amazon Web Services, AWS) 데이터센터는 공동 개발된 수랭식 솔루션을 통해 컴퓨팅 성능을 12% 향상시키며 에너지 소비를 최대 46%까지 줄이면서도 수자원 효율성은 그대로 유지하고 있습니다.

미래의 AI 인프라 냉각 방식

AI가 컴퓨팅 규모의 한계를 지속적으로 확장하고 있습니다. 이에 따라 냉각 기술의 혁신은 포스트 무어의 법칙(Moore’s law) 시대에 접어든 현재, 점점 더 심화되는 열 관리 문제를 해결하는 핵심적인 역할을 하게 될 것입니다.

NVIDIA는 쿨러칩스(COOLERCHIPS) 프로그램과 같은 이니셔티브를 통해 변화를 주도하고 있습니다. 쿨러칩스 프로그램은 미국 에너지부(Department of Energy)의 지원을 받아 차세대 냉각 시스템을 갖춘 모듈형 데이터센터를 개발하기 위한 프로그램입니다. 이 시스템은 기존 공랭식 설계 대비 비용을 최소 5% 절감하며, 효율성을 20% 향상시킬 것으로 전망됩니다.

앞으로 데이터센터는 증가하는 AI 수요를 지원할 뿐만 아니라, 에너지와 수자원 효율성을 극대화하고 환경에 미치는 영향을 최소화하는 등 지속 가능한 방식으로 진화해야 합니다. 고밀도 아키텍처와 첨단 수랭식 방식을 도입함으로써, 업계는 보다 효율적인 AI 기반 미래의 기틀을 마련하고 있습니다.

NVIDIA GTC 2025에서 발표된 데이터센터 에너지 수자원 효율성 관련된 획기적인 솔루션에 대해 알아보세요. NVIDIA Blackwell을 통해 가속화된 컴퓨팅이 어떻게 더 효율적인 미래를 주도하고 있는지 확인할 수 있습니다.