탄소 중립을 위한 지속 가능 효율적 컴퓨팅 지원하는 수냉식 GPU 출시

NVIDIA는 고성능 탄소 중립 데이터센터에 대한 고객의 요구에 부응하는 메인스트림 서버용 GPU 제품군의 첫 번째 수냉식 A100 PCIe GPU를 출시합니다.
by NVIDIA Korea

240개 이상의 데이터센터를 관리하는 글로벌 서비스 제공업체 에퀴닉스(Equinix)는 지난 4월 기준 49억 달러의 녹색 채권을 발행했는데요. 이는 에퀴닉스 데이터센터에서 사용하는 에너지 중 컴퓨팅 작업에 직접 사용되는 에너지 양을 측정하는 업계 지표인 PUE(Power Usage Effectivity, 전력 효율 지수)를 최적화해 환경에 미치는 영향을 줄이는 데 적용할 투자 등급 도구(investment-grade instruments)입니다.

데이터센터 운영자는 이 비율을 이상적인 1.0 PUE에 가깝게 낮추기 위해 노력하고 있습니다. 현재 에퀴닉스 시설의 평균 PUE는 1.48이며 최고의 신규 데이터센터는 1.2 미만입니다.

에퀴닉스는 PUE (inset)로 측정한 데이터센터의 에너지 효율에서 꾸준히 발전하고 있습니다.

한 단계 더 나아가, 에퀴닉스는 에너지 효율을 발전시키기 위해 올해 1월 전용 시설을 열었습니다. 작업의 한 부분으로 수냉식(liquid cooling)에 중점을 두죠.

메인프레임 시대에 탄생한 수냉식은 AI 시대에 들어 더욱 성숙해지고 있습니다. 이제 수냉식은 다이렉트 칩 냉각(direct-chip cooling)이라는 현대적인 형태로 세계에서 가장 빠른 슈퍼컴퓨터 안에서 널리 사용되고 있습니다.

수냉식은 이미 CPU보다 AI 추론에서 최대 42배 더 나은 에너지 효율을 제공하고 있는 NVIDIA GPU의 가속 컴퓨팅의 다음 단계입니다.

가속화를 통한 효율

전 세계적으로 AI를 실행하는 모든 CPU 전용 서버를 GPU 가속 시스템으로 전환하면 연간 10조 와트시(watt-hours)의 엄청난 에너지를 절약할 수 있는데요. 이는 1년에 140만 가구가 소비하는 에너지 양과 같습니다.

NVIDIA는 현재 다이렉트 칩 냉각을 사용하는 최초의 데이터센터 PCIe GPU를 출시해 지속 가능성을 높이고 있습니다. 에퀴닉스는 A100 80GB PCIe 수냉식 GPU를 지속 가능한 냉각 및 열 포착(heat capture)을 위한 포괄적인 접근 방식의 일환으로 데이터센터에서 사용할 수 있도록 인증하고 있죠. GPU는 현재 샘플링 중이며 올 여름 일반 공급될 예정입니다.

물과 전력 절약

데이터센터 운영자는 데이터센터 내부의 공기를 냉각시키기 위해 연간 수백만 갤런의 물을 증발시키는 냉각장치를 제거하는 것을 목표로 합니다. 수냉식은 주요 핫스팟에 초점을 맞춘 폐쇄형 시스템에서 소량의 유체를 재활용하는 시스템을 가능하게 하죠.

에퀴닉스의 엣지 인프라 책임자 잭 스미스(Zac Smith)는 “이것은 우리 연구실에 도입된 최초의 수냉식 GPU이며, 고객이 AI를 활용하는 지속 가능한 방법을 갈망하고 있기 때문에 매우 신나는 일”이며, “우리는 쓰레기를 자산으로 만들 것”이라고 덧붙였습니다.

동일한 성능, 적은 전력

별도의 테스트에서 에퀴닉스와 NVIDIA는 수냉식을 사용하는 데이터센터가 공냉식 설비와 동일한 워크로드를 실행하면서도 에너지를 약 30% 절감할 수 있음을 발견했습니다. NVIDIA는 수냉식 데이터센터가 1.15 PUE에 도달할 수 있을 것으로 추정하며, 이는 공냉식의 1.6PUE에 훨씬 못 미치는 수치입니다.

수냉식 데이터센터는 동일한 공간에 두 배의 컴퓨팅 성능을 제공할 수도 있습니다. A100 GPU는 PCIe 슬롯을 하나만 사용하는 반면 공냉식 A100 GPU에는 슬롯 2개가 필요하기 때문입니다.

NVIDIA는 수냉식을 통해 전력 절감과 밀도 향상을 실현합니다.

적어도 12개의 시스템 제조업체가 올해 말 이러한 GPU를 제품에 통합할 계획입니다. 여기에는 에이수스(ASUS), 애즈락랙(ASRock Rack), 폭스콘 인더스트리얼 인터넷(Foxconn Industrial Internet), 기가바이트(GIGABYTE), H3C, 인스퍼(Inspur), 인벤텍(Inventec), 네트릭스(Nettrix), QCT, 슈퍼마이크로(Supermicro), 위윈(Wiwynn) 및 엑스퓨전(xFusion)이 포함됩니다.

글로벌 트렌드

사용자들 사이에서 틱톡(TikTok)의 제공업체이자 비즈니스, 교육 및 엔터테인먼트 앱 호스트인 바이트댄스(Bytedance)는 수냉식을 채택하고 있습니다. 이는 서비스 공급자가 증가하는 성능 요구 사항을 충족하는 동시에 환경에 미치는 영향과 비용을 모두 줄일 수 있는 방법이죠.

아시아, 유럽과 미국에는 에너지 효율 표준을 정하는 규제가 계류돼 있습니다. 이는 은행과 다른 대형 데이터센터 운영자들이 수냉식을 평가하도록 동기를 부여하고 있죠.

이 기술은 데이터센터에만 국한되지 않는다. 자동차 및 기타 시스템은 제한된 공간에 내장된 고성능 시스템을 냉각하는 데 필요합니다.

지속 가능성으로 가는 길

스미스는 수냉식 메인스트림 가속기의 데뷔에 대해 “이는 여정의 시작이다”라고 말했는데요.

실제로 NVIDIA Hopper 아키텍처를 기반으로 하는 H100 Tensor Core GPU를 사용하는 버전으로 A100 PCIe 카드를 내년에 후속 조치할 계획입니다. 또한 가까운 미래에 고성능 데이터센터 GPU와 NVIDIA HGX 플랫폼에서 수냉식을 지원할 예정입니다.

신속한 채택을 위해 오늘날의 수냉식 GPU는 더 적은 에너지로 동일한 성능을 제공합니다. 미래에는 이러한 카드가 사용자가 원하는 동일한 에너지로 더 많은 성능을 얻을 수 있는 옵션을 제공할 것으로 기대됩니다.

스미스는 “와트 수만을 측정하는 것은 관련이 없으며, 탄소 영향에 대해 얻을 수 있는 성능이 바로 우리가 추진해야 하는 것”이라고 말했습니다.

NVIDIA의 새로운 A100 PCIe 수냉식 GPU에 대한 자세한 정보는 여기서 확인할 수 있습니다.