데이터센터는 에너지 효율을 높이기 위한 과정을 안내하는 업그레이드된 대시보드, 즉 실제 애플리케이션을 실행하는 진행 상황을 보여주는 대시보드가 필요합니다.
에너지 효율의 공식은 간단합니다. 수행한 작업을 사용한 에너지로 나누면 되는데요. 이 공식을 데이터센터에 적용하려면 몇 가지 세부 사항을 파악해야 합니다.
오늘날 가장 널리 사용되는 전력효율지수(power usage efficiency, PUE)는 시설에서 소비하는 총 에너지와 컴퓨팅 인프라가 사용하는 양을 비교하는 지표입니다. 지난 17년 동안 PUE는 가장 효율적인 데이터센터 운영업체들이 전력 변환, 냉각과 같은 프로세스에서 에너지가 거의 낭비되지 않는 이상적인 목표에 가까워지도록 이끌었습니다.
차세대 측정 지표의 필요성
PUE는 클라우드 컴퓨팅이 부상하는 동안 데이터센터에 유용하게 사용됐으며, 앞으로도 계속 해서 활용될 것입니다. 그러나 워크로드와 이를 실행하는 시스템이 급격히 변화한 오늘날의 생성형 AI 시대에는 적합하지 않을 수 있죠.
왜냐하면 PUE는 데이터센터의 유용한 출력을 측정하는 것이 아니라 소비하는 에너지만 측정하기 때문입니다. 이는 마치 자동차가 얼마나 멀리 갔는지는 모른 채 엔진이 사용하는 연료의 양만 측정하는 것과 같습니다.
데이터센터 효율성에 대한 많은 기준들이 존재합니다. 2017년의 한 논문에는 약 30개의 기준이 나열돼 있으며, 그중 일부는 냉각, 용수 사용, 보안 그리고 비용과 같은 특정 목표에 초점을 맞추고 있습니다.
와트(Watts)의 대한 이해
컴퓨터 업계는 오랜 시간 동안 에너지 효율과 관련해 시스템과 사용하는 프로세서를 일반적으로 와트로 표시하고 있습니다. 와트는 가치 있는 측정 기준이지만, 와트는 특정 시점의 입력 전력만을 측정할 뿐 컴퓨터가 실제로 사용하는 에너지나 효율성을 측정하지 못하는데요.
따라서 최신 시스템과 프로세서의 입력 전력 수준이 와트 단위로 상승한다고 해서 에너지 효율이 떨어진다는 의미는 아닙니다. 오히려 사용하는 에너지의 양에 비해 처리하는 작업의 양이 훨씬 더 효율적인 경우가 많습니다.
최신 데이터센터 지표는 엔지니어링 커뮤니티에서 킬로와트시(kWh)나 줄(joules)로 알려진 에너지에 초점을 맞춰야 합니다. 핵심은 이 에너지로 얼마나 유용한 작업을 수행하는가 입니다.
작업의 재해석
업계에서는 프로세서 명령어나 수학 계산과 같은 추상적인 용어로 측정하는 관행이 있었습니다. 따라서 밉스(millions of instructions per second, MIPS)와 플롭스(floating point operations per second, FLOPS)가 널리 인용됐죠.
컴퓨터 사이언티스트들만이 시스템이 이러한 저수준 작업을 얼마나 많이 처리할 수 있는지에 관심을 갖습니다. 사용자들은 시스템이 얼마나 많은 실제 작업을 수행하는지 알고 싶어 하지만, 유용한 작업을 정의하는 것은 다소 주관적이죠.
AI에 중점을 둔 데이터센터는 MLPerf 벤치마크에 의존할 수 있습니다. 과학 연구를 다루는 슈퍼컴퓨팅 센터는 일반적으로 추가적인 작업 측정을 사용하는데요. 스트리밍 미디어에 중점을 둔 상업용 데이터센터는 다른 기준을 원할 수 있습니다.
그 결과 애플리케이션 제품군은 시간이 지남에 따라 최신 기술과 가장 관련성 높은 사용 사례를 반영해 진화할 수 있어야 합니다. 예를 들어, 지난 MLPerf 라운드에서는 5년 전에는 존재하지도 않았던 두 가지 생성형 AI 모델을 사용한 테스트가 추가됐습니다.
가속 컴퓨팅을 위한 측정 기준
새로운 벤치마크는 가속 컴퓨팅의 발전을 측정하는 것이 이상적입니다. 병렬 처리 하드웨어, 소프트웨어, 방법들의 조합은 많은 최신 워크로드에서 CPU보다 훨씬 빠르고 효율적으로 애플리케이션을 실행하고 있죠.
예를 들어, 미국 국립에너지 연구 과학 컴퓨팅 센터(National Energy Research Scientific Computing Center, NERSC)의 펄머터(Perlmutter) 슈퍼컴퓨터는 과학 애플리케이션에서 가속 컴퓨팅을 사용해 평균 5배의 에너지 효율 향상을 입증했습니다. 이것이 바로 그린500(Green500) 리스트의 상위 50개 슈퍼컴퓨터 중 1위 시스템을 포함한 39개가 NVIDIA GPU를 사용하는 이유입니다.
여러 산업 분야의 기업들은 비슷한 결과를 공유하고 있습니다. 예를 들어, 페이팔(PayPal)은 가속 컴퓨팅을 통해 실시간 사기 탐지를 10% 개선하고, 에너비 소비를 8배에 가까이 줄였죠.
새로운 세대의 GPU 하드웨어와 소프트웨어가 등장할 때마다 이러한 이점은 점점 더 커지고 있습니다.
최근 보고서에 따르면, 스탠포드 대학교(Stanford University)의 인간중심 AI 그룹(Human-Centered AI group)은 “2003년 이후 GPU 성능은 약 7,000배 증가했으며, 성능당 가격은 5,600배 더 높아졌다”고 추정했죠.
두 전문가의 의견
전문가들도 새로운 에너지 효율성 지표의 필요성을 인식하고 있습니다.
오늘날의 데이터센터는 약 1.2 PUE를 달성하고 있는데요. PUE에 대한 최초의 아이디어를 낸 데이터센터 엔지니어인 크리스티안 벨라디(Christian Belady)는 “PUE는 수명을 다했습니다. 상황이 열악했을 때는 데이터센터 효율성을 개선했지만, 20년이 지난 지금은 오늘날의 문제와 더 관련 있는 다른 지표에 집중해야 합니다”고 말했습니다.
데이터센터의 지속 가능성을 높이는 방안을 계속해서 연구하고 있는 그는 “앞으로 성배는 성능 측정 지표입니다. 서로 다른 워크로드를 직접 비교할 수는 없지만 워크로드별로 세분화하면 성공 가능성이 더 높다고 생각합니다”고 덧붙였죠.
컴퓨터 효율성과 지속 가능성에 관한 연구진이자 저술가인 조나단 쿠미(Jonathan Koomey)도 이에 동의했다.
“효율성에 대한 올바른 의사 결정을 내리기 위해 데이터센터 운영자는 오늘날 가장 널리 사용되는 AI 워크로드의 에너지 영향을 측정하는 일련의 벤치마크가 필요합니다. 줄당 토큰은 이러한 제품군의 한 요소로 좋은 예가 될 수 있는데요. 기업들은 공개 토론에 참여하고, 자체 워크로드와 실험의 미묘한 차이에 대한 정보를 공유해야 합니다. 그리고 이러한 지표가 실제 애플리케이션을 실행하는 하드웨어의 에너지 사용 특성을 정확하게 파악할 수 있도록 현실적인 테스트 절차에 순응해야 합니다. 마지막으로, 이 중요한 작업을 수행하기 위해서는 공개적인 공론의 장이 필요합니다.”
공동의 노력이 필요하다
PUE와 같은 지표와 그린500과 같은 순위 덕분에, 데이터센터와 슈퍼컴퓨팅 센터는 에너지 효율 측면에서 엄청난 발전을 이루었습니다.
생성형 AI 시대에 효율성의 발전을 확대하기 위해 더 많은 노력이 요구되는데요. 오늘날의 주요 애플리케이션에서 유용한 작업을 수행하는 데 소비되는 에너지를 측정하면 슈퍼컴퓨팅과 데이터센터의 에너지 효율성을 새로운 차원으로 끌어올릴 수 있습니다.
사용 가능한 에너지 효율 솔루션과 NVIDIA 지속 가능한 컴퓨팅을 자세히 알아보세요.