전력 효율 세계 상위 13대 슈퍼컴퓨터에 탑재된 엔비디아 테슬라

전력 효율성 부문 전 세계 고성능 컴퓨팅(HPC) 시스템 순위인 그린500(Green500)의 상위 13대 시스템에 엔비디아® 테슬라®(NVIDIA® Tesla®) 인공지능 슈퍼컴퓨팅 플랫폼이 탑재되었습니다. 13대 시스템 모두 엔비디아 테슬라 P100 데이터센터 GPU 가속기를 사용하고 있으며, 그 중 4대 시스템은 엔비디아 DGX-1™ 인공지능 슈퍼컴퓨터를 기반으로 하고 있답니다.

HPC 애플리케이션 관련 엔비디아 테슬라 GPU가 2년 전 출시된 케플러(Kepler) 아키텍처 대비 3배의 성능 개선을 달성했음을 보여주는 성능 데이터도 함께 공개됐는데요. 최근 몇 년 사이 시작된 CPU의 성능 발전 둔화 양상을 감안하더라도, GPU는 무어의 법칙에서 예측하는 수준 이상의 높은 성능 향상을 보이고 있습니다.

이 밖에도, 엔비디아는 인공지능 및 기존 HPC 애플리케이션을 단일 플랫폼 상에서 함께 구현하는 테슬라 V100 GPU 가속기가 미 에너지부(U.S. Department of Energy)의 슈퍼컴퓨터 서밋(Summit)에 탑재될 예정입니다. 올해 말 가동에 들어가는 서밋은 200 페타플롭의 64비트 부동소수점 연산 성능과 3 엑사플롭 이상의 인공지능 처리 성능을 제공할 전망입니다.

엔비디아 GPU, 전 세계 최고 전력효율 슈퍼컴퓨터에 탑재

독일 현지시간 16일부터 프랑크푸르트에서 진행되고 있는 국제 슈퍼컴퓨팅 쇼(International Supercomputing Show)에서 그린500 순위가 발표된 가운데, 1위는 엔비디아 테슬라 P100 GPU를 탑재한 도쿄공대의 신규 TSUBAME 3.0 시스템이 차지했습니다. TSUBAME 3.0은 와트당 14.1 기가플롭을 기록해 효율성에서 종전의 1위를 차지한 엔비디아의 SATURNV 대비 50% 높은 수치를 기록했습니다. SATURNV는 이번 순위에서 10위를 기록했습니다.

2위에서 6위는 야후 재팬(Yahoo Japan), 일본 국립산업과학기술연구소, 일본 이화학연구소 첨단지능프로젝트 센터(RIKEN), 케임브리지 대학교, 스위스국립컴퓨팅센터(CSCS)에 자리한 슈퍼컴퓨터들이 차지했으며, 특히 CSCS의 슈퍼컴퓨터 ‘피츠 다인트(Piz Daint)’는 처리 속도에서 새롭게 유럽 1위를 차지했습니다. 이외에도 상위 13대 시스템 가운데 E4 컴퓨터 엔지니어링, 옥스포드 대학교 및 도쿄 대학교의 시스템에도 엔비디아 제품이 탑재되었습니다.

엔비디아 테슬라 GPU 가속기와 최적화된 인공지능 소프트웨어 패키지가 하나로 결합된 엔비디아의 인공지능 슈퍼컴퓨터 DGX-1을 기반으로 한 일본 이과학연구소의 RAIDEN, 옥스포드 대학교의 JADE, 소셜미디어서비스업체의 하이브리드 시스템과 엔비디아의 SATURNV도 순위에 이름을 올렸습니다.

이안 벅(Ian Buck) 엔비디아 가속 컴퓨팅 부문 총괄은 “세계 난제들을 해결하려는 연구자들의 경우, 고성능 컴퓨팅의 장점과 인공지능 분야의 최신 발전을 활용할 수 있는 강력한 통합 컴퓨팅 아키텍처를 원합니다”라고 설명하면서 “엔비디아의 인공지능 슈퍼컴퓨팅 플랫폼은 연산과 데이터과학을 위한 단일 아키텍처를 제공함으로써, 세계 최고의 연구자들에게 혁신의 속도를 더욱 가속화하고 난제를 해결할 수 있는 다양한 역량을 제공하고 있습니다”라고 말했습니다.

마츠오카 사토시(Matsuoka Satoshi) 도쿄공대 교수는 “우리의 목표는 TSUBAME 3.0을 통해 일본의 대표적인 슈퍼컴퓨터로서 고성능 컴퓨팅과 인공지능을 모두 처리할 수 있는 강력한 단일 플랫폼을 구현하고, 최적의 전력 효율성을 실현하는 것이었습니다”라고 밝히며, “가장 중요한 점은 멀티 페타스케일의 최상의 프로덕션 머신을 통해 이러한 결과를 달성했다는 점입니다. 엔비디아 테슬라 P100 GPU 을 활용해 우리는 두 가지 목표에서 뛰어난 성과를 얻을 수 있었으며, 혁신적인 인공지능 슈퍼컴퓨팅 플랫폼을 과학 연구와 국가 교육의 발전을 위해 활용할 수 있게 됐습니다”라고 말했습니다.

볼타(Volta): 엑사스케일을 선도하다

엔비디아는 슈퍼컴퓨터 서밋(Summit)의 엑사스케일 수준의 성능 구현을 위한 진척 상황과 속도, 효율성 및 인공지능 연산 능력에서의 기대치 등을 공개했는데요. 서밋은 오크리지 국립연구소에 위치한 미 에너지부 과학국 사용자 시설인 오크리지 리더십 컴퓨팅 퍼실리티(Oak Ridge Leadership Computing Facility)에 올해 말 인도될 예정입니다.

현재 세계 최고속 시스템인 중국 ‘타이후라이트(TaihuLight)’의 처리 속도가 93 페타플롭인 것에 비해, 테슬라 V100 GPU 가속기를 탑재한 서밋의 처리 속도는 200 페타플롭에 달할 것으로 예상되고 있습니다. 또한, 서밋은 강력한 인공지능 컴퓨팅 역량을 보유해 반정밀도 텐서 연산(Tensor Operations) 속도가 3 엑사플롭을 넘어설 전망입니다.

오크리지 국립연구소의 컴퓨팅 및 연산과학부 부담당자인 제프 니콜스(Jeff Nichols)는 “인공지능은 고성능 컴퓨팅을 확장하고 있으며, 두 가지 분야 모두 혁신의 속도를 가속화해 세계의 중요 난제들을 해결하기 위한 도움을 제공하고 있습니다”라고 이야기하며, “오크리지의 프리-엑사스케일(pre-exascale) 슈퍼컴퓨터 서밋에 탑재된 엔비디아 볼타 GPU는 인공지능과 고성능 컴퓨팅 모두에서 탁월한 통합 단일 아키텍처를 제공합니다. 우리는 인공지능 슈퍼컴퓨팅이 연구자 및 과학자들에게 획기적인 결과를 가져다 줄 것이라고 생각합니다”라고 말했습니다.

주요 클라우드 업체 모두 볼타 도입

V100 GPU 가속기가 전달하는 극한의 컴퓨팅 역량은 올해 말부터 세계적인 클라우드 서비스 업체들을 통해 제공될 예정입니다. 볼타 기반 서비스에 대한 적극적인 추진 및 구체적인 지원 계획을 밝힌 기업들로는 아마존 웹 서비스, 바이두, 구글 클라우드 플랫폼, 마이크로소프트 애저, 텐센트 등이 있습니다.

볼타: 인공지능 슈퍼컴퓨팅을 위한 궁극의 아키텍처

볼타의 파급력을 더욱 확대하기 위해 엔비디아는 표준 서버용 PCIe 폼팩터 형태의 테슬라 V100 GPU 가속기를 새롭게 생산한다고 발표했습니다. PCIe 시스템 외에도 종전에 출시 계획을 발표한 바 있는 엔비디아 NV링크™ (NVIDIA NVLink™) 인터커넥트 기술을 활용한 시스템을 통해 볼타는 고성능 컴퓨팅의 혁신과 획기적인 인공지능 기술의 슈퍼컴퓨터, 엔터프라이즈, 클라우드 도입을 예고하고 있습니다.

PCIe 폼팩터 시스템의 구체적인 사양은 다음과 같습니다.

엔비디아 GPU 부스트™(BOOST™) 기술을 통해 7 테라플롭 배정밀도, 14 테라플롭 단정밀도, 112 테라플롭 반정밀도 성능 구현
16GB CoWoS HBM2 스택 메모리 탑재로 초당 900GB의 메모리 대역폭 실현
PCIe Gen 3 인터커넥터 지원(최대 초당 32GB의 양방향 대역폭)
250와트 전력 소비

PCIe 시스템용 엔비디아 테슬라 V100 GPU 가속기는 올해 말 엔비디아 리셀러 파트너와 휴렛팩커드 엔터프라이즈(HPE) 등 제조업체를 통해 제공될 전망입니다.

휴렛팩커드 엔터프라이즈의 고성능 컴퓨팅 및 인공지능 담당 부사장 겸 제너럴 매니저인 빌 매널(Bill Mannel)은 “HPE는 딥 러닝과 인공지능을 위한 우리의 목적별 HPE 아폴로(Apollo) 시스템에 엔비디아 테슬라 V100 아키텍처의 독창적이고 업계 선도적인 강점을 더해 고객들을 위한 인사이트와 인텔리전스의 가속화를 실현하게 돼 기쁩니다”라며 “HPE는 포트폴리오 내 세 가지 시스템에서 PCIe 인터커넥트 방식으로 엔비디아 볼타를 지원할 예정이며, NV링크 2.0 시스템에 대한 얼리 액세스를 제공, 갈수록 증가하고 있는 고객 수요를 해결할 방침입니다”라고 말했습니다.

엔비디아 테슬라 슈퍼컴퓨팅 플랫폼에 대한 자세한 사항은 여기에서 확인해 보세요.