세계적인 NVIDIA 슈퍼컴퓨터의 활약상

NVIDIA 기술의 정수에 있는 슈퍼컴퓨터 셀린(Selene)이 코로나 시대에 더욱 주목받고 있습니다.

Selene은 기업용 메신저 서비스 앱인 슬랙(Slack) 사용자들에게 하루에도 수천 개의 메시지를 보내고 있습니다.

또한 코드 배포를 추적하는 플랫폼인 깃랩(GitLab)에서는 직원들이 프로젝트 진행 상황을 바로 파악할 수 있도록 즉시 업데이트를 해주고 있는데요.

슈퍼컴퓨터 Selene은 새로운 NVIDIA A100 GPU로 구축되었습니다. 작년 11월 기준으로 전세계 500대 슈퍼컴퓨터 중에서 상위 5위를 기록한 바 있습니다.

전세계 수퍼컴퓨터의 성능예측과 랭킹을 정하는데 사용되는 HPL 벤치마크에서 63.4 타플롭스를 달성한건데요.

세계 500대 슈퍼컴퓨터 순위를 발표하는 TOP 500 슈퍼컴퓨터 리스트에서 가장 중요한 지표로 손꼽히는 것은 AI 성능입니다.

AI 성능면에서 NVIDIA A100의 3세대 텐서 코어를 사용하는 Selene은 2,795 페타플롭스 (약 2.8 엑사플롭스) 이상의 성능을 보여줍니다.

NVIDIA DGX Super엔터프라이즈용 POD 솔루션은 혁신을 위한 가장 빠른 방법을 제공합니다.

Selene의 차세대 버전은 이전 대비 성능이 두 배로 향상되어 MLPerf AI 벤치마크의 8개 영역에서 우수한 성능을 보여주었는데요.

Selene이 대단한 이유는 단순히 성능 때문만은 아닙니다. 물론 Selene이 NVIDIA Jetson TX2 기반 로봇 ‘트립’의 코로케이션을 용이하게 지원하고, NVIDIA Mellanox HDR InfiniBand 네트워킹 기술로 55만 5,520개의 컴퓨팅 코어와 112만GB 메모리에 연결된 냉각 팬을 제어할 수 있는 것도 훌륭하지만요.

Selene이 대단한 건 바로 NVIDIA 최고의 연구진이 다루는 매일의 과업에 긴밀하게 관여하고있다는 것입니다.

작년 연말 휴가 시즌에 마이크 휴스톤(Mike Houston)이 그 어느 때보다 바쁜 시간을 보낸 이유인데요.

슈퍼컴퓨터 사용에 대한 수요

스탠포드 대학교(Stanford Univ.)에서 컴퓨터 공학 박사 학위를 받고 최근 ACM 고든 벨 상(ACM Gordon Bell Prize)을 수상한 휴스턴은 현재 NVIDIA의 AI 시스템 설계자로 Selene을 사용하는 450명 이상의 NVIDIA 사용자들 간에 시간을 조율해주는 일을 합니다.

Selene슈퍼 컴퓨터를 사용하기 위한 제안들을 정리해주는 일이 휴스턴이 맡은 주요 업무이죠. 이러한 일을 하려면 연구, 고급 개발과 프로덕션 워크로드 업무를 서로 균형 있게 안배해야 합니다.

응용 딥러닝 연구부문 부사장인 브라이언 카탄자로(Bryan Catanzaro)를 비롯한 NVIDIA 연구원들은 Selene의 성능을 극찬합니다.

카탄자로 연구팀은 21번째로 Selene을 사용하기로 되어 있었습니다. 카탄자로는 “Selene은 저희의 가장 까다로운 업무를 해결해주는 유일한 수단”이라며 “저희 팀은 슈퍼컴퓨터 없이는 작업을 할 수 없을 겁니다”라고 말했습니다.

40명 이상의 연구진으로 구성된 카탄자로 연구팀은 슈퍼컴퓨터Selene을 이용해 가장 까다로운 AI업무인 대규모 언어 모델링 작업을 진척시키고 있습니다.

대규모 언어 모델링 외에도 자율 주행 차량, 차세대 그래픽 렌더링, 양자 화학과 유전체학과같은 분야에서도 사용되고 있는데요.

NVIDIA의 솔루션 아키텍처 및 엔지니어링 부사장인 마크 해밀턴(Marc Hamilton)의 설명에 따르면 대규모 작업 처리를 위해 확장 능력과 충분한 전력을 확보하는 것이 매우 중요하다고 합니다.

해밀턴은 이를 흙을 나르는 작업에 비유합니다. 흙을 나를 때 외바퀴 손수레 하나면 충분할 때가 있지만, 훨씬 더 많은 흙을 나르기 위해서는 덤프트럭이 필요할 때도 있는 것이죠.

해밀턴은 “저희가 Selene을 사용하는 건 세상에서 5번째로 가장 빠른 컴퓨터라서가 아니라, Selene이 실제로 저희 업무에 반드시 필요하기 때문입니다”라고 말합니다.

빠르고 유연한 슈퍼컴퓨터 Selene

Selene의 핵심 구성요소인 NVIDIA DGX SuperPOD는 높은 효율성을 자랑합니다.

NVIDIA DGX SuperPOD는 26.2 기가플롭스/와트(gigaflops/watt)라는 기록적인 전력 효율을 달성해 세계에서 가장 전력효율이 좋은 슈퍼컴퓨터 그린500(Green 500) 리스트에서 Selene이 1위를 차지할 수 있었는데요.

이런 효율성은 규모 확장력과 컴퓨팅 작업 처리량을 더욱 증가시키는 데에도 중요한 역할을 합니다.

SuperPOD는 컴퓨팅 및 스토리지 패브릭을 위한 최신 NVIDIA Ampere 아키텍처 A100 GPU 와 NVIDIA Mellanox InfiniBand으로 구축된 컴팩트한 사전구성 DGX A100 시스템으로 이루어집니다.

콘티넨탈(Continental), 록히드 마틴(Lockheed Martin), 마이크로소프트(Microsoft) 등이 DGX 슈퍼POD를 사용하고 있습니다.

미국 플로리다 대학교(University of Florida)가 도입한 새로운 슈퍼컴퓨터도 SuperPOD를 기반으로 합니다.

Selene은 각각 140개의 노드와 NVIDIA DGX A100가 탑재된 4개의 SuperPOD로 구성되어 현재 총 560개의 노드를 갖추었습니다.

속도 향상의 필요성

카탄자로는 업무를 위해 최대한의 컴퓨팅 성능을 필요로 합니다.

미국 캘리포니아 버클리대학(UC Berkeley)에서 컴퓨터공학 박사학위를 취득한 카탄자로는 10년 전 1,000개의 CPU 시스템을 NVIDIA Geforce GTX 580 GPU 3개로 교체해 작업 속도를 높이면서 머신러닝을 가속화하고 GPU 활용에 앞장섰었죠.

카탄자로의 행로는 딥러닝 혁명을 이끈 여러 중요한 발전 과정을 보여줍니다. 10년후인 현재 카탄자로는 슈퍼컴퓨터 Selene 덕분에 약 100만 배 이상 향상된 성능으로 작업할 수 있게 됐습니다.

카탄자로는 “저희 팀은 NVIDIA의 도움을 정말 많이 받고 있습니다. Selene을 사용하면서 세계 최첨단을 달리는 작업을 수행하고 있죠. 앞으로도 Selene을 기반으로 더 많은 작업을 해나갈 것입니다”라고 말합니다.

엔터프라이즈용 SuperPOD에 대해 더 자세한 사항이 궁금하시다면 여기를 클릭해 보세요.