클라우드 네이티브 슈퍼컴퓨터를 이끄는 NVIDIA 기술

영국 케임브리지 대학교에서 NVIDIA DGX SuperPOD를 통해 안전하고 효율적인 차세대 HPC 클라우드를 개발하고 있습니다. NVIDIA 기술이 만들어가는 클라우드 네이티브 슈퍼 컴퓨팅을 소개합니다.
by NVIDIA Korea

클라우드 네이티브 슈퍼컴퓨팅은 슈퍼컴퓨팅의 차세대 기술을 선도하며 현재 가장 까다로운 고성능컴퓨팅(HPC)과 인공지능(AI) 워크로드를 바로 해결합니다.

영국 캠브리지 대학(Cambridge Univ.)은 클라우드 네이티브 슈퍼컴퓨터를 구축하고 있습니다. 미국의 두 연구팀이 클라우드 네이티브 슈퍼컴퓨팅 구축을 위한 핵심 소프트웨어 요소를 개별적으로 개발 중인데요.

미국 로스앨러모스 국립연구소(Los Alamos National Laboratory)는 UCF(Unified Communication Framework) 컨소시엄과 지속적으로 협력하면서, 데이터 알고리즘을 가속화하는 기능을 제공하는데 힘쓰고 있죠. 오하이오 주립대학교(Ohio State Univ.)는 메시지 전달 인터페이스(Message Passing Interface) 소프트웨어를 업데이트해 과학적 시뮬레이션을 향상시킵니다.

현재 NVIDIA는 DGX SuperPOD로 전세계 사용자에게 클라우드 네이티브 슈퍼컴퓨터를 제공하고 있습니다. DGX SuperPOD에는 현재 생산중인 NVIDIA BlueField-2 데이터 처리 장치(DPU)와 같은 핵심 장치가 있습니다.

클라우드 네이티브 슈퍼 컴퓨팅의 정의

클라우드 네이티브 슈퍼 컴퓨팅은 최고의 두 가지 기능을 결합했습니다.

바로 고성능컴퓨팅의 성능과 안전하고 사용이 편리한 클라우드 컴퓨팅 서비스와 결합한 것인데요.

다시 말해, 클라우드 네이티브 슈퍼 컴퓨팅은 ‘전세계 상위 500대(TOP 500) 슈퍼컴퓨터만한 강력한 HPC 클라우드를 제공해 여러 사용자가 성능의 저하 없이 애플리케이션을 안전하게 공유할 수 있습니다.

(그림)

BlueField DPU는 클라우드 네이티브 슈퍼컴퓨터를 효율적으로 만들기 위해 보안, 통신, 관리작업의 오프로드를 지원합니다.

클라우드 네이티브 슈퍼컴퓨터의 기능

클라우드 네이티브 슈퍼컴퓨터는 두 가지 주요 기능이 있습니다.

첫째, 여러 사용자가 슈퍼컴퓨터 한 대를 함께 사용하는 동시에 각 사용자는 자신의 워크로드를 비공개로 안전하게 유지할 수 있습니다. ‘다중 테넌트 격리(multi-tenant isolation)’ 기능은 요즘 상용화된 클라우드 컴퓨팅 서비스에서 이용할 수 있는데요. 하지만 원래 서비스의 성능이 중요시되면서 보안 서비스를 느리게 하는 기술이나 과학 워크로드에 사용되는 HPC 시스템에는 이런 기능이 없습니다.

둘째, 클라우드 네이티브 슈퍼컴퓨터는 DPU를 통해 스토리지, 테넌트 격리 보안, 시스템 관리와 ​​같은 작업을 처리합니다. 이런 기능으로 CPU에 걸리는 부하가 줄어들고 작업 처리를 가속화하기 때문에 전체 시스템 성능이 극대화됩니다.

이 기능들을 기반으로 성능 저하 없이 네이티브 클라우드 서비스를 제공할 수 있는 슈퍼컴퓨터가 탄생한 것이죠. 또한 DPU는 부가적으로 오프로드 작업을 처리해주기 때문에 HPC와 AI 워크로드를 가장 효율적으로 실행할 수 있습니다.

클라우드 네이티브 슈퍼컴퓨터의 작동 원리

현재의 슈퍼컴퓨터에는 CPU와 GPU와 같은 가속기가 결합되어 있는데요.

가속기에는 수천개의 코어가 모여 있어 AI와 HPC 워크로드의 병렬작업 속도를 더합니다. CPU는 빠른 직렬 처리가 필요한 알고리즘을 해결하기 위해 설계됐습니다. 그렇지만 시간이 지남에 따라 점점 더 크고 복잡한 시스템을 관리하는 데 필요한 통신 작업 레이어가 증가하게 되고 시스템에 걸리는 부하가 더욱 커지기 마련이죠.

하지만 클라우드 네이티브 슈퍼컴퓨터에는 시스템을 더욱 빠르고 효율적으로 구축하도록 돕는 세 번째 기능이 있는데요. 바로 DPU입니다. 보안, 통신, 스토리지, 최신 시스템에서 관리가 필요한 기타 작업을 처리해주죠.

완벽한 처리 속도를 보여주는 슈퍼컴퓨터

기존의 슈퍼컴퓨터에서 컴퓨팅 작업을 하게 되면 CPU가 통신 작업을 끝낼 때까지 기다려야 합니다. 시스템에서 소음이 나는 건 일반적으로 겪는 문제죠.

하지만 클라우드 네이티브 슈퍼컴퓨터에서 컴퓨팅과 통신 작업은 병렬로 처리됩니다. 고속도로로 비유하자면 세 번째 차선을 만들어 모든 교통 흐름을 원활하게 만드는 것이죠.

오하이오 대학 MVAPICH 연구실의 HPC 통신 전문가에 따르면, 초기 테스트 결과에서 클라우드 네이티브 슈퍼컴퓨터는 HPC 작업을 기존 슈퍼컴퓨터 대비 1.4 배 빠르게 수행했습니다. 또한 컴퓨팅 기능과 통신 기능을 100% 동시에 수행하여, 기존 HPC 시스템의 수행율보다 99% 더 높은 수치를 보여줬습니다.

전문가들이 이야기하는 클라우드 네이티브 슈퍼 컴퓨팅

위와 같은 장점 때문에 전세계적으로 클라우드 네이티브 슈퍼컴퓨팅이 도입이 확대되고 있습니다.

캠브리지 대학의 연구 컴퓨팅 서비스 책임자인 폴 칼리자(Paul Calleja)는 “캠브리지 대학은 유럽 최초로 학계에 클라우드 네이티브 슈퍼컴퓨터를 구축하여 클라우드 네이티브 인피니밴드(InfiniBand) 서비스로 베어메탈 성능을 제공할 계획입니다. 2020년 11월 세계상위 슈퍼컴퓨터 500대 리스트에서 100위 안에 드는 이 슈퍼컴퓨터를 사용하여 슈퍼컴퓨팅 아키텍처의 최신 기술을 통한 애플리케이션을 최적화할 것입니다”라고 말했죠.

HPC 전문가들은 클라우드 네이티브 슈퍼컴퓨터 기술을 발전시키기 위해 토대를 만들고 있습니다.

arm, IBM, NVIDIA, 미국 국립연구소와 미국 대학 소속의 멤버로 구성된 UCF 책임자인 스티브 풀(Steve Poole)은 “산학계 리더로 구성된 UCF 컨소시엄은 클라우드 네이티브 슈퍼컴퓨팅의 미래를 여는데 필요한 프로덕션급 커뮤니케이션 프레임과 개방형 표준을 세워가고 있습니다”라고 말했습니다.

오하이오 주립 대학의 컴퓨터공학 및 엔지니어링 교수 겸 네트워크 컴퓨팅 연구소 소장인 D.K. 팬더(Dhabaleswar K. Panda)는 “테스트에 따르면 클라우드 네이티브 슈퍼컴퓨터는 효율적인 아키텍처로 보안 기능을 강화하면서도 슈퍼컴퓨터의 HPC 성능을 한 차원 더욱 높입니다“고 전했습니다.

자세한 사항은 NVIDIA 홈페이지에서 만나보세요

클라우드 네이티브 슈퍼 컴퓨팅에 대한 자세한 내용은 NVIDIA의 기술 개요에서 확인하실 수 있습니다. 캠브리지 대학교의 새로운 시스템NVIDIA의 새로운 클라우드 네이티브 슈퍼컴퓨터에 대해서도 온라인에서 자세한 정보를 찾아보실 수 있습니다.

HPC, AI 분야의 최신 기술 동향을 ‘GTC 2021’ 기조연설에서 확인해보세요!