NVIDIA 시스템으로 연구의 지평 확장하는 전세계 대학들

by NVIDIA Korea

전세계 대학에서 NVIDIA 시스템으로 연구 영역을 확장하고 있습니다. 여기에는 서던 메소디스트 대학교(SMU), 텍사스 A&M(Texas A&M), 미시시피 주립 대학교(MSU), 레스터 대학(University of Leicester)이 포함되죠.

SMU는 12,000명 이상의 학생과 2,400명의 교수진, 직원으로 구성된 거대한 메트로 커뮤니티를 위한 머신 러닝 프로젝트를 지원하기 위해 가속 슈퍼컴퓨터인 NVIDIA DGX Super POD를 구축 중인데요. SMU는 연구 가속화를 위해 NVIDIA 기술을 활용하겠다고 발표한 미국 중남부의 3개 대학 중 하나입니다.

텍사스 A&M(Texas A&M) 대학교와 미시시피 주립 대학교(MSU)는 교내 최신 고성능 컴퓨터의 중추 시스템으로 NVIDIA의 초당 400Gbit(기가비트) InfiniBand 네트워킹 플랫폼인 NVIDIA Quantum-2를 도입했습니다. 또한 영국의 슈퍼컴퓨터는 InfiniBand 네트워크를 업그레이드했죠.

SMU의 최고정보책임자(CIO) 마이클 하이츠(Michael Hites)는 올해 앞서 플로리다 대학에 설치된 시스템을 언급하면서 “SMU는 미국에서 두 번째로 DGX Super POD를 도입한 대학이며, 이를 통해 학위 프로그램과 기업 파트너십을 강화해 SMU 커뮤니티의 AI 기술 우위를 확보할 것입니다”라고 말했습니다.

SMU의 연구진을 지원하는 IT 팀 관리자 제이슨 워너(Jason Warner)는 SMU 포드 연구 혁신관(Ford Hall for Research and Innovation)의 신규 센터에 데이터 과학 전문가 팀을 고용했습니다. 이 팀의 리더 에릭 고닷(Eric Godat)은 SMU 학생들이 DGX Super POD를 적극 활용할 수 있도록 지원하고 있죠. 첫 번째 단계로 그는 두 명의 SMU 학생에게 NVIDIA Jetson 모듈을 사용해 DGX Super POD의 미니어처 모델을 구축하는 과제를 냈습니다.

SMU's Jetson SuperPOD
SMU 학부생인 코너 오젠(Connor Ozenne)은 SMU의 연례 보고서에 실린 미니어처 DGX Super POD 제작에 참여했습니다.

NVIDIA Quantum InfiniBand 네트워크에서 20개의 NVIDIA DGX A100 시스템으로 구성된 풀사이즈 슈퍼컴퓨터는 레고 같은 모듈식 아키텍처 덕분에 빠르면 1월부터 가동될 수 있습니다. 이는 100페타플롭의 뛰어난 컴퓨팅 성능을 제공하므로 세계에서 가장 빠른 슈퍼컴퓨터 전 세계 상위 500대 슈퍼컴퓨터 순위(TOP500)에 이름을 올리기에 충분하죠.

텍사스 A&M, 슈퍼컴퓨터 ACES에 NVIDIA Quantum-2 InfiniBand 활용

텍사스 A&M 대학의 고성능 컴퓨팅 센터는 NVIDIA Quantum-2 InfiniBand 플랫폼을 최초로 활용하는 고객 중 하나입니다. 델 테크놀로지스(Dell Technologies)에서 구축한 ACES 슈퍼컴퓨터는 400G InfiniBand 네트워크를 사용해 4개 공급업체의 5개 가속기에 연결하죠.

ACES의 수석 연구원이자 프로젝트 책임자인 홍가오 리우(Honggao Liu)는 NVIDIA Quantum-2에 대해 “ACES의 단일 작업이 모든 컴퓨팅 코어와 가속기를 사용해 확장할 수 있도록 합니다. 이를 통해 200G의 NVIDIA Quantum-1 InfiniBand 처리량이 2배 증가하는 것 외에도 총소유비용(TCO)이 향상되고, 네트워크 내 컴퓨팅 기능이 강화되며 확장성이 향상될 것입니다”라고 말했죠.

텍사스 A&M은 이미 연구원들에게 600개 이상의 NVIDIA A100 Tensor Core와 이전 세대 GPU를 포함하는 4개의 시스템에서 가속 컴퓨팅에 대한 액세스를 제공하고 있는데요. 4개 시스템 중 2개는 이전 버전의 NVIDIA InfiniBand 기술을 사용합니다.

미시시피 주립대(MSU), NVIDIA Quantum-2 InfiniBand 채택

MSU도 NVIDIA Quantum-2 InfiniBand 플랫폼을 활용할 계획입니다. 이는 MSU가 관리하는 4개의 클러스터 중 가장 큰 오리온(Orion)을 보완하는 새로운 시스템을 위해 선택된 네트워크이며, 모두 이전 버전의 InfiniBand를 사용합니다.

오리온과 신규 시스템은 모두 미국 해양대기청(NOAA)의 자금 지원을 받아 델 테크놀로지스가 구축했습니다. 이 시스템들은 NOAA 업무와 MSU 연구를 수행하고 있죠. 오리온은 2019년 6월 TOP500에 처음으로 이름을 올렸을 때 미국에서 4번째로 큰 학술용 슈퍼컴퓨터로 선정됐습니다.

MSU의 고성능 컴퓨팅 디렉터 트레이 브렉큰리지(Trey Breckenridge)는 “MSU의 4세대 슈퍼컴퓨터가 모두 InfiniBand를 사용하고 있으므로 대규모 작업을 안정적으로 실행할 만큼 강력하고 성숙한 기술이라는 것을 알고 있습니다. MSU는 HPC에서 선두를 유지하기 위해 NVIDIA Quantum-2가 포함된 새로운 시스템을 추가하고 있습니다”라고 덧붙였죠.

영국에 상륙한 Quantum 네트워크

영국에서는 DIaL 시스템으로 알려진 레스터 대학(University of Leicester)의 데이터 집약형 슈퍼컴퓨터가 InfiniBand의 200G 버전인 NVIDIA Quantum으로 업그레이드됐습니다. 레스터 대학의 이론 천체 물리학 교수이자 HPC 센터 소장인 마크 윌킨슨(Mark Wilkinson)은 “DIaL은 우리를 둘러싼 우주에 대한 이해를 높이기 위해 답해야 하는 복잡하고 데이터 집약적인 질문을 다루기 위해 특별 설계됐습니다”라고 말했습니다.

이어 “이러한 전문 워크로드의 강력한 요구 사항으로 인해 InfiniBand만이 제공할 수 있는 높은 대역폭과 짧은 지연 시간이 연구에 필수적입니다”라고 덧붙였다. DIaL은 에든버러 대학(University of Edinburgh)의 투르사(Tursa) 시스템을 포함해 InfiniBand를 사용하는 영국 DiRAC 시설의 슈퍼컴퓨터 4대 중 하나입니다.

평가에서 더욱 빛나는 InfiniBand

기술 평가를 통해 연구진은 Quantum 네트워크에서 NVIDIA GPU 가속기를 갖춘 투르사가 대체 인터커넥트를 사용해 CPU 전용 테서랙트(Tesseract) 시스템의 5배 성능을 제공한다는 것을 확인했습니다.

애플리케이션 벤치마크에 따르면 투르사의 16개 노드는 테서랙트의 512개 노드보다 2배 높은 성능을 제공하는 것으로 나타났는데요. 투르사는 테서랙트 대비 킬로와트당 성능이 크게 향상되어 네트워크 대역폭의 90%를 사용해 노드당 10테라플롭을 제공합니다. 이는 전세계 대부분 TOP500 시스템이 NVIDIA 기술을 활용하는 이유를 뒷받침하죠.

자세한 내용은 11월 15일에 생중계된 SC21의 특별 연설 온디맨드 영상에서 확인하세요. NVIDIA의 마크 해밀턴(Marc Hamilton)은 최신 뉴스, 혁신, 기술을 소개한 후 NVIDIA 전문가와 함께하는 라이브 Q&A 패널을 진행했습니다.