더 많은 사용자, 더 많은 앱, 더 많은 플랫폼 위한 NGC 컨테이너 SC18에서 대공개

by NVIDIA Korea

이런 걸 선순환이라고 부르죠. GPU로 가속화 되는 데이터 사이언스와 GPC 워크로드가 점차 많아지고 있습니다. 이를 통해 폭넓은 과학적 도약이 이뤄졌는데요, 올해 고든 벨(Gordon Bell) 상 수상자로 선정된 여섯 개 분야 중 다섯 개 분야도 바로 이에 해당합니다. 이러한 발전은 마인드셰어(mindshare)를 향상시킵니다. 이번 주 미국 댈러스에서 열리는 슈퍼컴퓨팅 컨퍼런스인 SC18에서는 GPU를 주된 기능으로 한 세션과 데모, 신제품 발표 등을 선보입니다.

또한 NGC 컨테이너 레지스트리(NGC container registry)로부터 소프트웨어를 보다 쉽게 배포할 수 있도록 하여 이 선순환을 마무리합니다. 사전 통합된 최적화 컨테이너인 이 서비스는 엔비디아 GPU에 업계 표준 소프트웨어를 위한 최신 업데이트와 성능 개선을 제공합니다. 지난해 대비 컨테이너 수가 두 배 늘어나며 레지스트리가 성장하면서 사용자들이 GPU 컴퓨팅을 활용할 방법도 더 많아졌습니다.

많은 애플리케이션, 새로운 멀티노드 컨테이너, 그리고 싱귤래러티

NGC 컨테이너 레지스트리는 딥 러닝, HPC 및 HPC 시각화를 위한 총 41개 프레임워크와 애플리케이션 (지난해 18개)을 제공합니다. 최근에 크로마(CHROMA), 매트랩(Matlab), MILC, 패러뷰(ParaView), 래피즈(RAPIDS), VMD가 새로이 추가됐습니다. NGC 컨테이너 레시스트리는 이러한 기능을 향상시켰으며, 배포하기 더욱 쉽게 만들었습니다.

SC18에서 엔비디아는 슈퍼컴퓨팅 사용자들이 대규모 클러스터에서 워크로드를 실행할 수 있도록 지원하는 새로운 멀티-노드 HPC와 시각화 컨테이너를 발표했습니다.

대규모 배포에서는 여러 서버에서 작업을 실행하기 위해 메시지 전달 인터페이스(MPI)라는 기술을 사용하는 경우가 많습니다. 그러나 HPC 시스템(스케줄러, 네트워킹 스택, MPI와 다양한 드라이버 버전 등)을 정의하는 변수가 많아 MPI를 사용하는 애플리케이션 컨테이너를 구축하기란 쉽지 않았습니다.

NGC 컨테이너 레지스트리는 다중 노드 배포를 지원하는 다섯 개 컨테이너의 초기 롤아웃(rollout)을 통해 이 작업을 간소화 합니다. 이를 통해 노드 당 여러 개의 GPU를 사용해 다중 노드 상에서 대규모 계산 작업을 훨씬 수월하게 실행할 수 있습니다.

한층 쉬운 배포를 위해 NGC 컨테이너는 이제 슈퍼컴퓨팅 현장에서 널리 채택되고 있는 컨테이너 기술인 싱귤래러티(Singularity)에서도 사용할 수 있습니다.

새로운 NGC-레디 프로그램

엔비디아는 사용자가 HPC 애플리케이션을 실행할 수 있는 장소를 확장할 수 있도록 새로운 NGC-레디(NGC-Ready) 프로그램도 발표했습니다. 이 프로그램은 엔비디아 GPU로 실행되는 강력한 시스템을 사용하는 이들이 안심하고 배포할 수 있도록 지원합니다. 서버 업체들이 제공하는 초기 NGC 레디 시스템에 포함된 내역은 다음과 같습니다.

  • ATOS (BullSequana) X1125
  • Cisco UCS C480ML
  • Cray CS Storm NX
  • Dell EMC PowerEdge C4140
  • HPE Apollo 6500
  • Supermicro SYS-4029GP-TVRT

엔비디아 쿼드로 GPU가 장착된 NGC-레디 워크스테이션은 연구진이 딥 러닝 프로젝트를 신속하게 구축하고 교육하며 발전시키는데 필요한 성능과 유연성을 제공하는 플랫폼을 선보입니다. 워크스테이션 업체들이 제공하는 NGC-레디 시스템에 포함된 내역은 다음과 같습니다.

  • HPI Z8
  • Lenovo ThinkStation P920

NGC 컨테이너와 유수 업체들이 제공하는 NGC-레디 시스템의 조합은 사용자들에 개발부터 생산까지 HPC 애플리케이션을 롤 아웃 할 수 있는 복제 가능하고 컨테이너화된 방식을 제공합니다.

NGC 컨테이너 레지스트리의 컨테이터는 아마존 EC2, 구글 클라우드 플랫폼, 마이크로소프트 애저, 오라클 클라우드 인프라스트럭처, 엔비디아 DGX 시스템, 일부 엔비디아 타이탄(TITAN)쿼드로 GPU 등을 포함한 다양한 추가 플랫폼에서 실행됩니다.

NGC 컨테이너, 주요 슈퍼컴퓨팅 센터에 배포되다

NGC 컨테이너 레지스트리 사용자는 대기업부터 개별 연구원에 이르는 다양한 업계와 분야에 걸쳐 있습니다. 이들 중에는 미국 유수 교육기관과 연구기관인 클렘슨 대학교(Clemson University)와 애리조나 대학교(University of Arizona)도 포함됩니다.

클렘슨 대학교의 팔메토(Palmetto) 클러스터 연구진은 동일한 애플리케이션의 여러 버전을 지원해 달라는 요청을 지속적으로 받았습니다. 여러 버전 모두를 설치하고 업그레이드하며 유지하는 작업은 시간이 들 뿐만 아니라 자원 소모도 많았습니다. 이 모든 버전을 유지하는 작업으로 인해 인력 지원이 줄어들고 사용자 생산성이 저하됐습니다.

클렘슨 팀은 팔메토 시스템 상의 NGC 컨테이너 레지스트리에서 GROMACS와 텐서플로(TensorFlow)와 같은 HPC와 딥 러닝 컨테이너를 성공적으로 테스트했습니다. 지금은 사용자들에 프로젝트에 NGC 컨테이너 활용을 권장합니다. 뿐만 아니라 이 컨테이너를 싱귤래러티 배포에서 실행하여 시스템 전반에 걸친 지원도 더욱 쉬워졌습니다. 클렘슨 팔메토 사용자들은 NGC 컨테이너를 활용해 배포 시 다른 연구진에 지장을 주거나 시스템 관리자에 의존하지 않으면서 선호하는 애플리케이션 버전을 실행할 수 있게 됐습니다.

애리조나 대학교에서는 텐서플로 딥 러닝 프레임워크의 새로운 버전이 나올 때마다 오셀롯(Ocelote) 클러스터용 시스템 관리자는 홍수같이 밀려드는 업데이트 요청을 받곤 했습니다. HPC 시스템에 텐서플로를 설치하는 작업은 복잡할 뿐 아니라 길게는 며칠까지 소요될 수 있어 인력이 넉넉지 않았던 전담 팀으로써는 인력 부족 문제가 불거졌고, 사용자들에게는 불만을 안겨주었습니다.

크리스 레이디(Chris Reidy) 애리조나 대학교 HPC 시스템 수석 관리자는 “우리 클러스터 환경은 딥 러닝 워크플로의 요구사항을 따라잡을 수 있을 정도로 빠르게 업데이트 되지 않는다. 엔비디아 GPU에 상당히 투자했으며, 이를 통해 NGC 컨테이너를 개선했다. NAMD와 같은 기존 분자 역학 코드에서 머신 러닝과 딥 러닝에 이르는 다양한 분야에 큰 관심을 두고 있으며, 최적화되고 완전한 테스트를 거친 소프트웨어 스택으로 구성된 NGC 컨테이너로 연구 작업을 빨리 시작할 수 있게 됐다”고 말했습니다.

레이디는 자체 클러스터 상의 싱귤래러티 내 NGC에서 다양한 HPC와 HPC 시각화, 딥 러닝 컨테이너를 테스트했습니다. NGC 설명서에 제시된 지침을 따라 그는 쉽게 NGC 컨테이너를 가동하고 실행할 수 있었습니다. 이제 이 방법은 이러한 애플리케이션을 실행하는 주된 방법으로 자리매김 했습니다.

NGC container registry 에서NGC 컨테이너를 무료로 다운로드 받으실 수 있습니다.