미국 미네소타대 슈퍼컴퓨팅 연구센터(MSI)의 연구진은 컨테이너를 사용해 고성능컴퓨팅(HPC)과 AI가 생성한 작지만 중요한 소프트웨어 요소 집합체를 통제하는 방법을 찾아 냈습니다.
MSI는 미네소타 주 교육기관들의 HPC 연구 중심지입니다. MSI에서는 엔비디아 GPU를 활용해서 암 유전자 연구에서 기후변화가 미치는 영향에 대한 연구에 이르는 400여 종의 애플리케이션을 가속화하고 있습니다. 미네소타 주 내 수 천 명에 이르는 사용자들에게 이렇게 다양한 애플리케이션을 사용할 수 있게 지원하는 일은 결코 간단한 문제가 아닙니다.
각각의 애플리케이션에는 다양한 요소들이 복잡하게 적용되는데요. 한 애플리케이션에 필요한 하드웨어 구성, 컴파일러, 라이브러리가 다른 애플리케이션에는 맞지 않을 수 있습니다.
시스템 관리자들은 각각의 애플리케이션을 업그레이드, 설치, 모니터링 해야 하다 보니 지쳐버릴 수 있죠. 그러다 보면 관리자와 사용자 모두 최신, 최고의 코드를 찾다가 또 다시 지쳐버릴 수 있습니다.
MSI에서는 사용자들의 이런 불편함을 덜어주기 위해 애플리케이션을 사용자에게 필요한 라이브러리와 런타임 엔진, 그 밖의 소프트웨어와 결합한 컨테이너를 도입했습니다.
애플리케이션 배포를 가속화하는 컨테이너
MSI의 사용자들은 컨테이너를 이용해 관리자의 지원 없이도 단 몇 분 만에 앱을 배포할 수 있게 됐습니다.
MSI의 리서치 컴퓨팅 부소장 벤자민 린치는 “컨테이너는 핵심적인 연구 요소의 이동성과 재생산성을 향상시키는 툴입니다. 엔비디아 GPU의 Al/ML처럼 급변하는 소프트웨어 생태계에서 중요한 역할을 하죠” 라고 말했습니다.
컨테이너가 앱 구동에 필요한 모든 것을 제공해주기 때문에 우분투(Ubuntu)에 탑재된 애플리케이션을 테스트할 때 MSI의 CentOS 클러스터에서 해당 애플리케이션이 호환될지 걱정할 필요가 없습니다.
미네소타대 지형컴퓨팅 과학자 브라이언 렁크는 “컨테이너는 복잡한 농업환경 모델을 다른 연구자도 재현할 수 있는 복제가능하고 쉽게 병렬 처리되는 워크플로우로 압축할 수 있는 아주 중요한 툴입니다”라고 말했습니다.
GPU가 최적화된 HPC 와 Al 소프트웨어의 허브 NGC
MSI의 연구진은 GPU가 최적화된 HPC 와 Al 컨테이너로 엔비디아의 NGC 레지스트리를 선택했습니다. NGC 카탈로그에는 최상의 성능을 구현하기 위해 테스트를 거쳐 조절된 딥 러닝에서 시각화에 이르는 다양한 컨테이너들이 준비돼 있습니다.
컨테이너들은 최적의 성능을 위해 다각도의 테스트를 거칩니다. x86, ARM 등 다수의 아키텍처에 대한 호환성 테스트도 거쳐 시스템 관리자들이 다양한 사용자들을 지원할 수 있습니다.
NGC는 사전 학습 모델과 개발자 키트로 구성된 대규모 AI 패키지도 구비했습니다. 연구진은 이와 같은 AI 모델에 전이학습(transfer learning)을 적용해 자신만의 맞춤형 버전을 만들어 개발시간을 단축시킬 수 있죠.
미네소타 대학교 농업분야 데이터 사이언티스트 크리스티나 포우디알은 “HPC 플랫폼에서 컨테이너화된 애플리케이션을 구동할 수 있다면 일을 쉽게 진행할 수 있습니다. GPU 덕분에 연산에 소요되는 시간이 10배 이상 줄었죠”라고 말했습니다.
HPC와 Al 워크로드의 만남
HPC와 Al 애플리케이션을 접목했다는 사실은 MSI가 컨테이너를 도입하기로 한 또 다른 이유입니다. 이 두가지 워크로드는 MSI의 GPU 가속 시스템의 병렬 컴퓨팅 성능을 활용합니다.
이렇게 두가지 워크로드를 접목한 덕분에 다양한 분야 간 공동연구가 시작됐습니다.
미네소타대 연구 컴퓨팅 책임자 짐 윌겐부쉬는 “애플리케이션 사이언티스트들은 컴퓨터 사이언티스트들과 함께 Al 기술이 새로운 데이터 소스를 활용하고 또 우리가 이미 알고 있는 물리적인 프로세스를 일부 차용하는 방법을 근본적으로 개선하고 있습니다”라고 밝혔습니다.
이렇게 다양한 분야에 종사하는 구성원들로 이뤄진 연구진이 엔비디아와 함께 워크플로우와 알고리즘을 최적화하고 있습니다. 이 연구진은 NGC에서 업데이트되고 테스트를 거쳐 저장된 컨테이너를 기반으로 급변하는 AI 소프트웨어 트렌드에 발맞추고 있습니다.