엔비디아 텐서코어(Tensor Core) GPU를 탑재한 슈퍼컴퓨터 ABCI가 엔비디아 GPU 클라우드(NVIDIA GPU Cloud, NGC) 채택을 통해 혁신적 성과를 선보입니다. 일본에서 가장 빠른 슈퍼컴퓨터 ABCI는 세계 최초의 대형 오픈 AI 인프라로서 연구원들, 엔지니어들, 산업 사용자들이 과학 발전을 이룰 수 있도록 지원합니다.
전세계 고성능컴퓨팅(HPC) 시스템은 신약 개발에서 블랙홀 위치 발견, 안전한 원자력 에너지원 찾기에 이르기까지 전 과학 분야에서 획기적 발전 성과를 이뤘습니다. 이러한 과학 발전을 달성하기 위해서 사용되는 소프트웨어는 이를 구동하는 서버만큼 중요하죠.
그러나 HPC 클러스터에 애플리케이션을 설치하는 작업은 복잡하며 많은 시간이 소요됩니다. 연구원들과 엔지니어들은 소프트웨어 액세스를 기다리면서 생산성이 떨어지고, 시스템 관리자들은 애플리케이션 설치 요청으로 핵심적인 업무에 집중하기 어렵죠.
소프트웨어와 관련 종속물을 담은 패키지 컨테이너는 사용자에게 소프트웨어를 설치하지 않고도 시스템 상에서 소프트웨어를 운영할 수 있도록 합니다. 이는 사용자와 시스템 관리자 모두에게 도움이 되죠.
NGC로 사용하기 쉬운 AI·머신 러닝·HPC 소프트웨어 추구
NGC는 도커(Docker)와 싱귤래리티(Singularity) 모두에서 구동되는 딥 러닝 프레임워크, 머신 러닝 알고리즘, HPC 애플리케이션 등에 50개 이상의 GPU 최적화된 컨테이너를 제공합니다.
HPC는 노드 내와 노드 전반에서 확장가능한 GPU 성능을 제공합니다. 엔비디아는 매월 공개되는 업데이트를 통해 지속적으로 핵심 딥 러닝 프레임워크와 라이브러리를 최적화하고 있죠. 그렇기 때문에 사용자들은 모든 AI 프로젝트에서 최고 성능의 트레이닝과 인퍼런스(inference)를 이용할 수 있습니다.
ABCI에 NGC 컨테이너 구동
연구원들과 산업 사용자들은 핵물리학에서 제조에 이르기까지 다양한 영역에서 AI가 지원하는 과학 워크로드를 구동하기 위해 ABCI를 활용하고 있습니다. 또한, AI 트레이닝 속도의 한계를 뛰어넘기 위해 ABCI의 분산 컴퓨팅을 이용하고 있죠. 이 과정에서 적합한 소프트웨어와 하드웨어 툴 세트가 필요하며, 이에 ABCI에 NGC가 채택됐답니다.
일본 산업기술종합연구소(AIST) 인공지능연구소 팀장 히로타카 오가와(Hirotaka Ogawa), 는 “소스에서 딥 러닝 프레임워크를 설치하는 것은 복잡한 작업이며, 빈번한 릴리스에 맞춰 소프트웨어를 업그레이드하면서 자원이 소모됩니다. NGC를 통해 사용자들에게 최신의 AI 프레임워크를 지원할 수 있고, 사용자들은 엔비디아 GPU로 달성할 수 있는 최고의 성능을 누릴 수 있죠”라고 말했습니다.
오가와는 이어 “대부분의 우리 연구소 사용자들은 온프레미스 시스템과 ABCI 간에 이식성(portability)를 추구하는 산업 분야 사용자들입니다. NGC 와 싱귤래리티 덕분에, 사용자들은 다양한 플랫폼에서 개발, 테스트하고, 대규모로 배치할 수 있죠. 우리 샘플링 데이터에 따르면, 싱귤래리티 상에서 운영되는 100,000개 이상의 작업 중 80%에서 NGC 컨테이너가 사용되고 있다고 합니다”라고 덧붙였습니다.
NGC 컨테이너 리플리케이터로 시스템 관리자와 사용자의 사용 편의성 단순화
슈퍼컴퓨팅 센터와 대학에서 HPC 시스템을 관리하는 시스템 관리자들은 이제 자신의 클러스터에 NGC 컨테이너를 다운로드해서 저장할 수 있습니다. 이를 통해 사용자들은 소프트웨어에 빨리 접근해서 자신의 네트워크 트래픽을 완화하고 저장 공간을 절약할 수 있죠.
엔비디아는 최신 NGC 컨테이너 최신 버전을 자동으로 체크하고 다운로드하는 NGC 컨테이너 리플리케이터(Container Replicator)를 제공합니다. 시스템 관리자들은 이를 통해 매우 편리하게 사용자들이 최신 소프트웨어의 우수한 성능과 최신 기능 혜택을 누릴 수 있도록 돕습니다.
애플리케이션 컨테이너 보다 많은 기능
딥 러닝 컨테이너 이외에 NGC는 오브젝트 검출, 자연어 처리, 텍스트 음성 변환(TTS) 등과 같은 인기사례에 대해 60개의 트레이닝 전 모델과 17개 모델 스크립트를 호스트합니다. 사례에 맞춰 트레이닝 전 모델을 조율하면 더 빠르게 작업할 수 있는데요. 트레이닝 전 모델을 통해 연구원들은 신경망을 신속하게 미세 조율하거나 특정 사례 요건에 맞춰 이미 최적화된 네트워크 위에서 구축할 수 있습니다.
모델 트레이닝 스크립트는 모범 사례를 따르고, 첨단의 정확성을 보유하고 있으며 우수한 성능을 구현합니다. 이는 처음부터 네트워크를 구축해서 자신의 기호에 맞게 맞춤화를 하고자 계획하는 연구원들과 데이터 과학자들에게 이상적이죠. 이 모델과 스크립트는 엔비디아 텐서 코어 GPU가 제공하는 혼합 정밀도(mixed precision)를 활용해서 이전 세대에 비해 최고 3배 빠른 딥 러닝 성능 속도를 구현합니다다.
NGC 컨테이너는 온프레미스와 클라우드에서 운영하도록 구축되고 테스트되며, 멀티 클라우드 배포와 하이브리드도 지원합니다. 보다 자세한 내용은 https://ngc.nvidia.com/에서 확인할 수 있습니다.
보다 다양한 GPU 가속 AI 솔루션 사례를 확인하고 싶다면 AI CONFERENCE 2019에 지금 바로 등록하세요!