암페어 아키텍처 기반으로 AI 워크로드 가속화하는 NVIDIA vGPU 소프트웨어

최신 NVIDIA Virtual Compute Server(vCS) 소프트웨어와 NVIDIA A100 GPU는 가상 인프라에서 AI와 데이터 사이언스 워크로드 성능을 대폭 향상시킵니다
by NVIDIA Korea

NVIDIA 가상 GPU 제품군은 AI에서 VDI에 이르는 모든 워크플로우에 강력한 성능을 제공합니다.

vGPU 기술은 IT 팀이 GPU 리소스 배포를 쉽게 확장할 수 있도록 지원하며, 전문가들이 협업하고 데이터센터나 클라우드에서 고급 그래픽과 컴퓨팅 워크플로우를 실행할 수 있도록 도와줍니다.

이제 엔비디아는 NVIDIA A100 Tensor Core GPU를 추가 지원하는 NVIDIA Virtual Compute Server(vCS)의 업데이트를 통해 vGPU 소프트웨어의 기능들을 확장하고 있는데요. NVIDIA vGPU 기술을 기반으로 vCS는 AI와 컴퓨팅 집약적인 워크로드를 VM(가상머신)에서 실행시킵니다.

최신 NVIDIA vCS는 NVIDIA A100을 지원해 AI와 데이터분석 워크로드 성능을 엄청나게 가속화하는데요.

NVIDIA 암페어(Ampere) 아키텍처 기반의 A100 GPU는 단일 및 멀티 GPU 워크스테이션, 서버, 클러스터, 클라우드 데이터센터, 엣지 시스템, 슈퍼컴퓨터에서 실행되는 GPU 컴퓨터와 딥러닝 애플리케이션에 강력한 스케일링 기능을 지원합니다.

하이퍼바이저 기반 가상화를 표준으로 하는 엔터프라이즈 데이터센터는 이제 vCS와 함께 A100을 구축하여 전혀 성능을 저하시키지 않고도, 관리와 모니터링이 가능한 가상화의 운영 이점을 모두 누릴 수 있게 되었습니다. 이제 모든 디바이스로 어디에서나 VM에서 실행되는 워크로드를 관리하고 모니터링하며 원격 실행하는 것이 가능해진 것이죠.

1029 블로그 1 중간이미지
상기의 그래프는 각각의 MIG 인스턴스에서 vCS VM을 구동할 때의 성능(연녹색)과 베어메탈에서 추론 워크로드를 실행할 때의 일반 성능(짙녹색)이 거의 동일하다는 것을 보여줍니다.

엔지니어, 연구원, 학생, 데이터 사이언티스트는 이제 단 몇 분만에, 안전하게 프로비저닝할 수 있는 가상머신을 통해 세상에서 가장 강력한 GPU에 액세스하여 컴퓨팅 집약적인 워크로드를 구동할 수 있습니다. NVIDIA A100 GPU가 vGPU 인증 서버에서 이용 가능해지면서 업계 전반의 전문가들은 워크로드를 강력한 성능으로 가속화할 수 있게 되었습니다.

또한 IT 전문가들은 Red Hat RHV/RHEL과 같은 하이퍼바이저를 통해 관리, 모니터링, 멀티 테넌시의 혜택을 얻을 수 있습니다.

척 더뷰크(Chuck Dubuque), 레드햇(Red Hat)의 제품 마케팅 담당 선임이사는 “레드햇의 고객들은 가상머신에서 멀티 테넌트 워크플로우를 관리하는 동시에 격리 및 보안 기능을 제공해야하는 필요성을 더욱 절감하고 있습니다. NVIDIA A100 GPU가 지원하는 새로운 멀티 인스턴스 GPU 기능은 새로운 차원의 AI 가속 워크로드를 클라우드에서 엣지 전반의 레드햇 플랫폼에서 구동하도록 지원합니다”라고 소감을 밝혔습니다.

NVIDIA vGPU의 새로운 기능은 다음과 같습니다.

  1. VM으로 멀티 인스턴스 GPU(MIG): MIG는 GPU를 최대 7개의 인스턴스로 분할해 NVIDIA A100의 성능과 가치를 확장합니다. 각각의 MIG는 각각의 고유한 고대역폭 메모리, 캐시, 컴퓨팅 코어로 완전히 격리됩니다. 기업들은 MIG와 vCS을 결합하여 각각의 MIG 파티션에서 VM을 실행해 하이퍼바이저 기반 서버 가상화의 관리, 모니터링, 운영상의 이점을 누릴 수 있습니다.
  2. 이기종 프로파일(Heterogeneous Profiles)과 운영체제(OS): MIG로 다양한 크기의 인스턴스를 생성하는 기능과 함께, 이기종 vCS 프로파일을 A100 GPU에서 사용할 수 있습니다. 이로써 다양한 크기의 VM을 단일 A100 GPU에서 구동할 수 있죠. 또한 NVIDIA GPU 기반 vCS를 통해 VM을 실행하고 이기종 운영시스템을 A100 GPU에서 실행할 수 있습니다. 이와 동시에 또 다른 VM에서 다양한 Linux를 실행할 수 있죠.
  3. GPU Direct RDMA (Remote Direct Memory Access): 이제 NVIDIA vCS는 GPUDirect RDMA를 지원해 네트워크 디바이스를 통해 GPU 메모리에 직접 액세스해 GPU-GPU 통신 지연시간을 줄이고, CPU 호스트 메모리를 우회해 가상환경에서 CPU를 완전히 오프로드할 수 있습니다.

NVIDIA Virtual Compute Server에 대한 자세한 사항을 여기를 클릭해 확인해보세요. NVIDIA vCS가 VMworld에서 올해의 혁신 기술 상을 수상하게 된 이유도 알아보시기 바랍니다. 또한 엔터프라이즈 AI 솔루션 혁신을 위해 NVIDIA가 VMware 와 맺은 파트너십과 최신 발표 내용을 여기에서 살펴보세요.

NVIDIA A100 기반 vCS를 지원하는 VMware vSphere는 내년에 이용 가능합니다. NVIDIA 가상 GPU 포트폴리오에는 기술 및 크리에이티브 전문가를 위한 Quadro Virtual WorkstationGRID vPC 그리고 vApp이 포함됩니다.

GTC 2020에서 공개한 vGPU 최신 정보

지난 엔비디아 GTC 2020에서 공개된 NVIDIA Virtual Compute Server에 대한 업계의 사용사례가 궁금하시다면 여기를 클릭하세요.

엔비디아의 아담 테텔만(Adam Tetelman)과 제프 와이스(Jeff Weiss)가 넷앱(NetApp)의 티모시 디트리히(Timothy Dietrich)가 함께 NVIDIA Virtual Compute Server 기술을 전반적으로 설명하고 사용사례와 이점에 대해 논의합니다.

또한 엔비디아의 전문가 패널인 ManTech 와 Maxar가 NVIDIA vGPU를 통해 대용량 데이터 분석, 원격 시각화 기능, 비디오 스트리밍과 이미지를 가속화하는 방법을 소개합니다.

더 자세한 이야기가 궁금하다면 GTC 2020 다시보기를 신청하세요. GTC 2020 행사 종료 후에도 30일 동안 모든 GTC 콘텐츠를 자유롭게 감상하실 수 있습니다.