엔비디아가 하이퍼스케일 데이터센터용 딥 러닝 추론의 역량을 확대합니다

by NVIDIA Korea

엔비디아는 GTC 2018에서 새로운 기술 및 파트너십을 연달아 발표했는데요. 이를 통해 엔비디아의 추론 역량에 대한 잠재 시장 규모가 전 세계 3천 만 대의 하이퍼스케일 서버로 확대되는 동시에 딥 러닝 기반 서비스의 비용은 대폭 낮아질 것이라고 밝혔습니다.

GTC 2018 기조연설에서 엔비디아의 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 데이터센터 및 자동차 애플리케이션 분야는 물론, 로봇과 드론 등 임베디드 장치에서 음성 인식, 자연어 처리, 추천 시스템 및 이미지 인식을 지원하게 됨에 따라 딥 러닝 추론을 위한 GPU 가속이 이 시장의 관심을 받게 된 과정에 대해 자세히 설명했습니다.

엔비디아는 자사의 텐서RT(TensorRT) 추론 소프트웨어의 신규 버전을 선보이며, 구글의 인기 프레임워크인 텐서플로(TensorFlow)에 텐서RT가 통합된다고 발표했는데요. 아울러 음성 인식 분야에서 가장 각광받고 있는 프레임워크인 칼디(Kaldi)가 GPU용으로 최적화됐다고 전했습니다. 아마존, 페이스북, 마이크로소프트 등 파트너들과의 긴밀한 협업을 통해 개발자들은 ONNX 및 WinML을 이용해 GPU 가속의 이점을 적극 활용할 수 있게 됐습니다.

엔비디아의 가속 컴퓨팅 담당 부사장 겸 제너럴 매니저인 이안 벅(Ian Buck)은 “프로덕션 딥 러닝 추론을 위한 GPU 가속 기술로, 최대 규모의 뉴럴 네트워크도 실시간으로 최저 수준의 비용에서 구동할 수 있게 됐습니다. 더 많은 지능형 애플리케이션 및 프레임워크에 대한 지원을 빠르게 확대해, 이제 딥 러닝의 품질도 향상시킬 수 있고 3천만 대에 이르는 하이퍼스케일 서버의 비용도 줄일 수 있게 됐습니다”라고 말했습니다.

 

텐서RT, 텐서플로 통합

엔비디아는 다양한 종류의 애플리케이션에서 딥 러닝 추론을 가속화할 수 있는 텐서RT 4(TensorRT 4) 소프트웨어를 공개했는데요. 텐서RT는 상당히 정확한 수준으로 INT8 및 FP16 네트워크 처리를 진행해 데이터센터의 비용을 최대 70% 절감할 수 있습니다.(1)

텐서RT 4는 트레이닝을 거친 뉴럴 네트워크를 하이퍼스케일 데이터센터, 임베디드 및 자동차용 GPU 플랫폼에서 신속하게 최적화, 검증 및 배포하는 데 사용될 수 있는데요. 컴퓨터 비전, 뉴럴 네트워크 기반 기계 번역, 자동 음성 인식, 음성 합성 및 추천 시스템 등 일반적인 응용 분야에서 CPU 대비 최대 190배 빠른(2) 딥 러닝 추론 능력을 제공합니다.

보다 능률적으로 개발 작업을 진행하기 위해 엔비디아와 구글의 엔지니어들은 텐서RT를 텐서플로 1.7에 통합, GPU에서 딥 러닝 추론 애플리케이션을 보다 편리하게 구동하도록 했습니다.

구글의 엔지니어링 담당 디렉터인 라자트 몽가(Rajat Monga)는 “텐서플로팀은 딥 러닝 관련 업계에서 엔비디아 GPU를 통해 최상의 성능을 누릴 수 있도록 엔비디아와 긴밀하게 협업하고 있습니다. 텐서플로와 엔비디아 텐서RT의 통합으로, 이제 볼타(Volta) 텐서 코어 기술이 적용된 엔비디아 딥 러닝 플랫폼에서 (저지연 목표 치 내 일반적인 GPU 실행과 비교해) 최대 8배 높은 추론 처리 속도를 구현하게 되며 텐서플로 내에서 최고 성능의 GPU 추론이 가능해졌습니다”라고 설명했습니다.

엔비디아는 세계적인 음성 인식 프레임워크인 칼디가 GPU 상에서 더욱 빠른 성능을 제공할 수 있도록 최적화를 실시했는데요. GPU 음성 인식 가속으로 소비자는 더욱 정확하고 유용한 가상 비서 서비스를 이용할 수 있으며 데이터센터 운영자들의 배포 비용은 낮아질 전망입니다.

 

광범위한 업계 지원

전 세계 다양한 기업의 개발자들이 텐서RT를 이용해 데이터에서 새로운 인사이트를 발견하고 있으며, 기업체와 소비자들에게 지능형 서비스를 배포하고 있습니다.

엔비디아 엔지니어들은 카페 2(Caffe 2), 체이너(Chainer), CNTK, MX넷(MXNet) 및 파이토치(Pytorch) 등 ONNX 프레임워크를 이용하는 개발자들이 편리하게 엔비디아 딥 러닝 플랫폼을 배포할 수 있도록 아마존, 페이스북, 마이크로소프트와 긴밀하게 협력해왔지요.

SAP의 머신 러닝 부문 총괄인 마커스 노가(Markus Noga)는 “엔비디아 테슬라 V100(NVIDIA Tesla V100) GPU에서 우리의 딥 러닝 기반 추천 애플리케이션을 구동하며 텐서RT를 평가해보게 되었는데, 추론 속도 및 처리량이 CPU 기반 플랫폼과 비교해 45배 가량 높은 것으로 나타났습니다. 텐서RT가 우리의 엔터프라이즈 고객들에게 상당한 생산성 향상으로 기여할 것으로 봅니다”라고 말했습니다.

트위터 코텍스(Twitter Cortex)의 책임자인 니콜라스 쿰차츠키(Nicolas Koumchatzky)는 “GPU를 이용한 덕분에 우리 플랫폼 상에서 미디어를 인식할 수 있게 되었는데, 이를 통해 미디어 딥 러닝 모델의 트레이닝 시간이 상당히 줄어든 것은 물론, 추론 시간 동안 라이브 동영상을 실시간으로 인식하게 하는 것 또한 가능합니다”라고 언급했습니다.

마이크로소프트 또한 최근 Windows 10 애플리케이션에 대한 AI 지원을 발표했는데요. 엔비디아는 마이크로소프트와 손잡고 GPU 가속 툴을 개발해 개발자들이 Windows 애플리케이션에 더 많은 지능형 기능을 탑재할 수 있도록 지원할 방침입니다.

엔비디아는 또한 멀티클라우드 GPU 클러스터에서 엔터프라이즈 추론 배포를 촉진하기 위해 쿠버네티스(Kubernetes)에 대한 GPU 가속 지원을 발표했는데요. 엔비디아는 쿠버네티스 생태계를 지원하기 위해 오픈 소스 커뮤니티에 GPU 기능 강화를 기여하고 있습니다.

이외에도, 매트랩(MATLAB) 소프트웨어의 개발사인 매스웍스(MathWorks)가 오늘 매트랩에 텐서RT를 통합한다고 발표했습니다. 공학자들과 과학자들은 이제 엔비디아 드라이브(NVIDIA® DRIVE™), 젯슨(Jetson™), 및 테슬라(Tesla®) 플랫폼에 대한 고성능 추론 엔진을 매트랩에서 자동 생성할 수 있습니다.

 

데이터센터를 위한 추론 역량

데이터센터 관리자들은 보유 서버의 생산성을 극대화하기 위해 성능과 효율성 간의 균형을 유지하고자 노력하는데요. 엔비디아 테슬라 GPU 가속 서버는 딥 러닝 추론 애플리케이션 및 서비스에 대해 일부 CPU 서버를 대체할 수 있어서, 중요한 랙 서버의 공간을 절감할 수 있으며 에너지 및 냉각을 위한 요구사항도 줄일 수 있습니다.

 

자율주행차량, 임베디드를 위한 추론 역량

텐서RT는 엔비디아 드라이브 자율주행차량 및 엔비디아 젯슨 임베디드 플랫폼에 적용될 수 있습니다. 모든 프레임워크 상의 딥 뉴럴 네트워크를 데이터센터 내 엔비디아 DGX(NVIDIA DGX™) 시스템에서 트레이닝을 거쳐 로봇부터 자율주행차량에 이르기까지 모든 종류의 장치에 배포해 엣지 장치에서의 실시간 추론을 구현할 수 있습니다.

텐서RT를 통해 개발자들은 추론 배포를 위한 성능 조절이 아닌 참신한 딥 러닝 기반 애플리케이션 개발에 집중할 수 있습니다. 개발자들은 텐서RT를 이용해 INT8 또는 FP16 정밀도를 활용하는 추론을 매우 빠른 속도로 구현할 수 있어서, 임베디드 및 자동차 플랫폼에서의 물체 감지 및 경로 계획 등의 기능을 구현하는데 매우 중요한 요소인 지연성을 대폭 줄일 수 있습니다.

텐서RT 4 RC 버전에 대한 자세한 사항은 https://developer.nvidia.com/tensorrt에서 확인해보세요.

 

  • 주요 클라우드 서비스 기업의 워크로드 믹스에 기반한 총 소유 비용(Total cost of ownership): 뉴럴 네트워크 기반 협업 필터링(NCF) 60%, 뉴럴 네트워크 기반 기계 번역(NMT) 20%, 자동 음성 인식(ASR) 15%, 컴퓨터 비전(CV) 5%

소켓(Tesla V100 GPU vs CPU) 당 워크로드 속도 향상: NCF 10배, NMT 20배, ASR 15배, CV 40배

CPU 노드 구성은 2소켓 인텔 스카이레이크(Skylake) 6130. GPU 권장 노드 구성은 볼타 HGX-1 8개

  • 중요한 워크로드 범위 내 성능 향상이 관찰되었습니다. 예시로 지연율이 7ms 정도인 ResNet50 v1 추론 성능의 경우, 테슬라 V100 GPU에서 텐서RT를 활용하면 최저지연(단일 배치) 성능으로 단일 소켓 인텔 스카이레이크 6140에서 텐서플로를 사용할 때 보다 속도가 190배 향상됩니다.