엔비디아, 업계 최고의 AI 추론 플랫폼 공개

by NVIDIA Korea

엔비디아는 음성, 비디오, 이미지, 추천 서비스 등을 위한 업계 최고수준의 추론 가속화 기능을 제공하는 인공지능(AI) 데이터센터 플랫폼을 출시했습니다.

엔비디아가 새롭게 공개한 AI 데이터센터 플랫폼

 

엔비디아 텐서RT(TensorRT™) 하이퍼스케일 추론 플랫폼은 엔비디아 튜링(Turing) 아키텍처와 일련의 새로운 추론 소프트웨어를 기반으로 하는 엔비디아 테슬라(NVIDIA® Tesla®) T4 GPU로 구성됩니다. 엔드-투-엔드 애플리케이션 위한 낮은 대기 시간과 빠른 성능을 제공하는 이 플랫폼을 통해 하이퍼스케일 데이터센터 내에서 향상된 자연어 상호작용은 물론, 검색 시 관련 결과를 나열하기 보다는 직접 답변을 제공하는 등 새로운 서비스가 가능합니다.

엔비디아의 가속 컴퓨팅 담당 부사장 겸 총괄인 이안 벅(Ian Buck)은 “우리 고객들은 모든 제품과 서비스가 AI를 통해 향상되고 진화될 미래를 마주하고 있습니다. 엔비디아 텐서RT 하이퍼스케일 플랫폼은 이를 보다 효율적이고 빠른 속도로 구현하기 위해 탄생한 것”이라고 설명했습니다.

대규모 데이터센터는 매일 수십억 건의 음성 쿼리, 번역, 이미지, 비디오, 추천, 소셜 미디어 등의 상호작용을 처리합니다. 각 애플리케이션은 이러한 처리가 실행되는 서버에 위치한 서로 다른 유형의 신경 네트워크가 필요합니다. 엔비디아 텐서RT 하이퍼스케일 플랫폼은 실시간 추론 소프트웨어와 CPU보다 최대 40배 빠른 속도로 쿼리를 처리하는 테슬라 T4 GPU를 통해 데이터 처리량(throughput)과 서버 활용도를 극대화합니다.

엔비디아는 AI 추론 산업이 향후 5년 내에 200억 달러 규모로 성장할 것으로 예상합니다.

업계 최고의 AI 추론 플랫폼

엔비디아 텐서RT 하이퍼스케일 플랫폼은 강력하며 효율적인 추론에 최적화된 하드웨어와 소프트웨어의 조합으로, 주요 구성요소는 다음과 같습니다.

  • 엔비디아 테슬라 T4 GPU: 320개의 튜링 텐서 코어와 2,560개의 쿠다(CUDA) 코어를 갖춘 이 새로운 GPU는 FP32부터 FP16까지의 연산성능뿐 아니라, INT8 및 INT4의 다중 정밀도까지 지원해 혁신적인 성능 제공. 대부분의 서버에 쉽게 장착되는 에너지 효율적인 75와트 소형 PCle 폼팩터로 제공되는 이 GPU는 FP16에서 65 테라플롭(teraflop) 피크성능을 내며, INT8에서 130 테라플롭, INT4에서 260 테라플롭의 성능 구현.
  • 엔비디아 텐서RT 5: 추론 옵티마이저와 런타임 엔진으로, 튜링 텐서 코어를 지원하며 다중 정밀도 워크로드를 위해 신경 네트워크 최적화 확장.
  • 엔비디아 텐서RT 추론 서버: 컨테이너형 마이크로 서비스 소프트웨어로, 데이터센터 구성 시 애플리케이션이 AI 모델을 사용할 수 있도록 지원. 엔비디아 GPU 클라우드 컨테이너 레지스트리에서 자유롭게 사용 가능하며, 데이터센터 처리량 및 GPU 활용을 극대화. 또한, 널리 이용되고 있는 모든 AI 모델 및 프레임워크를 지원하며, 쿠버네티스(Kubernetes)와 도커(Docker) 통합.

엔비디아의 새로운 추론 플랫폼에 기뻐하는 고객들

마이크로소프트의 빙(Bing) 및 AI 제품 담당 부사장인 조디 리 바스(Jordi Ribas)는 “우리는 고객에게 가장 혁신적인 AI 기반 서비스를 제공하기 위해 노력하고 있다. 엔비디아 GPU를 실시간 추론 작업에 사용하면 빙의 고급 검색기능이 향상돼 이미지 대상 인식 대기 시간을 줄일 수 있다. 엔비디아의 차세대 추론 하드웨어와 소프트웨어의 조합으로 더 많은 사용자들이 AI 제품과 서비스의 혜택을 받을 수 있게 될 것”이라고 설명했습니다.

구글 클라우드의 제품 관리자 크리스 클레​​반(Chris Kleban)은 “AI는 점점 보편화되고 있는 가운데, 추론 기능은 고객이 AI를 성공적으로 구축하는데 필수적인 요소이다. 구글 클라우드 플랫폼에서 엔비디아의 튜링 테슬라 T4 GPU를 지원하게 되어 기쁘게 생각한다”고 말했습니다.

구글 클라우드 플랫폼에서 엔비디아 테슬라 T4 GPU에 대한 액세스를 요청하는 방법과 더 자세한 내용은 웹페이지를 통해 확인해보세요.

주요 서버 벤더를 포함한 많은 기업들은 엔비디아 텐서RT 하이퍼스케일 플랫폼에 대해 다음과 같이 말합니다.

시스코(Cisco) 데이터센터 그룹 제품 관리 담당 부사장 카우스투브 다스(Kaustubh Das)는 “시스코의 UCS 포트폴리오는 정책 중심의 GPU 가속 시스템과 솔루션을 제공해 AI 수명주기의 모든 단계를 지원한다. 엔비디아 튜링 아키텍처를 기반으로 한 엔비디아 테슬라 T4 GPU를 통해 시스코 고객들은 AI 추론 워크로드를 위한 가장 효율적인 가속기에 액세스 할 수 있게 됐다. 이를 통해 보다 신속하게 통찰력을 얻고 실행시간을 단축할 수 있다”고 설명했습니다.

델 EMC(Dell EMC) 제품 관리 및 마케팅, 서버 인프라 시스템 총괄 부사장 라비 펜데칸티(Ravi Pendekanti)는 “델 EMC는 고객이 IT를 혁신하는 동시에 AI와 같은 진보적인 기술의 이점을 누릴 수 있도록 돕는데 집중하고 있다. 세계 최고의 서버 시스템 공급업체인 델 EMC는 파워엣지 서버 포트폴리오를 지속적으로 개선하여 고객이 궁극적인 목표를 달성할 수 있도록 지원하고 있다. 엔비디아와의 협력과 테슬라에서 제공되는 최신 GPU 가속기의 도입은 AI 교육 및 추론에 있어 우리 고객들이 한걸음 나아가는데 매우 중요한 역할을 하게 될 것”이라고 말했습니다.

후지쯔(Fujitsu) 데이터센터 플랫폼 사업부의 제품 담당 부사장 마에다 히데아키(Hideaki Maeda)는 “후지쯔는 엔비디아의 테슬라 T4 GPU를 글로벌 후지쯔 서버 프라이머지(PRIMERGY) 시스템 제품군에 통합할 예정이다. 엔비디아의 최신 고효율 GPU 가속기를 활용하여 전 세계적으로 증가하고 있는 AI 요구사항에 최적화된 서버를 제공할 것”이라고 말했습니다.

휴렛 팩커드 엔터프라이즈(HPE)의 HPC 및 AI 담당 부사장 겸 총괄매니저 빌 매널(Bill Mannel)은 “우리는 보다 신속한 통찰력과 향상된 경험을 위해 최첨단 기술을 개발하는데 전념하고 있다. 엔비디아 튜링 아키텍처를 기반으로 한 엔비디아 T4 GPU를 통해 데이터센터를 계속해서 현대화하고 가속화하여 최첨단 추론을 가능하게 할 예정”이라고 말했습니다.

IBM 파워 시스템 제공 관리 부사장 스티브 시블리(Steve Sibley)는 “IBM 코그너티브 시스템(Cognitive Systems)은 간소화된 AI 플랫폼, 딥러닝과 추론 소프트웨어인 PowerAI, 그리고 IBM 파워시스템 AC922의 가속화 서버를 사용해 하드웨어와 소프트웨어를 동시에 최적화함으로써 4배 빠른 딥러닝 교육 시간을 제공한다. IBM은 엔비디아와의 파트너십을 통해 IBM 파워 프로세서 내에서 업계 유일의 CPU-GPU 엔비디아 NV링크(NVLink)를 개발했다. 새로운 엔비디아 T4 GPU 가속기를 이용해 추론 워크로드 분야의 리더십을 확대할 수 있을 것으로 기대된다”고 말했습니다.

오라클 클라우드 인프라 제품 개발 담당 부사장 카쉬 이프티크하르(Kash Iftikhar)은 “오픈소스 크로스 프레임워크 추론은 머신러닝 모델 구축에 필수적이다. GPU와 CPU 추론을 모두 지원하는 강력한 솔루션을 제공하는 엔비디아 텐서RT 추론 서버는 AI 애플리케이션을 보다 신속히 구축하고, 인프라 활용성을 향상시킬 것”이라고 말했습니다.

슈퍼마이크로(Supermicro)의 CEO 찰스 량(Charles Liang)은 “슈퍼마이크로는 방대한 양의 데이터를 생성하고 실시간 의사결정을 요하는 5G, 스마트시티 및 사물인터넷(IoT) 디바이스와 같은 기술들에 의해 주도되는 추론 시장의 요구사항을 충족시키기 위해 노력하고 있다. 엔비디아 텐서RT와 새로운 튜링 아키텍처 기반 T4 GPU 가속기의 조합은 이렇듯 까다롭고 대기 시간에 민감한 워크로드에 이상적이다. 따라서, 이를 우리의 GPU 시스템 제품군에 적극 활용할 계획”이라고 말했습니다.