고성능 AI 추론이 가능한 NVIDIA Triton 최신 업데이트 소식!

NVIDIA는 전세계 25,000명 이상의 고객들이 사용하는 AI 추론 플랫폼인 NVIDIA Triton Inference Server의 최신 업데이트를 발표했습니다!

Triton Inference Server는 캐피탈 원(Capital One), 마이크로소프트(Microsoft), 지멘스 에너지(Siemens Energy), 스냅(Snap)을 비롯해 수많은 고객들이 사용 중인데요. 이번 업데이트는 모든 AI 모델과 프레임워크에 대한 교차 플랫폼 추론을 제공하는 오픈소스 NVIDIA Triton Inference Server 소프트웨어와 AI 모델을 최적화하고, NVIDIA GPU의 고성능 추론을 위한 런타임을 제공하는 Tensor RT를 지원합니다.

또한 NVIDIA는 CPU보다 최대 20배 더 높은 추론 성능을 제공하는 AI 추론용 저전력 소형 가속기인 NVIDIA A2 Tensor Core GPU를 선보였습니다.

NVIDIA 가속 컴퓨팅 담당 부사장 겸 총괄 매니저인 이안 벅(Ian Buck)은 “NVIDIA의 AI 추론 플랫폼은 헬스케어, 금융 서비스, 소매, 제조와 슈퍼컴퓨팅을 포함한 거의 모든 산업에 걸쳐 돌파구를 마련하고 있습니다. NVIDIA의 추론 플랫폼은 스마트한 추천 기능과 대화용 AI의 성능을 활용하거나 과학적 발견을 촉진함에 있어 전세계 최신 및 주요 AI 애플리케이션을 지원하는 데 필요한 사용 편의성, 저 지연시간, 높은 처리량, 다양한 성능을 제공합니다”라고 강조했습니다.

주요 소프트웨어 최적화

Triton Inference Server에 대한 업데이트는 아래와 같습니다.

Triton Model Analyzer: 수백 가지의 가능한 구성 중에서 AI 모델에 가장 적합한 구성을 선택할 수 있도록 지원하여 주요 최적화 작업을 자동화합니다. 최적의 성능을 달성하는 동시에 애플리케이션에 필요한 서비스 품질을 보장합니다.
다중 GPU 다중 노드 기능(Multi-GPU Multinode Functionality): 단일 GPU에 맞지 않는 Megatron 530B와 같은 트랜스포머(Transformer) 기반 대형 언어 모델을 다중 GPU와 서버 노드를 통해 추론할 수 있으며, 실시간 추론 성능을 제공합니다.
래피즈(RAPIDS) FIL: 랜덤 포레스트(Random Forest), 그레디언트 부스트 의사결정트리 (gradient-boosted decision tree) 모델의 GPU 또는 CPU 추론을 위한 새로운 백엔드(back-end)이며, 개발자에게 Triton 기반 딥 러닝과 기존 머신 러닝을 위한 통합 배포 엔진을 제공합니다.
아마존 세이지메이커 인티그레이션(Amazon SageMaker Integration): 원활한 통합을 통해 고객은 AWS의 완전히 관리되는 AI 서비스인 세이지메이커 내에서 Triton을 사용해 고성능의 멀티 프레임워크 모델을 쉽게 구축할 수 있습니다.
암(Arm) CPU에 대한 지원사항: NVIDIA GPU, x86 CPU 외에도 Triton에 Arm CPU의 AI 추론 워크로드를 최적화하는 백엔드가 포함되어 있습니다.

Triton은 클라우드, 데이터 센터, 엔터프라이즈 에지, 임베디드 내 GPU 및 CPU에 대한 AI 추론을 제공하며 AWS, 구글 클라우드(Google Cloud), 마이크로소프트 애저(Azure)와 알리바바(Alibaba) 클라우드 PAI-EAS에 통합되며 NVIDIA AI Enterprise에 포함돼 있습니다.

NVIDIA AI Enterprise는 AI 개발과 배포를 위한 엔드 투 엔드 소프트웨어 제품군인데요. NVIDIA에서 최적화, 인증, 지원을 제공하며 고객이 온프레미스 데이터 센터와 프라이빗 클라우드의 메인스트림 서버에서 AI 워크로드를 실행할 수 있도록 지원합니다.

Triton 외에도 Tensor RT는 텐서플로우(TensorFlow), 파이토치(PyTorch)와 통합되어 코드 한 줄만으로 추론 인프레임에 비해 3배 빠른 성능을 제공합니다. 이는 개발자들에게 매우 단순화된 워크플로우 상에서 Tensor RT의 성능을 제공하죠.

NVIDIA Tensor RT 8.2 최신 소프트웨어개발키트(SDK)는 고성능 딥 러닝 추론을 가속화하여 클라우드, 온프레미스 또는 엣지에서 높은 처리량과 낮은 지연시간을 제공합니다. 새로운 최적화를 통해 수십억 개의 매개 변수를 가진 언어 모델을 실시간으로 실행할 수 있습니다.

추론을 위해 NVIDIA AI 플랫폼을 채택하는 업계 선도 기업들

업계 선도 기업들은 NVIDIA AI 추론 플랫폼을 사용하여 비즈니스 운영을 개선하고 고객에게 새로운 AI 서비스를 제공하고 있습니다.

마이크로소프트 애저 코그니티브 서비스(Cognitive Services)는 지능형 애플리케이션을 구축하기 위해 고품질 AI 모델에 클라우드 기반 API를 제공합니다. 마이크로소프트 팀즈(Teams)는 사용자에게 정확한 실시간 캡션(Caption)과 전사(Transcription)를 제공하는 스피치-투-텍스트(speech-to-text) 모델을 실행하는 데 Triton을 사용하고 있죠.

마이크로소프트 팀즈 콜링, 미팅 및 디바이스 총괄 PM 매니저인 샬런드라 차브라(Shalendra Chhabra)는 “마이크로소프트 팀은 매달 약 2억 5천만 명의 활성 사용자를 보유하고 있으며, 전세계 커뮤니케이션과 협업을 위한 필수적인 도구입니다”라고 말했는데요. “이러한 AI 모델은 매우 복잡합니다. 수십 개 언어에 걸쳐 정확한 결과를 제공하려면 수천만 개의 신경 네트워크 매개 변수가 필요합니다. 모델이 클수록 실시간, 비용 효율적으로 실행하기 어렵습니다. 마이크로소프트 애저 코그니티브 서비스에 적용된 NVIDIA GPU와 Triton Inference Server는 거의 실시간으로 AI를 통해 28개 언어와 방언을 사용하여 비용 효율적 방식으로 실시간 캡션과 전사 기능을 지원합니다”라고 말했습니다.

에너지 기술 솔루션을 선도하는 순수 재생 에너지 회사인 지멘스 에너지는 Triton을 사용해 발전소 고객들이 AI로 설비를 관리할 수 있도록 돕고 있는데요.

지멘스 에너지의 자율 운영 포트폴리오 매니저 애릭 오트(Arik Ott)는 “NVIDIA Triton Inference Server의 유연성 덕분에 레거시 소프트웨어 시스템을 갖춘 카메라와 센서로 구성된 매우 복잡한 발전소들이 자동화를 위한 산업 혁명에 동참할 수 있게 됐습니다”라고 말했습니다.

글로벌 카메라 및 소셜 미디어 회사인 스냅(Snap)은 스냅챗(Snapchat), 스펙타클스(Spectacles), 비트모지(Bitmoji)와 같은 제품과 서비스를 제공하고 있고, NVIDIA 기술을 통해 수익을 높이고 비용을 낮추고 있습니다.

스냅의 매핑 및 수익화 그룹 엔지니어링 담당 부사장인 니마 카제노우리(Nima Khajehnouri)는 “NVIDIA GPU와 Tensor RT를 사용해 스냅은 기계 학습 추론 비용 효율성을 50%까지 개선하고 서비스 대기 시간을 2배 단축합니다. 이로써 우리는 더 무겁고 정확한 광고와 콘텐츠 순위 모델을 실험하고 구축할 컴퓨팅 헤드룸을 확보할 수 있었습니다”라고 설명했죠.

추론을 위한 NVIDIA AI 플랫폼, 새로운 NVIDIA 인증 시스템과 A2 GPU 추가

NVIDIA-Certified Systems을 통해 고객은 고성능, 비용 효율적이고, 확장 가능한 인프라의 다양한 최신 AI 애플리케이션을 위한 시스템을 식별하며 구입하고 배치할 수 있습니다. 여기에 엣지 AI의 두 가지 카테고리를 새롭게 추가합니다.

확장된 카테고리 덕분에 NVIDIA의 시스템 파트너들은 NVIDIA Ampere 아키텍처 기반 GPU로 거의 모든 워크로드를 처리할 수 있는 NVIDIA-Certified Systems의 전체 라인업을 고객에게 제공할 수 있습니다. 이는 엣지 서버의 추론과 엣지 AI를 위한 엔트리 레벨의 최신 저전력 소형 가속기인 NVIDIA A2 GPU를 포함하는데요. 메인스트림 엔터프라이즈 서버용 NVIDIA A30, 최고 성능의 AI 서버용 NVIDIA A100과 함께 NVIDIA A2는 엣지, 데이터 센터와 클라우드 전반에 걸쳐 포괄적인 AI 추론 가속화를 제공합니다.

글로벌 엔터프라이즈 시스템 제공업체인 아토스(Atos), 델 테크놀로지스(Dell Technologies), 기가바이트(GIGABYTE), 휴렛 팩커드 엔터프라이즈(Hewlett Packard Enterprise), 인스퍼(Inspur), 레노버(Lenovo) 및 슈퍼마이크로(Supermicro)는 AI 시스템 포트폴리오에서 NVIDIA-Certified Systems을 통해 NVIDIA AI Enterprise를 지원합니다.

이 밖에도 어드밴텍(Adventech), 애즈락랙(ASRock Rack), 에이수스(ASUS), H3C, 넷트릭스(Nettrix), QCT와 같은 추가적인 시스템 공급사에서도 다양한 워크로드를 위해 NVIDIA-Certified Systems을 제공하는데요. 최초로 NVIDIA-Certified Systems을 통과한 엣지 카테고리는 어드밴텍, 기가바이트, 레노버를 포함한 선도 제공업체에서 곧 출시될 예정입니다.

출시 일정에 대하여

Triton은 프레임워크, 툴킷, 사전 훈련 모델과 주피터 노트북(Jupyter Notebooks)을 포함하는 GPU 최적화 AI 소프트웨어 허브인 NVIDIA NGC 카탈로그와 트리톤 깃허브 리포지토리(Triton GitHub repository)에서 오픈 소스 코드로 이용할 수 있습니다.

Tensor RT는 Tensor RT 페이지에서 NVIDIA 개발자 프로그램 회원을 대상으로 제공됩니다. 최신 버전의 플러그인, 파서(parsers), 샘플도 Tensor RT 깃허브 리포지토리에서 오픈 소스로 제공됩니다.

NVIDIA 고객은 전 세계에 제공되는 NVIDIA LaunchPad의 큐레이티드 랩을 통해 NVIDIA AI Enterprise 소프트웨어 제품군의 NVIDIA Triton을 이용할 수 있습니다.

NVIDIA AI Enterprise 소프트웨어 제품군은 Atea, 액시언즈(Axians), 캐러소프트 데크놀로지 코퍼레이션(Carahsoft Technology Corp.), 컴퓨터센터(Computacenter), 인사이트 엔터프라이즈(Insight Enterprise), 프레시디오(Presidio), 시리우스(Sirius), 소프트서브(SoftServe), SVA 시스템 버트리브 알렉산더 GmbH(SVA System Vertrieb Alexander GmbH), TD 시넥스(TD SYNNEX), 트레이스(Trace)3와 월드와이트테크놀로지(World Wide Technology)를 포함하여 전세계 NVIDIA 파트너로부터 제공됩니다.