NVIDIA Triton과 함께 엄청난 AI 추론 경험하기

AI를 작동시키는 데 삼지창을 든 늠름한 바다의 신까지 동원할 필요는 없습니다. 하지만 AI 추론의 바다를 NVIDIA Triton과 함께 항해한다면 엄청난 변화를 경험하게 될 것이라고 말하는 기업들의 수가 늘고 있습니다. 자동차 제조사에서부터 클라우드 서비스 제공자에 이르기까지 그 종류 또한 다양하죠.

지난 GTC 2021에서는 6개 이상의 기업이 딥 러닝에 NVIDIA Triton Inference Server를 활용하는 법을 핸즈온 방식으로 공유했습니다. Triton은 모델들이 GPU와 CPU상의 모든 프레임워크에서 실행되면서 각종 형태의 추론을 처리하도록 간소화하여 AI의 개발을 돕는 오픈 소스 소프트웨어입니다.

일례로 폭스바겐 그룹의 파비앙 보만(Fabian Bormann) AI 엔지니어는 GTC 2021에서 자사 소속의 팀들과 미래의 파트너사들이 개발한 솔루션들의 저장소에 해당하는 컴퓨터 비전 모델 주 (Computer Vision Model Zoo)로의 가상 투어를 진행한 바 있습니다.

폭스바겐은 폭스바겐 컴퓨터 비전 워크벤치(Volkswagen Computer Vision Workbench)에 Triton을 통합하여 모델의 기반 프레임워크가 무엇이든(ONNX나 PyTorch, 또는 TensorFlow) 상관없이 모델 주 (Model Zoo)에 제출할 수 있도록 했습니다. 보만은 자신의 세션(session E32736)을 설명하면서 Triton이 구현하는 모델 관리와 배포의 간소화야말로 새롭고 흥미로운 환경의 AI 모델을 제공하는 자사 업무의 핵심이라고 표현했습니다.

Triton의 벤치마크 테스트 진행한 세일즈포스

고객 관계 관리 소프트웨어와 서비스의 선두 주자인 세일즈포스(Salesforce)는 최근 자연어 처리용 트랜스포머(transformer)로는 세계 최대 규모를 자랑하는 AI 모델들에서 Triton의 성능 벤치마크 테스트를 실시했습니다.

니티시 쉬리시 케스카(Nitish Shirish Keskar) 세일즈포스 선임 리서치 매니저는 이 벤치마크 결과를 발표한 GTC 2021의 세션(session S32713)에서 “Triton은 우수한 추론 서빙(inference serving) 성능뿐 아니라 동적 배칭(batching), 모델의 관리와 순위화 등 대단히 중요한 기능들을 갖추고 있습니다. 설치가 빠르고 간편하며 TensorFlow와 PyTorch를 포함한 다수의 딥 러닝 프레임워크를 지원합니다”라고 설명했습니다.

케스카는 최근 블로그에 게시한 글에서 Triton이 음성과 텍스트의 이해에 사용되는 유명 BERT 모델들에서 초당 500~600쿼리(QPS)를 처리하는 한편 100개의 스레드를 동시에 수행하고 지연시간은 200밀리초(ms) 미만을 유지한다고 밝혔습니다. 또한 신경망의 노드가 수십억 개에 달할 정도로 규모가 큰 CTRL과 GPT2-XL 모델에서 테스트했을 때도 Triton이 초당 32~35 쿼리라는 놀라운 성능을 보여줬다고 전했습니다.

허깅 페이스와의 모델 협업

5,000곳이 넘는 기업들이 허깅 페이스(Hugging Face)가 지원하는 7,000여 종의 자연어 처리 모델로 텍스트의 요약, 번역, 분석을 실시하고 있습니다. 제프 부디에(Jeff Boudier) 허깅 페이스 제품 디렉터는 GTC 2021의 세션(session S32003)에서 Triton이 포함된 워크플로우에 힘입어 자사 모델의 AI 추론 성능을 100배 향상시킨 방법을 공유했습니다.

부디에는 허깅 페이스가 “NVIDIA와의 적극적인 협업을 통해 사용자들이 GPU상에서 모델을 구동할 때 가장 최적의 성능을 낼 수 있도록 돕는다”고 말했죠.

허깅 페이스는 AI 모델의 최적화를 위한 소프트웨어인 NVIDIA TensorRT와 Triton을 결합하여 BERT 모델의 추론 시간을 1밀리초 미만으로 단축하는 것을 목표로 삼고 있습니다. 부디에의 설명에 따르면 이는 “최첨단 기술의 보급을 촉진해 새로운 활용 사례들을 발굴하고 보다 광범위한 시장을 이롭게 할 것입니다”고 말했습니다.

AI 추론을 위한 배포의 확장성

아메리칸 익스프레스(American Express)는 2밀리초라는 지연시간 요구 사항에 맞춰 연간 1조 달러에 이르는 거래에서 실시간으로 금융 사기를 감지하는 AI 서비스에 Triton을 활용합니다.

처리량의 경우 마이크로소프트(Microsoft)는 자사의 애저(Azure) 클라우드 서비스에 Triton을 사용해 그래머링크(GrammarLink)의 AI를 구동합니다. 그래머링크는 마이크로소프트 워드(Microsoft Word)의 온라인 편집기로 연간 5,000억 개에 달하는 쿼리를 처리할 것으로 예상됩니다.

유명세는 덜하지만 주목할 가치가 충분한 라이브퍼슨(LivePerson)은 뉴욕에 본사를 둔 기업입니다. GM 파이낸셜(GM Financial), 홈디포(Home Depot), 유럽의 모바일 서비스 제공자인 오렌지(Orange)를 포함한 18,000여 고객사에게 대화형 AI 기능들을 제공하는 클라우드 서비스에 Triton을 도입하여 수천 개의 모델을 구동할 계획을 세우고 있습니다.

Triton은 다양한 프레임워크에 기반한 모델들로 여러 유형의 추론을 실행하는 작업을 간소화하는 동시에 처리량과 시스템 활용도는 최고의 수준으로 유지합니다.

또한 런던에 기반을 둔 인텔리전트 보이스(Intelligent Voice)의 최고기술책임자(CTO)는 GTC 2021의 세션(session S31452)에서 AI 추론에 Triton을 사용하여 보험과 금융 사기를 감지하는 LexIQal 시스템을 소개하기도 했습니다.

이외에도 다수의 기업들이 AI의 추론에 NVIDIA의 테크놀로지를 활용하고 있습니다. Triton 소프트웨어의 다운로드 횟수는 작년 한 해 동안에만 50,000건을 넘어섰습니다.

다재다능한 Triton

Triton은 스트리밍 서비스의 형태로, 배치 모드에서 진행되는 실시간 추론인지 혹은 복수의 모델이나 앙상블 모델이 포함된 추론인지와 관계없이 모든 종류의 AI 추론을 처리할 수 있다는 점에서도 큰 관심을 모으고 있습니다. 이러한 유연성 덕분에 사용자는 업무의 유형별로 커스텀 추론 서버를 따로 도입하여 관리할 필요가 없습니다.

더불어 Triton은 클라우드 서비스나 로컬 데이터센터, 또는 네트워크의 엣지에서 추론을 실행할 때 작업을 GPU 전반에 고르게 분산시켜 높은 수준의 시스템 활용도를 보장합니다. 코드 또한 개방적이고 확장이 가능하기 때문에 사용자들은 자신의 구체적인 필요에 맞춰 Triton을 커스터마이징할 수 있습니다.

Triton의 개선 작업은 지금도 계속되고 있습니다. 최근에 추가된 모델 분석기는 모든 선택지들을 검토하여 사용자의 작업에 부합하는 최적의 배치 사이즈와 GPU당 인스턴스의 개수 등을 제시합니다. Tensorflow나 PyTorch에서 훈련을 마친 모델을 TensorRT 형식으로 자동 변환하고 검증하는 툴 또한 새롭게 추가됐습니다. 향후에는 모델과 각종 신경망 형식간 변환이 지원될 예정입니다.

Triton의 추론 파트너들

아마존(Amazon), 구글(Google), 마이크로소프트, 텐센트(Tencent) 등의 파트너사들이 자사 클라우드 서비스에 Triton을 지원하고 있습니다. 알레그로(Allegro)와 셀던(Seldon), 레드햇(Red Hat) 등의 기업들은 엔터프라이즈급 데이터센터의 소프트웨어에 Triton을 지원하여 AI용 DevOps의 확장 버전인 MLOps가 포함된 워크플로우를 구현합니다.

GTC 2021에서 Arm은 엣지 게이트웨이에서 직접 추론을 실행하는 신경망 소프트웨어에 Triton을 도입한 방법을 설명했습니다(session S33118). 델 EMC(Dell EMC) 소속 엔지니어 2인이 진행한 세션에서는 Triton 영상 분석의 성능을 6배 향상시킨 방법이 소개됐고(session S31437), 네트앱(NetApp)은 자사의 반도체 기반 스토리지 어레이와 Triton을 통합하는 작업을 선보였습니다(session S32187).

더 자세한 내용은 GTC 2021에서 NVIDIA의 전문가들이 Triton의 딥 러닝 추론 성능을 소개한 세션(S31114, SE2690)에서 확인하세요.