NVIDIA 8세대 AI 소프트웨어인 TensorRT 8가 출시됐습니다. TensorRT 8은 언어 쿼리에 대한 추론 시간을 절반으로 줄여 개발자들이 업계 최고 수준의 성능을 제공하는 검색 엔진, 광고 추천 플랫폼, 챗봇을 개발하도록 돕고, 이를 클라우드부터 엣지에서 제공하도록 지원합니다.
TensorRT 8의 최적화 기능은 언어 애플리케이션을 위한 기록적인 속도를 제공하는데요. 전세계적으로 가장 널리 사용되는 트랜스포머 기반 모델 중 하나인 BERT-Large 모델의 추론을 1.2밀리세컨드(ms) 만에 완료합니다. 과거에는 기업들이 모델 크기를 줄이게 되면 결과의 정확성이 크게 떨어졌죠. TensorRT 8을 통해 이제 기업들은 모델 크기는 두 배 또는 세 배로 늘리면서 정확도를 상당히 개선할 수 있게 됐습니다.
그레그 에스테스(Greg Estes) NVIDIA 개발자 프로그램 담당 부사장은 “AI 모델은 기하급수적으로 점점 더 복잡해지고 있으며, AI를 사용하는 실시간 애플리케이션에 대한 수요는 전 세계적으로 급증하고 있습니다. 따라서, 기업들은 최첨단 추론 솔루션을 반드시 구축해야 합니다. 최신 버전의 TensorRT는 기업들이 그들 고객에게 이전에는 불가능했던 수준의 품질과 응답성을 갖춘 대화형 AI 애플리케이션을 제공하도록 돕는 새로운 기능을 지원합니다”라고 설명했습니다.
지난 5년 간 헬스케어, 자동차, 금융, 소매를 포함한 다양한 분야에 걸친 2만 7천 5백여 기업의 35만 이상의 개발자가 TensorRT를 250만 번 가까이 다운로드했습니다. TensorRT 애플리케이션은 하이퍼스케일 데이터센터, 임베디드 혹은 오토모티브 제품 플랫폼에서 활용할 수 있습니다.
AI 추론을 위한 혁신적인 기능 제공
TensorRT 8은 트랜스포머 최적화 외에도 두 가지 주요 기능을 통해 AI 추론에 대한 혁신을 구현합니다. 희소성(Sparsity)은 효율성을 높이는 NVIDIA Ampere 아키텍처 GPU의 새로운 성능 기술로, 개발자가 컴퓨팅 작업을 줄여 신경망을 가속화할 수 있도록 지원합니다. 또한, 양자화 인식(quantization aware) 훈련 기능을 통해 개발자는 훈련된 모델을 사용하여 정확도를 유지하면서 INT8 정밀도로 추론을 실행할 수 있는데요. 이는 Tensor Core 상의 효율적인 추론을 위해 컴퓨팅와 스토리지 오버헤드를 크게 줄여줍니다.
업계 인용문
업계 선두업체들은 대화형 AI와 다양한 분야의 딥 러닝 추론 애플리케이션을 위해 TensorRT를 채택했는데요. 허깅페이스(Hugging Face)는 다양한 산업군에 걸친 세계 최대 AI 서비스 제공업체에서 사용중인 오픈소스 AI 분야의 선두업체입니다. 허깅페이스는 NVIDIA와 긴밀하게 협력해 텍스트 분석, 신경망 탐색, 대화형 애플리케이션을 규모에 맞게 지원하는 획기적인 AI 서비스를 선보이고 있습니다.
허깅페이스의 제품 책임자 제프 바우디에(Jeff Boudier)는 “우리는 NVIDIA GPU상에서 구동 중인 최첨단 모델에 최고의 성능을 제공하기 위해 NVIDIA와 긴밀히 협력하고 있습니다. 허깅페이스 가속 추론 API는 이미 NVIDIA GPU 기반 트랜스포머 모델의 속도를 최대 100배 빠르게 높였습니다. TensorRT 8을 통해 허깅페이스는 BERT 모델의 추론을 1ms 지연시간(레이턴시)으로 단축했으며, 올 하반기에 이와 같은 성능을 제공하게 돼 기쁩니다”라고 말했죠.
선도적인 글로벌 의료 기술, 진단과 디지털 솔루션 혁신업체인 GE 헬스케어(GE Healthcare)는 TensorRT를 통해 질병의 조기 발견을 위한 핵심 툴인 초음파용 컴퓨터 비전 애플리케이션을 가속화하고 있습니다. 이는 임상의가 지능형 헬스케어 솔루션을 통해 최고 품질의 치료를 제공할 수 있게 합니다.
GE 헬스케어 심혈관 초음파 부분 수석 엔지니어인 에릭 스틴(Erik Steen)은 “초음파와 관련해 임상의들은 영상을 선택하고 측정하는데 소중한 시간을 이용하고 있습니다. 우리는 비비드 환자 케어 엘리베이티드 릴리즈(Vivid Patient Care Elevated Release)로 이어지는 연구개발(R&D) 프로젝트 동안, 비비드 E95(Vivid E95) 스캐너에서 자동 심장뷰(cardiac view) 감지를 자동으로 구현하여 프로세스를 보다 효율적으로 개선하려고 했습니다. 심장뷰 인식 알고리즘을 통해 심벽 운동 분석에 적합한 영상을 선택할 수 있습니다. 실시간 추론 기능을 갖춘 TensorRT는 심장뷰 감지 알고리즘의 성능을 향상시키며, R&D 프로젝트 기간 동안 시장 출시 기간을 단축했습니다”라고 말했습니다.