NVIDIA CUDA-X AI 소프트웨어 업데이트 소식

NVIDIA CUDA-X AI는 대화형 AI, 추천 시스템, 컴퓨터 비전용 고성능 GPU 가속 애플리케이션을 구축하는 연구자와 소프트웨어 개발자를 위한 딥 러닝 소프트웨어 스택입니다.

CUDA-X AI 툴과 라이브러리에 새롭게 추가된 내용을 살펴보겠습니다. NVIDIA의 개발자 툴과 관련한 더 자세한 정보를 얻으려면 라이브 웨비나와 트레이닝, 그리고 GTC On-Demand의 ‘전문가와의 만남(Connect with the Expert)’에서도 확인 가능합니다.

추가 정보를 위해서는 다큐멘테이션에서 각 패키지의 릴리스 노트(release note)를 참고하세요.

NVIDIA Riva 오픈 베타

GTC 21에서 NVIDIA는 대화형 AI 프레임워크의 완전한 가속화를 달성하기 위한 주요 기능들을 발표한 바 있습니다. 여기에는 높은 정확도로 자동화되는 음성 인식, 여러 언어의 실시간 기계 번역, 표현력 있는 대화형 AI 에이전트를 생성하는 텍스트 음성 변환 기능이 포함됩니다.

주요 내용은 다음과 같습니다.

수천 시간 분량의 음성 데이터로 훈련하여 90% 이상의 정확도를 자랑하는 음성 인식 모델
5개 언어를 대상으로 문장당 100ms(밀리초) 이내에 실행이 가능한 실시간 기계 번역
FastPitch+HiFiGAN를 사용하여 Tacotron2+WaveGlow 대비 처리량을 30배 늘리는 표현형 TTS

또한 BotMaker의 조기 액세스 프로그램도 만나볼 수 있습니다. BotMaker는 기업의 각종 기술을 원활히 통합하고 이들을 봇의 형태로 오프라인과 온라인 상의 임베디드 또는 데이터센터 플랫폼에 배포할 수 있게 해주죠.

여기에서 Riva를 확인하세요!

Triton Inference Server 2.7

GTC 21에서는 Triton Inference Server 2.9가 발표됐습니다. Triton은 오픈 소스 추론 서비스 소프트웨어로 모델 성능의 극대화와 프로덕션 배포의 간소화를 지원합니다. 릴리스 업데이트에는 다음의 내용이 포함됩니다.

Model Navigator(alpha)는 Triton의 새로운 툴로 TensorFlow와 파이토치(PyTorch) 모델을 TensorRT 플랜으로 자동 변환하고 정확성 인증과 배포 환경 설정 기능을 제공합니다.
Model Analyzer는 지연 시간이나 처리량 요구 사항에 따라 성능을 극대화할 수 있는 최적의 배치 사이즈(batch size)와 모델 인스턴스를 자동으로 결정합니다.
OpenVINO 백엔드(베타)를 지원하여 CPU, Windows Triton 빌드(알파)에서 고성능 추론을 실행하는 한편 셀든(Seldon)과 알레그로(Allegro)의 MLOps 플랫폼과도 통합됩니다.

여기에서 Triton에 대해 자세히 알아보세요!

TensorRT 7.2를 지금 만나보세요

GTC 21에서 발표한 TensorRT 8.0은 고성능 딥 러닝 추론 SDK의 최신 버전입니다. 이 버전에는 다음의 기능이 포함됩니다.

INT8의 정밀도로 FP32 수준의 정확도를 달성하는 Quantization Aware Training
Ampere GPU상에서의 희소성 지원으로 처리량을 최대 50%까지 향상
새로운 컴파일러 최적화를 통해 BERT 등의 트랜스포머 기반 네트워크에서 추론 속도 최대 2배까지 향상

TensorRT 8.0은 2021년 2분기에 NVIDIA Developer Program의 회원사들에게 무료로 제공될 예정입니다.

여기에서 TensorRT를 확인하세요!

NVIDIA NeMo 1.0 RC

NVIDIA NeMo는 최첨단 대화형 AI 모델의 개발을 지원하는 오픈 소스 툴 키트입니다.

주요 기능은 다음과 같습니다.

ASR 컬렉션: 새로운 최첨단 모델 아키텍처(CitriNet와 Conformer-CTC)가 추가됐습니다. 또한 모질라 커먼 보이스(Mozilla Common Voice) 데이터세트와 AI셸-2 코퍼스(AIshell-2 corpus)를 사용해 중국어, 스페인어, 독일어, 프랑스어, 이탈리아어, 러시아어, 폴란드어, 카탈루냐어 등 여러 언어들에 대한 음성 인식 지원을 더했습니다.
NLP 컬렉션: 영어와 스페인어, 러시아어, 중국어, 독일어, 프랑스어 간 양방향 번역을 지원하는 신경망 기계 번역 언어 모델 10종을 추가했습니다.
TTS 컬렉션: HiFiGan과 MelGan, GlowTTS, UniGlow, SqueezeWave 모델 아키텍처와 사전 훈련된 모델의 지원을 추가했습니다.

이번 릴리스에는 높은 정확도를 자랑하는 모델 60종이 새롭게 추가됐습니다. 자세한 내용은 NGC의 NeMo컬렉션을 확인하세요.

NVIDIA Maxine

Maxine은 가속 SDK와 최첨단 AI 기능들을 제공하여 가상 협업, 컨텐츠 제작 애플리케이션의 구축을 돕습니다. GTC 21에서 발표된 AI Face Codec은 NVIDIA research가 내놓은 새로운 AI 기반 기법입니다. 화상 회의에 참여하는 인간의 얼굴을 렌더링하는 방식으로 영상을 압축하여 H.264 대비 최대 10배까지 대역폭을 절감할 수 있게 해주죠.

NVIDIA Developer Program의 회원사들은 Maxine을 사용할 수 있습니다. NVIDIA Maxine을 지금 만나보세요!

NGC 업데이트(프레임워크 업데이트 포함)

NGC 카탈로그는 엔드-투-엔드 AI 워크플로우를 가속화하도록 고안된 GPU 최적화 컨테이너, 사전 훈련된 모델, SDK와 헬름 차트(Helm chart)들의 허브입니다. 업데이트 내용은 다음과 같습니다.

딥 러닝 프레임워크
- TensorFlow, 파이토치(v.24), 아파치(Apache) MXNet(v.1.8)용 21.04 컨테이너
- 여기에는 CUDA 11.3, cuDNN 8.2, Dali 1.0, Ubuntu 20.04의 지원이 포함됩니다.
완전히 새로운 UI 이제 사용자들은 개선된 검색과 필터링, 태그가 걸린 컨텐츠, 홈페이지상의 각종 다큐멘테이션에 대한 직접 링크 등의 기능을 사용하여 전보다 빠르게 컨텐츠를 탐색하고 찾고 다운로드할 수 있습니다.
TLT 3.0 명령줄을 통합하는 툴을 제공하고 다중 도커(Docker)의 설정을 지원하면서 DeepStream과 Riva 애플리케이션 프레임워크와 통합됩니다.
Magnum IO 이 컨테이너는 NCCL, NVSHMEM, UCX, GDS 등 NVIDIA의 핵심 테크놀로지를 단일 패키지에 통합합니다. 이를 활용하여 구축한 애플리케이션이 GPU, 스토리지, 고성능 스위칭 패브릭(switching fabric)을 갖춘 데이터센터에서 실행될 수 있도록 지원합니다.
새로운 파트너 소프트웨어 및 업데이트
- Matlab: 최신 릴리스에서는 딥 러닝, 오토노머스 시스템, 자율주행 솔루션의 개발을 위한 워크플로우의 간소화를 집중 지원합니다.
- Brightics AI Accelerator: 삼성 SDS의 간단하고 빠르고 자동화된 머신 러닝 플랫폼입니다.
- Determined AI Helm Chart: 오픈 소스 딥 러닝 훈련용 플랫폼입니다.

Plexus Satellite Container: 코어 사이언티픽 플렉서스(Core Scientific Plexus) 소프트웨어 스택에서 개별적으로 네트워크화된 쿠버네티스(Kubermetes) 클러스터를 설정하고 관리하는 다양한 툴을 제공합니다.

여기에서 NGC 카탈로그에 대해 자세히 알아보세요!

cuDNN 8.2 GA

NVIDIA CUDA Deep Neural Network 라이브러리(cuDNN)는 훈련과 추론 애플리케이션을 가속화하기 위한 프리미티브(primitives)들의 GPU 가속 라이브러리입니다. 이번 버전에는 다음의 내용이 포함됩니다.

NVIDIA Ampere 아키텍처 기반 GPU상의 CNN을 위한 BFloat16 지원
합성곱(convolution) 연산자와 점별(point-wise) 연산자, 런타임 절감을 융합하여 CNNs의 속도 향상
새롭고도 역동적인 커널 선택 인프라를 통하여 독창적 성능과 빠른 속도 제공
새로운 최적화와 휴리스틱(heuristics)을 통해 RNN 성능을 최대 2배까지 강화

여기에서 cuDNN에 대해 자세히 알아보세요!

DALI 1.0 GA

NVIDIA Data Loading Library(DALI)는 오픈 소스 GPU 가속 라이브러리로 이미지, 비디오, 오디오의 신속한 전처리를 지원하여 딥 러닝 워크플로우를 가속화합니다. 이번 버전에는 다음의 내용이 포함됩니다.

파이프라인 제작의 간소화와 사용 편의성을 위한 새로운 함수형 API
DALI Backend를 통한 Triton Inference Server와의 원활한 통합
이미지, 비디오, 오디오 처리를 위한 새로운 GPU 가속화 연산자

여기에서 DALI에 대해 자세히 알아보세요!