NVIDIA AI를 활용하여 음성과 비전 애플리케이션 개발하기

토드 모저(Todd Mozer)가 누구인지는 모를 수도 있지만 대부분은 그의 회사를 경험했을 것입니다. 전 세계 수십억대의 소비자 전자 기기에 음성, 비전 AI를 가능하게 한 기업이니까요.

1994년 실리콘 밸리에서 시작된 센소리(Sensory)는 가전 대기업들의 모바일 기기에 사용되는 소형 모델의 선도 기업입니다. 현재 센소리는 모든 종류의 음성인식 전자기기에 대화형 기능을 제공하고 있습니다. LG와 삼성은 휴대폰뿐만 아니라 냉장고, 리모컨, 웨어러블 기기에도 센소리 기술을 사용하고 있죠.

센소리 CEO이자 설립자인 토드 모저가 “말하는 전자레인지가 인터넷에서 레시피를 찾아 안내해 주기를 원하면 어떻게 할까요? 바로 여기에서 하이브리드 컴퓨팅 접근법이 사용될 수 있습니다”라고 말했습니다.

하이브리드 컴퓨팅은 클라우드와 온프레미스 컴퓨팅 리소스를 함께 사용하는 이중 접근법입니다.

센소리의 최신 기술은 최첨단 대화형 AI 모델을 구축하기 위한 툴킷인 NVIDIA NeMo와 센소리 클라우드(Sensory Cloud) 하이브리드 컴퓨팅 장치를 위한 Triton Inference Server에 의존합니다.

전자 기기를 더 스마트하게

전자 기기는 점점 더 강력해지고 있습니다. 특수 목적의 추론 가속기가 시장에 출시되고 있지만 최신 모델은 더 크고 더 많은 메모리가 필요한 경향이 있으므로 엣지 기반 프로세싱이 항상 최상의 솔루션은 아닙니다.

전자 기기에 대한 클라우드 연결은 이러한 소형 모델에 향상된 성능을 제공할 수 있습니다. 모저는 무선(OTA) 업데이트는 웨어러블 기기, 휴대폰, 자동차 등에 적용될 수 있다고 말합니다.

그는 “클라우드 연결을 통해 더 작고 정확한 온디바이스(on-device) 모델에 대한 업데이트를 제공합니다”라고 말했습니다.

이는 기기 기능에 많은 개선을 가능하게 합니다. 센소리는 고객에게 음성 텍스트 변환(STT), 텍스트 음성 변환(TTS), 깨우기(wake) 단어 확인, 자연어 이해, 얼굴 ID 인식, 화자 및 소리 식별 기능을 제공합니다.

또한 센소리는 NVIDIA Jetson 엣지 AI 모듈을 사용하여 센소리 클라우드의 성능을 더 큰 온디바이스 구현에 제공하고 있습니다.

추론을 위해 Triton 활용

센소리 클라우드는 NVIDIA Triton으로 음성, 비전 모델을 실행합니다. Triton을 기반으로 구축된 센소리의 맞춤형 클라우드 모델 관리 인프라를 통해 다양한 고객이 다양한 모델 버전을 실행하고 맞춤형 모델을 배포하며, 자동 업데이트를 활성화하고, 사용 상태와 오류를 모니터링할 수 있습니다.

센소리 고객은 온프레미스 또는 클라우드 기반 구현을 위해 컨테이너로 배포할 수 있습니다. 또한 센소리로 이동하는 데이터 없이 완전히 프라이빗으로 사용할 수도 있습니다.

Triton은 모든 Triton 통신과 최소한의 코딩으로 새 모델의 신속한 배포를 위한 특수 목적의 머신 러닝 작업 라이브러리를 센소리에 제공합니다. 또한 새로운 파이프라인 조립과 확장을 쉽게 하기 위해 비동기 액터 파이프라인을 활성화합니다. Triton의 동적 배치(batch)는 추론 최적화를 위한 더 높은 GPU 처리량과 성능 분석을 지원합니다.

센소리는 최첨단 스타트업을 지원하는 글로벌 프로그램인 NVIDIA Inception의 회원입니다.