NVIDIA는 대화형 AI 아바타를 생성하기 위한 기술 플랫폼인 NVIDIA Omniverse Avatar를 발표했습니다!
Omniverse Avatar는 NVIDIA의 음성 AI, 컴퓨터 비전, 자연어 이해, 추천 엔진과 시뮬레이션 기술을 연결합니다. Omniverse 플랫폼에 생성된 아바타는 다양한 주제를 보고, 말하고, 대화하며 언어의 의도를 자연스레 이해할 수 있는 레이 트레이싱 3D 그래픽이 포함된 대화형 캐릭터입니다.
Omniverse Avatar는 대부분의 산업 분야에 쉽게 맞춤화 할 수 있는 AI 비서 제작을 가능하게 합니다. 이는 식당 주문, 은행 거래, 개인 약속, 예약 등 매일 수십억 건의 고객 서비스 상호작용을 통해 비즈니스 기회를 확대하고 고객 만족도를 높일 수 있도록 지원하죠.
NVIDIA 창립자 겸 CEO인 젠슨 황은 “지능형 가상 비서의 시대가 다가왔습니다. Omniverse Avatar는 NVIDIA의 기본 그래픽, 시뮬레이션과 AI 기술을 결합하여 지금까지 만들어진 가장 복잡한 실시간 애플리케이션을 만듭니다. 협동 로봇과 가상 비서의 사용 사례는 놀랍고 광범위합니다”라고 말했습니다.
Omniverse Avatar는 현재 7만 명 이상의 사용자가 있는 오픈 베타 버전의 3D 워크플로우용 가상세계 시뮬레이션, 협업 플랫폼인 NVIDIA Omniverse의 일부입니다.
이번 GTC 키노트에서 젠슨 황은 고객 지원을 위한 기술인 Omniverse Avatar: Project Tokkio, 차량의 상시 작동 지능형 서비스인 NVIDIA DRIVE Concierge와 화상 회의를 위한 서비스인 Project Maxine 다양한 예시를 공유했는데요.
Project Tokkio의 첫 번째 시연에서 장난감 모양을 한 젠슨 황의 아바타가 동료들과 생물학, 기후 과학과 같은 주제로 실시간 대화에 참여하는 영상을 공개하기도 했죠.
두 번째 시연에서는 야채 버거, 감자튀김, 음료를 주문하는 두 고객을 보고, 대화하고, 이해할 수 있는 레스토랑 키오스크의 고객 서비스 아바타를 선보였습니다. 이번 시연은 NVIDIA AI 소프트웨어와 현재 세계 최대의 맞춤형 언어모델인 Megatron 530B로 구동됐습니다.
DRIVE Concierge AI 플랫폼의 시연 영상을 보면, 중앙 대시보드 화면의 디지털 비서는 운전자가 정시에 목적지에 도착하도록 최적의 주행모드를 선택할 수 있도록 도와줍니다. 또한 차량의 주행거리가 100마일 아래로 떨어지면 미리 알림을 설정해 달라는 요청에 따르는 모습도 확인할 수 있습니다.
이외에도 젠슨 황은 가상 협업과 콘텐츠 생성 애플리케이션에 최첨단 비디오와 오디오 기능을 추가하는 Project Maxine을 공개했습니다. 시끄러운 카페에서도 배경 소음없이 선명하게 영상통화를 할 수 있으며, 통화 목소리는 같은 억양으로 독일어, 프랑스어, 스페인어로 실시간 번역까지 가능합니다.
Omniverse Avatar 핵심 요소
Omniverse Avatar는 다음과 같은 음성 AI, 컴퓨터 비전, 자연어 이해, 추천 엔진, 얼굴 애니메이션과 그래픽 기술을 사용합니다.
- 음성 인식은 여러 언어의 음성을 인식하는 소프트웨어 개발 툴인 NVIDIA Riva를 기반으로 합니다. Riva는 텍스트-투-스피치(TTS) 기능을 사용하여 사람과 유사한 음성 응답을 생성하는 데 사용되기도 합니다.
- 자연어 이해는 인간의 언어를 인식, 이해, 생성할 수 있는 Megatron 530B 대규모 언어모델을 기반합니다. Megatron 530B는 훈련을 거의 또는 전혀 받지 않고도 문장을 완성하고, 많은 주제 영역의 질문에 답하며, 길고 복잡한 이야기를 요약합니다. 또한 다른 언어로 번역하고, 특별한 훈련 없이도 많은 영역을 처리할 수 있는 사전 훈련된 모델입니다.
- 추천 엔진은 기업이 대량의 데이터를 처리할 수 있는 딥 러닝 추천 시스템을 구축하여 보다 스마트한 제안을 할 수 있도록 하는 프레임워크인 NVIDIA Merlin에서 제공합니다.
- 인식기능은 비디오 분석을 위한 컴퓨터 비전 프레임워크인 NVIDIA Metropolis에 의해 활성화됩니다.
- 아바타 애니메이션은 NVIDIA Video2Face와 Audio2Face, 2D 및 3D AI에 기반한 얼굴 애니메이션과 렌더링 기술로 구동됩니다.
이러한 기술은 애플리케이션으로 구성되고 NVIDIA Unified Compute Framework를 사용하여 실시간으로 처리되는데요. 이 기술은 확장 가능하고 사용자 지정이 가능한 마이크로서비스와 함께 제공되며, NVIDIA Fleet Command를 통해 어느 장소에서도 안전하게 배포, 관리하고 이용할 수 있습니다.
11월 11일(현지시간)까지 온라인으로 진행되는 GTC의 무료 참가 등록은 여기에서 가능합니다!