생성형 AI는 기업이 디지털 휴먼 아바타로 고객과 소통할 수 있는 새로운 방법을 제시하고 있습니다.
NVIDIA는 미국 덴버에서 열린 시그라프(SIGGRAPH) 2024에서 감정과 유머 등을 사용해 사람들과 소통할 수 있는 인터랙티브 디지털 휴먼인 ‘James’를 선보였습니다. James는 NVIDIA ACE를 사용한 고객 서비스 워크플로우를 기반으로 합니다. NVIDIA ACE는 초현실적 맞춤형 인터랙티브 아바타 제작을 위한 레퍼런스 디자인입니다. 사용자들은 곧 ai.nvidia.com에서 James와 실시간으로 대화할 수 있습니다.
이번 컴퓨터 그래픽 콘퍼런스에서 NVIDIA는 몰입형 텔레프레즌스(immersive telepresence) 경험을 위한 Maxine 3D와 Audio2Face-2D를 비롯한 NVIDIA Maxine AI 플랫폼의 최신 발전상을 함께 선보였습니다.
개발자는 Maxine, NVIDIA ACE 디지털 휴먼 기술을 사용해 디지털 인터페이스와 고객 인터랙션을 더욱 매력적이고 자연스럽게 만들 수 있습니다. ACE 기술은 음성, 번역, 시각, 지능, 생동감 있는 애니메이션과 동작, 사실적인 외관을 위한 AI 모델을 통해 디지털 휴먼 개발을 지원하죠.
다양한 산업 분야의 기업들이 Maxine과 ACE를 사용해 몰입감 넘치는 가상 고객 경험을 제공하고 있습니다.
디지털 브랜드 홍보대사, James를 만나보세요
NVIDIA NIM 마이크로서비스를 기반으로 구축된 James는 맥락에 맞는 정확한 답변을 제공할 수 있는 가상 어시스턴트입니다.
James는 검색 증강 생성(retrieval-augmented generation, RAG)을 활용해 사용자에게 최신 NVIDIA 기술에 대해 정확하게 알려줍니다. 개발자는 ACE를 통해 자체 데이터를 사용해 고객에게 관련 정보를 전달하는 도메인 맞춤형 아바타를 생성할 수 있죠.
James는 실제와 같은 고급 애니메이션을 위한 최신 NVIDIA RTX 렌더링 기술을 기반으로 구현됐습니다. James의 자연스러운 목소리는 일레븐랩스(ElevenLabs)에서 제공합니다. 개발자는 NVIDIA ACE를 통해 다양한 사용 사례에 맞는 아바타 제작 시 애니메이션, 음성, 언어를 맞춤화할 수 있습니다.
텔레프레즌스 속 디지털 휴먼 강화하는 NVIDIA Maxine
Maxine은 디지털 휴먼의 오디오와 비디오 품질을 향상시키는 최첨단 AI 기능을 배포하는 플랫폼입니다. 화상 회의 장치에서 사실적인 실시간 2D, 3D 아바타를 사용할 수 있도록 지원하죠.
Maxine 3D는 2D 비디오 초상화 입력을 3D 아바타로 변환합니다. 화상 회의와 기타 양방향 커뮤니케이션 애플리케이션에 매우 사실적인 디지털 휴먼을 통합할 수 있는데요. 이 기술은 곧 얼리 액세스로 제공될 예정입니다.
현재 얼리 액세스 중인 Audio2Face-2D는 오디오 입력을 기반으로 정적인 초상화에 애니메이션을 적용해 단일 이미지에서 역동적으로 말하는 디지털 휴먼을 생성합니다. ai.nvidia.com에서 이 기술을 체험해 보세요.
디지털 휴먼 애플리케이션을 도입하는 기업들
기업은 고객 서비스 에이전트와 엔터테인먼트, 소매, 접객업 분야의 텔레프레즌스 경험 등 광범위한 사용 사례에서 NVIDIA ACE와 Maxine을 사용합니다. 이를 최근에 활용하기 시작한 기업에는 HTC, 루킹 글래스(Looking Glass), 리플라이(Reply), 유니큐(UneeQ) 등이 있습니다.
디지털 휴먼 기술 개발사인 유니큐는 시그라프에서 두 가지 새로운 데모를 선보입니다.
첫 번째는 확장성과 프라이버시 강화를 위한 로컬 인브라우저 컴퓨터 비전을 갖춘 NVIDIA GPU를 기반으로 클라우드 렌더링된 디지털 휴먼입니다. 이 디지털 휴먼은 Audio2Face-3D NVIDIA NIM 마이크로서비스를 기반으로 애니메이션 처리됐죠. 유니큐의 시냅스(Synapse) 기술은 익명화된 사용자 데이터를 처리하고 이를 거대 언어 모델(large language model, LLM)에 공급해 보다 정확하고 반응이 빠른 인터랙션을 구현합니다.
두 번째 데모는 단일 NVIDIA RTX GPU 기반 노트북에서 실행된다. 또한 젬마 7B LLM(Gemma 7B LLM), RAG, NVIDIA Audio2Face-3D NIM 마이크로서비스로 구동되는 고급 디지털 휴먼이 포함됩니다.
두 데모 모두에서 NVIDIA 제품을 바탕으로 사용자의 표정과 행동에 반응할 수 있는 디지털 휴먼을 개발, 가상 고객 서비스 경험에서 현실감의 한계를 뛰어넘으려는 유니큐의 노력을 알 수 있습니다.
HTC 바이버스(Viverse)는 역동적 페이셜 애니메이션과 립싱크를 위해 Audio2Face-3D NVIDIA NIM 마이크로서비스를 바이버스 AI(VIVERSE AI) 에이전트에 통합했습니다. 보다 자연스럽고 몰입감 있는 사용자 인터랙션을 구현할 수 있게 됐죠.
홀로그램 기술 기업 루킹 글래스는 시그라프에서 매직 미러(Magic Mirror) 데모를 선보였습니다. 이 데모는 간단한 카메라 설정과 Maxine의 고급 3D AI 기능을 사용해 그룹 시청이 가능한 최신 루킹 글래스 16인치와 32인치 공간 디스플레이에서 실시간 사용자 얼굴 홀로그램 피드를 생성합니다.
리플라이는 코스타 크루즈(Costa Crociere)의 코스타 스메랄다(Costa Smeralda) 크루즈선을 위해 개발한 최첨단 디지털 휴먼 퓨추라(Futura)의 향상된 버전을 공개합니다. Audio2Face-3D NVIDIA NIM과 Riva ASR NIM 마이크로서비스로 구동되는 퓨투라의 음성 합성 기능은 GPT-포오(GPT-4o), RAG용 라마 인덱스(LlamaIndex), 마이크로소프트 애저(Microsoft Azure) 텍스트 음성 변환 서비스 등 첨단 기술을 활용합니다.
또한 퓨추라는 포괄적인 감정 인식을 위해 흄 AI(Hume AI), 모프캐스트(MorphCast)와 함께 리플라이의 독점적인 감성 컴퓨팅 기술(affective computing technology)을 통합합니다. 퓨추라는 언리얼 엔진 5.4.3(Unreal Engine 5.4.3)과 NVIDIA ACE 기반 페이셜 애니메이션을 탑재한 메타휴먼 크리에이터(MetaHuman Creator)로 구축됐으며, 6개국어를 지원하죠. 이 지능형 어시스턴트는 개인화된 항구 방문 계획 수립, 맞춤형 일정 제안, 손쉬운 투어 예약을 지원합니다.
더불어 게스트 피드백을 기반으로 추천을 개선하고, 맞춤 제작된 지식 기반을 활용해 유익한 도시 프레젠테이션을 제공함으로써 관광 여정을 개선합니다. 퓨추라는 고객 서비스 개선를 개선하고 실제 시나리오에서 몰입형 인터랙션을 제공해 운영을 간소화하고 비즈니스 성장을 촉진하는 것을 목표로 합니다.
NVIDIA ACE와 NVIDIA Maxine에 대해 자세히 알아보세요.
NVIDIA 창립자 겸 CEO인 젠슨 황의 시그라프 좌담회에서 가속 컴퓨팅과 생성형 AI가 어떻게 산업을 변화시키고 새로운 혁신의 기회를 창출하고 있는지 확인할 수 있다.
여기에서 소프트웨어 제품 정보에 관한 공지를 참조할 수 있다.