지연 시간을 줄이는 SLM: NVIDIA 최초의 온디바이스 소형 언어 모델이 디지털 휴먼을 더욱 생생하게 만드는 방법

지연 시간을 줄이는 SLM: NVIDIA 최초의 온디바이스 소형 언어 모델이 디지털 휴먼을 어떻게 더욱 생생하게 만드는가
by NVIDIA Korea

편집자 노트: 본 게시물은 AI Decoded 시리즈의 일부로, AI에 대한 접근성을 높여 AI에 대한 이해를 돕고, RTX PC 사용자를 위한 새로운 하드웨어, 소프트웨어, 도구 및 가속 기술을 소개합니다.

지난 주에 열린 Gamescom에서 NVIDIA는 생성형 AI로 디지털 휴먼을 생생하게 구현하는 기술 제품군인 NVIDIA ACE에 이제 RTX AI로 로컬에서 구동되는 회사 최초의 온디바이스 소형 언어 모델(SLM)이 포함된다고 발표했습니다.

Nemotron-4 4B Instruct라고 불리는 모델은 더 나은 롤플레잉, 검색 증강 생성(RAG) 및 함수 호출 기능을 제공하므로 게임 캐릭터가 보다 직관적으로 플레이어의 지시를 이해하고 게이머에게 반응하여 더 정확하고 관련성 있는 동작을 수행할 수 있습니다.

특히 게임 개발자들이 클라우드 및 온디바이스 배포를 위해 NVIDIA NIM 마이크로서비스로 사용할 수 있는 이 모델은 낮은 메모리 사용량에 최적화되어 응답 시간을 단축하고 개발자들에게 1억 대가 넘는 GeForce RTX 기반 PC 및 노트북과 NVIDIA RTX 기반 워크스테이션을 활용할 수 있는 방법을 제공합니다.

SLM의 장점

AI 모델의 정확성과 성능은 훈련에 사용되는 데이터 세트의 크기와 품질에 따라 달라집니다. 거대 언어 모델(LLM)은 방대한 양의 데이터로 훈련되지만, 일반적으로 범용이며 대부분의 용도에 비해 과도한 정보를 포함할 가능성이 높습니다.

반면에 SLM은 특정 사용 사례에 초점을 맞춥니다. 따라서 더 적은 데이터로도 더 정확한 응답을 더 빠르게 제공할 수 있습니다. 이는 디지털 휴먼과 자연스럽게 대화를 나누는 데 중요한 요소입니다.

Nemotron-4 4B는 더 큰 Nemotron-4 15B LLM에서 처음으로 증류되었습니다. 이 과정에서는 ‘학생(Student)’이라고 불리는 더 작은 모델이 ‘교사(Teacher)’라고 불리는 것이 적절한 더 큰 모델의 출력을 모방해야 합니다. 이 과정에서 학생 모델의 중요하지 않은 출력은 모델의 매개변수 크기를 줄이기 위해 축소되거나 제거됩니다. 그런 다음 SLM을 양자화하여 모델 가중치의 정밀도를 낮춥니다.

더 적은 매개변수와 더 낮은 정밀도를 가진 Nemotron-4 4B는 증류로 인해 여전히 높은 수준의 정확도를 유지하면서도 더 큰 Nemotron-4 LLM보다 메모리 사용량이 적고 첫 토큰까지의 시간(응답이 시작되는 속도)이 더 빠릅니다. 또한, 메모리 풋프린트가 더 작기 때문에 NIM 마이크로서비스를 통합하는 게임과 앱은 현재 소비자들이 보유하고 있는 더 많은 GeForce RTX AI PC 및 노트북과 NVIDIA RTX AI 워크스테이션에서 로컬로 실행될 수 있습니다.

이 최적화된 새로운 SLM은 특정 작업을 더 잘 수행할 수 있도록 명령 프롬프트로 모델을 파인 튜닝하는 기법인 인스트럭션 튜닝을 위해 특수 제작되었습니다. 이는 플레이어가 메카닉 게임 캐릭터와 대화를 나누고 지시를 내려 메크를 전환하고 커스터마이징할 수 있는 비디오 게임인 Mecha BREAK에서 확인할 수 있습니다.

ACE의 탁월성

ACE NIM 마이크로서비스를 통해 개발자는 클라우드 또는 RTX AI PC, 그리고 워크스테이션에 최첨단 생성형 AI 모델을 배포하여 게임 및 애플리케이션에 AI를 적용할 수 있습니다. ACE NIM 마이크로서비스를 사용하면 실시간으로 게임에서 NPC가 플레이어와 동적으로 상호 작용하고 대화할 수 있습니다.

ACE는 음성 인식(Speech to Text), 언어, 텍스트 음성 변환 및 얼굴 애니메이션을 위한 핵심 AI 모델로 구성되어 있습니다. 또한 모듈형이기 때문에 개발자가 특정 프로세스의 각 요소에 필요한 NIM 마이크로서비스를 선택할 수 있습니다.

NVIDIA Riva 자동 음성 인식(ASR)은 사용자의 음성 언어를 처리하고 AI를 사용하여 매우 정확한 트랜스크립션을 실시간으로 제공합니다. 이 기술은 GPU 가속 다국어 음성 및 번역 마이크로서비스를 사용하여 완전히 맞춤화 가능한 대화형 AI 파이프라인을 구축합니다. 지원되는 기타 ASR에는 영어 음성 인식에서 인간 수준의 견고성과 정확성에 근접하는 오픈 소스 신경망인 OpenAI의 Whisper가 포함됩니다.

디지털 텍스트로 번역된 자막은 Google의 Gemma, Meta의 Llama 3 또는 이제 NVIDIA Nemotron-4 4B와 같은 LLM으로 전달되어 사용자의 음성 입력에 대한 응답을 생성하기 시작합니다.

다음으로는 Riva 기술의 또 다른 부분인 텍스트 음성 변환이 오디오 응답을 생성합니다. ElevenLabs의 독점 AI 언어 및 음성 기술도 지원됩니다. 위의 데모에서 볼 수 있듯이 ACE의 일부로 시연되었습니다.

마지막으로, NVIDIA Audio2Face(A2F)가 여러 언어의 대화에 동기화될 수 있는 얼굴 표정을 생성합니다. 마이크로서비스를 통해 디지털 아바타는 실시간으로 스트리밍되거나 포스트 프로세싱 중에 베이킹되는 역동적이고 사실적인 감정을 표현할 수 있습니다.

AI 네트워크는 선택된 감정 범위와 강도 수준에 맞게 얼굴, 눈, 입, 혀, 머리의 움직임을 자동으로 애니메이션화합니다. 그리고 A2F는 오디오 클립에서 직접 감정을 자동으로 추론할 수 있습니다.

마지막으로, 전체 캐릭터 또는 디지털 휴먼이 Unreal Engine 또는 NVIDIA Omniverse 플랫폼과 같은 렌더러에서 애니메이션화됩니다.

AI That’s NIMble

다양한 NVIDIA 기반 및 써드파티 AI 모델에 대한 모듈식 지원 외에도 ACE는 개발자가 클라우드나 RTX AI PC 또는 워크스테이션에서 로컬로 각 모델의 추론을 실행할 수 있도록 해줍니다.

NVIDIA AI Inference Manager 소프트웨어 개발 키트를 사용하면 경험, 워크로드, 비용과 같은 다양한 요구 사항에 따라 하이브리드 추론을 수행할 수 있습니다. 이 키트는 필요한 AI 모델, 엔진 및 종속성으로 PC를 사전 구성하여 PC 애플리케이션 개발자를 위해 AI 모델 배포 및 통합을 간소화시킵니다. 이후 앱과 게임은 PC 또는 워크스테이션에서 클라우드에 이르기까지 원활하게 추론을 오케스트레이션할 수 있습니다.

ACE NIM 마이크로서비스는 클라우드에서뿐만 아니라 RTX AI PC 및 워크스테이션에서 로컬로도 실행됩니다. 로컬로 실행되는 현재의 마이크로서비스에는 Covert Protocol 기술 데모의 Audio2Face, Mecha BREAK의 새로운 Nemotron-4 4B Instruct와 Whisper ASR이 포함됩니다.

무한과 그 너머로

디지털 휴먼의 가능성은 게임 속 NPC를 뛰어넘어 무궁무진합니다. 지난달 개최된 SIGGRAPH 컨퍼런스에서 NVIDIA는 감정, 유머 등을 통해 사람들과 소통할 수 있는 대화형 디지털 휴먼인 “James”를 미리 선보였습니다. James는 ACE를 사용하는 고객 서비스 워크플로우를 기반으로 합니다.

ai.nvidia.com에서 James와 상호 작용해 보세요.

수십 년에 걸쳐 이루어져 온 인간과 기술 간 커뮤니케이션 방식의 변화는 결국 디지털 휴먼의 탄생으로 이어졌습니다. 인간-컴퓨터 인터페이스의 미래는 친근한 얼굴을 지니고 물리적 입력을 요구하지 않을 것입니다.

디지털 휴먼은 더욱 매력적이고 자연스러운 상호 작용을 유도합니다. Gartner에 따르면, 2025년까지 대화형 제품의 80%에 생성형 AI가 포함되고, 고객 대면 애플리케이션의 75%에 감정을 지닌 대화형 AI가 탑재될 것입니다. 디지털 휴먼은 게이밍을 넘어 고객 서비스, 헬스케어, 소매, 텔레프레전스, 로봇 등의 다양한 산업과 사용 사례를 혁신할 것입니다.

사용자는 ai.nvidia.com에서 James와 실시간으로 상호 작용함으로써 이 미래를 엿볼 수 있습니다.

생성형 AI는 게임, 화상 회의 및 모든 종류의 인터랙티브 경험을 혁신하고 있습니다. AI Decoded 뉴스레터를 구독하고 AI 기술이 바꿀 현재와 미래의 모습을 확인하세요.