NVIDIA 생성형 AI 연구팀은 사용자들이 텍스트만으로 오디오 출력을 제어할 수 있는 사운드용 스위스 아미 나이프(Swiss Army knife)를 개발했습니다.
일부 AI 모델도 노래를 작곡하거나 음성을 수정할 수는 있지만, 새로운 생성형 AI 모델만큼 정교하지는 않습니다.
새로운 생성형 AI 모델인 Fugatto(Foundational Generative Audio Transformer Opus 1)는 텍스트와 오디오 파일의 조합을 사용해 프롬프트에 설명된 음악, 음성, 사운드의 모든 조합을 생성하거나 변형할 수 있습니다.
예를 들어, 텍스트 프롬프트에 따라 음악 스니펫을 생성하고, 기존 노래에서 악기를 제거하거나 추가하고, 목소리의 억양이나 감정을 바꿀 수 있죠. 심지어 이전에 들어본 적 없는 소리를 만들어낼 수도 있습니다.
멀티 플래티넘 프로듀서이자 작곡가인 이도 즈미슬라니(Ido Zmishlany)는 최첨단 스타트업을 위한 NVIDIA Inception 프로그램의 회원사인 원 테이크 오디오(One Take Audio)의 공동 설립자입니다. “이 기술은 정말 대단합니다. 사운드는 저의 영감의 원천입니다. 그것이 바로 제가 음악을 만들게 하는 원동력입니다. 스튜디오에서 즉석으로 완전히 새로운 사운드를 만들 수 있다는 생각은 정말 놀라운 일입니다.”
사운드에 대한 깊은 이해
라파엘 발레(Rafael Valle)는 NVIDIA의 응용 오디오 연구 관리자이자 Fugatto를 개발한 12명 이상의 개발자 중 한 명입니다. 오케스트라에서 지휘와 작곡도 맡고 있는 그는 “우리는 사람처럼 소리를 이해하고 생성하는 모델을 만들고 싶었습니다”고 말했습니다.
다양한 오디오 생성과 변형 작업을 지원하는 Fugatto는 여러 훈련된 능력의 상호 작용에서 나타나는 창발성(emergent property)을 보여주는 최초의 기초 생성형 AI 모델입니다. 또한 자유 형식의 지시를 결합할 수 있는 능력도 가지고 있죠.
라파엘 발레는 “Fugatto는 데이터와 모델 규모에 따라 오디오 합성과 변형에서 비지도 멀티태스크 학습이 가능한 미래를 향한 첫걸음”이라고 말했습니다.
다양한 Fugatto 사용 사례
음악 프로듀서들은 Fugatto를 사용해 노래에 대한 아이디어를 빠르게 프로토타입으로 만들거나 편집할 수 있습니다. 다양한 스타일, 목소리, 악기도 시도해 볼 수 있죠. 또한 효과를 추가하고 기존 트랙의 전체 오디오 품질을 향상시킬 수도 있습니다.
이도 즈미슬라니는 “음악의 역사는 곧 기술의 역사이기도 합니다. 일렉트릭 기타는 로큰롤을 탄생시켰고, 샘플러가 등장하면서 힙합이 태어났습니다. AI와 함께 우리는 음악의 다음 장을 쓰고 있습니다. 음악을 만들기 위한 새로운 도구와 새로운 악기가 생겼고, 이는 매우 흥미로운 일입니다”고 말했습니다.
광고 대행사는 Fugatto를 적용해 기존 캠페인을 여러 지역이나 상황에 맞게 빠르게 조정하고, 음성 해설에 다양한 억양과 감정을 적용할 수 있습니다.
언어 학습 도구는 사용자가 선택한 목소리를 사용하도록 개인화할 수 있습니다. 예를 들어, 가족이나 친구의 목소리로 온라인 강의를 들을 수 있죠.
비디오 게임 개발자들은 이 모델을 사용해 게임을 플레이하면서 변화하는 동작에 맞게 타이틀에 미리 녹음된 애셋을 수정할 수 있습니다. 또한, 텍스트 지침과 선택적 오디오 입력을 기반으로 즉석에서 새로운 애셋을 생성할 수도 있습니다.
즐거운 소음 만들기
“우리가 특히 자랑스럽게 여기는 모델 기능 중 하나는 ‘아보카도 의자’라고 부르는 것입니다.” 라파엘 발레는 이미지용 생성형 AI 모델이 만든 독특한 비주얼을 언급했습니다.
예를 들어, Fugatto는 트럼펫에서 강아지 소리를 내게 하거나, 색소폰에서 고양이 소리를 내도록 할 수 있습니다. 사용자가 묘사할 수 있는 것은 무엇이든 모델이 생성할 수 있는 것입니다.
연구팀은 미세 조정과 소량의 노래 데이터를 통해 텍스트 프롬프트에서 고품질의 노래 음성을 생성하는 등 사전 훈련되지 않은 작업도 처리할 수 있음을 발견했습니다.
예술적인 제어 기능 제공
Fugatto의 참신함을 더하는 기능으로는 몇 가지가 더 있습니다.
Fugatto는 추론하는 동안 컴포저블아트(ComposableART)라는 기술을 사용해 훈련 중에 개별적으로만 보였던 명령어를 결합합니다. 예를 들어, 프롬프트의 조합으로 ‘슬픈 감정’의 ‘프랑스어 억양으로’ 말하는 텍스트를 요청할 수 있죠.
모델의 명령어 간 보간 기능을 통해 사용자는 억양의 강약이나 슬픔의 정도 등과 같은 텍스트 명령어를 세밀하게 제어할 수 있습니다.
Fugatto의 이러한 측면을 설계한 AI 연구원 로한 바들라니(Rohan Badlani)는 “사용자가 주관적이거나 예술적인 방식으로 속성을 조합할 수 있도록 하고, 각 속성을 얼마나 강조할지 선택할 수 있게 하고 싶었습니다”고 말했습니다.
스탠퍼드 대학교(Stanford University)에서 AI를 전공하고 컴퓨터 과학 석사 학위를 받은 그는 “테스트 결과 종종 놀라운 결과가 나왔습니다. 저는 컴퓨터 사이언티스트이지만, 마치 예술가가 된듯한 기분이 들었습니다”고 말했습니다.
또한 Fugatto는 시간이 지남에 따라 변화하는 소리를 생성하는데, 그는 이 기능을 시간적 보간(temporal interpolation)이라고 부릅니다. 예를 들어, 천둥소리가 점점 크게 들리다가 점차 멀어지며 지역을 통과하는 폭풍우 소리를 만들 수 있는데요. 사용자가 사운드스케이프의 진행 방식을 세밀하게 제어할 수 있습니다.
노출된 훈련 데이터만 재현할 수 있는 대부분의 모델과 달리, Fugatto를 사용하면 새소리와 함께 새벽녘으로 잦아드는 뇌우와 같이 이전에 들어본 적 없는 사운드스케이프를 만들 수 있습니다.
자세히 살펴보기
Fugatto는 연구팀이 음성 모델링, 오디오 보코딩, 오디오 이해와 같은 분야에서 쌓아온 이전 작업을 기반으로 하는 기초 생성형 트랜스포머 모델입니다.
정식 버전은 25억 개의 파라미터를 사용하며, 32개의 NVIDIA H100 Tensor 코어 GPU가 탑재된 NVIDIA DGX 시스템을 통해 훈련됐습니다.
Fugatto 제작에는 인도, 브라질, 중국, 요르단, 한국 등 전 세계의 다양한 사람들이 함께했습니다. 이들의 협업으로 Fugatto의 다중 억양과 다국어 기능이 더욱 강화됐죠.
이 작업에서 가장 어려운 부분 중 하나는 훈련에 사용된 수백만 개의 오디오 샘플로 구성된 혼합 데이터 세트를 생성하는 것이었습니다. 연구팀은 데이터와 지침을 생성하기 위해 다각적인 전략을 사용했습니다. 이를 통해 모델이 수행할 수 있는 작업의 범위를 크게 확장하는 동시에, 더 정확한 성능을 달성하고 추가 데이터 없이도 새로운 작업을 수행할 수 있게 했습니다.
또한 기존 데이터 세트를 면밀히 분석해 데이터 간의 새로운 관계를 밝혀냈습니다. 전체 작업은 1년 이상이 소요됐습니다.
라파엘 발레는 연구팀이 뭔가 해답을 찾았다고 느꼈던 두 가지 순간을 기억합니다. “처음 프롬프트에서 음악이 생성된 순간, 우리는 정말 놀랐습니다.”
이후 연구팀은 개들이 비트에 맞춰 짖는 전자 음악을 만들라는 프롬프트에 Fugatto가 반응하는 모습을 시연했습니다.