단 몇 초 만에 뚝딱! 3D 그래픽 구현하는 생성형 AI 모델 ‘NVIDIA LATTE3D’

단 몇 초 만에 텍스트를 3D 그래픽으로 변환하는 생성형 AI 모델 LATTE3D(Large-scale Amortized Text-To-Enhanced3D Synthesis)를 공개합니다!

가상 3D 프린터처럼 LATTE3D는 텍스트 프롬프트를 1초 안에 사물과 동물의 3D 그래픽으로 변환합니다.

LATTE3D는 표준 렌더링 애플리케이션에 널리 사용되는 포맷으로 제작됐습니다. 비디오 게임, 광고 캠페인, 디자인 프로젝트 또는 로보틱스용 가상 훈련장 개발 등을 위한 가상 환경을 쉽게 구현할 수 있죠.

NVIDIA의 AI 리서치(research) 담당 부사장인 산자 피들러(Sanja Fidler)는 캐나다 토론토에 위치한 AI 연구소에서 LATTE3D를 개발했습니다. “1년 전만 해도 AI 모델이 이 정도 품질의 3D 비주얼을 생성하는 데 1시간이 걸렸지만, 이제는 10~12초 정도면 충분합니다. 훨씬 더 빠른 속도로 결과를 생성할 수 있게 되면서 업계 전반의 크리에이터들이 거의 실시간으로 텍스트를 3D로 생성할 수 있습니다.”

이러한 발전으로 LATTE3D는 NVIDIA 리서치 데모에 사용된 NVIDIA RTX A6000과 같은 단일 GPU에서 추론을 실행할 때 거의 즉각적으로 3D 형상을 생성할 수 있게 됐습니다.

생각하고, 생성하고, 반복하기: 주기 단축

크리에이터는 처음부터 디자인을 시작하거나 3D 에셋 라이브러리를 일일이 찾아보는 대신 LATTE3D를 사용해 머릿속에 아이디어가 떠오르는 즉시 세부적인 개체를 생성할 수 있습니다.

모델은 각 텍스트 프롬프트에 따라 몇 가지 다른 3D 모양 옵션을 생성해 크리에이터에게 선택권을 제공합니다. 선택된 개체는 몇 분 내에 더 높은 품질로 최적화되죠. 그런 다음 사용자는 해당 그래픽을 그래픽 소프트웨어 애플리케이션이나 NVIDIA Omniverse와 같은 플랫폼으로 전송할 수 있습니다. 이를 통해 OpenUSD(Universal Scene Description) 기반 3D 워크플로우와 애플리케이션을 사용할 수 있습니다.

연구진은 동물과 일상 사물이라는 두 가지 특정 데이터세트에 대해 LATTE3D를 훈련시키고, 개발자는 동일한 모델 아키텍처를 사용해 다른 데이터 유형에 대해 AI를 훈련시킬 수 있습니다.

예를 들어, 3D 식물 데이터세트를 훈련한 LATTE3D 버전은 조경 디자이너가 고객과 브레인스토밍 하면서 나무, 꽃 덤불, 다육식물로 정원 렌더링을 빠르게 작성하는 데 도움을 줄 수 있죠. 가정 내 사물에 대해 훈련된 모델은 집을 3D 시뮬레이션으로 채울 아이템을 생성할 수 있습니다. 이런 경우 개발자는 테스트하거나 실제 환경에 배치하기 전에 개인 비서 로봇을 훈련할 수 있습니다.

LATTE3D 훈련에는 NVIDIA A100 Tensor Core GPU가 사용됐습니다. 3D 그래픽 외에도 챗GPT(ChatGPT)를 통해 생성된 다양한 텍스트 프롬프트를 훈련했는데요. 이를 통해 사용자가 특정 3D 개체를 설명할 때 제시할 수 있는 다양한 문구를 처리하는 능력을 향상시켰습니다. 예를 들어, 다양한 개 종류를 묘사하는 프롬프트에서는 모두 개 모양을 생성하도록 학습시켰죠.