두 개의 NVIDIA 연구 논문(확산 기반 생성 AI 모델을 탐구하는 논문과 제너럴리스트 AI 에이전트 훈련 관련 논문)이 AI와 머신 러닝 분야에 대한 기여도를 인정받아 NeurIPS 2022 어워드를 수상했습니다.
이 어워드는 미국 뉴올리언스에서 오프라인과 온라인에서 개최된 NeurIPs 컨퍼런스에서 NVIDIA 연구원이 참여한 60개 이상의 강연, 포스터, 워크숍 중 하나입니다.
이미지, 텍스트 또는 비디오를 위한 합성 데이터 생성은 NVIDIA가 발표한 여러 논문의 핵심 주제입니다. 다른 주제로는 강화 학습, 데이터 수집 및 증강, 날씨 모델과 연합 학습이 있습니다.
NVIDIA의 학습 및 인식 연구 부사장인 얀 카우츠(Jan Kautz)는 “AI는 매우 중요한 기술이며, NVIDIA는 생성 AI에서 자율 AI 에이전트에 이르기까지 모든 영역에서 빠른 성과를 내고 있습니다. 생성 AI에서 우리는 기본 모델에 대한 이론적 이해를 발전시킬 뿐만 아니라, 현실감 있는 가상 세계와 시뮬레이션을 만들기 위한 노력을 줄이는 데 실질적인 기여를 하고 있습니다”라고 말했습니다.
확산 기반 생성 모델의 설계 재창조
확산 기반 모델은 생성 AI를 위한 획기적인 기술로 부상했습니다. NVIDIA 연구원은 확산 모델 설계를 분석하고 확산 모델의 효율성과 품질을 획기적으로 향상할 수 있는 개선 사항을 제안한 연구로 ‘우수 메인 트랙 논문(Outstanding Main Track Paper)’ 상을 수상했습니다.
이 논문은 확산 모델의 구성 요소를 모듈식 설계로 분해하여 개발자가 전체 모델의 성능을 개선하기 위해 조정할 수 있는 프로세스를 식별하도록 돕습니다. 연구원들은 이러한 조정이 AI 생성 이미지의 품질을 평가하는 지표에서 기록적인 점수를 가능하게 한다는 것을 증명했죠.
마인크래프트 기반 시뮬레이션 제품군에서 제너럴리스트 AI 에이전트 훈련
연구원들은 스타크래프트(Starcraft), 도타(Dota), 고(Go)와 같은 비디오 게임 환경에서 오랫동안 자율 AI 에이전트를 훈련했지만, 이러한 에이전트는 일반적으로 몇 가지 작업에만 스페셜리스트이죠. 그래서 NVIDIA 연구원들은 다양한 개방형 작업을 성공적으로 실행할 수 있는 제너럴리스트 에이전트를 위한 확장 가능한 훈련 프레임워크를 개발하기 위해 세계에서 가장 인기 있는 게임인 마인크래프트(Minecraft)에 눈을 돌렸습니다.
마인도조(MineDojo)라고 불리는 이 프레임워크는 AI 에이전트가 7,000개 이상의 위키 페이지, 수백만 개의 레딧(Reddit) 스레드, 300,000시간 동안 기록된 게임 플레이(상단 이미지 참조)의 방대한 온라인 데이터베이스를 사용하여 마인크래프트의 유연한 게임 플레이를 학습할 수 있도록 합니다. 이 프로젝트는 NeurIPS 위원회로부터 ‘우수 데이터셋 및 벤치마크 논문상(Outstanding Datasets and Benchmarks Paper Award)’을 수상했습니다.
개념 증명을 위해, 마인도조 연구원들은 마인클립(MineCLIP)이라는 대규모 기반 모델을 만들었습니다. 이 모델은 마인크래프트 게임 플레이의 유튜브 영상을 비디오 대본과 연결하는 방법을 학습했는데요. 연구팀은 마인클립을 사용하여 사람의 개입 없이 마인크래프트에서 여러 작업을 수행할 수 있는 강화 학습 에이전트를 훈련할 수 있었습니다.
가상 세계를 채우는 복잡한 3D 모양 제작
또한 NeurIPS에는 건물, 자동차, 동물과 같이 훈련된 2D 이미지의 범주를 기반으로 3D 모양을 즉시 합성하는 생성 AI 모델인 GET3D가 발표됐습니다. AI로 생성된 객체는 고충실도 텍스처와 복잡한 기하학적 디테일을 가지고 있으며, 인기 있는 그래픽 소프트웨어 애플리케이션에서 사용되는 삼각형 메시 형식으로 생성됩니다. 따라서 사용자는 추가 편집을 위해 모양을 3D 렌더러와 게임 엔진으로 쉽게 가져올 수 있습니다.
‘명시적 텍스처 3D 메시 생성(Generate Explicit Textured 3D)’ 기능에서 이름이 붙여진 GET3D는 다양한 카메라 각도에서 캡처한 3D 모양의 약 100만 개 2D 이미지를 사용하여 NVIDIA A100 Tensor Core GPU에서 훈련됐습니다. 이 모델은 단일 NVIDIA GPU에서 추론을 실행할 때 초당 약 20개의 객체를 생성할 수 있죠.
AI가 생성한 객체는 게임, 로보틱스, 건축, 소셜 미디어 등의 산업을 위해 설계된 디지털 건물, 야외 공간 또는 전체 도시의 3D 표현을 채우는 데 사용될 수 있습니다.
재료, 조명 제어를 통해 역 렌더링 파이프라인 개선
지난 6월 뉴올리언스에서 열린 가장 최근의 CVPR 컨퍼런스에서, NVIDIA 연구팀은 개발자가 세 가지 부분(3D 메쉬 모델, 모델에 오버레이된 재료, 조명)으로 구성된 3D 객체를 만들 수 있는 역 렌더링 방법인 3D MoMa를 소개했습니다.
이후 연구팀은 3D 객체에서 재료와 조명을 풀어내는 데 상당한 발전을 이루었습니다. 이에 따라 객체가 장면 주위를 이동할 때 재료를 교체하거나 조명을 조정하여 AI가 생성한 모양을 편집하는 크리에이터의 능력이 향상됐죠.
NVIDIA RTX GPU 가속 레이 트레이싱을 활용하는 보다 사실적인 셰이딩 모델에 의존하는 이 작업은 NeurIPS 포스터를 통해 발표됐습니다.
언어 모델의 생성된 텍스트의 사실적 정확성 향상
NeurIPS에서 채택된 또 다른 논문은 사전 훈련된 언어 모델의 주요 과제인 생성 텍스트의 사실적 정확성을 다뤘습니다.
개방형 텍스트 생성을 위해 훈련된 언어 모델은 종종 비사실적 정보를 포함하는 텍스트를 제시합니다. AI는 단순히 단어 간의 상관관계를 만들어 문장의 다음에 오는 내용을 예측하기 때문인데요. 이 논문에서 NVIDIA 연구원은 이러한 모델을 실제 애플리케이션에 배포하기 전에 이러한 제약을 해결할 수 있는 기술을 제안합니다.
연구원들은 개방형 텍스트 생성을 위한 언어 모델의 사실적 정확성을 측정하기 위해 최초의 자동 벤치마크를 구축했으며, 수십억 개의 파라미터가 있는 더 큰 언어 모델이 작은 모델보다 더 사실적이라는 사실을 발견했습니다. 연구팀은 언어 모델이 정확한 텍스트를 생성하도록 훈련하는 데 도움이 되는 새로운 샘플링 알고리즘과 함께 사실성 강화 훈련이라는 새로운 기술을 제안하고, 사실 오류 비율이 33%에서 약 15%로 감소했음을 입증했습니다.
전 세계에 300명이 넘는 NVIDIA 연구원들이 AI, 컴퓨터 그래픽, 컴퓨터 비전, 자율주행 자동차, 로보틱스 등의 주제에 중점을 두고 연구를 수행하고 있습니다. NVIDIA 연구에 대해 자세히 알아보고 NeurIPS에서 채택된 논문 전체 목록을 확인하세요.