물리 AI 개발 위한 AI 조명 신기술 ‘NVIDIA DiffusionRenderer’ 공개

DiffusionRenderer는 크리에이티브 콘텐츠 제작과 편집부터 자율주행, 로보틱스용 합성 데이터 생성에 이르기까지 활용할 수 있습니다
by NVIDIA Korea

NVIDIA Research 팀이 개발한 AI 기반 렌더링 신기술 ’DiffusionRenderer’를 소개합니다! 이 기술은 영상용 AI 조명 스위칭 기술로, 낮 장면을 야경으로 바꾸고, 화창한 오후를 흐린 날로 전환하며, 거친 형광등도 부드럽고 자연스러운 조명으로 톤 다운합니다.

DiffusionRenderer는 AI를 활용해 실제 세계에서 빛이 작용하는 방식을 모방하는 뉴럴 렌더링 신기술인데요. 전통적으로 서로 다른 두 가지 프로세스인 역 렌더링과 포워드 렌더링을 하나의 뉴럴 렌더링 엔진에 통합해 최첨단 기술보다 뛰어난 성능을 발휘합니다.

DiffusionRenderer는 비디오 조명 제어, 편집, 합성 데이터 증강을 위한 프레임워크를 제공합니다. 크리에이티브 산업과 물리 AI 개발을 위한 강력한 툴로 활용될 수 있죠.

광고, 영화, 게임 개발 분야의 제작자는 DiffusionRenderer 기반 애플리케이션을 사용해 실제 또는 AI 생성된 동영상에서 조명을 추가, 제거, 편집할 수 있습니다. 물리 AI 개발자는 로보틱스와 자율주행 자동차(AV)용 모델을 훈련하기 위해 더욱 다양한 조명 조건으로 합성 데이터 세트를 보강하는 데요. 이때 이 기술을 활용할 수 있습니다.

DiffusionRenderer는 6월 11일부터 15일(현지 시간)까지 미국 테네시 내슈빌에서 열린 컴퓨터 비전 및 패턴 인식 분야 국제 학술대회 CVPR(Computer Vision and Pattern Recognition)에서 채택된 60편 이상의 NVIDIA 논문 중 하나입니다.

빛을 다시 그리는 AI

DiffusionRenderer는 2D 비디오 데이터만으로 장면에서 디라이팅(de-lighting)과 리라이팅(relighting) 작업을 수행하는데요.

디라이팅은 이미지에서 조명 효과를 제거해 기본적인 물체의 기하 구조와 재질 특성만을 남기는 과정이죠. 반대로 리라이팅은 장면에 빛을 추가하거나 편집하면서 물체의 투명도와 표면이 빛을 반사하는 정도인 스페큘러(specularity)와 같은 복잡한 특성의 사실감을 유지하는 작업입니다.

기존의 물리 기반 렌더링 파이프라인은 디라이팅과 리라이팅을 위해 장면의 3D 기하 데이터를 필요로 했습니다. 반면, DiffusionRenderer는 AI를 사용해 단일 2D 비디오에서 법선 백터(normals), 금속성, 거칠기 등의 속성을 추정하는데요.

이러한 계산을 통해 DiffusionRenderer는 현실감 있는 조명 조건을 유지하면서 새로운 그림자와 반사를 생성하고, 광원을 변경하며, 재질을 편집하거나, 장면에 새로운 물체를 삽입할 수 있습니다.

DiffusionRenderer 기반 애플리케이션을 활용하며, AV 개발자는 주로 주간 주행 영상으로 구성된 데이터 세트를 다양한 조명 조건으로 무작위 변환해, 흐리거나 비가 오는 날, 강한 그림자가 있는 저녁 시간대, 야간 장면 등으로 구성된 추가 영상을 생성할 수 있습니다. 이렇게 증강된 데이터를 통해 개발자는 개발 파이프라인을 강화해 까다로운 조명 조건을 더 잘 처리할 수 있는 AV 모델을 훈련, 테스트, 검증할 수 있죠.

디지털 캐릭터 제작이나 특수 효과용 콘텐츠를 작업하는 크리에이터 역시 DiffusionRenderer를 사용해 초기 아이디어와 목업용 툴을 구동할 수 있습니다. 이를 통해 고가의 전문적인 조명 시스템을 사용해 본격적인 고품질 영상 촬영에 들어가기 전, 다양한 조명 옵션을 자유롭게 실험하고 반복해볼 수 있죠.

DiffusionRenderer의 성능을 향상시키는 NVIDIA Cosmos

연구팀은 최초의 논문을 완성한 이후, 사실적인 물리 기반 미래 세계 생성을 월드 파운데이션 모델 모음인 Cosmos Predict-1과 DiffusionRenderer를 통합했습니다.

연구진은 더 크고 강력한 Cosmos Predict의 비디오 확산 모델을 적용함으로써 DiffusionRenderer의 디라이팅과 리라이팅 품질이 함께 향상되는 스케일링(scaling) 효과를 관찰할 수 있었는데요. 이를 통해 더욱 선명하고, 정확하며, 시간적으로 일관된 결과를 얻을 수 있었습니다.

Cosmos Predict는 월드 파운데이션 모델, 토크나이저, 가드레일, 가속화된 데이터 처리와 큐레이션 파이프라인으로 구성된 플랫폼인 NVIDIA Cosmos의 일부로, 물리 AI 개발을 위한 합성 데이터 생성을 가속화합니다. 새로운 Cosmos Predict-2 모델에 대한 자세한 내용은 NVIDIA 테크니컬 블로그에서 확인하세요.

CVPR에서의 NVIDIA 연구

CVPR에서 NVIDIA 연구진들은 자율주행, 헬스케어, 로보틱스 등을 아우르는 주제에 대한 수십 개의 논문을 발표했습니다. 특히 올해의 최우수 논문상(Best Paper Award) 후보에 세 편의 NVIDIA 논문이 올랐죠.

  • FoundationStereo: 이 파운데이션 모델은 스테레오 이미지의 픽셀을 일치시켜 2D 이미지에서 3D 정보를 재구성합니다. 100만 개 이상의 이미지로 구성된 데이터세트를 훈련한 이 모델은 실제 데이터에서 바로 작동하며 기존 방법보다 성능이 뛰어나고 여러 도메인에 걸쳐 일반화됩니다.
  • Zero-Shot Monocular Scene Flow Estimation in the Wild: NVIDIA와 브라운 대학교(Brown University)의 공동 연구로, 이 논문에서는 3D 환경에서 점의 움직임 필드인 장면 흐름을 예측하기 위한 범용 모델을 소개합니다.
  • Difix3D+: NVIDIA Spatial Intelligence Lab 연구원들이 발표한 이 논문에서는 재구성된 3D 장면에서 새로운 시점의 아티팩트를 제거해 3D 표현의 전반적인 품질을 향상시키는 이미지 확산 모델을 소개합니다.

또한, CVPR에서 오토노머스 그랜드 챌린지(Autonomous Grand Challenge) 우승자로 선정되기도 했는데요. 이로써 엔드 투 엔드 부문에서 2년 연속 1위를 차지하며, 3년 연속 오토노머스 그랜드 챌린지 상을 수상하는 영예를 안았습니다.

AI, 컴퓨터 그래픽, 컴퓨터 비전, 자율주행 자동차, 로보틱스 등 다양한 분야를 탐구하는 수백 명의 과학자와 엔지니어로 구성된 NVIDIA Research 글로벌 팀에 대해 자세히 알아보세요.

CVPR에서 발표한 NVIDIA 연구 논문을 살펴볼 수 있으며, NVIDIA 창립자 겸 CEO인 젠슨 황(Jensen Huang)의 NVIDIA GTC Paris 키노트를 시청할 수 있습니다.