물리 AI 개발의 혁신 앞당길 NVIDIA Cosmos WFM 공개

물리 AI 개발의 대중화를 실현하기 위해 수백만 시간에 달하는 주행·로보틱스 영상으로 훈련된 최첨단 모델을 공개 라이선스로 제공합니다
by NVIDIA Korea

물리 AI 개발 가속화를 위한 플랫폼인 NVIDIA CosmosWFM(world foundation model) 제품군이 출시됐습니다. WFM은 가상 환경의 미래 상태를 예측하고 물리 인식 비디오를 생성할 수 있는 신경망으로, 개발자들이 차세대 로봇과 자율주행 자동차(AV)를 개발할 수 있도록 지원합니다.

WFM은 거대 언어 모델(LLM)만큼이나 기본이 되는 모델입니다. 텍스트, 이미지, 비디오, 움직임 등의 입력 데이터를 사용해 장면 내 오브젝트의 공간 관계와 물리적 상호 작용을 정확하게 모델링하는 방식으로 가상 세계를 생성하고 시뮬레이션하죠.

NVIDIA는 CES에서 물리 기반 시뮬레이션과 합성 데이터 생성을 위한 Cosmos WFM의 첫 번째 단계를 발표했습니다. 또한, 최첨단 토크나이저, 가드레일, 가속화된 데이터 처리와 큐레이션 파이프라인, 모델 맞춤화와 최적화를 위한 프레임워크도 발표했습니다.

연구자와 개발자는 기업 규모에 관계없이 상업적 사용을 허용하는 NVIDIA의 허용형 오픈 모델 라이선스에 따라 Cosmos 모델을 자유롭게 사용할 수 있습니다. AI 에이전트(AI agents)를 구축하는 기업들은 CES에서 공개된 새로운 오픈 NVIDIA Llama Nemotron과 Cosmos Nemotron 모델도 사용할 수 있습니다.

이러한 Cosmos의 최첨단 모델에 대한 개방성은 로보틱스와 AV 기술을 구축하는 물리 AI 개발자의 제약을 해소해 줍니다. 더 나아가 모든 규모의 기업이 물리 AI 애플리케이션을 보다 빠르게 시장에 출시할 수 있도록 돕죠. 개발자는 Cosmos 모델을 직접 사용해 물리 기반 합성 데이터를 생성하거나, NVIDIA NeMo 프레임워크를 활용해 특정 물리 AI 설정에 맞게 자체 비디오로 모델을 미세 조정할 수 있습니다.

로보틱스 회사인 1X, 어질리티 로보틱스(Agility Robotics), 샤오펑(XPENG)와 AV 개발사인 우버(Uber), 와비(Waabi) 등의 물리 AI 선도 기업들은 이미 Cosmos와 협력해 모델 개발을 가속하고 개선하고 있습니다.

개발자는 NVIDIA API 카탈로그에서 최초의 Cosmos 자동 회귀확산 모델을 미리 확인할 수 있습니다. 또한 NVIDIA NGC 카탈로그허깅 페이스(Hugging Face)에서 모델 제품군과 미세 조정 프레임워크를 다운로드할 수 있습니다.

물리 AI를 위한 WFM

Cosmos WFM은 물리 인식 비디오 생성을 위한 개방형 확산과 자동 회귀 트랜스포머 모델 모음입니다. 이 모델은 2천만 시간의 실제 인간 상호 작용, 환경, 산업, 로보틱스, 운전 데이터에서 9,000조 개의 토큰으로 훈련됐죠.

모델은 세 가지 범주로 나뉩니다. 실시간, 저지연 추론과 엣지 배포에 최적화된 모델을 위한 Nano, 고성능 기본 모델을 위한 Super, 그리고 최고의 품질과 충실도를 제공하며 맞춤형 모델을 추출하는 데 가장 적합한 Ultra입니다.

확산 모델은 NVIDIA Omniverse 3D 출력과 함께 사용하면 제어 가능한 고품질 합성 비디오 데이터를 생성해 로봇과 AV 인식 모델의 부트스트랩 훈련을 지원합니다. 자동 회귀 모델은 입력 프레임과 텍스트를 기반으로 비디오 프레임 시퀀스에서 다음에 나올 내용을 예측하는데요. 이를 통해 실시간 다음 토큰 예측이 가능해져 물리 AI 모델이 차선책을 예측할 수 있는 통찰력을 갖게 됩니다.

개발자는 Cosmos의 오픈 모델을 사용해 텍스트-투-월드(text-to-world)와 비디오-투-월드(video-to-world)를 생성할 수 있습니다. 각각 40억에서 140억 개의 파라미터가 포함된 확산과 자동 회귀 모델 버전은 현재 NGC 카탈로그와 허깅 페이스에서 사용할 수 있습니다.

또한, 텍스트 프롬프트를 개선하기 위한 120억 개의 파라미터 업샘플링 모델, 증강 현실에 최적화된 70억 개의 파라미터 비디오 디코더, 책임감 있고 안전한 사용을 보장하는 가드레일 모델도 사용할 수 있습니다.

NVIDIA는 맞춤화의 가능성을 보여주기 위해 AV용 멀티센서 뷰 생성 등 수직 애플리케이션을 위한 미세 조정된 모델 샘플도 공개하고 있습니다.

로보틱스, AV 애플리케이션의 발전

Cosmos WFM은 훈련 데이터세트를 보강하기 위한 합성 데이터 생성, 실제 세계 배포 전 물리 AI 모델을 테스트하고 디버깅하기 위한 시뮬레이션, 가상 환경에서의 강화 학습을 통해 AI 에이전트 학습을 가속화할 수 있습니다.

개발자는 NVIDIA Omniverse에서 구성된 3D 장면으로 Cosmos를 컨디셔닝해 제어 가능한 대량의 물리 기반 합성 데이터를 생성할 수 있습니다.

와비는 자율주행 자동차를 시작으로 물리 세계를 위한 생성형 AI를 개척하고 있습니다. AV 소프트웨어 개발과 시뮬레이션을 위한 비디오 데이터 검색과 큐레이션에 Cosmos를 사용하는 방안을 검토하고 있죠. 이를 통해 와비 월드(Waabi World)를 기반으로 하는 업계 선도적인 안전 접근 방식을 더욱 가속화할 예정입니다. 와비 월드는 차량이 겪을 수 있는 모든 상황을 실제 세계에서 일어난 것과 같은 수준의 사실감으로 구현할 수 있는 생성형 AI 시뮬레이터입니다.

로보틱스에서 WFM은 합성 가상 환경 또는 세계를 생성해 로봇 학습을 위한 보다 저렴하고 효율적이며 제어 가능한 공간을 제공할 수 있습니다. 구현형 AI 스타트업인 힐봇(Hillbot)은 Cosmos로 테라바이트 규모의 고충실도 3D 환경을 생성해 데이터 파이프라인을 강화하고 있는데요. AI 생성 데이터는 로봇 훈련과 운영을 개선해 더 빠르고 효율적인 로봇 숙련도를 구현하고, 산업과 일상 작업의 성능 향상을 지원할 것입니다.

두 산업 모두에서 개발자는 NVIDIA Omniverse와 Cosmos를 멀티버스 시뮬레이션 엔진으로 사용할 수 있습니다. 이를 통해 물리 AI 정책 모델이 특정 작업을 실행하기 위해 취할 수 있는 모든 가능한 미래 경로를 시뮬레이션하고, 모델이 최적의 경로를 선택할 수 있도록 지원합니다.

데이터 큐레이션과 Cosmos 모델의 훈련은 NVIDIA DGX 클라우드를 기반으로 수천 개의 NVIDIA GPU를 활용했습니다. NVIDIA DGX 클라우드는 모든 주요 클라우드에서 가속화된 컴퓨팅 클러스터를 제공하는 고성능 완전 관리형 AI 플랫폼입니다.

Cosmos를 채택하는 개발자는 DGX 클라우드를 사용해 Cosmos 모델을 쉽게 배포할 수 있습니다. 또한, NVIDIA AI Enterprise 소프트웨어 플랫폼을 통해 추가 지원을 받을 수 있습니다.

NVIDIA Cosmos로 맞춤화와 배포하기

Cosmos 플랫폼에는 파운데이션 모델 외에도 데이터 처리와 큐레이션 파이프라인이 포함됩니다. 이는 NVIDIA NeMo Curator에 의해 구동되고 NVIDIA 데이터센터 GPU에 최적화되죠.

로보틱스와 AV 개발자는 수백만 시간 또는 수십억 시간의 실제 녹화 영상을 수집해 페타바이트 규모의 데이터를 생성합니다. Cosmos를 통해 개발자는 NVIDIA Hopper GPU에서는 단 40일, NVIDIA Blackwell GPU에서는 단 14일 만에 2,000만 시간의 데이터를 처리할 수 있죠. 동일한 전력 소비를 가진 CPU 시스템에서 실행되는 최적화되지 않은 파이프라인을 사용하면, 동일한 양의 데이터를 처리하는 데 3년 이상이 소요됩니다.

Cosmos 플랫폼은 강력한 비디오와 이미지 토크나이저 제품군도 제공합니다. 다양한 비디오 압축률로 비디오를 토큰으로 변환해 다양한 트랜스포머 모델을 훈련할 수 있죠.

Cosmos 토크나이저는 최신 방법보다 8배 더 높은 총 압축률과 12배 더 빠른 처리 속도를 제공합니다. 이로써 훈련과 추론 모두에서 우수한 품질을 제공하고 계산 비용을 절감할 수 있습니다. 개발자는 허깅 페이스깃허브(GitHub)를 통해 NVIDIA의 오픈 모델 라이선스에 따라 토크나이저에 액세스할 수 있습니다.

Cosmos를 사용하는 개발자는 높은 처리량의 AI 훈련을 지원하는 GPU 가속 프레임워크인 NeMo 프레임워크에서 제공하는 모델 훈련과 미세 조정 기능을 활용할 수도 있습니다.

안전하고 책임감 있는 AI 모델 개발

현재 NVIDIA 오픈 모델 라이선스 계약(Open Model License Agreement)에 따라 개발자가 사용할 수 있는 Cosmos는 NVIDIA의 신뢰할 수 있는 AI 원칙에 따라 개발됐습니다. 여기에는 차별 금지, 개인 정보 보호, 안전, 보안, 투명성이 포함됩니다.

Cosmos 플랫폼에는 Cosmos Guardrails이 있습니다. 안전을 위해 전처리 과정에서 유해한 텍스트와 이미지 입력을 감소시키고, 후처리 과정에서 생성된 비디오를 선별하는 전용 모델 제품군인데요. 개발자는 맞춤 애플리케이션을 위해 이러한 가드레일을 더욱 강화할 수 있습니다.

NVIDIA API 카탈로그의 Cosmos 모델에는 AI가 생성한 시퀀스를 식별할 수 있는 워터마킹 시스템 또한 내장됩니다.

NVIDIA Cosmos는 NVIDIA Research에서 개발됐습니다. 모델 개발과 벤치마크에 대한 자세한 내용은 연구 논문 “물리 AI를 위한 Cosmos WFM 플랫폼(Cosmos World Foundation Model Platform for Physical AI)”에서 확인할 수 있습니다. 추가 정보를 제공하는 모델 카드는 허깅 페이스에서 확인하세요.

NVIDIA의 연구 담당 부사장인 류밍유(Ming-Yu Liu)가 출연하는 AI Podcast 에피소드를 통해 WFM에 대해 자세히 알아보세요.

NVIDIA Cosmos를 시작하고, NVIDIA CES 소식을 확인하세요. NVIDIA Cosmos 데모와 함께 젠슨 황 CEO의 키노트 만나보세요.

소프트웨어 제품 정보 공지를 참고하세요.