새로운 NVIDIA Cosmos™ 월드 파운데이션 모델(world foundation model, WFM)을 공개합니다. 물리 AI 개발을 위해 개방적이고 완전히 맞춤화 가능한 추론 모델을 도입해 개발자에게 월드 생성에 대한 전례 없는 정도의 제어를 제공합니다.
또한, NVIDIA Omniverse™와 Cosmos 플랫폼을 기반으로 하는 2가지 새로운 블루프린트도 선보입니다. 이들은 사후 훈련 로봇과 자율주행 자동차 제작을 위해 제어 가능한 대규모 합성 데이터 생성 엔진을 개발자에게 제공합니다.
1X, 어질리티 로보틱스(Agility Robotics), 피규어 AI(Figure AI), 포어텔릭스(Foretellix), 스킬드 AI(Skild AI), 우버(Uber) 등 선도 기업들은 Cosmos를 최초로 도입해 물리 AI를 위한 풍부한 훈련 데이터를 대규모로 신속하게 생성하고 있습니다.
NVIDIA 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 “거대 언어 모델(LLM)이 생성형 AI와 에이전틱 AI에 혁명을 일으켰던 것처럼, Cosmos WFM은 물리 AI를 획기적으로 발전시킬 것입니다. Cosmos는 물리 AI를 위한 개방적이고 완전히 맞춤화 가능한 추론 모델을 도입해, 로보틱스와 물리적 산업에서 단계적 기능 발전의 기회를 열어줍니다”고 말했습니다.
합성 데이터 생성을 위한 Cosmos Transfer
Cosmos Transfer WFM은 세분화 맵(segmentation map), 뎁스 맵(depth map), 라이더 스캔(lidar scan), 포즈 추정 맵(pose estimation map), 궤적 맵(trajectory map)과 같은 구조화된 비디오 입력을 활용해 제어 가능한 사실적인 비디오 출력을 생성합니다.
Cosmos Transfer는 지각 AI 훈련을 간소화하는데요. 이를 통해 Omniverse에서 생성된 3D 시뮬레이션 또는 실측 정보를 사실적인 비디오로 변환해 제어 가능한 대규모 합성 데이터를 생성합니다.
어질리티 로보틱스는 Cosmos Transfer와 Omniverse를 조기에 도입해 로봇 모델 훈련을 위한 대규모 합성 데이터를 생성할 예정입니다.
어질리티 로보틱스 최고 기술 책임자인 프라스 벨라가푸디(Pras Velagapudi)는 “Cosmos는 현실 세계에서 수집할 수 있는 데이터의 한계를 넘어, 보다 사실적인 훈련 데이터를 대규모로 활용할 수 있는 기회를 제공합니다. 이미 보유중인 물리 기반 시뮬레이션 데이터를 최대한 활용하는 동시에, NVIDIA의 플랫폼으로 어떤 새로운 성능을 구현할 수 있을지 기대됩니다”고 말했습니다.
자율주행 자동차 시뮬레이션을 위한 NVIDIA Omniverse Blueprint는 Cosmos Transfer를 통해 물리 기반 센서 데이터의 변형을 증폭시킵니다. 포어텔릭스는 이를 활용해 다양한 주행 데이터 세트에 날씨, 조명 등 조건을 변경해 행동 시나리오를 발전시킬 수 있죠. 패러럴 도메인(Parallel Domain) 역시 이 Blueprint를 사용해 센서 시뮬레이션에 유사한 변형을 적용하고 있습니다.
합성 조작 모션 생성을 위한 NVIDIA GR00T Blueprint는 Omniverse와 Cosmos Transfer를 결합해 다양한 데이터 세트를 대규모로 생성합니다. 또한, 오픈USD(Universal Scene Description, OpenUSD) 기반 시뮬레이션의 이점을 활용해 여러 날이 걸리는 데이터 수집과 증강 시간을 단 몇 시간으로 단축합니다.
지능형 월드 생성을 위한 Cosmos Predict
지난 1월 CES에서 발표된 Cosmos Predict WFM은 텍스트, 이미지, 동영상과 같은 멀티모달 입력으로부터 가상 월드 상태를 생성합니다. 새로운 Cosmos Predict 모델들은 멀티 프레임 생성(Multi Frame Generation, MFG)을 지원해, 시작과 종료 입력 이미지가 주어지면 중간 동작이나 모션 궤적을 예측할 수 있죠. 사후 훈련을 위해 특별히 제작된 이 모델들은 오픈 소스로 사용 가능한 NVIDIA의 물리 AI 데이터 세트를 통해 맞춤화할 수 있습니다.
개발자는 NVIDIA Grace Blackwell NVL72 시스템의 추론 컴퓨팅 성능과 대규모 NVIDIA NVLink™ 도메인을 통해 월드 생성을 실시간으로 구현할 수 있습니다.
1X는 Cosmos Predict와 Cosmos Transfer를 사용해 새로운 휴머노이드 로봇 NEO 감마(NEO Gamma)를 훈련하고 있습니다. 로봇 두뇌 개발업체인 스킬드 AI(Skild AI)는 로봇의 합성 데이터 세트를 보강하기 위해 Cosmos Transfer를 활용하고 있죠. 또한, 넥사(Nexar)와 옥사(Oxa)는 자율주행 시스템을 발전시키기 위해 Cosmos Predict를 사용하고 있습니다
물리 AI를 위한 멀티모달 추론
Cosmos Reason은 시공간 인식 기능을 갖춘, 개방적이며 완전히 맞춤화 가능한 WFM입니다. 연쇄 추론을 사용해 영상 데이터를 이해하고, 사람이 횡단보도에 들어서거나 선반에서 상자가 떨어지는 것과 같은 상호작용의 결과를 자연어로 예측합니다.
개발자는 Cosmos Reason을 사용해 물리 AI 데이터 주석과 큐레이션을 개선하고, 기존 WFM을 발전시키거나 새로운 비전 언어 행동 모델을 생성할 수 있습니다. 또한, Cosmos Reason을 사후 훈련시켜 물리 AI가 특정 작업을 완료하기 위해 무엇을 해야 하는지 지시하는 고급 플래너를 만들 수도 있습니다.
물리 AI를 위한 데이터 큐레이션과 사후 훈련 가속화
개발자는 다운스트림 작업에 맞춰, 네이티브 파이토치(PyTorch) 스크립트 또는 NVIDIA DGX™ Cloud의 NVIDIA NeMo™ 프레임워크를 사용해 Cosmos WFM을 사후 훈련시킬 수 있습니다.
또한, Cosmos 개발자는 가속화된 데이터 처리와 큐레이션을 위해 DGX Cloud의 NVIDIA NeMo Curator를 사용할 수 있습니다. 링커 비전(Linker Vision)과 마일스톤 시스템즈(Milestone Systems)는 대규모 비전 언어 모델을 훈련하기 위한 대량 비디오 데이터를 큐레이션하는 데 NVIDIA NeMo Curator를 활용하고 있죠. 이 거대 비전 언어 모델은 비디오 검색과 요약을 위한 NVIDIA AI Blueprint를 기반으로 구축된 시각 에이전트를 위한 것입니다. 그리고 버추얼 인시전(Virtual Incision)은 NVIDIA NeMo Curator를 향후 수술용 로봇에 배포하기 위해 실험하고 있습니다. 우버(Uber)와 와비(Waabi)는 자율주행 자동차 개발 발전에 NVIDIA NeMo Curator를 활용하고 있습니다.
책임감 있는 AI와 콘텐츠 투명성 추진
NVIDIA는 신뢰할 수 있는 AI 원칙에 따라 모든 Cosmos WFM에 개방형 가드레일을 적용하고 있습니다. 또한, 구글 딥마인드(Google DeepMind)와의 협업으로 신스ID(SynthID) 기술을 통합해, build.nvidia.com에서 제공되는 Cosmos WFM NVIDIA NIM™ 마이크로서비스에서 AI로 생성된 결과물에 워터마크를 추가하고 식별하는 데 도움을 주죠.
출시 정보
Cosmos WFM은 NVIDIA API 카탈로그에서 미리보기로 제공되며, 현재 구글 클라우드의 버텍스 AI(Vertex AI) 모델 가든(Model Garden)에도 수록돼 있습니다. Cosmos Predict와 Cosmos Transfer는 허깅 페이스(Hugging Face)와 깃허브(GitHub)에서 누구나 사용할 수 있으며, Cosmos Reason은 얼리 액세스로 제공됩니다.
NVIDIA GTC 키노트를 시청하고, 더 자세한 내용을 확인하세요. Cosmos 세션, 교육을 통해서도 더 자세히 알아볼 수 있습니다.ㄴ