피지컬 AI를 위한 오픈 월드 파운데이션 모델인 NVIDIA Cosmos™ 3이 출시됐습니다. Cosmos 3은 비전 추론, 월드 생성, 액션 예측을 단일 시스템에 결합한 획기적인 트랜스포머 혼합(mixture-of-transformers) 아키텍처를 기반으로 구축됐습니다.
Cosmos 3은 세계 최초의 완전 오픈 옴니모델(omnimodel)로, 텍스트, 이미지, 비디오, 주변음, 액션을 고도의 물리 정확도로 이해하고 생성할 수 있습니다. 따라서 피지컬 AI 훈련과 평가 주기가 수개월에서 수일 단위로 단축되죠.
또한 NVIDIA는 애자일 로봇(Agile Robots), 블랙 포레스트 랩스(Black Forest Labs), 제너럴리스트(Generalist), LTX, 런웨이(Runway), 스킬드 AI(Skild AI) 등 월드 모델 빌더와 AI 개발자 간 글로벌 협력체인 ‘NVIDIA Cosmos 연합(Coalition)’을 출범했습니다. 이를 통해 차세대 월드 모델 개발을 위한 협력이 이어지고 있는데요.
NVIDIA 젠슨 황 CEO는 “멀티모달 추론 언어, 비전과 월드 모델의 획기적인 발전으로 피지컬 AI의 빅뱅이 다가왔습니다. 오픈 프론티어 옴니모델 제품군인 Cosmos 3은 개발자들에게 물리적 세계를 인식하고, 추론하며, 계획하고, 행동하는 로봇과 자율주행 자동차, 비전 AI를 개발할 수 있는 획기적인 도약을 제공합니다”라고 말했습니다.
피지컬 AI를 위한 새로운 아키텍처
Cosmos 3은 피지컬 AI의 핵심 과제를 해결합니다. 바로 제한된 훈련 데이터와 단편화된 시뮬레이션 스택 환경에서도 로봇, 자율주행 자동차, 비전 에이전트가 현실 세계에서도 안정적으로 일반화할 수 있도록 지원하는 것입니다.
모델의 트랜스포머 혼합 아키텍처는 추론 트랜스포머와 전문 생성 트랜스포머를 결합해, Cosmos 3이 비디오와 액션 궤적을 생성하기 전에 객체 간 상호작용, 동작, 시공간적 관계를 이해할 수 있도록 지원합니다.
Cosmos 3은 텍스트, 이미지, 비디오, 주변음, 액션 궤적 등 수십억 개의 샘플을 포함한 대규모 멀티모달 피지컬 AI 데이터셋으로 훈련됐는데요. 이를 통해 개발자가 더 적은 데이터와 낮은 훈련 비용으로 피지컬 AI 시스템을 구축할 수 있도록 강력한 사전 훈련 기반을 제공합니다.
개발자는 다음과 같이 Cosmos 3을 활용할 수 있습니다.
- 다양한 양식을 이해하고 추론하는 비전 언어 모델(vision language model, VLM)
- 실제 환경을 시뮬레이션하고 훈련과 평가를 위해 미래 월드 상태를 예측하는 월드 모델 혹은 비디오 파운데이션 모델
- 로봇이 특정 작업을 수행하도록 훈련하는 데 도움을 주는 월드 액션 모델의 핵심
Cosmos 3 모델은 피지컬 AI 벤치마크에서 최고 수준의 성능을 제공합니다. 오픈 모델 가운데 월드 생성 정확도 부문에서 아티피셜 애널리시스(Artificial Analysis), 피직스-IQ(Physics-IQ), PAI-벤치(PAI-Bench), R-벤치(R-Bench) 전반에서 1위를 기록했으며, 액션 정책 부문에서는 로보랩(RoboLab)과 로보아레나(RoboArena), 비전 이해 부문에서는 밴티지-벤치(VANTAGE-Bench)와 TAR 리더보드에서 각각 1위를 차지했습니다.
Cosmos 3 제품군은 피지컬 AI 개발의 각 단계에 맞춰 다양한 선택지를 제공합니다.
- Cosmos 3 Super: 최고 수준의 물리 정확도와 생성 품질이 요구되는 로보틱스, 자율주행 자동차 모델의 사후 훈련을 위한 모델입니다.
- Cosmos 3 Nano: 1초 미만의 짧은 시간 안에 고품질 비디오, 액션 추론을 지원합니다.
- Cosmos 3 Edge: 엣지 환경에서 실시간 추론을 지원하며, 곧 출시될 예정입니다.
Cosmos 연합으로 오픈 월드 모델 개발 가속화
Cosmos 연합은 월드 모델 빌더, AI 개발자, 피지컬 AI 선도기업 간 글로벌 협력체입니다. 회원사는 산업 전반에 걸쳐 오픈 월드 모델을 발전시키는 동시에, Cosmos 3 기술과 훈련 도구, NVIDIA DGX™ 클라우드 인프라를 대규모 훈련에 활용해 모델·연구·평가 기법 발전에 기여할 수 있습니다.
창립 회원사로는 애자일 로봇, 블랙 포레스트 랩스, 제너럴리스트, LTX, 런웨이, 스킬드 AI 등이 포함돼 있는데요. Cosmos 연합은 개방형 생태계에서의 협업과 기여 확대를 바탕으로, 더욱 빠른 혁신과 폭넓은 상호운용성, 피지컬 AI의 발전 가속화를 목표로 합니다.
Cosmos 기반 개발
Cosmos 플랫폼은 산업 전반의 훈련, 평가 워크플로우를 가속화하기 위해 NVIDIA의 피지컬 AI 스택을 지원합니다. Cosmos 플랫폼은 로보틱스, 물리, 인간 동작, 자율주행, 창고 안전, 공간 추론 등을 위한 신규 데이터셋은 물론, 뉴럴 장면 재구성, 결함 이미지 생성, 비디오 증강을 지원하는 새로운 피지컬 AI 에이전트 스킬도 포함하죠.
현재 다양한 산업 분야의 피지컬 AI 개발사들이 Cosmos 플랫폼을 기반으로 개발을 진행하고 있습니다. 로보틱스 분야에서는 애자일 로봇, 두산로보틱스(Doosan Robotics), LG전자(LG Electronics), 삼성(Samsung), 스킬드 AI가 참여하고 있으며, 자율주행 자동차 분야에서는 리오토(LiAuto), 비전 AI 에이전트 분야에서는 센티픽(Centific), 포그스피어(Fogsphere), 링커 비전(Linker Vision), 마일스톤 시스템즈(Milestone Systems), 유안(Yuan) 등이 산업 AI와 스마트 공간 애플리케이션 개발에 Cosmos 플랫폼을 활용하고 있습니다.
출시 정보
Cosmos 3 Super와 Cosmos 3 Nano는 현재 이용할 수 있으며, 실시간 추론을 지원하는 Cosmos 3 Edge가 곧 출시됩니다. 개발자는 build.nvidia.com에서 Cosmos 3을 활용하고, 허깅페이스(Hugging Face)에서 오픈 모델을 다운로드할 수 있습니다. 또한 깃허브(GitHub)의 허깅페이스 디퓨저(Diffusers)와 리소스를 통해 모델을 커스터마이징하고 합성 데이터를 생성한 뒤, NVIDIA NIM™ 마이크로서비스로 모델을 배포할 수 있습니다.
모델 빌더와 소프트웨어 공급업체는 베이스텐(Baseten), 코어위브(CoreWeave), 마이크로소프트 애저(Microsoft Azure), 네비우스(Nebius), 딥 인프라(Deep Infra), 클래스메소드(Classmethod) 등 추론 서비스·클라우드 인프라 파트너를 통해 Cosmos의 접근·커스터마이징·배포를 가속화할 수 있습니다. 또한 깃허브(GitHub)의 피지컬 AI 에이전트 기술을 활용해 주요 추론·합성 데이터 생성 워크로드를 지원할 수 있습니다.
NVIDIA 젠슨 황 CEO의 키노트를 시청하고, NVIDIA GTC Taipei와 피지컬 AI 관련 세션에 대해 자세히 알아보세요.
