‘NVIDIA Cosmos WFM 플랫폼’, 물리 AI의 세계로 안내하다

by NVIDIA Korea

NVIDIA Cosmos™를 발표합니다. NVIDIA Cosmos는 최첨단 생성형 WFM(World Foundation Model), 고급 토크나이저, 가드레일, 가속화된 비디오 처리 파이프라인으로 구성된 플랫폼으로, 자율주행 차량(AV), 로봇과 같은 물리 AI 시스템의 개발을 촉진합니다.

물리 AI 모델은 개발 비용이 많이 들고 방대한 양의 실제 데이터와 테스트가 필요한데요. Cosmos WFM은 개발자가 기존 모델을 훈련하고 평가할 수 있는 방대한 양의 사실적인 물리 기반 합성 데이터를 손쉽게 생성할 수 있는 방법을 제공합니다. 또한, Cosmos WFM을 미세 조정해 맞춤형 모델을 구축할 수도 있죠.

Cosmos 모델은 로보틱스와 AV 커뮤니티의 작업을 가속화하기 위해 오픈 모델 라이선스로 제공될 예정입니다. 개발자는 NVIDIA API 카탈로그에서 첫 번째 모델을 미리 보거나, NVIDIA NGC™ 카탈로그 또는 허깅페이스(Hugging Face)에서 모델 제품군과 미세 조정 프레임워크를 다운로드할 수 있습니다.

Cosmos를 최초로 도입한 기업들 중 하나로 차량 공유 업체인 우버(Uber)와 선도적인 로보틱스, 자동차 기업들이 있습니다. 1X, 애자일 로봇(Agile Robots), 어질리티(Agility), 피규어 AI(Figure AI), 포어텔릭스(Foretellix), 푸리에(Fourier), 갤봇(Galbot), 힐봇(Hilbot), 인트봇(IntBot), 뉴라 로보틱스(Neura Robotics), 스킬드 AI(Skild AI), 버추얼 인시전(Virtual Incision), 와비(Waabi), 샤오펑(XPENG) 등

NVIDIA 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 “로보틱스를 위한 챗GPT(ChatGPT)의 순간이 다가오고 있습니다. 거대 언어 모델(LLM)과 마찬가지로, WFM은 로봇과 AV 개발을 발전시키는 데 필수적입니다. 그러나 모든 개발자가 자체적으로 훈련할 수 있는 전문 지식과 리소스를 갖추고 있는 것은 아니죠. NVIDIA는 물리 AI를 대중화하고 모든 개발자가 일반 로보틱스를 활용할 수 있도록 Cosmos를 만들었습니다”고 말했습니다.

차세대 AI 물결을 가속화하는 오픈 WFM

NVIDIA Cosmos 오픈 모델 제품군은 개발자가 AV 운행 비디오 녹화나 로봇이 창고를 탐색하는 등 데이터 세트를 사용해 WFM을 목표 애플리케이션의 필요에 맞게 맞춤화할 수 있습니다.

Cosmos WFM은 물리 AI 연구와 개발을 위해 특별히 설계됐습니다. 또한, 텍스트, 이미지, 동영상과 같은 입력, 로봇 센서 또는 모션 데이터의 조합으로 물리 기반 비디오를 생성할 수 있습니다. 이 모델은 물리 기반 상호 작용, 객체 영속성, 창고나 공장과 같은 시뮬레이션 산업 환경과 다양한 도로 상황을 포함한 주행 환경의 고품질 생성을 위해 구축됐습니다.

CES 개막 키노트에서 젠슨 황은 물리 AI 개발자가 Cosmos 모델을 활용할 수 있는 방법을 소개했습니다.

  • 비디오 검색과 이해: 개발자가 비디오 데이터에서 눈길 상황이나 창고 혼잡과 같은 특정 훈련 시나리오를 쉽게 찾을 수 있도록 지원합니다.
  • 물리 기반 사실적 합성 데이터 생성: Cosmos 모델을 사용해 NVIDIA Omniverse™ 플랫폼에서 개발된 제어된 3D 시나리오에서 실제와 같은 비디오를 생성합니다.
  • 물리 AI 모델 개발과 평가: 파운데이션 모델에 맞춤형 모델을 구축하거나, Cosmos를 사용해 강화 학습으로 모델을 개선하거나, 특정 시뮬레이션 시나리오에서 모델이 어떻게 작동하는지 테스트합니다.
  • 예측: 물리 AI 모델의 잠재적 행동의 결과를 예측해 최적의 행동을 선택할 수 있도록 지원합니다.
  • 예측과 다중우주 시뮬레이션: Cosmos와 Omniverse를 사용해 AI 모델이 취할 수 있는 모든 가능한 미래 결과를 생성해 가장 정확한 최선의 경로를 선택할 수 있도록 합니다.

고급 월드 모델 개발 도구

물리 AI 모델을 구축하려면, 페타바이트의 비디오 데이터와 해당 데이터를 처리, 큐레이션, 라벨링하기 위한 수만 시간의 컴퓨팅 시간이 필요합니다. 데이터 큐레이션, 훈련과 모델 맞춤화에 드는 막대한 비용을 절감할 수 있도록 Cosmos는 다음과 같은 기능을 제공합니다.

  • NVIDIA AI와 CUDA® 가속 데이터 처리 파이프라인: NVIDIA NeMo™ Curator를 기반으로 구동되며, 개발자가 NVIDIA Blackwell 플랫폼을 사용해 2천만 시간의 비디오를 14일 만에 처리, 큐레이션, 라벨링할 수 있습니다. 이는 CPU 전용 파이프라인을 사용할 경우 3년 이상이 걸리는 작업입니다.
  • NVIDIA Cosmos 토크나이저: 이미지와 비디오를 토큰으로 변환하는 최첨단 비주얼 토크나이저입니다. 오늘날의 주요 토크나이저보다 8배 더 많은 총 압축과 12배 더 빠른 처리 속도를 제공합니다.
  • NVIDIA NeMo 프레임워크: 매우 효율적인 모델 훈련, 맞춤화, 최적화를 위한 프레임워크입니다.

세계 최대 규모의 물리 AI 산업에서 채택하는 Cosmos

물리 AI 산업의 선구자들은 이미 Cosmos 기술을 채택하고 있습니다.

AI와 휴머노이드 로봇 회사인 1X는 Cosmos 토크나이저를 사용해 1X 월드 모델 챌린지(1X World Model Challenge) 데이터 세트를 출시했습니다. 샤오펑은 Cosmos를 사용해 휴머노이드 로봇의 개발을 가속화할 예정입니다. 또한, 힐봇과 스킬드 AI는 범용 로봇의 개발을 가속화하기 위해 Cosmos를 사용하고 있습니다.

어질리티의 최고 기술 책임자인 프라스 벨라가푸디(Pras Velagapudi)는 “데이터 부족과 가변성은 로봇 환경에서 성공적인 학습을 위한 핵심 과제입니다. Cosmos의 텍스트, 이미지, 비디오 기반 세계 생성 기능을 통해 다양한 작업에서 사실적인 시나리오를 생성하고 증강할 수 있습니다. 따라서 많은 비용이 드는 실제 데이터 수집 없이도 모델을 훈련하는 데 이를 사용할 수 있죠”라고 말했습니다.

교통 분야의 선도 기업들도 Cosmos를 사용해 AV용 물리 AI를 구축하고 있습니다.

  • 와비: AV를 시작으로 물리 세계를 위한 생성형 AI를 개척하고 있는 와비는 AV 소프트웨어 개발과 시뮬레이션을 위한 데이터 큐레이션의 맥락에서 Cosmos를 사용할 예정입니다.
  • 웨이브(Wayve): 자율주행을 위한 AI 파운데이션 모델을 개발 중인 웨이브는 안전성과 검증에 사용되는 엣지, 코너 케이스 주행 시나리오를 검색하는 도구로 Cosmos를 평가하고 있습니다.
  • 포어텔릭스: AV 툴체인 제공업체 포어텔릭스는 Cosmos를 NVIDIA Omniverse Sensor RTX API와 함께 사용해 충실도 높은 테스트 시나리오, 훈련 데이터를 대규모로 평가하고 생성할 예정입니다.
  • 우버: 글로벌 차량 공유 업체인 우버는 자율주행 모빌리티를 가속화하기 위해 NVIDIA와 협력하고 있습니다. 우버의 풍부한 주행 데이터 세트와 Cosmos 플랫폼, NVIDIA DGX 클라우드를 결합하면, AV 파트너들은 더욱 강력한 AI 모델을 더 효율적으로 구축할 수 있다.

우버의 CEO 다라 코스로샤히(Dara Khosrowshahi)는 “생성형 AI는 모빌리티의 미래를 주도할 것이며, 이를 위해서는 풍부한 데이터와 강력한 컴퓨팅이 모두 필요합니다. NVIDIA와의 협력을 통해 안전하고 확장 가능한 자율주행 솔루션을 업계에 제공할 수 있는 시기를 앞당길 수 있을 것이라 확신합니다”고 말했습니다.

개방적이고 안전하며 책임감 있는 AI 개발

NVIDIA Cosmos는 개인 정보 보호, 안전, 보안, 투명성, 원치 않는 편향 감소를 우선시하는 NVIDIA의 신뢰할 수 있는 AI 원칙에 따라 개발됐습니다.

신뢰할 수 있는 AI는 개발자 커뮤니티 내에서 혁신을 촉진하고 사용자의 신뢰를 유지하는 데 필수적이죠. NVIDIA는 백악관의 자발적인 AI 공약과 기타 글로벌 AI 안전 이니셔티브에 따라 안전하고 신뢰할 수 있는 AI를 제공하기 위해 노력하고 있습니다.

오픈 Cosmos 플랫폼에는 유해한 텍스트와 이미지를 감소시키도록 설계된 가드레일이 포함되며, 텍스트 프롬프트의 정확성을 높이기 위한 도구가 있습니다. NVIDIA API 카탈로그에서 Cosmos 자동 회귀확산 모델로 생성된 비디오에는 AI가 생성한 콘텐츠를 식별하는 보이지 않는 워터마크가 포함돼, 잘못된 정보와 잘못된 저작자 표시의 가능성을 줄여줍니다.

NVIDIA는 개발자가 신뢰할 수 있는 AI 사례를 채택하고 애플리케이션에 대한 가드레일과 워터마킹 솔루션을 더욱 강화할 것을 권장합니다.

이용하기

Cosmos WFM은 현재 허깅페이스와 NVIDIA NGC 카탈로그에서 NVIDIA의 오픈 모델 라이선스에 따라 사용할 수 있습니다. Cosmos 모델은 곧 완전히 최적화된 NVIDIA NIM 마이크로서비스로 제공될 예정입니다.

개발자는 가속화된 비디오 처리를 위해 NVIDIA NeMo Curator에 액세스하고, NVIDIA NeMo로 자체 월드 모델을 맞춤화할 수 있습니다. NVIDIA DGX™ 클라우드는 이러한 모델을 빠르고 쉽게 배포할 수 있는 방법을 제공하며, NVIDIA AI Enterprise 소프트웨어 플랫폼을 통해 엔터프라이즈 지원을 받을 수 있습니다.

또한, NVIDIA는 개발자가 의료, 금융 서비스, 제조 등의 엔터프라이즈 AI 사용 사례에 사용할 수 있는 새로운 NVIDIA Llama Nemotron LLM과 NVIDIA Cosmos Nemotron 비전 언어 모델도 발표했습니다.