NVIDIA GTC에서는 차세대 물리 AI 개발을 돕는 대규모 오픈 소스 데이터세트가 공개됐습니다. 자율 로봇과 차량이 물리적 세계와 상호 작용하는 방식을 가르칠 때는 방대한 양의 고품질 데이터가 필요합니다. 이 데이터세트는 연구자와 개발자가 물리 AI 프로젝트를 한층 더 발전시킬 수 있도록 지원할 예정입니다.
이 상용 등급의 사전 검증된 데이터세트는 연구원과 개발자가 처음부터 시작하기엔 매우 어려울 수 있는 물리 AI 프로젝트를 촉진하는 데 도움이 됩니다. 개발자들은 모델 사전 훈련, 테스트, 검증에 이 데이터세트를 직접 활용할 수 있습니다. 혹은 사후 훈련 중에 월드 파운데이션 모델(World Foundation Model, WFM)을 미세 조정에 사용해 배포 과정을 가속할 수 있죠.
현재 초기 데이터세트는 허깅 페이스(Hugging Face)에서 제공됩니다. 개발자에게는 로보틱스 교육을 위한 32만 개 이상의 경로를 나타내는 15TB 규모의 데이터와 SimReady 콜렉션을 포함한 최대 1,000개의 오픈USD(Universal Scene Description, OpenUSD) 에셋을 제공합니다. 또한, 엔드 투 엔드 자율주행차량(AV) 개발을 지원하는 전용 데이터도 곧 제공될 예정입니다. 여기에는 미국 전역 1,000개 이상의 도시와 유럽 24개국에 걸쳐 다양한 교통 시나리오를 담은 20초 분량의 클립 영상이 포함됩니다.

이 데이터세트는 시간이 지남에 따라 지속적으로 확장돼 물리 AI 개발을 위한 세계 최대의 통합 개방형 데이터세트가 될 것으로 기대됩니다. 이 데이터는 다양한 로봇을 구동하는 AI 모델 개발에 적용될 수 있죠. 여기에는 창고 환경에서 안전하게 이동하는 로봇, 수술 중 외과 의사를 보조하는 휴머노이드 로봇, 건설 구역 같은 복잡한 교통 상황에서 주행할 수 있는 자율주행차량 등이 있습니다.
NVIDIA 물리 AI 데이터세트에는 NVIDIA가 자사 플랫폼과 프레임워크 등에서 물리 AI를 교육, 테스트, 검증하는 데 사용하는 실제 데이터와 합성 데이터의 하위 세트를 포함할 예정입니다. NVIDIA Cosmos 월드 모델 개발 플랫폼, NVIDIA DRIVE AV 소프트웨어 스택, NVIDIA Isaac AI 로봇 개발 플랫폼, 스마트 도시를 위한 NVIDIA Metropolis 애플리케이션 프레임워크 등이 있습니다.
캘리포니아대학교 버클리(University of California, Berkeley, UCB)의 버클리 딥드라이브 센터(Berkeley DeepDrive Center), 카네기멜론대학교(Carnegie Mellon University, CMU)의 세이프AI 연구소(Safe AI Lab), 캘리포니아대학교 샌디에이고(University of California, San Diego, UCSD)의 컨텍스츄얼 로보틱스 연구소(Contextual Robotics Institue)등이 이를 조기 채택하고 있습니다.
USDC의 다중 로보틱스와 자율주행차량 연구소 책임자인 헨릭 크리스튼슨(Henrik Christensen)은 “이 데이터세트를 통해 자율주행차량이 보행자와 같은 도로 위 취약한 사용자의 움직임을 더 잘 추적해 안전성을 개선하는 데 도움이 되는 예측 AI 모델을 훈련하는 등의 작업들을 할 수 있습니다. 기존의 오픈 소스 리소스보다 다양한 환경과 긴 클립 영상을 제공하는 데이터세트는 로보틱스와 자율주행차량 연구를 발전시키는 데 큰 도움이 될 것”이라고 말했습니다.
물리 AI 데이터에 대한 요구 사항 해결
NVIDIA 물리 AI 데이터세트는 개발자가 사전 훈련 과정에서 더 많은 데이터로 더 강력한 모델을 구축하는 데 도움이 됩니다. 또한, 사후 훈련 과정에서는 AI 모델이 특정 사용 사례에 대한 성능을 개선하기 위해 추가 데이터로 AI 모델을 훈련해 AI 성능을 향상할 수 있죠.
다양한 시나리오를 다루고 현실 세계의 물리적 특성과 변화를 정확하게 나타내는 데이터세트를 수집, 선별, 주석 처리하는 작업은 시간이 많이 소요되며 대부분의 개발자에게 병목 현상을 야기합니다. 학계 연구원과 중소기업의 경우, 자율주행차량 AI를 위한 데이터를 수집하기 위해 몇 달 동안 차량을 운전하는 것은 비현실적이며 비용도 많이 드는데요. 수집된 영상 중 대부분은 특별한 내용이 아니어서 일반적으로 데이터의 10%만이 훈련에 사용됩니다.
그러나 안전하고 정확한 상용 등급 모델을 구축하는 데 이 정도 규모의 데이터 수집은 필수입니다. NVIDIA Isaac GR00T 로봇 모델은 사후 훈련을 위해 수천 시간 분량의 비디오 클립을 수집합니다. 예를 들어, GR00T N1 모델은 실제와 합성 데이터로 구성된 방대한 휴머노이드 데이터세트에서 훈련됐습니다. 그리고 자율주행차량을 위한 NVIDIA DRIVE AV 엔드 투 엔드 AI 모델을 개발하려면 수만 시간 분량의 주행 데이터가 필요하죠.
전례 없는 다양성, 규모, 지역을 아우르는 수천 시간 분량의 멀티카메라 영상으로 구성된 이 개방형 데이터세트는 이상값을 식별하고 모델의 일반화 성능을 평가하는 새로운 작업을 가능하게 합니다. 따라서 특히 안전 연구 분야에 도움이 될 것이며, 이러한 노력은 NVIDIA Halos의 풀스택 AV 안전 시스템에 기여합니다.
개발자는 NVIDIA 물리 AI 데이터세트를 활용해 데이터 요구 사항을 충족하는 데 도움을 받습니다. 뿐만 아니라, 모델 훈련과 맞춤화를 위해 방대한 데이터세트를 효율적으로 처리하는 NVIDIA NeMo Curator와 같은 툴을 통해 AI 개발을 더욱 가속할 수 있죠. NeMo Curator를 사용하면 최적화되지 않은 CPU 파이프라인에서는 3.4년 걸리던 2,000만 시간 분량의 영상을 NVIDIA Blackwell GPU에서 단 2주 만에 처리할 수 있습니다.
또한, 로봇 개발자는 합성 조작 모션 생성을 위한 새로운 NVIDIA Isaac GR00T Blueprint를 활용할 수도 있습니다. 이는 NVIDIA Omniverse와 NVIDIA Cosmos를 기반으로 구축된 참조 워크플로우로, 적은 인간 시연으로도 로봇 조작을 위한 방대한 양의 합성 모션 경로를 생성합니다.
AI 개발을 위해 데이터세트를 도입하는 대학 연구실
UCSD의 로봇 연구소에는 의료 애플리케이션, 휴머노이드, 가정 내 보조 기술 분야에 중점을 둔 팀이 있습니다. 크리스튼슨 책임자는 물리 AI 데이터세트의 로봇 데이터가 가정, 호텔 방, 병원 같은 공간의 맥락을 이해하는 시맨틱(semantic) AI 모델 개발에 도움이 될 것으로 예상합니다.
그는 “우리의 목표 중 하나는 로봇이 식료품을 정리하라고 요청을 받으면, 냉장고에 어떤 물품을 넣어야 하는지, 팬트리에는 어떤 물품을 넣어야 하는지 정확히 이해할 수 있는 수준을 달성하는 것”이라고 말했습니다.
자율주행차량 분야에서 크리스튼슨의 연구소는 이 데이터세트를 적용해 AI 모델을 훈련시켜 다양한 도로 사용자의 의도를 이해하고 취할 수 있는 최선의 조치를 예측할 수 있습니다. 또한, 그의 연구 팀은 이 데이터세트를 사용해 엣지 케이스와 어려운 기상 조건을 시뮬레이션하는 디지털 트윈 개발을 지원할 수도 있는데요. 이러한 시뮬레이션은 실제 환경에서는 드문 상황에서 자율주행 모델을 훈련하고 테스트하는 데 사용할 수 있습니다.
자율주행차량을 위한 AI 분야의 선도적인 연구 센터인 버클리 딥드라이브에서 이 데이터세트는 자율주행차량을 위한 정책 모델과 WFM 개발을 지원할 수 있습니다.
버클리 딥드라이브의 공동 책임자인 웨이 잔(Wei Zhan)은 “파운데이션 모델을 훈련하는 데 데이터 다양성은 매우 중요합니다 이 데이터세트는 자율주행차량과 로보틱스를 위한 AI 모델을 개발하는 공공과 민간 부문 팀을 위한 최첨단 연구를 지원할 수 있습니다”고 말했습니다.
CMU의 세이프 AI 연구소 연구진은 이 데이터세트를 활용해 자율주행차량의 안전성을 평가하고 인증하는 작업을 진행할 계획입니다. 팀은 이 데이터세트로 훈련된 물리 AI 파운데이션 모델이 드문 상황의 시뮬레이션 환경에서 어떻게 성능을 발휘하는지 테스트한 다음, 기존 데이터세트에서 훈련된 AV 모델과 성능을 비교할 계획이죠.
CMU의 부교수이자 세이프 AI 연구소 책임자인 딩 자오(Ding Zhao)는 “이 데이터세트는 다양한 도로와 지리, 인프라, 기상 환경을 다룹니다. 그 다양성은 엣지 케이스와 롱테일 문제를 이해하는 실제 세계에서 인과적 추론 기능을 갖춘 모델을 훈련하는 데 매우 유용할 수 있습니다”고 설명했습니다.
허깅페이스에서 NVIDIA 물리 AI 데이터세트에 액세스할 수 있습니다. 또한, NVIDIA는 오픈USD 배우기(Learn OpenUSD) 또는 로보틱스 기초(Robotics Fundamentals) 등의 과정을 통해 관련 기초 지식을 제공하고 있습니다. GTC 키노트를 시청하고, 물리 AI의 최신 발전에 대해 더 자세히 알아보세요.
소프트웨어 제품 정보를 참조하세요.