로봇 개발자들은 얼마 전 독일 뮌헨에서 열린 로봇 학습 컨퍼런스(CoRL)에서 NVIDIA가 공개한 새로운 AI 및 시뮬레이션 툴과 워크플로우를 사용하여 휴머노이드를 비롯한 AI 기반 로봇 작업을 크게 가속화할 수 있었습니다.
이번 라인업에는 NVIDIA Issac Lab 로봇 학습 프레임워크의 일반 공개, 휴머노이드 로봇 개발을 가속화하기 위한 이니셔티브인 Project GR00T를 위한 6가지 새로운 휴머노이드 로봇 학습 워크플로우, 비디오 데이터 큐레이션 및 처리를 위한 새로운 월드 모델 개발 도구인 NVIDIA Cosmos tokenizer과 NVIDIA NeMo Curator 등 비디오 처리용 도구가 포함되었습니다.
오픈 소스 Cosmos tokenizer는 이미지와 비디오를 매우 높은 압축률의 고품질 토큰으로 분해하여 로봇 개발자에게 뛰어난 시각적 토큰화를 제공합니다. 현재 토큰라이저보다 최대 12배 빠르게 실행되며, NeMo 큐레이터는 최적화되지 않은 파이프라인보다 최대 7배 빠른 비디오 처리 큐레이션을 제공합니다.
또한, NVIDIA는 CoRL에 맞춰 로봇 학습과 관련된 23개의 논문과 9개의 워크샵을 발표하고 개발자를 위한 교육 및 워크플로우 가이드를 공개했습니다. 또한 Hugging Face와 NVIDIA는 개발자 커뮤니티를 위해 LeRobot, NVIDIA Isaac Lab, NVIDIA Jetson과 함께 오픈 소스 로봇 연구를 가속화하기 위해 협력하고 있다고 발표하기도 했습니다.
Isaac Lab과 함께 로봇 개발 가속화
NVIDIA Isaac Lab은 산업 디지털화 및 물리 AI 시뮬레이션을 위한 OpenUSD 애플리케이션 개발을 위한 플랫폼인 NVIDIA Omniverse를 기반으로 구축된 오픈 소스 로봇 학습 프레임워크입니다.
개발자는 Isaac Lab을 사용하여 로봇 정책을 대규모로 훈련할 수 있습니다. 이 오픈 소스 통합 로봇 학습 프레임워크는 휴머노이드부터 4족 보행 로봇, 협동 로봇에 이르기까지 모든 구현에 적용되어 점점 더 복잡해지는 움직임과 상호 작용을 처리할 수 있습니다.
전 세계의 선도적인 상업용 로봇 제조업체, 로봇 애플리케이션 개발자 및 로봇 연구 기관인 1X, Agility Robotics, The AI Institute, Berkeley Humanoid, Boston Dynamics, Field AI, Fourier, Galbot, Mentee Robotics, Skild AI, Swiss-Mile, Unitree Robotics 그리고 XPENG Robotics 등이 Isaac Lab을 채택하고 있습니다.
휴머노이드 개발자에게 가장 까다로운 휴머노이드 로봇 기능을 구현할 수 있는 Blueprints을 제공하는6가지 새로운 Project GR00T 워크플로우를 소개합니다. 여기에는 다음과 같은 도구들이 포함됩니다:
- GR00T-Gen: 생성형 AI 기반, OpenUSD 기반 3D 환경 구축
- GR00T-Mimic: 로봇 모션 및 궤도 추적
- GR00T-Dexterity: 로봇의 민첩한 조작
- GR00T-Control: 전신 제어
- GR00T-Mobility: 로봇 이동 및 네비게이션
- GR00T-Perception: 멀티모달 센싱
“휴머노이드 로봇은 구현형 AI의 차세대 물결입니다.”라고 NVIDIA의 임베디드 AI 수석 연구 매니저인 Jim Fan은 말합니다. “NVIDIA의 연구 및 엔지니어링 팀은 글로벌 휴머노이드 로봇 개발자들의 발전과 발전을 돕기 위해 회사와 개발자 생태계 전반에 걸쳐 Project GR00T를 구축하기 위해 협력하고 있습니다.”라고 말했습니다.
월드 모델 빌더를 위한 새로운 개발 도구
오늘날의 로봇 개발자들은 사물과 환경이 로봇의 동작에 어떻게 반응할지 예측할 수 있는 AI 세계 모델인 월드 모델(World Model)을 구축하고 있습니다. 이러한 월드 모델 구축은 엄청난 컴퓨팅 및 데이터 집약적인 작업으로, 모델에는 수천 시간의 실제 세계, 선별된 이미지 또는 비디오 데이터가 필요합니다.
NVIDIA Cosmos tokenizers는 효율적인 고품질 인코딩 및 디코딩을 제공하여 이러한 월드 모델 개발을 간소화시켜 줍니다. 또한 왜곡과 시간적 불안정성을 최소화하여 고품질 비디오 및 이미지 재구성을 가능하게 하는 새로운 표준을 제공합니다.
고품질 압축과 최대 12배 빠른 시각적 재구성을 제공하는 Cosmos tokenizers는 광범위한 시각 영역에서 확장 가능하고 강력하며 효율적인 생성형 애플리케이션 개발의 길을 열어줍니다.
한 예로, 휴머노이드 로봇 회사인 1X는 Cosmos tokenizers를 사용하도록 1X 월드 모델 챌린지 데이터세트를 업데이트한 바 있습니다.
“NVIDIA Cosmos tokenizers는 시각적 충실도를 유지하면서 데이터의 시간적, 공간적 압축을 매우 높게 달성해주었습니다.”라고 1X Technologies의 AI 담당 부사장인 Eric Jang은 그 소감을 밝혔습니다. “이를 통해 훨씬 더 컴퓨팅 효율적인 방식으로 긴 지평선의 비디오를 생성하여 월드 모델을 훈련할 수 있습니다.”
XPENG Robotics와 Hillbot과 같은 다른 휴머노이드 및 범용 로봇 개발사들도 고해상도 이미지와 비디오를 관리하기 위해 NVIDIA Cosmos tokenizers로 개발 중입니다.
이제 NeMo Curator에는 비디오 처리 파이프라인이 포함됩니다. 이를 통해 로봇 개발자는 대규모 텍스트, 이미지 및 비디오 데이터를 처리하여 월드 모델의 정확도를 향상시킬 수 있습니다.
비디오 데이터 큐레이팅은 그 크기가 방대하기 때문에 확장 가능한 파이프라인과 GPU 간 로드 밸런싱을 위한 효율적인 오케스트레이션이 필요한데요. 이 또한 필터링, 캡션, 임베딩을 위한 모델은 처리량을 극대화하기 위한 최적화가 필요합니다.
NeMo Curator는 자동 파이프라인 오케스트레이션으로 데이터 큐레이션을 간소화하여 처리 시간을 크게 단축함으로써 이러한 문제를 극복시켜 줍니다. 멀티 노드, 멀티GPU 시스템 전반에서 선형 확장을 지원하여 100페타바이트 이상의 데이터를 효율적으로 처리해줍니다. 이를 통해 AI 개발을 간소화하고 비용을 절감하며 시장 출시 시간을 단축할 수 있게 됩니다.
CoRL의 로봇 학습 커뮤니티 발전
NVIDIA 로봇팀이 CoRL과 함께 발표한 약 24개의 연구 논문에는 환경 이해 및 작업 실행 향상을 위한 비전 언어 모델 통합, 시간적 로봇 탐색, 복잡한 다단계 작업을 위한 장기 계획 전략 개발, 기술 습득을 위한 인간 시연 활용 등의 획기적인 연구 결과가 포함되어 있습니다.
휴머노이드 로봇 제어와 합성 데이터 생성을 위한 획기적인 논문으로는 최소한의 사람의 시연으로 로봇을 훈련하기 위한 합성 데이터 생성 기반 시스템인 SkillGen과 휴머노이드 로봇의 동작 및 조작을 제어하기 위한 로봇 기초 모델인 HOVER가 있습니다.
릴리즈 일정
NVIDIA Isaac Lab 1.2는 바로 사용할 수 있으며, 현재 GitHub에서 오픈 소스로 제공되고 있습니다. NVIDIA Cosmos tokenizers 도구는 현재 GitHub와 Hugging Face에서 사용할 수 있습니다. 비디오 처리를 위한 NeMo Curator는 이달 말에 출시될 예정입니다.
또한 로봇 회사가 휴머노이드 로봇 기능을 더욱 쉽게 구축할 수 있도록 지원하는 새로운 NVIDIA Project GR00T 워크플로우가 곧 출시될 예정인데요. 워크플로우에 대한 자세한 내용은 NVIDIA 기술 블로그에서 확인해보시기 바랍니다.
뿐만 아니라 Isaac Lab 사용을 배우는 연구자 및 개발자는 이제 Isaac Gym에서 Isaac Lab으로의 마이그레이션 가이드를 포함한 개발자 가이드 및 튜토리얼에 액세스할 수 있습니다.
로봇 개발자라면 NVIDIA 휴머노이드 로봇 개발자 프로그램에 등록하고 다양한 정보를 받아가는 것을 잊지 마세요!