편집자 노트: 본 게시물은 2024년 10월 23일에 처음 게시되었으며, 새롭게 업데이트되었습니다.
피지컬 AI(Physical AI) — 로봇, 비주얼 AI 에이전트, 창고와 공장, 그리고 현실 세계에서 작동하는 다양한 자율 시스템에 구현된 인공지능 — 는 지금 그 돌파구의 순간을 맞이하고 있습니다.
운송·모빌리티, 제조, 물류, 로보틱스와 같은 산업에서 효과적인 피지컬 AI 시스템을 개발할 수 있도록, NVIDIA는 피지컬 AI의 훈련·시뮬레이션·추론을 발전시키는 세 가지 컴퓨터를 구축하고 있습니다.
NVIDIA의 AI 로보틱스를 위한 세 가지 컴퓨터는 아래와 같습니다.
(1) AI 학습을 위한 NVIDIA DGX AI 슈퍼컴퓨터, (2) 시뮬레이션을 위한 NVIDIA Omniverse와 Cosmos가 구동되는 NVIDIA RTX PRO 서버, 그리고 (3) 로봇에 탑재되어 추론을 담당하는 NVIDIA Jetson AGX Thor가 있습니다. 그리고 이러한 아키텍처는 AI 모델의 학습부터 시뮬레이션, 실제 배포까지 피지 AI 시스템의 개발을 완성할 수 있도록 지원합니다.
피지컬 AI란 무엇이며, 왜 중요한가?
디지털 환경에서 작동하는 에이전틱 AI와 달리, 피지컬AI는 실세계에서 인지하고, 추론하며, 상호작용하고, 이동할 수 있는 엔드 투 엔드(end-to-end) 모델입니다.
지난 60년간 ‘소프트웨어 1.0’ — 인간 프로그래머가 작성한 순차적 코드 — 은 CPU 기반 범용 컴퓨터에서 실행되어 왔습니다.
그러다 2012년, Ilya Sutskever와 Geoffrey Hinton의 지도를 받은 Alex Krizhevsky가 이미지 분류를 위한 혁신적인 딥러닝 모델, AlexNet으로 ImageNet 컴퓨터 이미지 인식 대회를 우승했습니다.
이 사건은 산업계가 AI와 본격적으로 접촉한 첫 사례로 기록되며, 머신러닝의 돌파구 — 즉, GPU에서 실행되는 신경망 — 가 ‘소프트웨어 2.0’ 시대를 열었습니다.
오늘날은 소프트웨어 소프트웨어를 만들어내고 있습니다. 전 세계의 컴퓨팅 작업 부하는 CPU 기반의 범용 컴퓨팅에서 GPU 기반의 가속 컴퓨팅으로 전환되고 있으며, 이는 무어의 법칙을 훨씬 뛰어넘는 변화입니다.
생성형 AI의 등장으로, 멀티모달 트랜스포머(transformer)와 디퓨전(diffusion) 모델들이 학습되어 다양한 응답을 생성할 수 있게 되었습니다.
거대 언어 모델(LLM)은 1차원으로, 글자나 단어와 같은 모드에서 다음 토큰을 예측할 수 있습니다. 이미지·영상 생성 모델은 2차원으로, 다음 픽셀을 예측할 수 있습니다.
하지만 이들 모델 중 그 어떤 것도 3차원 세계를 이해하거나 해석할 수는 없습니다. 바로 여기에서 물리적 AI가 등장하는 것입니다.
로봇이 인지하고, 추론하며, 계획하고, 행동하고, 학습할 수 있는 시스템입니다. 대개 로봇이라 하면 자율주행 이동 로봇(AMR), 매니퓰레이터 암(로봇 팔), 또는 휴머노이드를 떠올리지만, 로봇의 구현 형태는 이 외에도 매우 다양합니다.
가까운 미래에는 움직이는 모든 것, 또는 움직이는 사물을 감시하는 모든 것이 자율 로봇 시스템이 될 것입니다. 이러한 시스템은 주변 환경을 감지하고 이에 대응할 수 있습니다.
특히 자율주행 자동차, 수술실, 데이터 센터, 창고, 공장은 물론, 교통 제어 시스템과 전체 스마트 시티에 이르기까지 모든 것이 정적인 수동 운영 시스템에서 피지컬 AI가 구현된 자율적·상호작용형 시스템으로 전환될 것입니다.
왜 휴머노이드 로봇이 차세대 개척 분야인가?
휴머노이드 로봇은 인간을 위해 만들어진 환경에서 효율적으로 작동할 수 있고, 배치와 운영 시 최소한의 수정만 필요하다는 점에서 이상적인 범용 로봇 구현 형태입니다.
골드만삭스에 따르면, 글로벌 휴머노이드 로봇 시장은 2035년까지 380억 달러(약 51조 원)에 이를 전망이며, 이는 약 2년 전 전망된 약 60억 달러 대비 6배 이상의 증가입니다.
전 세계 연구자와 개발자들은 새로운 로봇 혁신의 물결을 만들기 위해 치열하게 경쟁하고 있습니다.
NVIDIA의 세 가지 컴퓨터는 로보틱스 분야에서 어떻게 작동되나
로봇은 물리 세계를 이해하는 방법을 세 가지 구별되는 컴퓨팅 지능을 통해 학습하며, 각각은 개발 단계에서 중요한 역할을 담당합니다.
1. 훈련 컴퓨터: NVIDIA DGX
마치 로봇에게 자연어를 이해하고, 사물을 인식하며, 복잡한 움직임을 계획하도록 동시에 가르치려는 상황을 상상해보세요. 이러한 종류의 학습에 필요한 엄청난 컴퓨팅 파워는 오직 특화된 슈퍼컴퓨팅 인프라를 통해서만 얻을 수 있기 때문에, 학습용 컴퓨터가 반드시 필요합니다.
개발자들은 NVIDIA DGX 플랫폼에서 자신만의 로봇 파운데이션 모델을 사전 학습하거나, NVIDIA Cosmos 오픈 월드 파운데이션 모델 또는 NVIDIA Isaac GR00T 휴머노이드 로봇 파운데이션 모델을 파운데이션 모델로 활용해 새로운 로봇 정책을 사후 학습(post-training)할 수 있습니다.
2. 시뮬레이션 및 합성 데이터 생성용 컴퓨터: NVIDIA RTX PRO 서버에서 구동되는 Cosmos 지원 NVIDIA Omniverse
범용 로보틱스 개발에서 가장 큰 도전은 바로 데이터 격차입니다. LLM(거대 언어 모델) 연구자들은 사전 학습을 위해 전 세계 인터넷 데이터를 활용할 수 있는 행운을 누리지만, 물리적 AI에는 이러한 데이터가 존재하지 않습니다.
실세계 로봇 데이터는 한정되어 있고, 수집하는 데 비용이 많이 들며, 특히 사전 학습이 미치지 못하는 예외적 상황(edge case)을 대비할 때는 더욱 어려운데요, 데이터를 직접 수집하려면 많은 노동력이 필요하므로, 비용이 높아지고 대규모 확장이 쉽지 않습니다.
또한 개발자들은 Omniverse와 Cosmos를 활용해 2D·3D 이미지, 세그멘테이션이나 뎁스 맵, 또는 동작·경로 데이터 등 물리 기반의 다양하고 대량의 합성 데이터를 생성할 수 있습니다. 이런 합성 데이터는 모델 학습과 성능 향상을 위한 초기 데이터를 빠르게 확보하는 데 도움이 됩니다.
실세계에 배포하기 전에 로봇 모델의 안전성과 성능을 보장하기 위해, 개발자들은 디지털 트윈(digital twin) 환경에서 모델을 시뮬레이션하고 테스트해야 합니다. Omniverse 라이브러리를 기반으로 구축된 오픈소스 프레임워크인 Isaac Sim은 NVIDIA RTX PRO 서버에서 구동되며, 개발자들이 로봇 정책(robot policies)을 시뮬레이션에서 테스트할 수 있도록 해줍니다. 이를 통해 로봇은 인간의 안전을 위협하거나 고가의 하드웨어에 손상을 줄 위험 없이, 위험이 없는 환경에서 여러 번 작업을 시도하고 실수를 통해 학습할 수 있습니다.
또한, 연구자와 개발자들은 오픈소스 로봇 학습(robot learning) 프레임워크인 NVIDIA Isaac Lab을 활용할 수 있습니다. 이는 로봇 강화학습(reinforcement learning) 및 모방학습(imitation learning) 을 지원하여 로봇 정책 학습 속도를 가속화하는 데 도움을 줍니다.
3. Runtime 컴퓨터: NVIDIA Jetson Thor
안전하고 효과적인 배포를 위해, 피지컬 AI 시스템에는 센서 데이터를 처리하고, 추론하며, 계획을 세우고, 밀리초 단위로 행동을 실행할 수 있는 연산 능력을 갖춘 실시간 자율 로봇 운용용 컴퓨터가 필요합니다.
이러한 로봇 탑재형 추론 컴퓨터는 멀티모달 AI 추론 모델을 실행하여, 로봇이 사람이나 물리적 세계와 실시간으로 지능적인 상호작용을 할 수 있도록 해야 하는데요, Jetson AGX Thor는 콤팩트한 설계로, 온보드 AI 성능 컴퓨팅과 에너지 효율성 요구를 충족하며, 제어 정책(control policy), 비전(vision), 언어 처리(language processing) 등을 포함한 복합 모델(ensemble of models)의 운영을 지원합니다.
디지털 트윈은 로봇 개발을 어떻게 가속화하는가
로봇 시설은 이러한 모든 기술이 집약된 결과물이라 할 수 있습니다.
폭스콘(Foxconn)과 같은 제조업체나 아마존 로보틱스(Amazon Robotics)와 같은 물류 회사는 자율 로봇 팀을 구성해 인간 근로자와 함께 작업하고, 수백 또는 수천 개의 센서를 통해 공장 운영을 모니터링할 수 있습니다.
이러한 자율 물류창고, 공장, 시설 등에는 디지털 트윈이 도입될텐데요, 이 디지털 트윈은 레이아웃 계획과 최적화, 운영 시뮬레이션 그리고 특히 가장 중요한 로봇 플릿 소프트웨어 인 더 루프(software-in-the-loop) 테스트에 사용될 것입니다.
또한 Omniverse 기반으로 구축된 ‘Mega’는 공장 디지털 트윈을 위한 Blueprint로, 산업계의 기업들이 로봇 플릿을 실제 공장에 배치하기 전에 시뮬레이션으로 테스트하고 최적화할 수 있도록 지원합니다. 이를 통해 원활한 통합, 최적의 성능, 그리고 최소한의 운영 방해를 보장할 수 있게 됩니다.
Mega는 개발자가 가상 로봇과 그 AI 모델(즉, 로봇의 두뇌)을 공장 디지털 트윈에 배치할 수 있도록 해주는데요, 디지털 트윈에 있는 로봇들은 환경을 인지하고, 추론하며, 다음 움직임을 계획하고, 마지막으로 계획된 행동을 수행함으로써 작업을 실행할 수 있습니다.
또한 이러한 행동들은 Omniverse의 월드 시뮬레이터를 통해 디지털 환경에서 시뮬레이션되고, 그 결과는 [Omniverse 센서 시뮬레이션]을 통해 로봇의 두뇌에 인식됩니다.
그리고 센서 시뮬레이션을 통해 로봇의 두뇌는 다음 행동을 결정하며, 이 과정이 반복적으로 이어지게 되는데요, 이후에 Mega는 공장 디지털 트윈 내 모든 요소의 상태와 위치를 세밀하게 추적하게 됩니다.
이같은 최첨단 소프트웨어-인-더-루프(software-in-the-loop) 테스트는 산업 기업이 Omniverse 디지털 트윈의 안전한 환경에서 변화 사항을 시뮬레이션하고 검증할 수 있게 하는데요, 이를 통해 실제 환경에 배포하기 전에 잠재적 문제를 예측하고 사전에 대응하여, 위험과 비용을 줄일 수 있습니다.
NVIDIA의 3가지 컴퓨터 솔루션을 로보틱스에 활용하는 기업은?
NVIDIA는 3가지 컴퓨터 시스템을 통해 로봇 개발자와 로봇 파운데이션 모델 제작자로 구성된 글로벌 생태계의 작업을 가속화합니다.
Teradyne Robotics의 자회사인 Universal Robots은 NVIDIA Isaac Manipulator, Isaac 가속 라이브러리와 AI 모델, NVIDIA Jetson Orin을 사용해 UR AI Accelerator라는 하드웨어/소프트웨어 툴킷을 개발했습니다. 이 툴킷은 협동로봇(cobot) 개발자가 애플리케이션을 구축하고 개발을 가속화하며, AI 제품의 시장 출시 기간을 단축할 수 있도록 지원합니다.
RGo Robotics는 NVIDIA Isaac Perceptor를 활용해 wheel.me AMR이 언제 어디서나 작동하고, 인간과 유사한 수준의 인지 및 시각·공간 정보를 바탕으로 지능적인 결정을 내릴 수 있도록 했습니다.
1X Technologies, Agility Robotics, Apptronik, Boston Dynamics, Fourier, Galbot, Mentee, Sanctuary AI, Unitree Robotics, XPENG Robotics 등 세계적인 휴머노이드 로봇 제조업체들이 NVIDIA의 로봇 개발 플랫폼을 채택하고 있습니다.
특히 Boston Dynamics는 인간의 생산성을 높이고, 노동력 부족 문제를 해결하며, 창고 내 안전을 우선시하는 4족 보행 로봇과 휴머노이드 로봇을 제작하기 위해 Isaac Sim과 Isaac Lab을 사용하고 있습니다.
Fourier는 과학 연구, 의료, 제조 등 높은 수준의 상호 작용과 적응력이 요구되는 분야에서 작동할 수 있는 휴머노이드 로봇을 훈련하기 위해 Isaac Sim을 활용하고 있습니다.
Galbot은 Isaac Lab과 Isaac Sim을 사용해 다양한 고도(高度) 로봇 손에 적용 가능한 대규모 로봇 손 잡기 데이터셋(DexGraspNet)과 로봇 손 집기 모델 평가용 시뮬레이션 환경을 구축했습니다. 또한 Jetson Thor를 사용해 로봇 손의 실시간 제어에 활용하고 있습니다.
Field AI는 Isaac 플랫폼과 Isaac Lab을 활용해 로봇이 야외 환경에서 안전하게 다양한 임무를 수행할 수 있도록 위험 기반의 멀티태스크·다목적 파운데이션 모델을 개발했습니다.
산업 전반에 걸쳐 확대되고 있는 피지컬 AI의 미래
전 세계 산업에서 로보틱스 활용 사례가 확대됨에 따라, NVIDIA의 피지컬 AI를 위한 3가지 컴퓨터 솔루션은 제조, 물류, 서비스, 헬스케어 등 다양한 분야에서 인간의 업무를 향상시킬 수 있는 막대한 잠재력을 제공합니다.
NVIDIA 로보틱스 플랫폼을 살펴보고, 피지컬 AI의 훈련·시뮬레이션·배포를 위한 도구를 지금 시작해 보세요.