엔비디아, 세계 최고 인공지능 컨퍼런스에서 AI 로드 트립 선보여

by NVIDIA Korea

운전대를 잡고, 엑셀에 발을 올립니다. 도쿄, 뉴욕, 리우데자네이루 등 3D 도시로 여행을 떠나는 거죠. 모두 AI를 통해 하는 여행입니다.

지난주 캐나다 몬트리올에서 열린 인공지능 분야의 최고 권위 학회 중 하나인 신경정보처리시스템학회의 NeurlPS 2018 컨퍼런스에서 엔비디아는 개발자들이 완전히 합성된 대화형 3D 세상을 렌더링 할 수 있도록 하는 AI 연구를 발표했습니다. 아직 초기 단계이긴 하지만, 연구는 가상현실(VR), 자율주행 자동차 개발과 아키텍처 등 다양한 애플리케이션을 실현할 수 있는 가능성을 보여줍니다

이 기술은 몬트리올에서 전시된 여러 엔비디아 프로젝트 중 하나입니다. 엔비디아 부스에 자리한 녹색과 검은색이 어우러진 운전석 주변을 맴돌며 데모를 지켜보던 참가자들은 신경망으로 렌더링된 8블록 세계를 탐색하는 운전자들의 모습을 보고 깜짝 놀랐습니다.

부스를 방문한 이들은 가상 환경을 둘러보기 위해 운전석에 자리 잡았습니다. 캐나다의 워털루 대학교(University of Waterloo) 대학원생 아진 나자리(Azin Nazari)는 해 질 무렵의 보스톤과 독일, 심지어 GTA(Grand Theft Auto) 게임 환경 내 거리를 넘나들 수 있는 AI 기반 장면을 무척 인상 깊게 봤습니다.

이 데모는 언리얼 엔진 4(Unreal Engine 4)를 사용해 장면의 시맨틱 레이아웃(semantic layouts)을 생성합니다. 실제 세상의 비디오로 트레이닝 된 딥 뉴럴 네트워크는 건물과 자동차, 거리 등 여러 물체로 가득 찬 도시 장면을 묘사하는 기능을 합니다.

팅 춘 왕(Ting-Chun Wang), 밍 유 리우(Ming-Yu Liu) 엔비디아 연구원은 이는 완전히 합성된 새로운 세계를 렌더링하는 컴퓨터 그래픽 엔진을 사용한 최초의 뉴럴 네트워크라고 설명합니다.

왕 연구원은 개발자들은 이 기능을 활용해 기존 가상 모델링보다 훨씬 저렴한 비용으로 신속히 대화형 그래픽을 만들 수 있다고 말했습니다.

이 데모에 사용된 vid2vid라는 이름의 AI 모델은 GAN으로 알려진 러닝 방법을 사용해 시맨틱 레이아웃, 에지 맵(edge map)과 포즈(pose) 등 고급 표현에서 포토리얼리스틱(photorealistic) 비디오를 렌더링합니다. 딥 러닝 네트워크는 교육을 거듭할수록 프레임간 깜빡임을 최소화 해 더욱 부드럽고 시각적으로 일관된 비디오를 만들어 냅니다.

최첨단 기술을 구현한 이 연구진은 2K 해상도에서 30초 거리 장면 비디오를 합성할 수 있습니다. 다양한 비디오 시퀀스에서 교육 받은 이 모델은 전 세계 모든 도시를 화면에 재현해 낼 수 있습니다.

TITAN, DOPE 만나다

새로운 타이탄 RTX GPU를 보며 감탄하는 NeurIPS 참가자

엔비디아 부스에 마련된 두 가지 최신 하드웨어인 TITAN RTX GPU엔비디아 DGX-2 시스템(NVIDIA DGX-2 system)가 주목을 받았습니다.

그 반대편에서 참가자들은 토마토 수프 캔과 스팸, 크래커 상자, 머스터드 병 등이 이상하게 쌓여 있는 모습을 보기 위해 몰려 들었습니다. 전혀 그렇게 보이지 않지만, 이 데모는 DOPE(마약이라는 뜻이 있음)입니다. 진짜로요!

DOPE는 심층 물체 포즈 추정(Deep Object Pose Estimation)의 약자로, 하나의 RGB 카메라를 사용해 알려진 물체의 포즈를 감지하는 알고리즘입니다. 로봇이 물체를 파악하는데 필수적 기능이죠.

새로운 방식의 체험형 데모라고 볼 수도 있겠는데요, 부스 관람객들은 크래커 상자와 캔을 실제로 집어서 테이블 상의 위치를 바꾸거나 방향을 바꿀 수도 있습니다. 화면 상에 나타나는 모습이 바로 뉴럴 네트워크 추론입니다. 물체가 이동할 때 가장자리(에지) 움직임을 추적하죠.

조너선 트렘블레이(Jonathan Trembly) 엔비디아 연구원은 로봇에 관심 있는 사람은 누구나 사용할 수 있는 30달러짜리 저렴한 카메라라고 말했습니다. 컴퓨터 생성 이미지 데이터로만 교육된 이 도구는 깃허브(GitHub)에서 누구나 사용할 수 있습니다.  

DOPE는 물품의 가장자리를 파악할 수 있으며, 다른 물품에 일부 가려져 있거나 부스 방문객들이 위치를 바꿔 놓아도 인식할 수 있습니다.

부스 방문객들은 실시간 레이 트레이싱이 보여주는 놀라운 데모로 눈이 즐거워졌는데요, 단일 쿼드로 RTX 6000 GPU에서 실행한 스타워즈 데모는 엔비디아 RTX 기술을 활용한 아름다운 영화 품질의 반사 기능을 제공했기 때문이지요

몇몇 음모론자들은 아폴로 11호가 실제로 달에 착륙했는지를 여전히 의심하고 있습니다. 잘 알려진 달 착륙 이미지를 레이 트레이싱해 재현한 이미지를 보면, 그때 그 사진이 달에서 찍은 것이 틀림 없음을 알 수 있습니다.

부스를 찾은 데이터 과학자들은 래피즈(RAPIDS) 데이터 분석 소프트웨어로 새로운 TITAN RTX를 실행해 인터넷 영화 데이터베이스(IMDB) 사용자들이 집계하는 영화 순위 데이터세트를 신속히 조작하는 모습을 봤습니다. 다른 데모에서는 데이터센터와 에지 추론을 위해 엔비디아 텐서RT(NVIDIA TensorRT) 소프트웨어가 제공하는 컴퓨팅 성능을 직접 확인할 수 있었습니다.