인공지능으로 고양이를 강아지, 사자, 호랑이로 바꾸는 엔비디아 연구진

by NVIDIA Korea

타고난 모습을 바꾸기는 힘들다는 속담이 있지만, 표범의 점박이 무늬는 실제로 변할 수 있다고 합니다.

엔비디아 연구진기 개발한 새로운 GPU가속  러닝 기법 덕분에, 표범, 정확히는 표범 사진을 고양이, 호랑이, 심지어 강아지로도 동시에 바꿀 수 있게 되었습니다. 동영상의 경우에도 적용 가능한데요.

하나의 이미지나 동영상을 여러 다른 이미지, 동영상으로 전환시키는 능력을 통해 게임 개발자, 영화 제작자가 시간과 비용을 아끼면서도 더 풍부한 경험을 만들어 낼 수 있습니다. 또한 다양한 트레이닝 데이터를 쉽게 생성하여 광범위한 도로 환경에 보다 신속하게 대응할 수 있도록 자율주행 자동차의 능력을 향상시킬 수도 있습니다.

 

하나의 이미지로 다수의 이미지 생성

이를 통해 이미지 트렌스레이션은 지난 12월에 개최된 신경정보처리시스템학회(Neural Information Processing System, 이하 NIPS)에서 발표된 이전의 연구보다 진일보 했습니다. NIPS 논문에 기술된 기법은 1:1 방식으로 1개의 이미지나 동영상을 또 다른 하나의 이미지, 동영상으로 매핑했습니다.

4 15 발표된 논문에서 공개된 멀티모덜(multi-modal)이라는 이 신기술은 하나의 이미지를 동시에 여러 개로 전환시킬 수 있습니다.

멀티모덜 이미지 트렌스레이션은 200명의 유망한 팀원을 갖춘 엔비디아 연구팀의 혁신적인 최근 연구의 단적인 사례인데요. 전 세계 11곳에 위치한 엔비디아 연구진은 머신러닝, 컴퓨터 비전, 자율주행 자동차, 로보틱스, 그래픽스, 컴퓨터 아키텍처, 프로그래밍 시스템 등 여러 분야에서 기술의 지평을 넓히고 있습니다.

 

흐린 날에 머신러닝으로 그려보는 햇살

NIPS 연구와 마찬가지로, 멀티모덜 이미지 트렌스레이션 역시 비지도 학습(unsupervised learning)과 생성적 적대 신경망(generative adversarial networks, GANs)이라는 두 가지 딥 러닝 기법에 의존하는데요. 이를 통해 햇살 반짝이는 거리가 폭풍우나 겨울에는 어떻게 보이는지 그려보는 “상상력”을 머신에 부여하고자 합니다.

1개의 여름날 주행 동영상을 1개의 겨울 주행 동영상으로 전환하는 대신에, 이제 연구진은 눈의 양을 달리하여 여러 개의 겨울 주행 동영상을 만들 수 있습니다. 이 기술은 하루 중 시점, 날씨 등에 대해서도 같은 원리로 작동하는데요. 흐린 날에 햇살을 보여주거나, 짙은 어둠을 새벽의 여명, 오후의 햇살, 황혼으로 바꿉니다. 이 기법은 자율주행 자동차 용 딥 뉴럴 네트워크를 트레이닝하는데 무척 유용합니다.

게이밍의 세계에서 게임 스튜디오들은 멀티모덜 이미지 트렌스레이션을 사용해 더 빠르고 쉽게 새로운 캐릭터와 세계를 만들 수 있습니다. 아티스트들은 지루한 작업 대신 보다 풍부하고 복잡한 스토리 개발에 시간을 할애할 수 있습니다.

MUNIT(Multimodal Unsupervised Image-to-Image Translation) 프레임워크는 이미지 콘텐트를 스타일과 분리합니다. 고양이 사진의 경우, 고양이의 포즈가 콘텐트이고 고양이의 종은 스타일에 해당합니다. 포즈는 고정되어 있습니다. 고양이 사진을 표범이나 강아지로 전환하는 경우, 동물들의 위치가 동일해야 합니다. 숏헤어, 표범, 콜리 등 품종이나 종을 변경할 수 있습니다

 

데이터가 없어도, 문제 없어요

이 연구는 비주얼 데이터 생성이 탁월한 딥 러닝 기법에 바탕을 두고 있습니다. GAN는 이미지 생성 네트워크와 생성 이미지의 진위를 평가하는 네트워크라는 경쟁적 관계의 네트워크 두 가지를 사용하는데요. GAN는 데이터가 충분하지 않을 때 특히 유용합니다.

보통, 이미지 트렌스레이션에는 원본인 고양이 이미지와 같은 포즈를 취한 콜리, 래브라도 리트리버, 호랑이 등의 상응하는 이미지 데이터세트가 필요합니다. 이러한 종류의 데이터를 얻는 것은 불가능하지는 않지만 구하기가 어렵습니다. MUNIT의 장점은 이런 이미지 데이터가 필요 없다는 점입니다.

MUNIT는 자율주행 자동차의 트레이닝 데이터를 생성하기가 쉽습니다. 똑같은 장소에서, 같은 지점, 같은 구도, 통행 차량 등 기타 세부사항을 담은 이미지나 영상을 필요로 하지 않기 때문인데요.

또한, GAN는 이미지나 동영상의 콘텐트를 사람이 일일이 표시하는 엄청난 시간과 인력을 요하는 일을 할 필요가 없습니다

논문 공저자인 밍유 류(Ming-Yu Liu)는 “제 목표는 머신이 인간과 같은 상상력을 갖는 것입니다”고 말했습니다. “사람은 나무가 헐벗었는지, 눈으로 뒤덮여 있는 지 등 겨울에 어떤 풍경일지 상상해 볼 수 있습니다. AI도 이런 일이 가능했으면 합니다.”라고 말했습니다.