사실적으로 사진을 재구성하는 새로운 인공지능 이미징 기법을 공개한 엔비디아

by NVIDIA Korea

구일린 리우(Guilin Liu)가 이끌고 있는 엔비디아 연구진은 편집되거나 손상된 이미지 복원이 가능한 첨단 딥 러닝 기법을 도입했습니다.

이 기법은 콘텐츠를 삭제하고 그 여백을 채우는 등의 이미지 편집도 가능한데요.

“이미지 인페인팅(image inpainting)”이라는 프로세스를 수행하는 엔비디아의 첨단 기법은 원하지 않는 콘텐츠를 삭제하고 대신에 사실적인 컴퓨터 생성 이미지를 대신 채워 넣는 포토 에디팅 소프트웨어에서 구현이 가능합니다.

엔비디아 연구진은 연구 논문에서 “엔비디아 모델은 모양, 크기, 위치, 이미지 외곽선으로부터의 거리에 관계없이 구멍을 로버스트(robust)하게 처리할 수 있다. 반면, 기존의 딥 러닝 접근법은 이미지 중심부의 사각 영역을 위주로 하며, 고비용의 포스트 프로세싱에 의존한다. 또한 엔비디아 모델은 구멍의 크기가 커져도 무리 없이 처리한다.”라고 밝혔습니다.

엔비디아 연구진은 뉴럴 네트워크를 트레이닝 시키기 위해 다양한 형태 및 크기의 선과 구멍으로 구성된 트레이닝용 마스크 55,116개를 무작위로 생성했으며, 약 25,000회의 테스팅을 진행했습니다. 이미지 복원 정확도를 개선하기 위해 이들 마스크는 인풋 이미지의 상대적인 크기에 따라 6개의 카테고리로 분류했습니다.

트레이닝을 위해 생성된 마스크 예시

 

엔비디아 연구진은 테슬라(Tesla) V100 GPU와 cuDNN-가속 파이토치(PyTorch) 딥 러닝 프레임워크를 사용해서 이들 마스크를 이미지넷(ImageNet), 플레이시즈2(Places2), 셀렙A-HQ(CelebA-HQ) 데이터 세트의 이미지에 적용해서 뉴럴 네트워크를 트레이닝 했습니다.

트레이닝 단계에서는 구멍이나 손실된 부분들을 데이터세트의 완전한 트레이닝 이미지에 도입하여 뉴럴 네트워크가 손실된 픽셀을 복원하는 법을 학습할 수 있도록 합니다.

테스팅 단계에서는 트레이닝 단계에서 적용되지 않은 다른 구멍이나 손실 부분들을 데이터 세트의 테스트 이미지에 도입해서 이미지 복원의 정확도를 객관적으로 검증합니다.

엔비디아 연구진은 기존의 딥 러닝 기반 이미지 인페인팅 기법은 손실된 픽셀을 위해 신경망에 공급한 인풋 값에 아웃풋이 의존하는 문제가 있다고 설명했는데요. 이는 이미지의 색상 차이나 흐릿함 등의 현상으로 이어집니다. 엔비디아 연구진은 이 문제를 해결하기 위해 손실 픽셀의 아웃풋이 이들 픽셀을 위해 공급된 인풋값에 의존하지 않도록 하는 기법을 개발했습니다. 이 기법에는 “부분 회선(partial convolution)”이라는 방법이 사용되었는데요. 복구된 이미지 부분만 새로 규정해 원본 픽셀에 영향을 받지 않도록 하는 기술입니다. 부분 회선 층은 상응하는 리셉티브 필드(receptive field)의 타당성에 따라 각 아웃풋을 재정상화(renormalization)시킵니다. 그 다음, 재정상화 작업을 통해 각 리셉티브 필드에서 아웃풋 값을 `손실 픽셀 값으로부터 독립시킵니다. 해당 엔비디아의 모델은 부분 회선으로 실행된 UNet 아키텍처로 구축되었는데요. 현실적인 아웃풋을 생산하기 위해 기능 손실, 피처 손실과 VGG모델 매칭, 스타일 손실 등이 모델의 트레이닝에 사용되었습니다.

연구진은 바로 이 때문에 엔비디아의 모델이 기존 기법을 능가한다고 설명합니다.

 

엔비디아 연구진은 “비정형의 구멍에서 딥 러닝 이미지 인페인팅 모델의 효용을 입증한 것은 엔비디아가 최초라고 알고 있습니다”라고 말했습니다.

또한 연구진은 초고해상도 이미지 작업을 처리하는데도 동일한 프레임워크를 적용할 수 있다고 논문에서 언급했습니다.

2018년 4월 30일부터 5월 3일까지 밴쿠버 컨벤션 센터에서 개최된 ICLR 2018 에 참가한 엔비디아를 확인해보세요. 엔비디아의 연구에 대한 상세한 내용과 딥 러닝 및 인공지능(AI) 부문에서 엔비디아 딥 러닝 생태계가 어떻게 연구자들과 개발자들에게 도움이 되는지 알아 볼 수 있습니다.