[이 달의 연구자 시리즈] 시각, 언어 AI 전문가를 만나세요!

‘이 달의 연구자’는 NVIDIA 테크놀로지로 업무를 가속화하는 학계 연구자들을 선정해 집중 조명하는 시간입니다. 2월에는 이탈리아 모데나 레지오 에밀리아 대학교(University of Modena and Reggio Emilia)의 로렌조 바랄디(Lorenzo Baraldi) 조교수를 만나봅니다.

대학 강단에 서기 전 바랄디 조교수는 페이스북 AI 리서치(Facebook AI Research)의 연구 인턴으로 일했습니다. 현재는 학술지 <Pattern Recognition Letters>의 부주필로 활동하면서 시각, 언어, 임베디드 AI의 통합을 연구하고 있습니다.

본인의 연구 분야를 설명한다면?

저는 컴퓨터 비전과 딥 러닝을 연구하는 그룹인 A이미지랩(AimageLab)에 소속되어 있습니다. 주로 시각, 언어, 행위의 통합에 집중하고 있죠. 세계를 인지하고 그 안에서 행동하는 동시에 인간과 소통할 수 있는 에이전트를 개발하는 것이 우리 연구의 최종 목표입니다.

이 분야에 관심을 갖게 된 계기는?

우리를 둘러싼 시각 세계를 인지하는 능력과 이를 행동 및 자연어로 표현하는 능력의 결합은 인간 본연의 역량인 동시에 인간의 지능을 이해하는 핵심이기도 합니다. 지난 몇 년 간 우리는 이 능력들을 단독으로 활용하는 분야에서 엄청난 성장을 목격했습니다. 바로 컴퓨터 비전, 자연어 처리, 로보틱스인데요. 이제는 이들을 어떻게 결합할 수 있는지 이해하는 것에 많은 관심이 모아지고 있습니다.

현재 진행중인 프로젝트를 설명한다면?

우리 연구는 세 가지 방향으로 진행됩니다. 첫째, 시각과 언어를 통합합니다. 이미지를 자연어로 표현할 수 있는 알고리즘을 예로 들 수 있습니다. 이 분야의 최신 논문이 CVPR 2020 학술대회의 이미지 캡셔닝을 위한 트랜스포머 기반 모델(Transformer-based model for image captioning) 부문에 제출된 바 있습니다. 둘째, 자동 항법이 가능한 에이전트를 개발해 시각과 행위를 통합합니다. 실내와 실외의 다양한 시나리오에서 움직이며 여러 혼잡한 상황에서도 인간과 상호작용할 수 있는 에이전트를 개발하는 것이죠. 셋째, 앞서 언급한 두 가지 연구를 언어 이해 능력과 통합합니다. 지시에 따라 움직이는 에이전트, 경로상의 시각정보를 묘사할 수 있는 조사 중심 에이전트들의 훈련이 이에 해당합니다.

0302 블로그 중간1 — 바랄디의 이미지 캡셔닝 접근법 개요. 트랜스포머(Transformer)와 유사한 인코더/디코더 아키텍처를 기반으로 구축된 바랄디의 접근법에는 메모리 벡터로 셀프 어텐션(self-attention)을 증강하는 메모리 인식 인코더가 포함되어 있습니다.

본인의 연구를 통해 해결하고자 하는 문제는?

우리가 해결해야 할 주요 문제 중 하나는 시각이나 텍스트, 운동의 인식으로부터 얻어지는 멀티모달 정보를 정확히 통합하는 방법을 찾는 것입니다. 다시 말해 이 정보들을 적합하게 처리할 수 있는 아키텍처가 필요한 것인데요, 이는 우리 연구의 상당 부분에 새로운 아키텍처의 설계가 수반되는 이유이기도 합니다. 또 다른 문제는 우리가 만들어내는 접근법의 대다수가 생성적이고 순차적이라는 데 있습니다. 우리가 문장(sentence)을 생성하고, 로봇의 행위나 이동 경로도 우리가 생성하는 방식이죠. 멀티모달 정보에 적합한 시퀀스의 생성은 여전히 난관으로 남아 있습니다.

0302 블로그 중간2 — ACVR Robotic Vision Challenge 데이터세트로 생성한 문장

본인의 연구가 해당 분야/공동체/세계에 끼치는 영향을 설명한다면?

이 분야에 헌신하고 있는 연구자들의 노력이 성공을 거둔다면 일상생활 속에서 우리를 이해하고 조력을 제공하는 알고리즘, 우리와 함께 세상을 바라보고 그 속에서 도움이 되는 알고리즘을 갖게 될 것입니다. 장기적으로는 우리가 컴퓨터와 상호작용하는 방식을 바꿔 보다 쉽고 언어에 기반한 접근이 가능해질 것으로 기대합니다.

연구에 NVIDIA 테크놀로지를 사용해본 적이 있는지?

NVIDIA GPU상에서 진행하는 대규모 훈련은 우리 연구의 핵심 요소이며, 앞으로 그 중요성은 더욱 커질 것입니다. 현재 로컬 훈련은 우리 연구소의 분산 GPU 클러스터에서 수행하며 그보다 규모가 큰 훈련은 이탈리아 슈퍼컴퓨팅 센터 시네카(CINECA), 그리고 NVIDIA AI Technical Centre(NVAITC) 모데나 지부와 협력하여 진행합니다. NVAITC 및 CINECA와의 파트너십은 컴퓨팅 용량을 증가시켰을 뿐 아니라 NVIDIA의 테크놀로지를 최대한 활용하는 데 필요한 지식과 지원을 제공해주기도 했죠. 이 협업은 우리의 연구 역량에 정말 중요한 부분을 차지하고 있습니다.

NVIDIA 테크놀로지로 달성한 혁신이나 흥미로운 연구 결과를 소개한다면?

우리가 수행하는 연구의 거의 대부분이 NVIDIA 테크놀로지를 통해 구현됩니다. 시각, 언어, 행위의 통합 부분에서 거둔 결실 외에도 제가 특히 자긍심을 느끼는 연구들이 있는데요. 그 중 하나가 바로 영상의 이해입니다. 사람과 사물의 감지, 그들 관계의 이해, 시공간적 피처(feature)를 추출하는 최선의 방법 발견은 중요한 도전입니다. 우리는 연구 내용을 문화 유산에 적용해보는 것도 즐깁니다. NVIDIA GPU를 사용해 자연어로 그림을 검색하는 알고리즘과 회화작품에 실제성을 부여하는 생성 네트워크를 개발하기도 했죠.

향후의 연구 계획은?

우리의 연구 분야가 급격한 진화를 거듭하고 있는 것은 사실이지만 해결을 요하는 문제들은 여전히 산재해 있습니다. 우리 연구소도 바로 이 부분에 집중하고 있는데요. 그 중 하나가 데이터세트 내에서 감독에 따라 학습과 대립을 진행한다는 오랜 편견을 넘어서는 것입니다. 우리가 궁극적으로 원하는 알고리즘은 현재의 데이터세트 너머의 이미지와 텍스트 간 연관성을 묘사⋅이해하는 것일 테니까요. 이를 위해 우리는 훈련용 데이터세트에 제시되지 않는 오브젝트도 묘사할 수 있는 알고리즘의 개발을 추구하고 있으며, 자체 감독 또는 감독의 정도가 낮은 훈련이 가져올 새로운 가능성들을 지속적으로 탐구하고 있습니다. 시간 차원의 적절한 관리 또한 우리 연구의 핵심 주제인데요, 새로운 아키텍처 설계의 측면에서 단어의 시퀀스 관리뿐 아니라 영상 스트림의 이해 또한 개선해 왔습니다.

새내기 연구자들에게 하고 싶은 조언이 있다면?

크게 세 가지 능력의 강화에 집중할 것을 권하고 싶습니다. 첫째는 코드를 제대로, 품격 있게 배우라는 것입니다. 아이디어의 현실화에는 언제나 구현(implementation)이 필요한 법이니까요. 둘째는 좋은 아이디어를 갖는 법을 배우는 겁니다. 상당히 까다로운 일이기는 하겠지만 값진 연구는 좋은 아이디어에서 시작하기 때문에 이 부분이 아주 중요합니다. 연구자료들, 특히 과거의 연구들을 많이 읽으면서 개방적이고 자유롭게, 크고 넓게 생각하는 것이 큰 도움이 됩니다. 셋째는 시간 관리입니다. 보다 중요한 일에 집중하세요.

로렌조 바랄디의 동료 연구자 마테오 토메이(Matteo Tomei)가 4월에 열릴 NVIDIA GTC에서 “보다 효율적이고 정확한 비디오 네트워크: 정확도/연산 트레이드오프 극대화를 위한 새로운 접근법(More Efficient and Accurate Video Networks: A New Approach to Maximize the Accuracy/Computation Trade-off)”이라는 주제로 AimageLab의 최신 연구를 소개할 예정입니다.