인공지능(AI)과 엔비디아 GPU 덕분에 검색엔진은 점점 더 똑똑해지고 있는데요.
이제 마이크로소프트(Microsoft)사의 검색엔진 빙(Bing)을 통해 이미지 내에서 이미지를 찾는 것도 가능해집니다. 검색은 물론, 원하는 제품을 바로 구매할 수도 있는데요.
여러분이 <분노의 질주>의 팬이어서 영화 속에서 본 장비로 자동차를 튜닝하길 원한다든지, 새롭게 리모델링을 할 거실에 품격을 더해줄 반짝이는 샹들리에 사진을 봤다고 가정해 봅시다.
사진상에서 시선을 사로잡는 부분 주변에 박스를 쳐보세요. 그러면 빙의 비주얼 서치(Visual Search)가 선택된 영역과 유사한 사진을 제시하고, 관련 제품의 구매가 가능한 곳을 보여주고, 가격대까지 찾아준답니다.
메나즈 머천트(Meenaz Merchant) 빙의 비주얼 서치 그룹(Visual Search Group) 책임자는 “우리는 검색 상자(search box) 그 이상으로 나아가고자 합니다”라고 말합니다.
머천트 책임자가 이끄는 연구팀은 얼마 전 개최된 국제전기전자기술자협회(Institute of Electrical and Electronics Engineers, IEEE) 주최의 CVPR콘퍼런스에서 비주얼 서치를 시연했습니다. CVPR은 컴퓨터 비전 부문에서 최고의 권위를 자랑하는 최고의 연례 학술행사로, 7월 23일 진행된 해리 셤(Harry Shum) 마이크로소프트 AI 및 리서치 그룹 부사장의 기조연설은 큰 주목을 받은 바 있습니다.
빙이 명품 브랜드 루이비통을 인식하는 방법
이미지 검색은 새로운 검색 방식으로, 쇼핑에만 국한되지 않습니다. 사진을 직접 업로드 하거나 온라인에서 애플파이, 폭포, 호텔 등 어떠한 이미지든 선택을 하면 빙 이미지 서치(Bing Image Search)가 유사한 사진과 함께 검색엔진이 사진에서 판단한 내용을 묘사한 태그(tag)까지 표시합니다. 유사 이미지를 선택하면, 애플파이 요리법, 폭포 위치, 호텔 이름 같은 유용한 정보까지 볼 수 있답니다.
비주얼 서치는 딥 러닝으로 구동되기 때문에 더 많이 사용하면 할수록 정확해집니다. 현재로서는 연관 이미지들이 종종 시각적으로 비슷하게 보이지만 실제로 동일한 이미지를 보여주지는 않습니다. 엠마 스톤이 영화 <라라랜드>에서 착용한 스포티한 노란 원피스를 검색하면 더 많은 노란 원피스를 확인할 수 있지만 전부 이브닝 드레스로 검색되는 것처럼 말이지요.
메나즈 머천트 책임자는 빙이 이미지 내에서 이미지 찾기 서비스를 처음으로 도입한 것은 아니지만 빙 서치(Bing Search) 인덱스를 통해 방대한 이미지 컬렉션을 갖추었다는 것은 큰 장점이라고 말합니다.
그는 “우리가 누군가가 들고 있는 루이비통 핸드백을 알아 보는 이유는 그 이미지를 수천 번을 봤기 때문입니다”라고 설명합니다.
서치의 미래
머천트 책임자의 연구팀은 엔비디아 GPU와 빙 서치 인덱스의 이미지를 활용해서 비주얼 서치를 위한 딥 러닝 알고리즘을 트레이닝합니다. 이 같은 과정에서 모든 이미지는 식별, 또는 딥 러닝 용어로는 라벨링(labeling)됩니다.
연구진은 블로그 포스팅을 통해 빙 이미지 서치의 작동 원리와 이미지 이해 기술에 대해 구체적인 설명을 전달하고 있습니다. 빙은 웹사이트와 모바일 앱 상의 이미지 서치에 이어 추가적으로 API를 공개하여 개발자들이 비주얼 서치를 앱에 구축할 수 있도록 만들었습니다.
머천트 책임자는 연구진이 검색을 더 쉽게 만들기 위해 연구를 지속할 것이라고 말합니다. “우리는 빙 이미지 검색에 있어서 개선 노력을 계속해나갈 것입니다”라고 그는 덧붙였습니다.
머천트 책임자에 따르면, 가까운 시일 내에 빙 이미지 서치는 박스를 그리지 않고도 대상 선택이 가능하도록 업그레이드될 예정입니다. 또한 빙은 식별된 대상을 빙 사토리(Bing Satori)와 웹 그래프 지식 저장고에 연결시킬 계획입니다. 예를 들어 서치 엔진이 유명인을 식별하면 그 사람에 대한 세부정보도 얻게 됩니다. 만약 식별된 항목이 제품일 경우 빙은 그것이 구매 가능한 장소도 제시할 것입니다.
머천트 책임자는 “비주얼 서치는 오늘날 텍스트 서치에 비해 극히 일부분에 불과합니다. 그러나 이제 모두가 고해상도의 카메라를 가지고 다니므로, 이 분야는 향후 2년간 폭발적으로 성장해서 텍스트를 넘어설 전망입니다”라고 말했습니다.