인터넷 쇼핑몰이 컴퓨터 비전 인공지능으로 가품을 단속해낸 비결

NVIDIA GPU 기반 딥러닝 기술로 가짜 의약품 및 식품을 적발해낸 비결!
by NVIDIA Korea

인공지능(AI)으로 구동되는 이미지 인식 엔진은 본래 동물 사진으로 이미지 데이터 베이스를 구축하거나 단체사진에서 친구를 골라내는 등 특정 카테고리의 이미지를 찾도록 고안되었습니다.

하지만 때로는 인터넷 쇼핑사이트의 가품 등 찾으려 했던 것이 아닌 이미지를 포착하는 데에도 이미지 인식 엔진을 사용할 수 있는데요.

바르셀로나의 AI 스타트업 Restb.ai는 바로 이 기술을 스페인의 인기 모바일 중고거래 플랫폼인 왈라팝(Wallapop)에 적용하고 있습니다.

 

AI구동 블랙리스트

인공지능으로 가품 이미지를 식별하는 것은 Restb.ai가 왈라팝과 처음 교류하기 시작했을 때에는 미처 생각지 못했던 일입니다. 앙헬 에스테반(Angel Esteban) Restb설립자 겸 CEO는 왈라팝에 피칭했을 때에 사용자가 업로드하는 물품을 분류하여 브라우징 경험을 향상시키는 Restb의 기술력을 소개했습니다.

그런데 에스테반 CEO와 Restb팀은 왈라팝이 안고 있던 보다 고질적인 문제를 발견하게 되었습니다. 바로 가짜 의약품, 비타민 또는 식품 등을 판매하려는 사용자들을 통제하는 문제였지요. 이 같은 문제는 자칫 회사가 사법 당국의 제재를 받을 위험이 있었습니다.

그에 따라 Restb는 왈라팝의 정책을 위반하는 콘텐츠의 필터링 과정을 자동화하는 컴퓨터 비전 알고리즘 개발에 착수했습니다. 이러한 “블랙리스트” 분류자(classifier) 개발 과정에서 Restb는 다음과 같은 3개가지 주요 난관을 극복해야 했습니다.

  • 분류자가 흰색 단추와 알약처럼 아주 유사해 보이는 물체도 구분할 수 있도록 상당 수준의 특이도(specificity) 구현 
  • 왈라팝의 잠재적인 위험을 최소화하기 위해서 최소 99%의 정확도 달성 
  • 다양한 각도와 조명이라는 조건을 고려하여 캡처된 사용자 생산 이미지 분석

에스테반CEO는 “데이터베이스에 기반한 ‘기본’ 이미지 인식 방법으로는 위와 같은 도전들을 해결할 수 없습니다. 머신 러닝 컴퓨터 비전이 요구되는 과제들이었지요”라고 말했습니다.

Restb 는 딥 러닝 모델을 개발하기 위해 정확도를 최대화하도록 뉴럴 네트워크(neural network) 트레이닝에 힘썼습니다. 우선 판매 가능성이 있는 제품, 제품 소개에 동원될 수 있는 다양한 형태, 그 제품과 형태가 실제로 재현될 수 있는 배경 및 환경 등 막대한 데이터 세트를 구축하기 시작했지요.

 

GPU의 결정적 역할

Restb 는 엔비디아의 AI 스타트업 지원 프로그램인 인셉션(Inception)에 선정된 파트너사로, 엔비디아 테슬라(NVIDIA Tesla), 타이탄 X(TITAN X), 지포스(GeForce)등의 GPU를 주로 사용하고 있습니다. Restb 는 GPU 덕분에 신속하게 뉴럴 네트워크에서 반복되는 트레이닝 실험을 진행하여 총 트레이닝 시간을 몇 개월에서 며칠로, 나아가서 며칠에서 몇 시간으로 단축시켰습니다. 또한 딥 러닝 모델 개발에는 엔비디아 CUDA와 cuDNN를 사용했습니다.

추가적으로, Restb 의 클라우드 기반 솔루션은 원하는 정확성과 속도를 달성하기 위해서 GPU만이 구현할 수 있는 집중적인 연산력과 병행 컴퓨팅 성능을 필요로 합니다. 에스테반 CEO에 따르면 왈라팝 사용자가 웹사이트에 이미지를 업로드하는 경우, Restb가 개발한 API가 0.5초 내에 이미지를 인증하여 이미지가 자동으로 거절, 또는 허용되도록 만듭니다.

 

컴퓨터 비전의 지평을 넓히다

Restb는 왈라팝과의 사업을 통해 보다 까다로운 이미지 인식 과제 해결에 나섰습니다. 컴퓨터가 시각 정보를 이해하도록 만드는 것인데요. 가령, 부동산 업계는 Restb의 기술을 통해 천장이 높은 방이나 자연채광이 풍부한 방을 자동으로 파악할 수 있습니다.

에스테반 CEO는 “Restb가 기반을 닦고 있는 주요 영역 중 하나가 컴퓨터 비전을 사물 인식에서 개념 이해로 확장시키는 것입니다. 인간에게 이러한 분류는 쉬운 일이지만 자연광이라는 무형의 개념을 기계에게 설명한다는 것은 결코 만만치 않습니다”라고 말합니다.

그는 비주얼 해석의 개선은 추후 의료 업계의 판도도 전환시킬 수 있다고 설명합니다. 일부 국가의 경우 의료 인력의 부족으로 검사 결과가 수십만 개씩 분석 대기 상태입니다. 대부분의 검사 결과는 음성이겠지만, 검사 결과가 양성인 경우 이러한 지연으로 인해 환자의 진단이 너무 늦어질 수도 있습니다.

에스테반 CEO에 따르면 AI구동 컴퓨터 비전은 음성 결과를 모두 걸러내 의료진이 검사 결과가 양성이거나 모호한 사례만 검토할 수 있도록 지원할 수 있습니다.

에스테반CEO는 부동산을 비롯한 수많은 산업이 콘텐츠에 대한 이해 없이 수백만 장의 이미지를 가지고만 있다고 이야기합니다. Restb의 기술은 검색 엔진 최적화 결과를 향상시키고, 원하지 않는 이미지를 필터링하고, 사용자 경험을 상당히 개선시킬 수 있습니다.

에스테반 CEO는 “컴퓨터 비전의 비즈니스는 광범위하게 적용될 수 있으며, 그 파급력 또한 큽니다”라고 말했습니다.