트레이닝된 뉴럴 네트워크(neural network)의 의사 결정 및 예측 가속화를 지원하는 추론, 즉 AI의 추론 속도를 향상시키는 연구가 점점 더 각광받고 있습니다.
신속하고 강단 있는 판단은 뛰어난 성과로 이어지기 때문에 이와 같은 현상은 자연스러운데요. 사실 빠른 판단을 내릴 수 있는 사람들은 자신의 분야에서 최고의 지위까지 오르는 경우가 많습니다.
본능적인 감에 따라 수익률 높은 거래를 하는 금융권 증권업자, 상대편의 모든 움직임을 읽는 테니스 선수를 생각해보세요. 이들은 알고 있는 지식이 풍부할 뿐만 아니라 빠른 행동력을 보여주곤 합니다.
그리고 이제 이러한 전문가들이 초인적인 속도를 발휘하는 것까지 상상해볼 수 있는 시대가 도래했습니다.
지난 7월 말에는 컴퓨터비전과 패턴 인식 컨퍼런스인 ‘CVPR 컨퍼런스(Computer Vision and Pattern Recognition)’가 개최되었는데요. 이 자리에서 엔비디아는 DGX 스테이션(DGX Station)이 엔비디아 텐서RT(NVIDIA TensorRT)를 구동하는 방법을 선보이면서 DGX 스테이션에 탑재된 4대의 테슬라 V100(Tesla V100) 중 단 한 개만을 이용해서 GPU가 없는 시스템 대비 일반적인 추론 업무를100배 이상 빠르게 처리하는 방법을 제시했습니다.
이 동영상을 함께 볼까요? 우측은 CPU만 갖춘 인텔 스카이레이크 기반 시스템이 레스넷(Resnet)-152로 트레이닝하여 분류화된 네트워크로, 초당 5개의 꽃 이미지를 분류하는 모습을 보여줍니다. 이 역시 인간 능력을 능가하고도 남을 만한 속도인데요.
이에 비해 좌측은 테슬라 V100 GPU 1대를 사용해 초당 자그마치 527개의 꽃 이미지를 분류하고 있는 모습을 보여줍니다. 분류 작업에 대한 지연속도가7 밀리세컨드 미만으로 나타나는 정말 초인적인 속도이지요.
100배 뛰어난 속도는 상당히 인상적인 성능입니다. 하지만 AI 가속화로 인한 이점은 이것만이 전부는 아닌데요. 그렇다면 가능한 신속하게, 엔비디아 식대로 말하자면 “빛의 속도”로 작업을 처리하기까지 드는 비용은 어느 정도일까요?
놀랍게도 속도가 빨라질수록 비용은 낮아집니다. 엔비디아 GPU 기반 시스템 1대가 CPU 기반 시스템 100대의 몫을 하기 때문에 대여하거나 구매해야 할 클라우드 서버의 수가 100배나 줄어들기 때문입니다.
숨겨진 비용: 지연 비용
AI 및 컴퓨터 비전 소프트웨어 기업인 Wrnch의 CEO 겸 창립자인 Paul Kruszeski는 지연 비용은 CPU와 GPU의 추론 기능을 비교할 때 꼭 고려되어야 할 비용이라고 말합니다. Wrnch는 엔비디아의 인셉션(Inception) 프로그램의 지원을 받는 스타트업으로 마크 큐반(Mark Cuban)으로부터 투자를 받은바 있습니다.
Wrnch가 최근 출시한 BodySLAM AI 엔진은 엔비디아 GPU및 엔비디아 텐서RT 추론 옵티마이저와 런타임을 기반으로 합니다. BodySLAM AI 엔진은 바디랭귀지를 실시간으로 판독하여 인터랙티브 아동용 놀이 애플리케이션 등에 사용됩니다.
Paul Kruszeski는 “CPU로만 애플리케이션을 개발했다면 아이들은 3초간의 재미를 위해 1분 30초를 기다려야 했을 것입니다. 1분 30초는 아이들에게는 영원처럼 느껴지는 시간이지요”라고 말했습니다.
테슬라 V100 GPU 가속기를 장착한 엔비디아 DGX 스테이션에 대한 자세한 내용이 궁금하다면 여기를 통해 확인해 주세요.
엔비디아 개발자 프로그램 회원은 엔비디아 텐서RT를 무료로 다운로드 해 데이터 센터, 자동차, 로봇, 드론 등 기타 첨단 장비에 도입된 엔비디아 GPU의 AI 추론을 가속화할 수 있습니다. 여기를 클릭해서 보다 자세한 내용을 살펴보세요.