인공지능, 소프트웨어를 먹어 치우다

by NVIDIA Korea

소프트웨어가 세상을 먹어 치우고 있다(Software is eating the world)”

  • 마크 안드레센(Marc Andreessen), 2011

 

2017년, 6년이 지난 지금은 ‘인공지능(AI)이 소프트웨어를 먹어 치우고 있다(AI is eating software)’는 말이 나오고 있습니다.

엔비디아 젠슨 황(Jensen Huang) CEO는 지난 5월에 열린 GPU 테크놀로지 컨퍼런스의 주요 성과와 함께 이번 행사에서 논의된 주요한 기술 인사이트 및 트렌드를 직접 정리하여 엔비디아 공식 블로그를 통해 발표했습니다. 블로그 내용을 통해 소프트웨어를 먹어 치우고 있는 AI 기술의 현 주소를 함께 살펴볼까요?

 

엔비디아, 모든 컴퓨팅 플랫폼, 프레임워크, 그리고 인류의 과제를 위해 인공지능(AI) 구현

5월 초에 성공리에 개최된 GPU 테크놀로지 컨퍼런스(GPU Technology Conference)는 인공지능에 대해 의구심을 품고 있던 사람들까지 AI 기술에 대한 놀라운 모멘텀을 입증하는 계기가 되었습니다.  지난 5월 8일부터 11일까지 4일 동안 실리콘밸리에서 개최된 GTC에는 미디어, 엔터테인먼트, 헬스케어, 운송 분야의 세계적인 기업들이 참석, GPU 컴퓨팅이 가능케 한 새로운 돌파구에 대한 이야기들을 공유했습니다.

GTC는 매년 새로운 역사를 쓰고 있습니다. 제8회 GTC에는 7천명 이상이 참가하고, 150개 기업이 전시에 참여했으며, 600여개의 기술 세션이 진행되는 등 역대 최대 규모를 기록했습니다. 그리고 세계 15대 기술 기업, 10대 자동차 제조사, AI 및 VR 전문 벤처 기업 100개 이상이 참석했습니다.

이토록 GTC가 성황리에 마무리될 수 있었던 배경에는 강력한 주요 산업 트렌드들 간의 융합이 있었는데요. 컴퓨팅 파워는 무어의 법칙의 정체현상 없이 비약적인 발전을 하며 인공지능의 발전을 이끌고 있습니다. 인공지능 개발자들은 현재 인류가 직면한 여러 난제를 해결하기 위해 경쟁적으로 새로운 프레임워크를 구축하는 중이지요. 개발자들은 강력한 클라우드 서비스부터 클라우드 엣지에 있는 기기에 이르기까지, 모든 영역에서 AI 소프트웨어를 구동 시키고자 합니다.

 

AI 컴퓨팅의 시대–GPU 컴퓨팅의 시대

최첨단 AI 컴퓨팅 아키텍처 볼타(Volta) 공개
최첨단 AI 컴퓨팅 아키텍처 볼타(Volta) 공개

 

엔비디아는 GTC에서 볼타(Volta)를 공개했습니다. 볼타는 CUDA 아키텍처의 발명 이후 최고의 도약이라고 할 수 있습니다. 볼타는 210억개의 트랜지스터를 장착했고, 엔비디아에 최적화된 12nm TSMC 공정에 기반합니다. 삼성의 최고속 HBM 메모리를 탑재하여 새로운 숫자 형식 및 CUDA 지시를 통해 기본적인 딥 러닝 연산인 4×4 행렬 연산을 초고속으로 수행할 수 있는 것이 특징입니다.

각각의 볼타 GPU는 120 테라플롭의 성능을 지니고 있습니다. 엔비디아의 DGX-1 AI 슈퍼컴퓨터는 테슬라(Tesla) V100 GPU 8개를 상호 연결하여 1 페타플롭 급의 딥 러닝 성능을 구현합니다.

 

구글 TPU

얼마 전, 구글은 I/O 컨퍼런스에서 45 테라플롭 급 성능의 TPU2 칩을 발표했습니다.

인공지능 컴퓨팅 경쟁의 선두주자인 엔비디아와 구글이 텐서플로우(TensorFlow) 성능을 튜닝하고, 엔비디아 CUDA GPU와 함께 구글 클라우드 가속화를 추진하는 등 포괄적이고 긴밀한 협업을 하는 모습은 고무적입니다. 인공지능은 인류 역사상 가장 위대한 기술력입니다. 인공지능의 대중화와 상용화를 앞당기기 위한 노력들을 보는 것은 정말 멋진 일이지요.

 

무어의 법칙의 종언, 이후의 성장

무어의 법칙이 점차 둔화되는 반면, GPU 컴퓨팅의 성능은 급속히 증가하고 있습니다.
무어의 법칙이 점차 둔화되는 반면, GPU 컴퓨팅의 성능은 급속히 증가하고 있습니다.

 

무어의 법칙의 둔화에도 불구하고 AI 혁명은 이미 도래해 있는 현실입니다. 무어의 법칙은 데나드 스케일링(Dennard scaling)과 CPU 아키텍처 발전이 결합된 효과라고 할 수 있는데요. 사실상 무어의 법칙은 10여 년 전부터 둔화되기 시작했습니다. 데나드 스케일링은 트랜지스터의 크기와 전압을 줄임으로써 설계자가 트랜지스터의 밀도 및 속도는 개선하되 전력 밀도를 유지하는 것입니다. 하지만 데나드 스케일링은 이제 장치 물리학적 제약에 직면했습니다.

CPU 아키텍트들은 명령어 수준 병렬성(ILP: instruction-level parallelism)만을 구현할 수 있고, 이마저도 회로와 에너지의 대폭적인 증가가 불가피합니다. 따라서 무어의 법칙이 막을 내린 시대에서는 CPU 트랜지스터와 에너지가 급증해도 애플리케이션 성능 향상은 미미하게 나타납니다. 과거 50%에 달했던 연간 성능 개선율은 최근 연간 10%까지 하락했습니다.

엔비디아가 주도해온 가속 컴퓨팅 방식은 알고리즘의 특정 영역만을 대상으로 하고 있는데요. CPU를 오프로드하기 위해 전문화된 프로세서를 추가하고, 산업별 개발자들이 참여해서 엔비디아 아키텍처에 최적화함으로써 애플리케이션을 가속화시킵니다. 엔비디아는 알고리즘, 솔버(solver), 애플리케이션 등 모든 스택에서 병목 현상을 제거함으로써 빛의 속도를 달성할 수 있도록 노력하고 있습니다.

이와 같은 노력이 바로 볼타가 인공지능 작업 부하에서 놀라운 속도 향상을 구현할 수 있었던 이유입니다. 볼타의 최대 테라플롭 성능은 현 세대 엔비디아 GPU 아키텍처인 파스칼(Pascal) 대비 5배, 2년 전 출시된 맥스웰(Maxwell) 아키텍처 대비 15배 가량 개선되어 무어의 법칙으로 예측할 수 있는 수준을 넘어서고 있습니다.

 

인공지능을 향한 모든 접근 가속화

인공지능 혁명을 중심으로 생태계 확장
인공지능 혁명을 중심으로 생태계 확장

 

이러한 비약적인 성능의 발전은 모든 산업에서 혁신 기업들의 탄생을 이끌어냈습니다. GPU 구동 인공지능 서비스를 구축하고 있는 스타트업은 지난 일년간 4배 이상 증가해 1,300여개에 이릅니다.

깃허브(GitHub) 오픈소스 소프트웨어 등록 사이트에서 선도적인 AI 프레임워크를 활용하고 있는 개발자들의 수는 지난 2년 사이 5천 명 미만에서 7만 5천 명 이상으로 증가했습니다.

엔비디아 볼타의 성능을 활요해 트레이닝 시간의 단축 및 멀티 노드 트레이닝 성능 강화를 구현하는 최신 프레임워크
엔비디아 볼타의 성능을 활요해 트레이닝 시간의 단축 및 멀티 노드 트레이닝 성능 강화를 구현하는 최신 프레임워크

 

딥 러닝은 모든 주요 기술 기업들이 당면한 전략적 명제입니다. 딥 러닝은 인프라에서 도구, 제품 생산 방식에 이르기까지 모든 영역에 빠르게 스며들고 있습니다. 엔비디아는 성능 최대화를 위해 모든 프레임워크 개발업체들과 협력하고 있습니다. 하나의 모델을 트레이닝 하는 데에는 수백 번의 반복 작업이 필요한데요. 각 프레임워크를 엔비디아의 GPU에 최적화하여 작업 당 몇 시간에서부터 며칠까지 생산성을 개선시킬 수 있습니다. 카페2(Caffe2), 체이너(Chainer), 마이크로소프트 코그니티브 툴킷(Cognitive Toolkit), MXNet, PyTorch, 텐서플로우는 볼타에 완벽하게 최적화될 예정입니다.

PC, 데이터센터, 클라우드 등 모든 곳에서 AI 개발자가 엔비디아의 딥 러닝 소프트웨어 스택에 접근하 ㄹ수 있도록 해주는 엔비디아 GPU 클라우드
PC, 데이터센터, 클라우드 등 모든 곳에서 AI 개발자가 엔비디아의 딥 러닝 소프트웨어 스택에 접근하 ㄹ수 있도록 해주는 엔비디아 GPU 클라우드

 

엔비디아는 개발자들이 장소와 프레임워크에 구애 받지 않고 작업할 수 있는 환경을 만들고자 합니다. 엔비디아는 데이터를 내재화하고 싶은 기업을 위해 강력한 신규 워크스테이션과 서버를 GTC에서 소개했습니다.

가장 활기 넘치는 환경은 2,470억 달러 규모의 공공 클라우드 서비스 시장입니다. 지난 6개월 간, 알리바바(Alibaba), 아마존(Amazon), 바이두(Baidu), 페이스북(Facebook), 구글(Google), IBM, 마이크로소프트(Microsoft), 텐센트(Tencent)가 자사의 데이터센터에 엔비디아 GPU를 채택했습니다.

혁신 기업들이 이러한 클라우드 서비스로 원활하게 이동할 수 있도록, 엔비디아는 GTC에서 엔비디아 GPU 클라우드 플랫폼을 발표했습니다. 엔비디아 GPU 클라우드 플랫폼에는 모든 프레임워크의 사전 설정과 최적화된 스택 레지스트리가 등록되어 있습니다. 소프트웨어의 각 레이어와 모든 조합이 튜닝과 테스트를 거쳐 NVDocker 컨테이너에 포함되어 있습니다. 엔비디아는 계속해서 이를 보강하고 유지할 계획입니다. 모든 버그는 발견될 때마다 수정 작업을 진행하며, 플랫폼은 원활하게 가동되고 있습니다.

 

자동화 기기의 캄프리아기 대폭발

원래 데이터의 특징을 포착할 수 있는 딥 러닝을 통해 자동화 기기의 폭발적인 성장 조건이 마련되었습니다. 그 조건이란 바로 인공지능과 사물 인터넷(IoT)의 결합인데요. 인공지능으로 구동되는 기기들이 앞으로 수십 억, 수조 억 대에 달할 전망입니다.

GTC에서 엔비디아는 세계 10대 기업이자 세계에서 가장 존경 받는 기업 중 하나인 토요타(Toyota)가 자사의 자율주행 차량에 엔비디아의 기술을 사용한다고 발표했습니다.

엔비디아는 로봇 제작을 위한 가상화 로봇인 아이작(Isaac)도 발표했는데요. 현재의 로봇은 수동 프로그래밍 되어 프로그램된 작업만을 정확하게 수행합니다. 나선형의 뉴럴 네트워크을 통해 자율주행 차량에 필요한 컴퓨터 비전이라는 획기적인 기술을 확보했듯이, 증강 학습과 모방 학습이 로봇을 현실화시키는 열쇠가 될지도 모릅니다.

GTC에서 소개된 아이작은 증강학습과 모방 학습을 로봇기술에 접목시킵니다.
GTC에서 소개된 아이작은 증강학습과 모방 학습을 로봇기술에 접목시킵니다.

 

로봇의 두뇌는 트레이닝을 거친 후 모듈 형태의 엔비디아 AI 슈퍼컴퓨터인 젯슨(Jetson)으로 다운로드됩니다. 이 후 로봇은 가상현실과 실제 세계 사이의 차이에 적응하게 되며 이러한 방식으로 새로운 로봇이 탄생하게 됩니다. GTC에서는 아이작의 하키와 골프 학습 방법이 공개되었습니다.

마침내 엔비디아는 딥 러닝 액셀러레이터(Deep Learning Accelerator, DLA)를 오픈 소스로 제공하고 있습니다. 엔비디아의 추론 전용 TPU인 DLA는 AI 차량용 슈퍼칩인 자비에(Xavier)에 탑재되어 있는데요. 다른 기업들이 추론용 TPU 구축에 투자할 필요없이 인공지능 기술의 발전에 집중 할 수 있도록 엔비디아는 세계 최고의 칩 디자이너들이 설계한 제품을 무료로 제공하고 있습니다.

 

우리 시대의 아인슈타인과 다빈치를 위하여

이러한 최근 사례들은 엔비디아 GPU 컴퓨팅이 어떻게 우리 시대의 다빈치와 아인슈타인을 위한 핵심 도구가 되었는지 보여주고 있습니다. 개발자들에게 엔비디아의 기술은 타임머신과 같습니다. 엔비디아는 3D 그래픽 기술에 대한 끝없는 수요와 방대한 게임 시장을 토대로 GPU를 컴퓨터의 뇌로 진화시켰고 가상현실과 인공지능의 흥미로운 교차점에서 혁신의 물결을 일으키고 있습니다.