끈기와 적절한 업무도구를 통해 데보라 타일러(Deborah Tylor)가 불가능한 일을 수행할 수 있었습니다.
데이터 사이언티스트인 데보라 타일러는 국세청에서 3테라바이트 이상의 데이터 세트를 조사해 부정행위를 적발하는 패턴을 찾는 업무를 담당했습니다. 하지만 대규모 CPU 서버 뱅크에서 밤새도록 작업을 했지만 데이터는 패턴으로 정렬되지 않았죠.
다음날 아침에도 데보라 타일러는 그 작업에 매달렸지만 결과는 실패였고, 다시 시도를 했지만 실패가 거듭됐습니다.
그 즈음에, 클라우데라(Cloudera)의 나샤브 이스마엘리(Nasheb Ismaily)는 국세청 데이터 분석지원 기술팀 관리자인 라울 티케카르(Rahul Tikekar)의 사무실 문을 두드렸습니다. 클라우데라 솔루션 엔지니어인 나샤브 이스마엘리는 그에게 팀이 CDP(Cloudera Data Platform)를 사용해 GPU가속 Apache Spark 3.0 소프트웨어를 구현해본 적이 있었는지 물었죠.
라울 티케카르는 “저는 그 기회를 잡았습니다. 저희는 NVIDIA 그래픽 카드를 독립 실행형 서버에 갖추고는 있었지만 Spark를 사용해 분산 클러스터에서 그 그래픽 카드를 실행해본 적은 없었기 때문에, 저희로서는 완벽한 사용사례를 만드는 데 이 때가 매우 적절한 시기였습니다”라고 말했습니다.
NVIDIA와 클라우데라의 결합으로 업무 성능 향상
국세청 기술팀은 Apache Spark 3.0 소프트웨어를 빠르게 테스트했더니 코드 변경 없이도 데보라 타일러의 작업 중 많은 부분의 속도를 5배 향상시킬 수 있었습니다. 하지만 여전히 지연되는 작업이 일부 남아있었죠.
나샤브 이스마엘리는 NVIDIA의 데이터 사이언티스트 팀을 소환해 핵심 코드를 조사했습니다. 그 결과, 특별히 비효율적인 데이터 구조가 있었던 몇몇 작업이 여전히 CPU에서 실행되고 있었다는 것을 빠르게 결론 내릴 수 있었습니다. NVIDIA 팀은 그 작업에 관련한 코드를 작성해 GPU에서 데이터 분석을 실행하는 오픈 라이브러리 RAPIDS용 Spark 소프트웨어 인터페이스에 입력했습니다.
데보라 타일러는 또 다른 테스트를 실행했습니다. 국세청 관리자 라울 티케카르는 “그 테스트는 매우 성공적이었습니다. 모든 게 분산 Spark 클러스터 GPU에서 진행됐고 속도도 놀라울 정도였습니다. 현재 데보라 타일러는 4개 노드 클러스터에서 전체 프로그램을 실행하고 있습니다”라고 전했습니다.
국세청 연구 및 응용 분석 그리고 통계 부서의 기술 지사장이자 라울 티케카르의 상사인 조 안살디(Joe Ansaldi)는 “클라우데라와 NVIDIA의 결합으로 저희는 데이터 중심의 통찰력을 통해 업무 수행에 가장 중요한 사용 사례를 강화할 수 있을 것입니다”라고 말했습니다.
조 안살디 지사장은 “저희는 현재 이런 결합을 구현하면서, 이미 데이터 엔지니어링과 데이터 과학 워크플로우의 비용이 절반으로 감소하고 속도는 20배 이상 빨라졌습니다”라고 덧붙였습니다.
Spark 3.0 + GPU = 신세계
이 작업은 국세청 팀이 이미 모색 중인 몇 가지 성과를 약속합니다.
GPU기반 서버의 Spark 클러스터로, 국세청 팀은 현재의 모든 업무를 가속화하고 기존에 불가능했다고 생각했던 다른 업무를 실행하고 있습니다. 그런 작업들은 작업팀이 원하는 대로 이용할 수 있는 대규모 데이터세트를 처리할 수 있습니다.
국세청의 라울 티케카르는 “Spark 3.0 이전에 이런 업무 수행은 불가능했습니다. 하지만 현재 저희는 GPU로 업무 역량을 높였고 한때 불가능했던 문제를 해결할 수 있다는 포부를 갖게 됐습니다”라고 말했습니다.
인공지능(AI) 강의 계획
국세청 팀은 소위 ETL(추출/변환/부하, extract/transform/load) 데이터분석 작업이라고 불리는 데이터 준비에 성공을 거두며 배웠던 부분을 적용할 계획을 세웁니다. 크게 도약할 다음 단계는 Al 추론 작업을 본격적으로 가속화하는 것입니다.
라울 티케카르는 “클라우데라와 NVIDIA의 파트너십으로 저희는 클러스터에서 GPU를 활용할 수 있었습니다. 그러한 큰 변화가 생기면 그 기술 성능을 실현시키고 이를 사용하는 앱을 개발하는 데는 시간이 소요됩니다. 따라서 데보라 타일러는 저희를 위해 신규 AI 강좌를 준비하고 있습니다. 데보라 타일러는 정말 이 일에서 영웅이 됐습니다”라고 말했죠.
특히 이 국세청 팀은 분석가들에게 분산 Spark-GPU 인프라를 제공하는 것을 목표로 합니다. 그 두가지가 합쳐져 현재 단일 서버에서 불가능한 자연어 처리와 그 밖의 분석 작업을 다루는 대규모 딥 러닝 신경망을 구축하게 될 것입니다.
머신 러닝을 위한 많은 애플리케이션
분산 Spark-GPU 인프라는 현재 많은 기업들이 머신 러닝으로 얻고자 하는 변화를 가져다줍니다.
국세청에 13년 전에 합류하기 전에 서던오레곤 대학(Southern Oregon Univ.)에서 10년간 컴퓨터과학을 가르쳤던 라울 티케카르 박사는 “개인적인 생각으로 머신 러닝은 수행하기 까다로웠던 작업을 성공적으로 수행할 수 있는 대단한 잠재력이 있습니다”라고 밝혔습니다.
“예를 들어, 현재 우리는 문서양식을 스캔하여 광학문자인식기를 적용해 문서를 읽히지만, AI를 활용하면 문서양식을 읽고 ID 도용범죄나 폐기물을 줄이는 데 도움이 되는 패턴을 찾는 작업을 훨씬 효율적으로 할 수 있습니다. 많은 애플리케이션이 수많은 방식으로 AI로부터 혜택을 얻을 수 있습니다”라고 덧붙였죠.
NVIDIA GPU기반 클라우데라의 CDP 7.1.6를 가속하는 방법에 대해 더욱 자세히 살펴보고 싶다면 두 기업이 파트너십을 발표한 2020년 10월에 개최한 GTC 대담을 시청해보세요. 등록 시청은 무료입니다.
아래 클라우데라 데모 동영상을 통해 NVIDIA GPU와 RAPIDS를 통해 데이터 과학 워크로드 속도를 CPU 대비 44배 향상시킨 내용을 시청해보세요.