데이터 사이언스로 새로운 기회를 창출하는 방법

아파치 스파크(Apache Spark)용 NVIDIA RAPIDS Accelerator를 통해 수조 개의 레코드를 더 빠르게 처리하면 비용을 절감하면서 네트워크를 최적화하고 고객 만족도를 높일 수 있습니다
by NVIDIA Korea

AT&T의 무선 네트워크는 알류샨(Aleutian) 열도의 1억 명 이상의 가입자를 미국 플로리다 키스(Keys)로 연결하면서 빅데이터의 바다를 생성합니다.

압하이 다브홀카르(Abhay Dabholkar)는 최고의 탐색 툴을 찾는 등대 역할을 하는 연구 그룹을 운영합니다.

AT&T에서 10년 이상 근무 중인 저명한 AI 아키텍트인 다브홀카르는 “AT&T의 일상 업무에 변화를 줄 수 있는 새로운 툴을 시험해 보는 것은 재미있습니다. 직원들에게 최고의 최신 툴을 제공하면 직원들의 직업 만족도가 높아집니다”라고 말했죠.

최근 그의 팀은 클러스터의 노드 간 작업을 분산시키는 소프트웨어인 아파치 스파크(Apache Spark)용 NVIDIA RAPIDS Accelerator를 GPU기반 서버에서 테스트했습니다.

그 결과, 한 달치의 모바일 데이터(2조 8천억 행의 정보)를 단 5시간 만에 처리했죠. 이는 이전 테스트보다 60% 저렴한 비용으로 3.3배 더 빠른 결과입니다.

놀라운 순간

다브홀카르는 “보통 CPU 클러스터에서 단 7일의 데이터를 처리하는 데 48시간 이상이 걸리기 때문에, 이는 놀라운 순간이었습니다. 과거에는 데이터가 있었지만 처리하는 데 시간이 너무 오래 걸려 사용할 수 없었습니다”라고 말했습니다.

특히 이 테스트는 새로운 통찰력을 발견하는 AI 모델을 훈련하는 데 사용하기 전에 데이터를 정리하는 추출, 변환, 로드 프로세스인 ETL을 벤치마킹했는데요.

그는 “이제 우리는 ETL과 스파크에서 수행하는 모든 종류의 배치 프로세싱 워크로드에 GPU를 사용할 수 있다고 생각하기 때문에, 기능 엔지니어링에서 ETL과 머신 러닝으로 작업을 확장하기 위해 다른 RAPIDS 라이브러리를 탐색하고 있습니다”라고 말했습니다.

현재 AT&T는 CPU 서버에서 ETL을 실행한 다음, 훈련을 위해 데이터를 GPU 서버로 이동합니다. 하나의 GPU 파이프라인에서 모든 작업을 수행하면 시간과 비용을 절약할 수 있다고 덧붙였습니다.

고객 만족, 네트워크 설계 속도 향상

비용 절감은 다양한 사용 사례에서 나타날 수 있습니다.

예를 들어 사용자는 최적의 연결을 얻을 수 있는 위치를 더 빨리 찾을 수 있어, 고객 만족도를 높이고 고객 이탈을 줄일 수 있습니다. 그는 “5G 타워와 안테나에 대한 파라미터도 더 빨리 결정할 수 있습니다”고 말했습니다.

RAPIDS 테스트를 감독한 팀의 선임 직원인 크리스 보(Chris Vo)는 지원 트럭을 배치하기 위해 AT&T 광섬유 풋프린트에서 어떤 영역을 식별하는 데 시간이 많이 걸리는 지리 공간 계산이 필요할 수 있으며, RAPIDS와 GPU가 이를 가속화할 수 있다고 말했습니다.

다브홀카르는 “하루에 300~400테라바이트의 새로운 데이터를 얻을 수 있게 된다면 이 기술은 놀라운 영향을 미칠 수 있습니다. 2~3주에 걸쳐 생성하는 보고서를 몇 시간 안에 완료할 수 있게 됩니다”라고 말했습니다.

세 가지 사용 사례와 계산

연구원들은 테스트 결과를 AT&T의 데이터 플랫폼 팀원들과 공유하고 있는데요.

그는 “작업이 너무 오래 걸리고 데이터가 많은 경우 GPU 실행을 권장합니다. 스파크를 사용하면 CPU에서 실행되는 동일한 코드가 GPU에서 실행됩니다”라고 말했습니다.

지금까지 다른 팀들이 세 가지 사용 사례에서 고유한 이점을 찾았습니다. 다른 팀들도 워크로드에 대한 테스트를 실행할 계획이 있습니다.

다브홀카르는 사업부가 이번 테스트 결과를 생산 시스템에 적용할 것이라고 낙관하고 있습니다.

그는 “AT&T는 매일 페타바이트의 데이터를 처리하는 다양한 종류의 데이터세트를 보유한 통신 회사이며, 이는 비용 절감에 큰 도움이 될 것입니다”라고 말했습니다.

미국 국세청을 비롯한 다른 사용자들도 비슷한 여정을 걷고 있습니다. 포춘(Fortune) 500대 기업의 80%를 포함해 13,000개 이상의 기업에서 아파치 스파크를 사용하고 있다는 점을 감안하면, 앞으로도 많은 기업들이 이 길을 택할 것으로 보입니다.

GTC에 무료로 등록하고 AT&T의 크리스 보의 경험 뿐만 아니라, 다양한 세션에서 데이터 사이언스에 대해 다시보기를 해보세요. NVIDIA CEO 젠슨 황(Jensen Huang)의 키노트도 들을 수 있습니다.