세계 최고 데이터 애널리틱스 플랫폼 ‘아파치 스파크’ 가속화 지원하는 엔비디아

엔비디아 GPU로 오픈 소스 커뮤니티 스파크 3.0 가속화 지원, 코드 변경없이 추출·변환·로드(ETL)부터 훈련 및 추론에 이르는 수만 테라바이트 데이터 가속화 가능해졌습니다
by NVIDIA Korea
1

전세계 50만 명 이상의 데이터 사이언티스트가 사용하는 빅데이터 처리용 분석 엔진인 아파치 스파크 3.0(Apache Spark 3.0)에 엔드-투-엔드 GPU 가속화를 지원하기 위해 엔비디아가 오픈소스 커뮤니티와 협력했습니다.

이로써, 데이터 사이언티스트와 머신러닝 엔지니어들은 SQL 데이터베이스 운영을 통해 광범위하게 수행되는 추출·변환·로드(ETL) 데이터 처리 워크로드에 혁신적인 GPU 가속화를 최초로 적용할 수 있게 됐습니다.

또한, AI 모델 훈련은 별도의 인프라에서 별도의 프로세스로 워크로드를 실행하는 대신 동일한 스파크 클러스터에서 처리할 수 있게 됩니다. 이를 통해, 전체 데이터 사이언티스트 파이프라인에서 고성능 데이터 애널리틱스가 가능해져 온프레미스 및 클라우드에서 실행되는 스파크 애플리케이션을 위한 기존 코드를 변경하지 않고도 데이터 레이크에서 모델 훈련에 이르는 수만 테라바이트(TB)의 데이터를 가속화할 수 있습니다.

매누버 다스(Manuvir Das) 엔비디아 엔터프라이즈 컴퓨팅 총괄은 “데이터 애널리틱스는 오늘날 기업들과 연구원들이 고성능컴퓨팅(HPC)과 관련해 직면해 있는 최대 과제입니다. ETL부터 훈련, 추론에 이르기까지 스파크 3.0 파이프라인 전반에 걸친 네이티브 GPU 가속화는 빅데이터의 잠재력과 AI가 가진 힘을 연결하는 데 필요한 성능과 규모를 제공합니다”고 말했습니다.

엔비디아와 전략적 AI 파트너십을 맺고 있는 어도비(Adobe)는 데이터브릭스(Databricks)에서 실행되는 아파치 스파크 3.0의 프리뷰 버전을 추진하는 최초의 회사 중 하나입니다. 이는 어도비 익스피리언스 클라우드(Adobe Experience Cloud) 제품 개발을 위한 GPU 가속 데이터 애널리틱스를 사용하고, 디지털 비즈니스를 강화하는 기능을 지원해 초기 테스트에서 7배의 성능 향상과 90%의 비용 절감을 달성했습니다.

아파치 스파크 3.0의 성능 향상으로 데이터 사이언티스트들은 더 큰 데이터세트를 가진 모델을 훈련시키고 모델을 더 자주 반복 훈련할 수 있게 되어 모델 정확도를 높일 수 있습니다. 이를 통해, 매일 테라바이트에 달하는 새로운 데이터 처리가 가능해져, 온라인 추천 시스템을 지원하거나 새로운 연구 데이터를 분석하는 데이터 사이언티스트들에게 상당한 도움이 될 것으로 기대됩니다. 뿐만 아니라, 처리 속도가 빨라지면 결과를 제공하는데 필요한 하드웨어 리소스가 줄어들어 상당한 비용 절감 효과를 거둘 수 있습니다.

윌리엄 얀(William Yan) 어도비 머신러닝 부문 수석 디렉터는 “엔비디아로 가속화된 아파치 스파크 3.0을 사용하면 CPU에서 스파크를 실행하는 것보다 성능이 훨씬 빨라지는 것을 확인할 수 있습니다. 이 같은 획기적인 GPU 성능으로 인해, 어도비 익스피리언스 클라우드 애플리케이션 전체 제품군에서 AI 기능을 향상시킬 수 있는 완전히 새로운 가능성이 열렸다”고 말했습니다.

엔비디아와 데이터브릭스, 엔비디아 래피즈(RAPIDS)로 스파크 최적화 위해 협력

아파치 스파크는 데이터브릭스의 창립자들에 의해 개발됐으며, 이들의 클라우드 기반 유니파이드 데이터 애널리틱스 플랫폼(Unified Data Analytics Platform)은 매일 100만 대 이상의 가상머신(VM)에서 구동됩니다.

엔비디아와 데이터브릭스는 데이터브릭스용 래피즈(RAPIDSTM) 소프트웨어 스위트를 통해 스파크를 최적화하기 위해 협력하고 있으며, 의료, 금융, 리테일 및 기타 산업 전반에 걸쳐 데이터브릭스에서 실행되는 데이터 사이언티스트 및 머신러닝 워크로드에 GPU 가속화를 지원하고 있습니다.

마테이 자하리아(Matei Zaharia) 아파치 스파크 창안자 겸 데이터브릭스 최고기술책임자(CTO)는 “엔비디아와의 지속적인 협업은 아파치 스파크 3.0 및 데이터브릭스를 위해 래피즈를 최적화하여 성능을 향상시킴으로써 어도비와 같은 고객들에게 혜택을 줄 수 있도록 합니다. 이로 인해, 데이터 파이프라인, 모델 훈련 및 스코어링이 더욱 빨라져 데이터 엔지니어와 데이터 사이언티스트 커뮤니티에 더 많은 혁신과 통찰력을 제공할 수 있게 됩니다”고 설명했습니다.

엔비디아 GPU를 통해 스파크에서 ETL 및 데이터 전송 속도 향상

엔비디아는 데이터 사이언티스트가 파이프라인의 성능을 엔드-투-엔드로 향상시킬 수 있도록 오픈소스 아파치 스파크용 래피즈 가속기에도 기여하고 있습니다. 가속기는 이전에 CPU에 의해 작동되었던 기능 대신 GPU를 사용하여 다음과 같은 작업을 수행합니다.

  • 코드 변경 없이 스파크 SQL 및 데이터프레임(DataFrame) 운영 성능을 획기적으로 개선하여 스파크에서 ETL 파이프라인을 가속화합니다.
  • 머신러닝 및 딥 러닝을 위해 별도의 클러스터가 필요 없이 동일한 인프라에서 데이터 준비 및 모델 훈련을 가속화합니다.
  • 스파크 분산 클러스터의 노드 간 데이터 전송 성능을 가속화합니다. 이 라이브러리는 UCF 컨소시엄의 오픈소스 유니파이드 커뮤니케이션 X(Unified Communication X, UCX) 프레임워크를 활용하고, GPU 메모리 간에 데이터를 직접 이동시켜 레이턴시를 최소화합니다.

현재 아파치 소프트웨어 파운데이션(Apache Software Foundation)에서 스파크 3.0의 프리뷰 버전 이용이 가능하며, 향후 몇 개월 안에 정식 출시될 것으로 예상됩니다. 자세한 내용은 www.nvidia.com/spark에서 확인할 수 있습니다.