현재 가장 널리 사용되고 있는 아파치 스파크(Apache Spark)의 3.0 버전이 공개되면서 전 세계 50만명 이상의 이용자들이 이 데이터 애널리틱스 애플리케이션으로 혁신적인 GPU 가속 기능을 경험할 수 있게 됐습니다.
데이터브릭스(Databricks)는 매일 수 백만 대의 가상머신에서 실행되는 선도적인 클라우드 기반 엔터프라이즈 스파크 플랫폼을 제공하고 있는데요. 미국 현지시간 기준으로 6월 22일부터 26일까지 온라인으로 진행되는 ‘스파크+AI 서밋(Spark + AI Summit)’ 컨퍼런스에서 데이터브릭스는 자사의 머신러닝용 런타임 7.0(Runtime 7.0)이 엔비디아, 그리고 기타 커뮤니티 회원들과 공동 개발한 스파크 3.0을 통해 GPU 가속기 인식 스케줄링 기능을 제공한다고 발표했습니다.
최근 구글 클라우드는 데이터프록 이미지 버전 2.0(Dataproc image version 2.0)에서 스파크 3.0 프리뷰를 제공한다고 알리면서, 오픈소스 커뮤니티와의 협업으로 더욱 강력해진 엔비디아 GPU 가속기를 언급했습니다. 7월 16일 엔비디아는 구글 클라우드와 웨비나를 공동 개최해 데이터 사이언티스트를 위한 새로운 기능들을 소개할 예정입니다.
또한 코드 변경 없이 ETL(추출, 변환, 로드) 및 데이터 전송을 가속화해 애널리틱스 성능을 엔드-투-엔드로 향상시키는 새로운 아파치 스파크용 오픈소스 래피즈(RAPIDS) 가속기도 공개됐습니다. 스파크의 성능 향상은 기업들이 보다 신속하게 통찰력을 확보할 수 있도록 할 뿐 아니라, 적은 인프라 투입으로도 워크로드를 완료할 수 있어 비용절감에 도움을 줍니다.
가속화된 데이터 애널리틱스
데이터는 조직들이 변화하는 기회와 잠재적 위협을 탐색하는 데 필수적이지만, 이를 위해서는 데이터에 숨겨진 핵심적인 단서 해독이 필요합니다. 고객이 웹사이트를 방문하거나, 고객 지원을 위해 전화 회의를 주최하거나, 혹은 일일 영업 보고서를 작성할 때마다 방대한 양의 정보가 생성됩니다. 인공지능(AI)이 부상하면서 데이터 애널리틱스는 기업들이 트렌드를 파악하고 변화하는 시장에서 우위를 점하는데 핵심적인 역할을 하게 됐습니다.
최근까지 데이터 애널리틱스는 소규모 데이터세트에 의존해 과거의 데이터와 그로부터 추출된 통찰력에 의존해왔습니다. 이러한 데이터는 전통적인 데이터 웨어하우스에 저장된 고도로 구조화된 데이터에서 ETL을 통해 분석됐습니다. 하지만, ETL은 종종 AI 기반 예측과 권고사항을 연구하는 데이터 사이언티스트들에게 병목현상으로 작용합니다. 데이터 사이언티스트들의 작업 시간의 70%~90%의 비중을 차지하는 ETL은 워크플로우를 늦추고, 시간 소모적인 작업에 인력이 낭비되도록 하기 때문입니다.
데이터 사이언티스트는 ETL 작업 과정에서 보다 나은 비즈니스 인텔리전스를 얻기 위해 모델을 재훈련하지 않습니다. 기존의 CPU 인프라는 이런 워크로드를 수용하기 위해 효율적으로 확장 가능하지 않기 때문에 비용이 대폭 증가하는 경우도 발생합니다. GPU로 가속화된 스파크를 통해 이제 의료, 엔터테인먼트, 에너지, 금융, 소매 등 다양한 산업에 걸친 기업들은 데이터 애널리틱스를 비용 효율적으로 가속화할 수 있게 됐습니다.
병렬 프로세싱을 통한 데이터 애널리틱스
GPU 병렬 프로세싱을 통해 컴퓨터는 한번에 여러 작업을 수행할 수 있습니다. 데이터센터에서 이런 기능들은 대규모로 확장돼 복잡한 데이터 애널리틱스 프로젝트를 지원합니다. AI와 머신러닝 툴, 그리고 병렬 프로세싱은 데이터 집약적인 분석과 이러한 워크로드를 구동하는 ETL 파이프라인을 가속화하는 데 핵심이 됩니다.
예컨대, 다음 분기에는 무엇을 구입해야 할지 예측하고자 하는 소매업체의 경우, 작년도 데이터는 물론 최근 판매량에 대한 조사도 필요합니다. 전문적 데이터 사이언티스트라면 날씨 모델도 추가해 우기 또는 건기에 따른 영향과 감정 분석 데이터도 통합해 어떤 트렌트가 올해 유행할지를 평가할 것입니다. 분석할 데이터 소스가 방대하므로 다양한 변수가 판매에 미치는 영향을 모델링하는 속도는 매우 중요합니다. 이는 바로 애널리틱스에 머신러닝이 활용되고, GPU가 핵심이 되는 이유입니다.
아파치 스파크 3.0의 역량을 최대로 이끄는 래피즈 가속기
데이터 사이언티스트가 기존의 분석방법에서 복잡한 시장 요구를 효과적으로 모델링하는 AI 애플리케이션으로 전환하게 되면, CPU 기반 프로세싱은 속도나 비용면에 영향을 받습니다. 애널리틱스에 AI 활용이 늘어나면서 GPU로 데이터를 신속하고 효율적으로 처리할 수 있는 새로운 프레임워크에 대한 요구도 커지고 있습니다.
아파치 스파크를 위한 새로운 래피즈 가속기는 스파크 분산 컴퓨팅 프레임워크를 강력한 래피즈 CuDF 라이브러리에 연결해 스파크 데이터프레임(Spark DataFrame)과 스파크 SQL(Spark SQL)의 GPU 가속화를 가능하게 합니다. 또한 래피즈 가속기는 스파크 노드간에 데이터를 이동하는 가장 빠른 경로를 찾아 스파크 셔플(Spark Shuffle) 작업을 가속화시킵니다.
아파치 스파크 3.0 버전 데모 영상은 해당 링크에서 확인해볼 수 있습니다.