엔비디아 머신 러닝 RAPIDS GPU 가속 플랫폼에 주목해야 하는 이유

매년 데이터가 배로 증가하고 있나요?

머신 러닝을 위한 데이터 수집과 준비가 너무 오래 걸리나요?

머신 러닝 훈련 시간이 지나치게 길어서 실제 예측 적용이 지연되고 있나요?

실시간 예측 분석이 필요한 지능형 기업입니까?

자, 위 질문들에 “YES”라고 대답을 했다면 NVIDIA RAPIDS에 대한 이번 내용을 자세히 읽어보세요.

RAPIDS는 GPU 가속화된 데이터 과학과 데이터 분석을 제공하는 오픈소스 라이브러리 세트입니다. 이 라이브러리들을 통해 데이터프레임(cuDF)부터 모델 훈련(cuML), 시각화까지 전체 워크플로우를 가속화할 수 있죠. 아파치 애로우(Apache Arrow) 인메모리 데이터 구조 기반으로 구현된 RAPIDS는 판다스(pandas), 사이킷런(scikit-learn)과 거의 동일한 파이썬 인터페이스를 제공합니다.

데이터프레임(cuDF)은 아파치 애로우(Apache Arrow)를 바탕으로 한 GPU를 가속화한 데이터 프레임 조작 라이브러리로서, 훈련 데이터 관리를 위해 설계됐습니다. CUDA C++ 커널들이 파이썬 바인딩을 통해 판다스(pandas) API로 미러링되어, 기존 판다스 사용자들이 쉽게 적응할 수 있습니다. 머신 러닝 라이브러리(cuML)은 GPU 가속화된 머신 러닝 라이브러리로서, 샤이킷 런의 모든 머신 러닝 알고리즘을 제공합니다.

RAPIDS는 모델 정확도와 훈련 시간, 인프라 비용을 극적으로 개선합니다. 엔비디아 DGX-2 상의 초기 벤치마크 결과를 보면 RAPIDS 사용시 CPU 전용 시스템 대비 50배나 빨라졌습니다. 이는 실험 수 시간이 걸리던 반복 시간을 수 분으로 단축하죠.

RAPDIS는 쿠다(CUDA) 기반으로 구현됐으며, 간단하고 친숙한 프로그래밍 인터페이스를 제공합니다. 따라서 데이터 과학자들이 계산 집약적인 작업(데이터 로딩, 필터링과 조작, 머신 모델 훈련)을 CPU 병목 없이 GPU에서 직접 수행할 수 있도록 지원하죠.

데이터 과학자는 비즈니스 ROI를 위해 데이터 탐색과 분지, 모델 구축을 책임지는데요. 일반적으로 판다스(pandas), 사이킷런(scikit-learn), 파이썬, R 등의 도구를 사용합니다. 하지만 지연되는 데이터 준비 과정과 느린 모델 훈련은 데이터 과학자들의 인사이트를 방해합니다.

가령, RAPDIS 이전의 데이터 과학 워크플로우에서는 머신 러닝 훈련 뿐 아니라 데이터 로딩과 필터링, 조작에도 너무 많은 시간이 소요됐습니다. 일련의 과정은 속도가 느린 CPU 컴퓨팅의 제약을 받았으며, 데이터 과학자들은 실험이 끝나기만 기다리며 비능률적인 시간을 보내기 십상이었죠.

RAPIDS는 이러한 낭비되는 노력을 제거해 데이터 과학 팀의 ROI를 향상할 수 있습니다. 또한 최대의 모델 정확도를 통해 보다 나은 결과와 성능을 내기 위한 빠른 반복 실험도 가능하게 하며, 극한의 TCO를 절감함으로써 데이터센터 인프라 비용도 극적으로 절감시킬 수 있죠.

RAPIDS는 다음과 같은 이유에서 CPU가속 머신 러닝 워크플로우보다 우수합니다.

GPU 가속을 통해 머신 러닝 워크플로우를 빠르게 합니다.
XG부스트(XGBoost) 등 대중적인 머신 러닝 알고리즘에 최적화됐으며, 성능과 확장성을 위해 멀티 GPU, 멀티 노트 아키텍처를 활용할 수 있습니다.
구형 CPU 서버 인프라를 정리하거나, 수 백 대의 서버를 단 한대의 DGX-2로 교체하는 것이 가능할 정도의 성능 향상을 꾀할 수 있습니다.
개발자들이 쿠다(CUDA)나 도구를 새로 배우지 않아도 되므로 통합이 쉽습니다. 판다스(Pandas)나 사이킷런(scikit-learn) 만큼 친숙하고 사용하기 쉽기 때문에 기존 코드수정이 최소화됩니다.

RAPIDS는 자동차, 애드테크, 연방정부, 게이밍, 제조업, 오일가스, 통신회사, 소매업, 건강관리 그리고 금융계통 등 매우 다양한 분야에 걸쳐 활용되고 있답니다.

Oak Ridge National Labs의 연구원들은 기후 관련 시뮬레이션 응용 프로그램의 보안 개선에 RAPIDS를 활용했습니다. DGX-2와 RAPIDS를 사용해 대규모 데이터 세트로 머신 러닝 훈련을 할 때 속도가 엄청나게 향상됐는데요. CPU 노드에서는 21시간 걸렸던 XGBOOST 224GB 모델의 훈련이 DGX-2에서는 단 6분이면 끝낼 수 있었죠.

디지털 의료 플랫폼을 제공하는 중국의 의료기업 핑안(PingAN)은 RAPIDS와 GPU 가속 PCA, DBSCAN(밀도 기반 클러스터링)을 사용해서 80배의 속도 향상을 이뤘습니다. 데이터 로딩과 훈련을 포함한 워크플로우의 소요 시간이 수 일에서 수 시간으로 감소했죠.

엔비디아 RAPIDS에 대한 보다 자세한 방법이 궁금하시다면 오는 10월 24일 진행되는 NVIDIA 웨비나에 참여하세요! (웨비나 등록하기👉 https://nvda.ws/2kUmuqC)

지금 웨비나에 사전 등록하고 아래 댓글로 인증 남겨주시면 추첨을 통해 총 30분께 NVIDIA 도시락 가방(LUNCH TOTE)를 드립니다.

1. 참여 신청 기간: 9월 26일 ~ 10월 23일
2. 당첨자 발표: 10월 25일, NVIDIA Korea 페이스북 내 고지(30명)