AI 기술과 빅데이터 분석 위한 새로운 개념의 컴퓨터 ‘데이터 사이언스 PC’

by NVIDIA Korea
datascience pc_sum

이제 단 한 번의 클릭으로 AI기술과 빅데이터 분석을 사용할 수 있게 됐습니다. 엔비디아와 파트너를 맺은 3개 회사가 이른바 ‘데이터 사이언스 PC’라는 새로운 개념의 컴퓨터의 온라인 판매를 시작했기 때문이죠.

이 시스템은 데이터 사이언스 전문가들에게 필요한 하드웨어와 소프트웨어를 번들로 제공해 ‘On’ 버튼을 누르면 데이터 세트와 모델 관리를 시작하고 AI예측을 진행합니다. 데이터 사이언스 PC는 엔비디아 타이탄 RTX GPU(NVIDIA TITAN RTX GPU)와 엔비디아 래피즈(NVIDIA RAPIDS) 소프트웨어를 탑재해 오로지 CPU만 적용된 데스크톱 PC대비 3~6배 빠른 속도를 구현합니다.

하이엔드 PC 전문 제작업체인 디지털 스톰(Digital Storm), 메인기어(Maingear), 퓨젯 시스템(Puget Systems) 등 3개 회사가 현재 데이터 사이언스 PC를 제공하고 있습니다. 독자적으로 활동하는 데이터 사이언스 전문가들이 증가하고 있는 가운데, 세 기업은 이들을 타깃으로 해 데이터 사이언스 전문가들이 더 나은 연구결과를 빠르게 도출할 수 있도록 지원하고 있습니다.

image

데이터 사이언스 PC는 미국 뉴욕시 택시에서 추출한 데이터 세트를 학습한 추출·변환·적재(extract-transform-load, ETL)와 XGBoost를 처리해, CPU만 탑재한 PC 대비 6배 빠른 속도로 엔드투엔드 예측을 제공했습니다.

세계 최대 규모의 가장 혁신적인 조직들 중 일부는 이미 GPU 가속 서버와 워크스테이션을 사용해 강력한 성능이 요구되는 데이터 사이언스 업무를 처리하고 있습니다.

예를 들어, 월마트의 미래형 슈퍼마켓엔비디아 EGX 플랫폼을 적용해 초당 1.6TB의 데이터를 실시간 연산할 수 있습니다. 미국의 오크리지 국립연구소(Oak Ridge National Laboratory)의 서밋 시스템(Summit System)은 27,648개의 엔비디아 V100 텐서 코어 GPU(NVIDIA V100 Tensor Core GPU)를 탑재해 3.3 엑사플롭의 혼합정밀 마력(mixed-precision horsepower)으로 AI업무를 처리할 수 있습니다.

데이터 사이언스는 대기업들만 사용할 수 있는 기술이 아닙니다. 스타트업, 연구원, 학생, 그리고 데이터 사이언스에 관심있는 모든 사람들이 이 새로운 분야에 뛰어들고 있습니다. 덕분에 데이터 사이언스 전문가가 미국에서 가장 빠르게 늘어나고 있는 직업이 됐습니다.

데이터 사이언스 PC는 독립적인 데이터 사이언스 전문가라는 새로운 직종을 활성화하기 위해 개발됐습니다. 강력한 사전구성시스템과 테스트를 거친 소프트웨어 스택이 데이터 사이언스 전문가들의 연구에 활력을 불어넣을 것으로 기대됩니다.

속도와 피드

데이터 사이언스 PC 내부를 보면, 각각 최대 24GB 메모리가 적용된 한 두 개의 타이탄 RTX GPU를 탑재하고 있습니다. NVLink 고속 연결 기술은 GPU 2개를 연결해 더 많은 GPU 메모리가 요구되는 데이터 세트를 처리합니다.

시스템에는 48~128GB의 메인 메모리를 탑재 가능하며 최대 10TB 드라이브의 저장옵션도 제공할 수 있습니다.

데이터 사이언스 PC는 리눅스(Linux) OS와 함께, 엔드투엔드 데이터 사이언스를 위한 200개 이상의 라이브러리를 탑재해 사전 개발된 엔비디아의 데이터 사이언스 소프트웨어 스택인 엔비디아 래피즈를 내장하고 있습니다.

엔비디아 래피즈는 기존 코드 복사를 손쉽게 할 수 있도록 지원해 GPU를 가속화 합니다. 엔비디아 래피즈의 API는 데이터 사이언스 분야에서 가장 많이 사용되는 라이브러리를 벤치마킹해 개발됐습니다. 그래서 대부분의 경우, 코드 몇 줄만 바꾸면 GPU를 가속화할 수 있습니다.

래피즈의 주요 성능을 소개하겠습니다.

  • cuDF는 데이터 적재, 결합, 합계, 필터링 또는 조작을 위한 파이썬(Python) GPU 데이터프레임 라이브러리입니다. API는 판다스(Pandas)와 유사하게 설계돼 기존 코드가 GPU에 손쉽게 매핑 됩니다.
  • cuML는 XGBoost, PCA, K-means, k-Nearest Neighbors 등 인기 머신 러닝 알고리즘을 가속화 합니다. 또한 sciKit-learn과 긴밀하게 작동하도록 설계됐습니다.
  • cuGraph는 GPU 데이터프레임에 저장된 데이터를 처리하는 NetworkX와 유사한 그래프 알고리즘 라이브러리입니다.

AI와 데이터 사이언스 분야에 초점을 맞춘 스타트업들을 위한 엔비디아의 가상 가속화 프로그램, 인셉션(Inception)의 스타트업 생태계는 래피즈에서 구현되는 애플리케이션과 서비스를 제공합니다. 빅데이터 시각화 툴을 제공하는 기업인 그래피스트리(Graphistry)와 옴니싸이(OmniSci) 등도 이 스타트업 생태계에 포함돼 있습니다.

데이터 사이언스 전문가들은 엔비디아의 데이터 사이언스 개발자 포럼에 접속해 질문을 올리고 GPU에 대한 데이터 사이언스에 대해 더 자세히 알아볼 수 있습니다.

이제 데이터 사이언스 PC가 세상을 AI의 미래로 이끌 것입니다. 엔비디아의 파트너사 디지털 스톰, 메인기어, 그리고 퓨젯 시스템을 통해 데이터 사이언스 PC에 대해 배워보세요.