데이터의 양, 속도, 그리고 복잡성이 증가함에 따라 데이터 사이언스에도 많은 관심이 쏟아지고 있습니다.
이런 때일수록 최고의 솔루션을 설계할 수 있는 뛰어난 데이터 과학자들이 필요한데요. 그러나 이런 혁신을 견인할 전문성의 확보를 위해서는 다양한 툴, 프로그래밍 언어, 컴퓨팅 프레임워크, 라이브러리 등에 대한 학습이 먼저 이루어져야 합니다.
이를 위해 NVIDIA 딥 러닝 인스티튜트(Deep Learning Institute, DLI)가 Accelerated Data Science Teaching Kit를 선보였습니다. 이번 교육용 키트의 개발에는 조지아공과대학교(Georgia Institute of Technology)의 폴로 차우(Polo Chau)와 프레리뷰A&M대학교(Prairie View A&M University)의 시솽 동(Xishuang Dong)이 공동으로 참여했는데요. GPU를 활용한 데이터 애널리틱스 가속화, 데이터 사이언스 분야의 저명한 연구자이며 교육자로 손꼽히는 전문가들입니다.
폴로 차우 교수는 “데이터 사이언스는 데이터가 가진 엄청난 잠재력을 활용해 비즈니스, 테크놀로지, 과학, 엔지니어링부터 헬스케어와 정부 분야에 이르기까지 사실상 사회 전영역에 복잡하게 얽혀 있는 난제들을 해결하는 데 일조합니다”라고 설명합니다.
Accelerated Data Science Teaching Kit는 무료 교육용 자료로 데이터 수집과 전처리, NVIDIA RAPIDS로 가속화하는 데이터 사이언스, GPU 가속 머신 러닝, 데이터 시각화, 그래프 애널리틱스의 입문⋅심화 내용들을 폭넓게 다룹니다.
또한 공정성, 데이터 편향, 그리고 소수 집단을 대변할 수 있는 연구자 배출의 중요성과 어려움 등 문화적으로 중요한 사안도 함께 살펴보도록 구성되어 있습니다.
Accelerated Data Science Teaching Kit의 최초 릴리스에는 다음의 모듈이 포함됩니다.
- 데이터 사이언스와 RAPIDS 입문
- 데이터 수집과 전처리(ETL)
- 데이터 윤리와 데이터세트 내 편향
- 데이터 통합과 애널리틱스
- 데이터 시각화
- RAPIDS와 하둡(Hadoop), 하이브(Hive), 스파크(Spark)를 활용한 분산 컴퓨팅
향후 새로운 버전의 출시와 함께 더 많은 모듈이 추가될 예정입니다.
모듈에는 강의 슬라이드, 강의 노트, 퀴즈/시험용 문제가 포함되는데요. 실습을 지원하기 위해 Python 및 인터랙티브 Jupyter 노트북 포맷 기반 샘플 솔루션과 데이터세트가 함께 제공됩니다. 향후 릴리스에는 전체 모듈의 강의 영상이 포함될 예정입니다.
DLI Teaching Kit는 GPU 리소스를 아마존 웹 서비스(Amazon Web Services)의 크레딧 형태로 무상 제공합니다. 이와 더불어 교육자와 학생들은 무료 DLI 온라인, 자율 수강 코스, 인증 기회도 지원받을 수 있죠.
시솽 동 연구자는 데이터 사이언스가 “현대의 모든 영역에 관련되어 있을 뿐 아니라 젠더, 인종, 연령 등 여러 윤리적 요소와 관련된 사안들을 다루므로 아주 중요하다”고 설명하는데요. 그가 소속된 프레리뷰A&M대학은 다양한 인종의 고등교육을 보장하기 위해 운영되는 HBCU(Historically Black College/University) 대학군에 속해 있기도 합니다.
Accelerated Data Science Teaching Kit는 DLI가 네 번째로 내놓은 교육용 키트입니다. 지금까지 7,000여명에 달하는 전문 교육자들이 DLI Teaching Kit 프로그램에 참여했다고 하네요. NVIDIA Teaching Kit에 대한 더 자세한 내용은 여기를 참고하세요!