AI가 어떻게 데이터 사이언스 워크플로우를 가속화하는가

by NVIDIA Korea
AI가 어떻게 데이터 사이언스 워크플로우를 가속화하는가

편집자 노트본 게시물은 AI Decoded 시리즈의 일부로, AI에 대한 접근성을 높여 AI에 대한 이해를 돕고, RTX PC 사용자를 위한 새로운 하드웨어소프트웨어도구 및 가속 기술을 소개합니다.

산업 전반에서 AI는 혁신을 주도하고 효율성을 높이고 있지만, 그 잠재력을 최대한 실현하려면 방대한 양의 고품질 데이터를 기반으로 이 기술을 훈련해야 합니다.

데이터 사이언티스트는 이러한 데이터를 준비하는 데 핵심적인 역할을 합니다. 특히 전문적이고 종종 독점적인 데이터가 AI 기능을 향상하는 데 필수적인 도메인 특화 분야에서 그렇습니다.

증가하는 워크로드 수요에 대응할 수 있도록 데이터 사이언티스트들을 지원하기 위해 NVIDIA는 RAPIDS cuDF가 코드 변경 없이도 pandas 소프트웨어 라이브러리를 가속화한다고 발표했습니다. RAPIDS cuDF는 사용자가 더 쉽게 데이터로 작업할 수 있도록 지원하는 라이브러리입니다. Pandas는 파이썬 프로그래밍 언어를 위한 유연하고 강력하며 널리 사용되는 데이터 분석 및 조작 라이브러리입니다. 이제 데이터 사이언티스트는 cuDF를 사용하여 데이터 처리 속도 저하 없이 선호하는 코드베이스를 사용할 수 있습니다.

NVIDIA RTX AI 하드웨어 및 기술은 데이터 처리 속도를 향상할 수도 있습니다. 여기에는 데이터 사이언스 워크플로우부터 PC 및 워크스테이션에서의 모델 훈련 및 맞춤화에 이르기까지 모든 수준에서 AI를 빠르고 효율적으로 가속화하는 데 필요한 컴퓨팅 성능을 제공하는 강력한 GPU가 포함됩니다.

데이터 사이언스에서의 병목 현상

가장 일반적인 데이터 형식은 행과 열로 구성된 표 데이터입니다. 소규모 데이터세트는 Excel과 같은 스프레드시트 도구로 관리할 수 있지만, 일반적으로 수천만 개의 행이 있는 데이터세트와 모델링 파이프라인은 파이썬과 같은 프로그래밍 언어로 작성된 데이터프레임 라이브러리에 의존합니다.

사용하기 쉬운 애플리케이션 프로그래밍 인터페이스(API)를 갖춘 pandas 라이브러리로 인해 파이썬은 데이터 분석에 널리 사용되고 있습니다. 그러나 데이터세트의 크기가 증가하는 경우 pandas는 CPU 전용 시스템에서 처리 속도 및 효율성과 관련하여 어려움을 겪습니다. 또한, 이 라이브러리는 거대 언어 모델(LLM)의 중요 데이터 유형인 텍스트 기반 데이터세트를 처리하는 데 어려움을 겪는 것으로 악명이 높습니다.

데이터 요구 사이 pandas의 능력을 초과하게 되면 데이터 사이언티스트는 느린 처리 일정을 감내하는 옵션과 더 효율적이지만 덜 사용자 친화적인 도구로 전환하는 복잡한 고비용 단계를 밟는 옵션 사이에서 딜레마에 처합니다.

RAPIDS cuDF를 이용한 전처리 파이프라인 가속화

RAPIDS cuDF는 RTX 기반 AI PC 및 워크스테이션에서 인기 있는 pandas 라이브러리를 최대 100배 가속화합니다.

RAPIDS cuDF를 사용하면 데이터 사이언티스트가 처리 속도를 희생시키지 않고도 선호하는 코드베이스를 사용할 수 있습니다.

RAPIDS는 데이터 사이언스 및 분석 파이프라인을 개선하도록 설계된 오픈 소스 GPU 가속 파이썬 라이브러리 세트입니다. cuDF는 데이터의 로드, 필터링 및 조작을 위한 pandas 부류의 API를 제공하는 GPU DataFrame 라이브러리입니다.

cuDF의 ‘pandas 가속기 모드’를 사용하면 데이터 사이언티스트가 GPU에서 기존의 pandas 코드를 실행하여 강력한 병렬 처리의 이점을 활용할 수 있습니다. 필요한 경우에는 코드가 CPU로 전환될 수 있습니다. 이러한 상호 운용성은 향상된 안정적인 성능을 제공합니다.

cuDF최신 릴리스는 대규모 데이트세트와 수십억 개의 행이 있는 표 형식의 텍스트 데이터를 지원합니다. 이를 통해 데이터 사이언티스트는 pandas 코드를 사용하여 생성형 AI 사용 사례를 위한 데이터를 전처리할 수 있습니다.

NVIDIA RTX 기반 AI 워크스테이션 및 PC에서 데이터 사이언스 가속화하기

 최근 연구에 따르면 데이터 사이언티스트의 57%는 데이터 사이언스를 위해 PC, 데스크탑 또는 워크스테이션과 같은 로컬 리소스를 사용합니다.

데이터 사이언티스트는 NVIDIA GeForce RTX 4090 GPU로 시작하여 상당한 속도 향상을 달성할 수 있습니다. 데이터세트가 증가하고 처리에 점점 더 많은 메모리가 사용되는 경우, 데이터 사이언티스트는 워크스테이션의 NVIDIA RTX 6000 Ada Generation GPU와 함께 cuDF를 사용하여 전통적인 CPU 기반 솔루션에 비해 최대 100배 향상된 성능을 제공할 수 있습니다.

NVIDIA RTX 6000 Ada GPU와 Intel Xeon CPU에서 cuDF.pandas와 전통적인 pandas v2.2의 표준 DuckDB 데이터 벤치마크(5GB) 성능 비교. [대체 텍스트: y축에는 두 가지 일반적인 데이터 사이언스 연산인 “join”과 “groupby”가 배치되고, x축에는 각 연산 실행에 걸린 시간이 표시됩니다. 전통적인 pandas에서는 몇 분이 소요되지만, cuDF.pandas에서는 한 자릿수 초가 걸립니다.]

데이터 사이언티스트는 NVIDIA AI Workbench에서 RAPIDS cuDF를 쉽게 시작할 수 있습니다. 컨테이너 기반의 이 무료 개발자 환경 관리자를 사용하면 데이터 사이언티스트와 개발자가 GPU 시스템에서 AI 및 데이터 사이언스 워크로드를 생성 및 마이그레이션하고 이와 관련된 공동 작업을 진행할 수 있습니다. 사용자는 cuDF AI Workbench 프로젝트와 같은 여러 예제 프로젝트를 NVIDIA GitHub 리포지토리에서 시작할 수 있습니다.

HP AI Studio에서도 cuDF를 기본적으로 사용할 수 있습니다.

HP AI Studio는 AI 개발자가 워크스테이션에서 클라우드로 개발 환경을 원활하게 복제할 수 있도록 설계된 중앙 집중식 데이터 사이언스 플랫폼입니다. 이를 통해 AI 개발자는 여러 환경을 관리할 필요 없이 프로젝트를 설정 및 개발하고 관련 협업을 수행할 수 있습니다.

RTX 기반 AI PC 및 워크스테이션에서 cuDF는 원시 성능 가속화 이상의 이점을 제공합니다. 추가 이점:

  • 강력한 GPU에 기반하여 온프레미스 서버 또는 클라우드 인스턴스로 원활하게 복제되는 고정 비용의 로컬 개발을 수행하여 시간과 비용을 절약할 수 있습니다.
  • 더 빠른 데이터 처리로 더 빠른 반복이 가능하므로, 데이터 사이언티스트가 상호 작용 속도로 데이터세트를 실험하고 정제하고 인사이트를 도출할 수 있습니다.
  • 더 효과적인 데이터 처리를 제공하여 파이프라인의 모델 결과를 더욱 향상할 수 있습니다.

RAPIDS cuDF에 대해 자세히 알아보세요.

새로운 데이터 사이언스의 시대

 AI와 데이터 사이언스가 진화를 거듭함에 따라, 대규모 데이터세트를 빠르게 처리하고 분석할 수 있는 능력이 산업 전반의 혁신을 가능케 하는 핵심 차별화 요소가 될 것입니다. 정교한 머신 러닝 모델을 개발하든, 복잡한 통계 분석을 수행하든, 생성형 AI를 탐구하든, RAPIDS cuDF는 차세대 데이터 처리를 위한 기반을 제공합니다.

NVIDIA는 Polars를 비롯한 가장 인기 있는 데이터프레임 도구에 대한 지원을 추가하여 이러한 기반을 확장하고 있습니다. Polars는 가장 빠르게 성장하고 있는 파이썬 라이브러리 중 하나로, 다른 CPU 전용 도구에 비해 데이터 처리를 크게 가속화합니다.

Polars는 이번 달에 RAPIDS cuDF를 기반으로 하는 Polars GPU Engine의 오픈 베타를 발표했습니다. 이제 Polars 사용자는 이미 초고속인 데이터프레임 라이브러리의 성능을 추가로 최대 13배까지 향상할 수 있습니다.

RTX AI를 사용하는 미래 엔지니어의 무한한 가능성

 NVIDIA GPU는 대학 데이터센터에서 실행되든, GeForce RTX 노트북 또는 NVIDIA RTX 워크스테이션에서 실행되든, 연구를 가속화합니다. 데이터 사이언스 분야를 비롯한 다양한 분야의 학생들이 실제 현장의 애플리케이션에서 널리 사용되는 하드웨어를 통해 실습 경험을 쌓고 학습 경험을 향상하고 있습니다.

AI 기반 도구로 학생들의 학습 수준을 높이는 데 NVIDIA RTX 와PC 워크스테이션이 어떻게 도움이 되는지 자세히 알아보세요.

생성형 AI는 게임, 화상 회의 및 모든 종류의 인터랙티브 경험을 혁신하고 있습니다. AI Decoded 뉴스레터를 구독하고 AI 기술이 바꿀 현재와 미래의 모습을 확인하세요.