편집자 주: 이 글은 새로운 CUDA Accelerated 뉴스 시리즈의 두 번째 글로, 개발자, 소프트웨어 제작자, 기업들이 GPU를 사용하여 애플리케이션을 가속화하는 데 도움이 되는 최신 소프트웨어 라이브러리, NVIDIA NIM 마이크로서비스, 도구를 소개합니다.
세계에서 가장 중요하고 복잡한 문제들은 점점 더 많은 연산 능력을 요구하고 있습니다.
특히 대규모 생성형 AI나 과학 컴퓨팅 프로젝트에서는 멀티 GPU, 멀티 노드 병렬 처리와 분산 컴퓨팅을 활용해 전체 데이터 센터를 단일 컴퓨팅 장치처럼 사용하는 것이 최대 성능과 처리량을 확보하는 가장 효과적인 방법입니다.
NVIDIA Warp는 Python에서 가속화된 과학 컴퓨팅을 위한 오픈 소스 프레임워크로, 대규모 유체 시뮬레이션 속도를 기존보다 최대 8배까지 높여줍니다.
최근 출시된 Warp 1.5는 타일 기반 프로그래밍을 지원하며, 고성능 NVIDIA MathDx 라이브러리와의 통합을 통해 성능을 더욱 개선했습니다. 이를 통해 과학 및 시뮬레이션 워크로드에 최적화된 밀도 선형 대수학 가속이 가능해졌습니다.
소프트웨어 개발자는 Warp를 활용해 Python에서 효율적이고 차별화된 GPU 커널을 직접 작성할 수 있습니다. 또한 Warp는 로봇공학, 전산 유체 역학, 디지털 트윈 시뮬레이션을 가속화하기 위해 텐서 코어 작업도 지원합니다.
Warp는 cuBLASDx와 cuFFTDx를 사용해 행렬 곱셈과 FFT(고속 푸리에 변환) 타일 연산을 구현합니다. NVIDIA의 장치 측 수학 라이브러리와 Warp의 타일 프로그래밍 모델을 결합하면 단일 커널에서 Tensor Core 가속 GEMM, FFT 및 기타 타일 연산을 매끄럽게 융합할 수 있습니다.
이러한 접근 방식은 로봇의 전방 역학과 같이 밀도가 높은 선형 대수학이 필요한 작업에서 기존의 선형 대수학이나 텐서 프레임워크보다 최대 4배 더 뛰어난 성능을 제공합니다.
이러한 접근 방식은 로봇의 전방 역학과 같이 밀도가 높은 선형 대수학이 필요한 작업에서 기존의 선형 대수학이나 텐서 프레임워크보다 최대 4배 더 뛰어난 성능을 제공합니다.
cuPyNumeric 대규모 클러스터 라이브러리
NVIDIA cuNumeric 가속 컴퓨팅 라이브러리는 연구자들이 파이썬 코드를 수정하지 않고도 강력한 컴퓨팅 클러스터로 확장할 수 있도록 지원함으로써 과학적 발견을 촉진합니다. 데이터 크기와 계산 복잡성이 증가함에 따라 CPU 기반 프로그램은 최첨단 연구에서 요구하는 속도와 규모를 충족하는 데 도움이 필요합니다.
cuPyNumeric 라이브러리를 사용하면 연구원들은 데이터 처리용 파이썬 코드를 가지고 GPU 기반 워크스테이션, 클라우드 서버 또는 대규모 슈퍼컴퓨터에서 쉽게 실행할 수 있습니다. 데이터를 더 빨리 처리할수록 유망한 데이터 포인트, 조사할 만한 추세, 실험에 대한 조정 등에 대한 결정을 더 빨리 내릴 수 있습니다.
cuPyNumeric을 적용하면 코드 변경 없이도 하나 또는 수천 개의 GPU에서 실행할 수 있습니다.
CUDA 가속화 라이브러리는 NVIDIA GPU와 CPU의 하드웨어 기능을 활용하도록 최적화되어 있습니다. 이 라이브러리들을 결합하면 NVIDIA 제품군, 서비스, 지원 기술의 힘을 모두 활용할 수 있습니다.
NVIDIA는 400개가 넘는 라이브러리를 제공합니다. CUDA 플랫폼 로드맵에 새로운 업데이트가 계속 추가되어 다양한 사용 사례로 확장되고 있습니다.
GPU는 범용 CPU용으로 작성된 소프트웨어를 단순히 가속화할 수 없습니다. 특히 과학 컴퓨팅과 분산 컴퓨팅 아키텍처에서는 특정 워크로드를 가속화하기 위해 특수 알고리즘과 소프트웨어 라이브러리, 도구가 필수적입니다.
더 높은 컴퓨팅 성능에 대한 수요는 날로 증가하고 있지만, 에너지 비용은 이를 따라 늘어날 수 없습니다. 멀티 GPU, 멀티 노드 병렬 처리와 분산 컴퓨팅을 활용하는 것이 이러한 성능 요구를 충족하면서 에너지 소모를 줄이는 가장 효과적인 방법입니다.
AI용 NVIDIA CUDA 라이브러리 및 마이크로서비스에 대해 자세히 알아보세요.