동급 최고의 성능: RTX AI PC 및 워크스테이션에서 AI 성능 디코딩하기

편집자 노트: 본 게시물은 GeForce RTX PC 및 RTX 워크스테이션 사용자를 위한 새로운 하드웨어, 소프트웨어, 도구, 가속화를 보여주는 동시에 기술의 접근성을 높여 AI를 쉽게 이해하도록 돕기 위해 작성된 NVIDIA의 AI Decoded 시리즈 중 하나입니다.

NVIDIA RTX 및 GeForce RTX 기술을 기반으로 하는 AI PC의 시대가 열렸습니다. AI 가속 작업의 성능을 평가하는 새로운 방법과 함께, 자신에게 맞는 데스크톱과 노트북을 선택할 때 쉽게 이해하기 어려울 수 있는 새로운 언어가 등장했습니다.

PC 게이머는 초당 프레임 레이트(FPS)와 이와 유사한 통계 데이터에 대해서는 잘 알고 있지만, AI 성능을 측정하려면 새로운 지표가 필요합니다.

TOPS의 중요성

첫 번째 기준은 TOPS, 즉 초당 수조 번의 연산입니다. 여기서 수조는 중요한 단어로, 생성형 AI 작업의 처리량은 엄청나게 방대합니다. TOPS는 엔진의 마력 등급과 유사한 원시 성능 지표라고 생각하면 됩니다. 많을수록 좋습니다.

예를 들어, 최근 Microsoft에서 발표한 Copilot+ PC 라인업에는 40 TOPS 이상을 수행할 수 있는 NPU(Neural Processing Units)가 포함되어 있습니다. 로컬 챗봇에게 어제 메모가 어디에 있는지 물어보는 것과 같은 일부 가벼운 AI 지원 작업에는 40 TOPS를 수행해도 충분합니다.

하지만 많은 생성형 AI 작업은 더 까다롭습니다. NVIDIA RTX와 GeForce RTX GPU는 모든 생성형 작업에서 전례 없는 성능을 제공하며, GeForce RTX 4090 GPU는 1,300 TOPS 이상을 제공합니다. 이는 AI 지원 디지털 콘텐츠 제작, PC 게임에서의 AI Super Resolution, 텍스트 또는 비디오에서 이미지 생성, 로컬 LLM(거대언어 모델) 쿼리 등을 처리하는 데 필요한 종류의 성능입니다.

플레이할 토큰 삽입

TOPS는 이야기의 시작에 불과합니다. LLM 성능은 모델에서 생성된 토큰의 수로 측정됩니다.

토큰은 LLM의 출력물입니다. 토큰은 문장의 한 단어일 수도 있고 구두점이나 공백과 같은 작은 조각일 수도 있습니다. AI 가속 작업의 성능은 “초당 토큰 수”로 측정할 수 있습니다.

또 다른 중요한 요소는 배치 크기, 즉 단일 추론 패스에서 동시에 처리되는 입력의 수입니다. LLM은 많은 최신 AI 시스템의 핵심으로 자리 잡을 것이므로, 단일 애플리케이션 또는 여러 애플리케이션에서 여러 입력을 처리할 수 있는 능력이 핵심적인 차별화 요소가 될 것입니다. 배치 크기가 클수록 동시 입력에 대한 성능이 향상되지만, 특히 더 큰 모델과 결합할 경우 더 많은 메모리가 필요합니다.

일괄 처리를 많이 할수록 더 많은 (시간을) 절약할 수 있습니다. — 배치(Batch) 사이즈가 클수록 더 많은 (시간을) 절약할 수 있습니다.

RTX GPU는 대용량의 전용 비디오 랜덤 액세스 메모리(VRAM), Tensor 코어 및 TensorRT-LLM 소프트웨어로 인해 LLM에 매우 적합합니다.

GeForce RTX GPU는 최대 24GB의 고속 VRAM을, NVIDIA RTX GPU는 최대 48GB를 제공하여 더 큰 모델을 처리하고 더 큰 배치 크기를 구현할 수 있습니다. 또한 RTX GPU는 딥 러닝과 생성형 AI 모델에 필요한 연산 집약적인 작업의 속도를 획기적으로 높여주는 전용 AI 가속기인 Tensor 코어를 활용합니다. 이러한 최대 성능은 애플리케이션이 NVIDIA TensorRT 소프트웨어 개발 키트(SDK)를 사용할 때 쉽게 액세스할 수 있으며, 이를 통해 RTX GPU가 탑재된 1억 대 이상의 Windows PC 및 워크스테이션에서 최고 성능의 생성형 AI를 활용할 수 있습니다.

메모리, 전용 AI 가속기 및 최적화된 소프트웨어의 조합은 특히 배치 사이즈가 증가함에 따라 RTX GPU에 엄청난 처리량 향상을 제공합니다.

그 어느 때보다 빠른 텍스트-이미지 변환

이미지 생성 속도를 측정하는 것도 성능을 평가하는 또 다른 방법입니다. 가장 간단한 방법 중 하나는 사용자가 텍스트 설명을 복잡한 시각적 표현으로 쉽게 변환할 수 있는 인기 있는 이미지 기반 AI 모델인 Stable Diffusion을 사용하는 것입니다.

Stable Diffusion을 통해 사용자는 텍스트 기반 프롬프트에서 이미지를 빠르게 생성하고 수정하여 원하는 결과물을 얻을 수 있습니다. RTX GPU를 사용하면 CPU나 NPU에서 AI 모델을 처리하는 것보다 더 빠르게 결과를 생성할 수 있습니다.

널리 사용되는 Automatic1111 인터페이스 TensorRT 확장 기능을 사용하면 그 성능은 더욱 향상됩니다. RTX 사용자는 SDXL Base 체크포인트를 사용하면 프롬프트에서 이미지를 최대 2배 더 빠르게 생성할 수 있어 Stable Diffusion 워크플로우를 크게 간소화할 수 있습니다.

또 다른 인기 Stable Diffusion 사용자 인터페이스인 ComfyUI도 지난 주에 TensorRT 가속 지원을 추가했습니다. 이제 RTX 사용자는 최대 60% 더 빠르게 프롬프트에서 이미지를 생성할 수 있으며, TensorRT를 통해 최대 70% 더 빠르게 Stable Video Diffuson을 사용하여 이러한 이미지를 동영상으로 변환할 수도 있습니다.

새로운 UL Procyon AI 이미지 생성 벤치마크에서 TensorRT 가속을 테스트해 볼 수 있으며, GeForce RTX 4080 SUPER GPU에서 가장 빠른 Non-TensorRT 구현과 비교하여 50%의 속도 향상을 제공합니다.

Stability AI의 새로운 기대작인 텍스트-이미지 변환 모델인 Stable Diffusion 3에 대한 TensorRT 가속화가 곧 출시되어 성능이 50% 향상될 예정입니다. 또한 새로운 TensorRT-Model Optimizer를 통해 성능을 더욱 가속화할 수 있습니다. 그 결과, Non-TensorRT 구현에 비해 70%의 속도 향상과 함께 메모리 사용량도 50% 감소합니다.

물론, 실제 테스트는 원본 프롬프트를 반복하는 실제 사용 사례에서 이루어집니다. 사용자는 RTX GPU에서 훨씬 빠르게 프롬프트를 조정하여 이미지 생성을 개선할 수 있으며, 반복당 몇 초가 걸리던 Macbook Pro M3 Max의 반복 작업은 몇 분이면 충분합니다. 또한 RTX 기반 PC 또는 워크스테이션에서 로컬로 실행할 때 모든 데이터가 비공개되므로 속도와 보안을 모두 확보할 수 있습니다.

결과 제공 및 오픈 소스

하지만 저희의 말만 믿지 마세요. 오픈 소스 Jan.ai의 AI 연구원과 엔지니어 팀은 최근 TensorRT-LLM을 로컬 챗봇 앱에 통합한 후 이러한 최적화를 직접 테스트했습니다.

연구원들은 커뮤니티에서 사용하는 다양한 GPU와 CPU에서 오픈 소스 llama.cpp 추론 엔진에 대해 TensorRT-LLM의 구현을 테스트했습니다. 그 결과, TensorRT가 “동일한 하드웨어에서 llama.cpp보다 30~70% 더 빠를 뿐만 아니라 연속적인 처리 실행에서 더 효율적”이라는 사실을 발견했습니다. 또한 이 팀은 방법론을 공개하여 다른 사람들이 직접 생성형 AI 성능을 측정할 수 있도록 했습니다.

게임부터 생성형 AI까지, 모두 속도가 중요합니다. 때문에 TOPS, 초당 이미지 수, 초당 토큰 수, 배치 사이즈는 모두 성능 챔피언을 결정할 때 고려해야 할 사항입니다.

생성형 AI는 게임, 화상 회의 및 모든 종류의 인터랙티브 경험을 혁신하고 있습니다. AI Decoded 뉴스레터를 구독하고 새로운 소식과 다음 단계에 대해 알아보세요.