Artificial Analysis가 공개한 업계 최초의 에이전틱 AI 벤치마크 AgentPerf는 개발자, 기업, 인프라 제공업체에게 에이전틱 AI 시스템을 비교할 수 있는 명확한 기준을 제시합니다. 첫 번째 공개 결과에서 NVIDIA Blackwell Ultra NVL72 플랫폼이 선두를 기록했으며, NVIDIA Hopper 대비 메가와트당 20배 많은 에이전트를 처리하는 것으로 나타났습니다.
에이전틱 AI는 기존 대화형 AI와 근본적으로 다른 워크로드입니다. 단순한 채팅 완성은 짧은 스프린트와 같은데요, LLM(거대 언어 모델) 호출 한 번에 응답 한 번으로 끝나죠. 반면 에이전트는 릴레이에 더 가깝습니다. 목표를 여러 단계로 분해하고, 작업이 완료될 때까지 계속 실행합니다.
에이전트는 여러 LLM 호출과 툴 호출을 연결해 컨텍스트를 수집하고, 상황을 관찰하며, 추론하고, 행동합니다.
이 과정에서 수십에서 수백 개의 LLM 호출이 연쇄적으로 연결되는데, 각 호출은 점점 커지는 컨텍스트를 다음 호출로 전달하며, 코드 컴파일·실행, 데이터베이스 검색, 웹 브라우징 같은 툴 호출이 모든 연결 지점마다 발생합니다. 복잡성은 단순히 더해지는 것이 아니라 곱해지는 셈이죠.
이러한 차이는 성능 측정에서도 매우 중요한 의미를 지닙니다. 기존 AI 추론 벤치마크는 단일 LLM 호출만을 측정합니다. LLM이 단일 요청에 얼마나 빠르게 응답하는지, 동시에 얼마나 많은 요청을 처리할 수 있는지를 보는 것이죠. 그러나 이러한 벤치마크는 에이전틱 워크로드를 위해 설계된 것이 아닙니다. 연쇄적인 LLM 호출, 툴 호출 지연, 늘어나는 컨텍스트는 단일 LLM 호출과는 전혀 다른 방식으로 가속 컴퓨팅 시스템에 부담을 줍니다.
대규모 에이전트를 구축·배포하는 기업 입장에서는 에이전트의 응답성, 동시에 배포 가능한 에이전트 수, 그리고 투자한 비용과 전력 대비 AI 인프라가 실질적으로 제공하는 작업량을 정확히 파악하는 것이 중요합니다.
NVIDIA GB300 NVL72, 메가와트당 에이전트 처리량 최대 20배 달성
이번 첫 번째 결과에서 AgentPerf는 오늘날 최고 수준의 에이전트를 구동하는 대규모 MoE(혼합 전문가) 모델인 DeepSeek V4 Pro를 사용해 에이전틱 성능을 측정했습니다. 이 워크로드에서 NVIDIA GB300 NVL72는 벤치마크 최고 성능을 기록하며, NVIDIA HGX H200 시스템 대비 메가와트당 최대 20배 많은 에이전트를 처리했습니다.
NVIDIA GB300 NVL72는 에이전트당 초당 20토큰과 60토큰, 두 가지 서비스 수준 목표(SLO) 모두에서 NVIDIA H200보다 메가와트당 훨씬 많은 동시 에이전트를 지원합니다.
이러한 성능 우위는 전체 스택에 걸친 정밀한 코디자인에서 비롯됩니다. GB300 NVL72는 72개의 GPU를 단일 랙 규모 시스템으로 연결하며, DeepSeek V4 Pro 같은 대규모 MoE 모델이 대규모 환경에서 효율적으로 모델 실행을 분산할 수 있도록 지원합니다.
CUDA 커널은 통신과 컴퓨팅을 중첩하여 성능을 더욱 끌어올리는데요, 전문가 간 조율 비용이 지연 시간에 더해지는 것이 아니라 흡수되어 전체 처리 효율이 크게 향상됩니다.
NVIDIA TensorRT LLM은 동시 에이전트 세션이 증가해도 효율을 유지합니다. 예를 들어, 입력 처리와 출력 생성을 분리해 각각을 독립적으로 최적화하는 방식을 활용합니다.
이러한 결과는 실제 에이전틱 AI가 프로덕션에서 작동하는 방식을 처음부터 반영하여 설계된 벤치마크 방법론을 기반으로 합니다.
Artificial Analysis AgentPerf: 실제 에이전틱 워크로드 기반 구축
AgentPerf는 실제 코딩 에이전트 궤적을 기반으로 구축되었습니다. 에이전트는 작업을 받고 파일을 읽으며, 코드를 작성·수정하고, 명령을 실행한 뒤 결과를 바탕으로 반복 작업을 수행합니다. 이 데이터는 12개 이상의 프로그래밍 언어를 아우르는 실제 공개 코드 저장소에서 수집한 것으로, 긴 시퀀스 길이와 툴 호출 패턴, 지연 시간 모두 실제 코딩 워크플로를 그대로 반영합니다.
AgentPerf는 플랫폼이 응답성과 출력 토큰 비율에 대해 정의된 성능 임계값을 충족하면서 동시에 지원할 수 있는 에이전틱 태스크의 수를 측정합니다. 툴 호출은 실제로 실행되지 않고 대표적인 CPU 처리 시간으로 시뮬레이션되므로, 결과의 차이는 가속 컴퓨팅 성능만을 반영합니다.
이 결과는 곧 인프라 의사결정으로 이어집니다. 가속기당, 전력 메가와트당 몇 개의 동시 에이전틱 태스크를 실행할 수 있는지가 핵심이며, 대규모로 AI 에이전트를 배포하는 기업에게는 이 수치가 주어진 인프라 투자로 실질적으로 얼마나 많은 업무를 처리할 수 있는지를 결정합니다.
NVIDIA 에코시스템 파트너, Blackwell의 선도적 성능 활용
Baseten, DeepInfra, Together AI를 비롯한 주요 추론 서비스 제공업체들이 이미 NVIDIA Blackwell에서 DeepSeek V4 Pro 같은 최신 모델로 에이전틱 워크로드를 서비스하며 실제 에이전틱 애플리케이션을 구동하고 있습니다.
Together AI는 NVIDIA Blackwell 기반으로 AI 에이전틱 코딩 플랫폼인 Cursor에 실시간 추론을 제공합니다. Cursor의 에이전트는 개발자가 계속 작업하는 동안 문제를 디버깅하고, 기능을 생성하며, 리팩토링을 실행합니다.
DeepInfra는 자동차 대리점을 위한 AI 인력 플랫폼인 Pam.ai를 지원하는데요, 전적으로 NVIDIA Blackwell에서 구동되는 에이전트를 통해 서비스 예약, 전화 응대, 아웃바운드 영업 캠페인을 자동화합니다.
NVIDIA와 오픈 소스 에코시스템이 에이전틱 워크로드를 위한 추론 소프트웨어를 지속적으로 최적화함에 따라, 성능과 효율은 계속해서 향상될 것입니다. 한편 NVIDIA Vera Rubin 아키텍처는 현재 양산 단계에 들어서, 확장되는 에이전틱 AI 수요를 충족할 차세대 인프라 역량을 갖춰가고 있습니다.
AgentPerf 방법론과 에이전틱 AI를 위한 NVIDIA의 전체 스택 최적화에 대한 자세한 내용은 기술 블로그에서 확인하세요.
