NVIDIA Vera CPU, 경쟁 제품에 ‘강력한 한 방’ — Phoronix 벤치마크가 입증하다

Phoronix 벤치마크에서 NVIDIA Vera CPU가 88개 Olympus 코어와 1.2TB/s 메모리 대역폭으로 Intel Xeon·AMD EPYC을 압도. STREAM TRIAD 피크 대역폭의 90%를 지속 유지했습니다.
by

에이전틱 AI로의 전환은 AI 팩토리에 새로운 CPU 요구 조건을 안기고 있는데요, 빠른 코어와 막대한 메모리 대역폭, 그리고 모든 코어가 풀가동되는 상황에서도 높은 성능을 끊김 없이 유지하는 능력이 그것입니다.

최근 Phoronix가 공개한 초기 벤치마크 결과를 보면, NVIDIA Vera CPU가 바로 이 요구를 충족시키고 있음을 확인할 수 있습니다. 첫 공개 테스트인 만큼 벤치마크의 초점은 Vera가 처음부터 겨냥해 온 현대 데이터센터의 에이전틱 워크로드에 맞춰졌죠.

Vera CPU는 AI 팩토리가 요구하는 처리량을 그대로 끌어내는 동시에, 플랫폼 전체의 전력을 최적화합니다. NVIDIA가 직접 설계한 88개의 Olympus 코어와 1.2TB/s 메모리 대역폭, 그리고 고속 온칩 패브릭이 한 몸에 묶이면서, 코어 성능과 메모리 대역폭을 효율적인 전력 범위 안에 함께 담아낸 CPU 플랫폼이 완성됐죠.

NVIDIA Olympus, 거침없는 성능을 끌어내다

Vera의 심장에는 NVIDIA가 직접 설계한 Olympus CPU 코어가 자리합니다. Armv9.2 명령어 집합 아키텍처(ISA)와 완벽하게 호환되는 Olympus는 에이전틱 AI를 떠받치는 순차적 CPU 작업 — 분기가 빈번한 런타임, 샌드박스 코드, 데이터 처리, 그리고 오케스트레이션 — 을 정확히 겨냥해 설계됐죠.

Vera의 모놀리식 다이와 와이드 코어, 고도화된 분기 예측, 그리고 2세대 NVIDIA Scalable Coherency Fabric이 한 몸에 어우러져, 88개 코어 전체에 걸쳐 데이터가 끊김 없이 흐를 수 있도록 떠받칩니다.

Phoronix가 단일 소켓 Vera CPU(열 설계 전력 450W, 메모리 전력 30W 미만)를 테스트한 결과, 해당 전력 프로파일 안에서 압도적인 성능을 끌어냈을 뿐만 아니라 코드 컴파일과 파일 압축, 비디오 트랜스코딩, Python, Java, 데이터베이스 관리까지 폭넓은 워크로드에서 세대를 거듭한 성능 향상을 함께 확인했습니다.

이런 작업들은 모두 에이전트와 AI 팩토리가 매일 처리하는 CPU 집약적 작업과 정확히 겹칩니다. 코드를 컴파일하고, 런타임을 실행하며, 데이터를 압축하고, 데이터베이스에 쿼리를 던지며, 거대한 소프트웨어 스택을 조율하는 일이 모두 그 안에 들어 있죠.

“이번 테스트를 시작하기 전만 해도, NVIDIA의 Vera CPU와 새 Olympus 코어가 어떤 결과를 보여 줄지 솔직히 가늠하기 어려웠습니다.” Phoronix의 창립자이자 메인 저자인 Michael Larabel의 말입니다. “하지만 결론은 명확했습니다. 지금까지 Intel과 AMD의 x86_64 프로세서에 등장한 그 어떤 경쟁자보다도 가장 강력한 도전자라는 사실이었죠.”

메모리 성능에서 보여 준 ‘압도적 우위’

에이전틱 워크로드는 단순히 코어 수만으로 좌우되지 않습니다. 높은 코어 활용률과 끊김 없는 메모리 대역폭이 함께 필요하기 때문인데요, 결국 와트당 메모리 성능이 CPU 전체 효율성을 가르는 핵심 변수가 됩니다.

Vera에는 2세대 LPDDR5X 메모리 서브시스템이 탑재돼, 기존 DDR5 대비 비트당 에너지 소모를 크게 낮춥니다. 덕분에 Vera는 최대 1.2TB/s에 달하는 대역폭을 끌어내는데요, 일반적인 DDR5가 100W 이상을 소비하는 반면, Vera는 30W 미만의 메모리 전력만으로 기존 CPU 대비 최대 2배의 피크 메모리 대역폭을 함께 제공합니다.

Phoronix의 STREAM TRIAD 테스트에서 Vera는 피크 메모리 대역폭의 90%를 끝까지 유지했는데요, 이는 Phoronix가 테스트한 어떤 CPU보다도 정격 피크 대비 가장 높은 비율입니다. 코어당 메모리 대역폭 역시 기존 x86 CPU 대비 4배가 넘는 결과를 함께 보여 줬습니다.

“LPDDR5X 메모리를 탑재한 NVIDIA Vera는 현재 시장에 나와 있는 Intel Xeon, AMD EPYC 프로세서를 상대로 메모리 성능에서 압도적 우위를 그대로 드러냈습니다.” Larabel의 평입니다.

다만 피크 대역폭만으로 모든 이야기를 다할 수는 없습니다. AI 팩토리 워크로드는 수많은 샌드박스와 도구 호출, 그리고 데이터 서비스를 동시에 굴려야 하기 때문이죠. 이와 별도로 진행된 테스트에서는 Prime Intellect가 병렬로 돌아가는 워크로드가 늘어나는 상황에서도 Vera가 높은 대역폭과 함께 낮고 안정적인 메모리 지연을 그대로 유지했음을 확인했는데요, 에이전틱 AI에 꼭 필요한 ‘예측 가능한 성능’이 이 자리에서 그대로 드러난 셈입니다.

세대를 가른 도약 — 그리고 Phoronix 테스트의 최상위권

이전 세대인 NVIDIA Grace CPU와 비교했을 때, Vera는 Phoronix 테스트에서 기하 평균 1.6배 성능 향상을 기록했습니다. 세대 간 격차로는 좀처럼 보기 드문 도약이죠.

“Grace에서 Vera로 넘어오면서 보여 준 차이는, 평소 프로세서의 세대 간 성능 향상을 보며 갖던 제 기대치를 매번 뛰어넘었습니다.” Larabel의 글입니다. “NVIDIA가 자체 설계한 Olympus 코어를 품은 Vera CPU는 Intel과 AMD의 x86_64 CPU에 정면으로 ‘강력한 한 방’을 날리는데요, 다른 ARM이나 비(非)x86_64 프로세서에서는 한 번도 본 적이 없는 수준의 경쟁력입니다.”

Vera는 이번 테스트에 참여한 CPU 가운데 가장 앞선 자리를 차지하며, 최신 128코어 x86 프로세서 대비 전체 성능에서 1.5배 우위를 보였습니다. 그 차이는 개발자가 실제로 마주하는 워크로드에서도 그대로 드러났는데요, 단일 소켓 Vera는 기본 Linux 커널을 단 20초 만에 컴파일해 Phoronix가 해당 테스트에서 측정한 가장 빠른 결과를 기록했죠. 코어 기준으로 보면 Linux 커널 컴파일 속도는 128코어 프로세서 대비 2배에 달했습니다.

“[기하] 평균 기준으로, NVIDIA Vera는 5.0GHz 고클럭 프로세서인 AMD EPYC 9575F보다도 10% 더 빠른 성능을 보여 줬습니다.” Larabel이 덧붙였습니다.

고객 테스트 단계에 들어선 Vera, 곧 파트너 제품으로 만난다

NVIDIA는 NVIDIA GTC에서 Vera를 둘러싼 폭넓은 생태계 지원을 발표한 바 있습니다. AI 네이티브 기업과 슈퍼컴퓨팅 센터, 클라우드 서비스 사업자, 그리고 인프라 사업자에 이르기까지 그 범위는 산업 전반을 아우르죠.

이와 함께 NVIDIA는 첫 Vera CPU를 주요 AI 기업과 클라우드 사업자에게 직접 인도했는데요, 올해 하반기 파트너 제품 출시를 앞두고 Vera 여정에서 의미 있는 이정표를 세운 셈입니다.

Vera는 듀얼·단일 소켓 시스템 양쪽 모두로 파트너를 통해 공급될 예정인데요, 공랭과 액랭 옵션이 함께 제공돼 표준 엔터프라이즈 데이터센터부터 고밀도 에이전틱 AI 인프라까지 다양한 AI 팩토리 구축 시나리오를 폭넓게 떠받칩니다.

NVIDIA Vera에 대해 더 자세히 알아보세요.