Vera의 배송 시작 — 에이전트 시대를 위해 만든 NVIDIA의 첫 CPU, 세계 최고 AI 랩에 인도되다

에이전틱 AI는 처음부터 ‘다른 종류의 CPU’를 요구해 왔습니다. 그 답을 내놓은 사람이 바로 NVIDIA 젠슨 황 CEO인데요, 그는 지난 3월 GTC San Jose 무대에서 NVIDIA의 다음 수십억 달러 규모 비즈니스로 단독형 Vera CPU를 처음 공개한 바 있습니다.

그리고 그 CPU가 마침내 NVIDIA의 연구실을 벗어나 고객의 손에 직접 닿았습니다.

첫 NVIDIA Vera CPU는 같은 날 세계 최고 수준의 AI 랩 세 곳, 곧 샌프란시스코의 Anthropic, Mission Bay의 OpenAI, 그리고 팰로앨토의 SpaceXAI에 동시에 도착했고, 이어 산타클라라의 Oracle Cloud Infrastructure로도 인도되었습니다. 인도 행사에는 NVIDIA 하이퍼스케일·고성능 컴퓨팅 부문 부사장 Ian Buck이 직접 나섰습니다.

“에이전틱 AI가 AI 팩토리 안에서 ‘새로운 CPU의 순간’을 만들어 내고 있습니다.” Buck의 말입니다. “모델이 답하는 단계에서 행동하는 단계로 옮겨 가면서, Vera는 그 흐름을 대규모로 끊김 없이 이어 가도록 처음부터 설계됐습니다.”

이번 발표가 던지는 큰 메시지는 단순합니다. 만약 여러분의 업무 속도가 지금보다 10배 빨라진다면, 지금 쓰는 컴퓨터가 그 속도를 따라잡을 수 있을까요? 에이전틱 AI는 슬라이드 작성부터 소프트웨어 컴파일·테스트, 데이터 분석, 파일 검색, 시뮬레이션 실행까지, 우리가 일하는 데 쓰는 인프라에 그 어느 때보다 큰 부담을 지우고 있죠.

AI 에이전트는 GPU 하나로만 굴러가지 않습니다. 모든 에이전틱 샌드박스와 도구 호출, 모든 오케스트레이션 계층, 모든 롱컨텍스트 검색 연산이 결국 CPU의 일이기 때문인데요, Vera는 바로 이 현실을 출발점으로 삼아 설계된 새로운 부류의 CPU입니다.

이렇게 동시다발적이고 실시간으로 쏟아지는 작업의 압박은, 코어 밀도 중심으로 설계된 기존 CPU가 우선순위로 두지 않던 영역에 부담을 집중시킵니다. Vera는 NVIDIA가 직접 설계한 커스텀 Olympus 코어 88개와 1.2TB/s 메모리 대역폭, 그리고 코어당 50% 더 빠른 성능을 한데 모았죠. 부하가 끊이지 않는 상황에서도 작업이 더 빨리 끝나면서, AI 팩토리 전체의 효율이 올라가고 사용자도 더 빠른 응답으로 일을 마무리할 수 있습니다.

샌프란시스코, Anthropic으로 향한 Vera

첫 인도는 샌프란시스코 SoMa의 세련된 Anthropic 사무실에서 이뤄졌습니다.

Anthropic의 컴퓨트 부문 책임자인 James Bradbury가 베이(Bay)가 보이는 회의실에서 시스템을 직접 전달받았습니다.

벅은 안내용으로 들고 온 NVIDIA Vera CPU 메인보드를 펼쳐 보이며, 이 새로운 CPU를 중심으로 설계된 서버의 구성과 Vera만의 차별점을 차근차근 풀어 설명했습니다.

“컴퓨트 확장은 모델의 성장을 가속하는 중요한 촉매입니다.” Bradbury가 말했습니다. “에이전틱 워크로드 문제를 풀어 가는 데 있어 Vera가 생태계의 유망한 한 축으로 떠오르는 모습을 기대를 갖고 지켜보고 있습니다.”

OpenAI의 워크로드에 힘을 보태다

OpenAI의 Mission Bay 본사에서는 인도 장소가 본사에 딸린 야외 발코니로 옮겨졌습니다.

변덕스럽기로 유명한 샌프란시스코 날씨도 이날만큼은 너그러웠는데요, OpenAI의 컴퓨트 인프라 책임자인 Sachin Katti가 시스템을 가져온 벅에게 고마움을 전했습니다.

Buck은 Vera의 주요 기능을 하나씩 짚어 가던 도중, 주머니에서 드라이버를 꺼내 시스템 윗판을 열어젖히고 내부 구조를 그대로 보여 주기도 했습니다.

페닌슐라의 SpaceXAI에서

이날의 마지막 인도는 팰로앨토의 SpaceXAI 사무실에서 진행됐습니다.

NVIDIA 팀이 일론 머스크(Elon Musk)에게 시스템 내부를 직접 설명했습니다. 머스크는 가만히 듣다가 곧 질문을 쏟아 내기 시작했는데요, 코어 구성과 메모리 레이아웃, 그리고 냉각 방식까지 차례로 짚었습니다.

SpaceXAI는 강화 학습 워크로드, 그리고 자사 학습 스택을 떠받치는 에이전트 기반 시뮬레이션 파이프라인에 Vera를 도입할지 검토하고 있습니다.

사우스 베이로 돌아온 Vera, 그리고 OCI

무대는 Oracle AI Customer Excellence Center 내부로 옮겨졌습니다. 전체 제품 관리를 총괄하는 Karan Batta와 최고 고객·파트너 성공 책임자(CCO)인 Gary Miller를 비롯한 OCI 팀이 박스에서 막 꺼낸 Vera CPU 시스템을 함께 둘러봤죠. 뒤편에서는 NVIDIA GPU 랙이 전 세계 OCI 고객의 워크로드를 끊임없이 돌리고 있었습니다. 이 센터는 Oracle 고객이 직접 다양한 AI 워크로드를 시험해 보는 공간입니다.

Buck은 Vera가 어떤 도움을 주는지 다음과 같이 풀어냈습니다.

“AI 모델이 질문을 받았을 때, 정답이 미리 준비돼 있는 경우는 사실 드뭅니다. 모델은 정답에 도달하기 위해 직접 파이썬 코드를 만들어 내야 하는 경우가 많죠.” Buck의 설명인데요, 바로 이 작업이 Vera CPU가 특히 잘하는 영역입니다. “그래서 CPU 수요가 폭발적으로 늘고 있는 것이죠.” 벅이 말을 이었습니다.

OCI 팀 역시 같은 흐름을 현장에서 체감하고 있었습니다.

“OCI는 에이전틱 AI가 대규모 환경에서 꾸준한 성능을 요구하기 때문에, 2026년부터 수십만 개의 NVIDIA Vera CPU를 배치할 계획입니다.” Batta가 말했습니다. “Vera 아키텍처는 처음부터 고처리량 추론 워크로드를 위해 설계됐고, OCI가 차세대 엔터프라이즈 AI를 떠받치는 데 필요한 효율과 밀도, 풋프린트를 함께 안겨 줍니다.”

OCI는 Vera를 하이퍼스케일 규모로 처음 도입하는 클라우드 사업자입니다. 엔터프라이즈 고객 입장에서는, 다른 클라우드 사업자가 오늘 당장 따라잡기 어려운 규모로 프로덕션급 에이전틱 AI 인프라를 손에 넣게 된다는 의미죠.

OCI 팀은 Vera를 곧바로 현업에 투입해, 고객이 자사 에이전틱 AI와 워크로드를 직접 커스터마이징·검증할 수 있는 또 하나의 시스템을 제공하기를 기대하고 있다고 밀러는 전했습니다. “이곳을 찾는 분들의 반응이 정말 기대됩니다. Vera에서 가장 큰 가치를 끌어내기 위해 함께 일해 보고 싶습니다.” 그가 덧붙였습니다.

Vera가 가져다주는 것

Vera는 NVIDIA Rubin GPU, BlueField 4 DPU, Spectrum-X, MGX 랙 아키텍처와 함께 NVIDIA의 ‘극단적 코디자인(extreme co-design)’ 흐름을 구성하는 한 축입니다.

단독형 CPU 시스템을 구동하는 것은 물론, Vera는 Vera Rubin NVL72의 호스트 프로세서 역할도 맡는데요, 이때 2세대 NVIDIA NVLink-C2C로 한 쌍의 Rubin GPU와 직접 연결됩니다.

Vera CPU 한눈에 보기

무엇인가 — 에이전틱 AI를 위해 설계된 NVIDIA의 첫 커스텀 CPU
무엇을 다루나 — 오케스트레이션, 도구 호출, RL 워크로드, 데이터 분석, 에이전트 샌드박싱, 롱컨텍스트 상태 관리
누구를 위한 것인가 — 에이전틱 AI를 대규모로 운영하는 AI 랩과 클라우드 사업자, 엔터프라이즈
핵심 사양 — 88개 커스텀 Olympus 코어, 1.2TB/s 메모리 대역폭, 풀 부하 상태에서 코어당 50% 더 빠른 성능

이러한 시스템 안에서 Vera와 Rubin은 통합 메모리 아키텍처를 공유하며, 가속 컴퓨팅 자원의 활용률을 최대로 유지합니다.

Vera의 빠른 CPU 코어와 인터커넥트는 GPU에 데이터를 끊김 없이 공급하는 데 필요한 오케스트레이션과 제어, 데이터 이동을 도맡으며, 그것도 기존 인프라 대비 2배의 에너지 효율로 처리합니다.

에이전틱 AI의 시대에는 이 시대를 위해 처음부터 설계된 CPU가 함께해야 합니다. 그리고 그 이름이 바로 Vera입니다.

NVIDIA Vera CPU에 대해 자세히 알아보세요.