NVIDIA와 AWS, 안정적·고성능 컴퓨팅 플랫폼 제공해 차세대 AI 혁신 이끈다

AWS re:Invent에서 NVIDIA는 Amazon Web Services(AWS)와의 전략적 협력 확대를 발표했습니다. 이번 발표를 통해 인터커넥트 기술, 클라우드 인프라, 오픈 모델, 피지컬 AI 등 핵심 분야의 최신 기술을 AWS와 함께 통합해 나가며, 차세대 AI 혁신을 가속할 계획입니다.

이번 협력 확대의 일환으로 AWS는 맞춤형 AI 인프라 플랫폼인 NVIDIA NVLink Fusion을 통해 자사의 맞춤형 설계 칩 배포를 지원합니다. 여기에는 추론과 에이전트 AI 모델 훈련을 위한 차세대 트레이니엄4(Trainium4) 칩, 광범위한 워크로드를 위한 그래비톤(Graviton) CPU, 니트로 시스템(Nitro System) 가상화 인프라 등이 포함되죠.

AWS는 NVIDIA NVLink Fusion을 기반으로 NVIDIA NVLink 스케일업 인터커넥트와 NVIDIA MGX 랙 아키텍처를 AWS 맞춤형 칩과 결합합니다. 차세대 클라우드 규모의 AI 성능을 향상시키고 시장 출시 기간을 단축할 계획입니다.

AWS는 NVLink Fusion을 위한 NVIDIA와의 다세대 협력의 첫 단계로, 트레이니엄4가 NVLink와 NVIDIA MGX에 통합되도록 설계하고 있는데요.

이미 NVIDIA GPU를 탑재한 MGX 랙을 대규모로 배포하고 있습니다. AWS는 NVLink Fusion 통합을 통해 자사 플랫폼 전반에 걸친 배포와 시스템 관리를 더욱 간소화할 수 있게 됩니다.

또한 AWS는 NVLink Fusion 생태계를 활용해 전체 랙 규모 배포에 필요한 구성 요소를 공급받을 수 있습니다. 이 생태계는 랙과 섀시부터 전원 공급 장치, 냉각 솔루션에 이르기까지 필요한 모든 인프라 요소를 제공해 대규모 클라우드 환경에서의 효율적인 운영을 지원합니다.

NVIDIA Vera Rubin 아키텍처는 AWS의 엘라스틱 패브릭 어댑터(Elastic Fabric Adapter, EFA)와 니트로 시스템을 지원합니다. 또한 고객들에게 강력한 네트워킹 옵션을 제공하는 동시에 AWS 클라우드 인프라와의 완벽한 호환성을 유지하고 새로운 AI 서비스 출시를 가속화할 예정인데요.

NVIDIA 창립자 겸 CEO 젠슨 황(Jensen Huang)은 “GPU 컴퓨팅 수요가 급증하고 있습니다. 더 많은 컴퓨팅은 더 스마트한 AI를 만들고, 더 스마트한 AI는 더 광범위한 활용을 주도하며, 더 광범위한 활용은 더 많은 컴퓨팅 수요를 만드는 AI의 선순환이 시작됐습니다. NVIDIA NVLink Fusion이 AWS 트레이니엄4에 도입되면서, 저희는 스케일업 아키텍처를 AWS의 맞춤형 칩과 통합해 차세대 가속화 플랫폼을 구축하고 있습니다. AWS와 함께 AI 산업 혁명을 위한 컴퓨팅 패브릭을 만들고 있습니다. 이를 통해 전 세계 모든 기업에게 첨단 AI를 제공하고, 세계가 인텔리전스로 나아가는 길을 가속화할 것”이라고 말했습니다.

AWS의 CEO Matt Garman은 “AWS와 NVIDIA는 15년 이상 긴밀히 협력해왔으며, 오늘은 그 여정의 새로운 이정표를 세우는 날입니다. AWS는 NVIDIA와 함께 대규모 AI 인프라를 발전시켜 고객에게 최고의 성능, 효율성, 확장성을 제공합니다. AWS 트레이니엄4, 그래비톤, 니트로 시스템은 NVIDIA NVLink Fusion을 통해 고객에게 새로운 기능을 제공하며, 그 어느 때보다 빠르게 혁신할 수 있도록 지원할 것”이라고 말했습니다.

규모와 주권의 융합

AWS는 NVIDIA Blackwell 아키텍처를 기반으로 하는 가속 컴퓨팅 포트폴리오를 확장했습니다. 이로써 고객들은 NVIDIA HGX B300, NVIDIA GB300 NVL72 GPU를 포함한 훈련과 추론을 위한 업계 최고 수준의 GPU를 즉시 활용할 수 있죠. 시각적 애플리케이션을 위해 설계된 NVIDIA RTX PRO 6000 Blackwell 서버 에디션 GPU는 향후 몇 주 내 AWS에서 제공될 예정입니다.

이 GPU들은 ‘AWS AI 팩토리(AWS AI Factories)’를 구동하는 AWS 인프라 백본의 일부로, AWS가 운영하는 고객의 자체 데이터센터에서 첨단 AI 서비스와 기능을 활용하는 데 필요한 전용 인프라를 전 세계 고객에게 제공하는 새로운 AI 클라우드 오퍼링입니다. 이를 통해 고객은 자사 데이터에 대한 통제권을 유지하고 각국의 규제 요건을 준수할 수 있습니다.

NVIDIA와 AWS는 전 세계적으로 소버린 AI 클라우드를 구축하고 최고의 AI 혁신을 제공하기 위해 협력하고 있는데요. AWS AI 팩토리 출시를 통해 더욱 엄격한 소버린 AI 요구사항을 충족하면서도 전례 없는 컴퓨팅 성능을 지원해 안전한 소버린 AI 인프라를 제공하고 있죠.

AWS AI 팩토리는 공공 부문 기관을 위해 연방 슈퍼컴퓨팅과 AI 환경을 혁신할 계획입니다. AWS AI 팩토리 고객은 신뢰성, 보안성, 확장성으로 잘 알려진 AWS의 업계 선도적인 클라우드 인프라와 서비스를 NVIDIA Blackwell GPU와 NVIDIA Spectrum-X 이더넷 스위치를 포함한 NVIDIA 풀스택 가속 컴퓨팅 플랫폼과 원활하게 통합할 수 있습니다.

통합 아키텍처를 통해 고객은 첨단 AI 서비스와 기능에 접근할 수 있습니다. 대규모 모델을 훈련하고 배포하는 동시에, 자사 데이터에 대한 완전한 통제권을 유지하고 현지 규제 프레임워크를 완벽히 준수할 수 있죠.

NVIDIA Nemotron, 아마존 베드록과 통합해 소프트웨어 최적화 확대

이번 파트너십은 하드웨어를 넘어 NVIDIA의 소프트웨어 스택과 AWS AI 생태계의 통합을 확장합니다. NVIDIA Nemotron 오픈 모델이 아마존 베드록(Amazon Bedrock)에 통합되면서, 고객은 생성형 AI 애플리케이션과 에이전트를 생산 규모로 구현할 수 있습니다. 개발자는 Nemotron Nano 2와 Nemotron Nano 2 VL에 접근해 텍스트, 코드, 이미지, 비디오를 고효율, 고정확도로 처리하는 전문적인 AI 에이전트 애플리케이션을 구축할 수 있습니다.

이번 통합으로 고객은 검증된 확장성과 제로 인프라 관리가 보장되는 아마존 베드록의 서버리스 플랫폼을 통해 고성능 오픈형 NVIDIA 모델을 즉시 이용할 수 있는데요. 업계 선도 기업인 크라우드스트라이크(CrowdStrike)와 브리지와이즈(BridgeWise)가 이 서비스를 최초로 활용해 전문화된 AI 에이전트를 배포하고 있습니다.

AWS의 NVIDIA 소프트웨어로 개발자 경험 간소화

NVIDIA와 AWS는 소프트웨어 방면에서 공동 엔지니어링을 통해 모든 기업의 데이터 백본 가속화를 추진하고 있습니다. 아마존 오픈서치 서비스(Amazon OpenSearch Service)는 벡터 인덱스 구축을 위한 서버리스 GPU 가속을 제공하죠. 이는 GPU 가속 벡터 검색과 데이터 클러스터링을 위한 오픈소스 라이브러리인 NVIDIA cuVS로 구동됩니다. 이 성과는 비정형 데이터 처리에 GPU를 활용하는 근본적인 전환을 의미하며, 초기 도입 기업들은 4분의 1의 비용으로 최대 10배 빠른 벡터 인덱싱을 경험하고 있습니다.

이러한 획기적인 성능 향상은 검색 지연 시간을 줄이고 쓰기 작업을 가속화하며, 필요한 시점에 정확하고 적절한 GPU 성능을 제공합니다. 이로써 검색 증강 생성(retrieval-augmented generation, RAG)과 같은 동적 AI 기술의 생산성을 높이죠. AWS는 NVIDIA GPU를 활용한 서버리스 벡터 인덱싱을 제공하는 최초의 주요 클라우드 공급자입니다.

생산 환경에 바로 적용 가능한 AI 에이전트는 성능 가시성, 최적화, 확장 가능한 인프라가 필수적이다. 에이전트 개발과 오케스트레이션을 위한 스트랜즈 에이전트(Strands Agents), 심층 프로파일링과 성능 튜닝을 위한 NVIDIA Nemo 에이전트 툴킷, 안전하고 확장 가능한 에이전트 인프라를 위한 아마존 베드록 에이전트코어(AgentCore)를 결합함으로써 조직은 개발자에게 프로토타입에서 생산 환경까지 완전하고 예측 가능한 경로를 제공할 수 있습니다.

이번 확장된 지원은 AWS의 기존 NVIDIA 기술 통합을 기반으로 합니다. 여기에는 NVIDIA NIM 마이크로서비스, NVIDIA Riva와 NVIDIA BioNeMo와 같은 프레임워크, 아마존 세이지메이커(SageMaker)와 아마존 베드록과 통합된 모델 개발 도구 등이 포함됩니다. 이를 통해 조직은 에이전틱 AI, 음성 AI, 과학 애플리케이션을 그 어느 때보다 빠르게 배포할 수 있습니다.

AWS와 피지컬 AI 가속화

피지컬 AI 개발에는 로봇 모델 훈련을 위한 고품질의 다양한 데이터세트와 실제 환경에 배포 전 시뮬레이션에서의 테스트와 검증을 위한 프레임워크가 필요합니다.

NVIDIA Cosmos 월드 파운데이션 모델(WFMs)은 이제 아마존 EKS에서 NVIDIA NIM 마이크로서비스로 제공돼 실시간 로보틱스 제어와 시뮬레이션 워크로드를 원활한 안정성과 클라우드 네이티브 효율성으로 지원합니다. 대규모 합성 데이터 생성 같은 배치 기반 작업과 오프라인 워크로드의 경우, Cosmos WFM은 AWS 배치(Batch)에서 컨테이너 형태로도 이용할 수 있습니다.

Cosmos에서 생성된 월드 상태는 NVIDIA Isaac Sim, Isaac Lab과 같은 오픈소스 시뮬레이션과 학습 프레임워크를 사용해 로봇을 훈련하고 검증하는 데 활용될 수 있습니다.

선도적인 로보틱스 기업들은 AWS와 함께 NVIDIA Isaac 플랫폼을 활용해 로봇 생성 데이터 수집, 저장, 처리부터 로보틱스 개발 확장성을 위한 훈련과 시뮬레이션에 이르는 다양한 활용 사례에 적용하고 있습니다. 여기에는 어질리티 로보틱스(Agility Robotics), 애자일 로봇(Agile Robots), 애니보틱스(ANYbotics), 딜리전트 로보틱스(Diligent Robotics), 다이나 로보틱스(Dyna Robotics), 필드 AI(Field AI), 하플리 로보틱스(Haply Robotics), 라이트휠(Lightwheel), 리버(RIVR), 스킬드 AI(Skild AI) 등이 있죠.

지속적인 협력

오랜 기간동안 지속적인 협력을 기반으로, AWS 글로벌 생성형 AI 인프라와 데이터 부문 올해의 파트너상(AWS Global GenAI Infrastructure and Data Partner of the Year)을 수상했습니다. 이 상은 벡터 임베딩, 데이터 저장과 관리, 다양한 유형과 형식의 합성 데이터 생성을 지원하는 생성형 AI 컴피턴시(Generative AI Competency)를 갖춘 최고의 기술 파트너에게 주어지죠.

12월 5일(금)까지 미국 라스베이거스에서 진행되는 AWS re:Invent 세션을 확인하고 NVIDIA와 AWS 협력에 대한 자세한 내용을 확인하세요.