NVIDIA, Google Cloud와 함께 기업에 에이전틱 AI 추론 기능 제공

Google의 Gemini 모델은 곧 NVIDIA Blackwell 인프라에서 NVIDIA 컨피덴셜 컴퓨팅으로 실행되는 Google 분산 클라우드와 함께 온프레미스에서 사용할 수 있게 될 것입니다.
by NVIDIA Korea
NVIDIA, Google Cloud와 함께 기업에 에이전틱 AI 추론 기능 제공

NVIDIA는 데이터 안전을 위해, Google Cloud와 함께 Google Gemini AI 모델 제품군을 로컬에서 활용하고자 하는 기업들에게 NVIDIA Blackwell HGX & DGX 플랫폼과 NVIDIA 컨피덴셜 컴퓨팅을 사용하여 에이전틱 AI를 제공하고 있습니다.

온프레미스 데이터센터는 Google 분산 클라우드의 NVIDIA Blackwell 플랫폼을 통해 환자 기록, 금융 거래나 정부 기밀 정보와 같은 민감한 정보에 대한 액세스를 차단하여 규제 요건 및 데이터 주권법을 준수할 수 있습니다. 또한 NVIDIA 컨피덴셜 컴퓨팅은 Gemini 모델의 민감한 코드를 외부에서의 무단 액세스나 데이터 유출로부터 보호해줍니다.

Google Cloud의 인프라 및 솔루션 담당 부사장 겸 제너럴 매니저인 Sachin Gupta는 “NVIDIA Blackwell의 획기적인 성능과 컨피덴셜 컴퓨팅 기능을 갖춘 Gemini 모델이 온프레미스로 도입되면서 기업들이 에이전틱 AI의 잠재력을 최대한 활용할 수 있도록 지원할 수 있게 되었습니다.”라고 양사의 협업에 대한 소감을 밝혔습니다. “이번 협업은 고객이 성능이나 운영 편의성을 저하시키지 않으면서도 안전하게 기술 혁신으로 나아갈 수 있도록 지원해줍니다.”

새로운 엔터프라이즈 애플리케이션을 주도하는 AI 에이전트

이 새로운 서비스는 에이전틱 AI가 엔터프라이즈 기술을 변화시키면서 더욱 발전된 문제 해결 기능을 제공함에 따라 출시되었습니다.

학습된 지식을 기반으로 인식하거나 생성하는 AI 모델과 달리, 에이전틱 AI 시스템은 동적인 환경에서도 추론하고 적응하며 의사 결정을 내릴 수 있는데요, 예를 들어 엔터프라이즈 IT 지원의 경우 지식 기반 AI 모델은 문제 해결 가이드를 검색하고 대안을 제시할 수 있지만, 에이전틱 AI 시스템은 여기서 더 나아가 문제를 진단하고 수정 사항을 직접 실행하며 복잡한 문제를 자율적으로 풀어나갈 수 있습니다.

마찬가지로 금융 분야에서도 기존 AI 모델은 패턴을 기반으로 잠재적인 사기 거래를 탐지하는 수준에서 머물지만, 에이전틱 AI 시스템은 이상 징후를 분석하고 거래가 발생하기 전에 차단하거나 사기 탐지 규칙을 실시간으로 조정하는 등의 사전 조치를 취함으로써 한 단계 더 나아간 보안 기능을 제공할 수 있답니다.

온프레미스의 딜레마

이미 많은 사람들이 텍스트와 이미지, 그리고 코드를 비롯하여 다양한 데이터 유형들을 통합하여 복잡한 문제를 해결하고 클라우드 기반 에이전틱 AI 애플리케이션을 구축하는 등 멀티모달 추론 모델을 사용할 수 있지만, 엄격한 보안이나 데이터 주권 요구 사항을 따라야 하는 경우에는 아직 그렇게 할 수 없었습니다.

이번 발표를 통해 Google Cloud는 클라우드 또는 하이브리드 등 모든 환경에서 에이전틱 AI 워크로드를 보호할 수 있는 컨피덴셜 컴퓨팅 기능을 제공하는 최초의 클라우드 서비스 제공업체 중 하나가 될 것입니다.

Blackwell GPU와 NVIDIA 컨피덴셜 컴퓨팅이 탑재된 NVIDIA HGX B200 플랫폼을 기반으로 하는 이 솔루션은 고객이 AI 모델과 데이터를 안전하게 보호할 수 있도록 지원하는데요, 이를 통해 사용자는 데이터 보안 문제나 모델의 무결성을 손상시키지 않으면서도 획기적인 성능과 에너지 효율성을 달성할 수 있게 되었습니다.

에이전틱 AI를 위한 AI 옵저버빌리티(Observability)와 보안

프로덕션 환경에서 에이전틱 AI를 확장시키기 위해서는 안정적인 성능과 엄격한 규정 준수를 보장하기 위해 강력한 옵저버빌리티와 보안이 필요합니다.

Google Cloud는 향상된 라우팅 및 확장성을 통한 AI 추론 워크로드의 배포를 최적화하기 위해 구축된 새로운 GKE 추론 게이트웨이를 발표했는데요, NVIDIA Triton 추론 서버와  NVIDIA NeMo Guardrails과 통합되어 성능을 향상시키고 서비스 비용을 절감시키는 동시에 중앙 집중식의 모델 보안과 거버넌스를 모두 지원하는 지능형 로드 밸런싱(Intelligent load balancing)을 제공하게 됩니다.

Google Cloud는 향후에도 AI 팩토리 전반에서 추론 AI 모델을 제공하고 확장하기 위해 구축된 오픈 소스 라이브러리인 NVIDIA Dynamo를 통합하여 에이전틱 AI 워크로드에 대한 옵저버빌리티를 향상시킬 예정입니다.