AI 개발 온프레미스 vs 클라우드, 무엇이 다를까요?

사용 데이터의 용도나 종류에 따라 온프레미스 GPU, 클라우드 GPU, 하이브리드 클라우드 아키텍처를 선택하는 가장 좋은 방법을 알아볼까요?
by NVIDIA Korea

온프레미스 GPU 시스템과 클라우드 중 어느 것을 선택하느냐의 문제는 주택을 구매할지, 월세로 살지 결정하는 것과 비슷합니다.

월세를 내면 집을 구매할 때 대비 적은 돈을 선불로 지급하게 됩니다. 임차인은 임대계약서에 따라 매달 월세를 지급하며 세탁기와 건조기를 설치하거나, 물이 새는 지붕을 수리해주는 일 등은 임대인의 몫이 됩니다. 자녀들이 독립해 좀 작은 집으로 이사를 가고 싶을 때가 됐을 때, 임차인이 그 집에 남아있을 의무는 계약서에 명시된 날짜까지만이죠.

바로 이런 것들이 클라우드 GPU 임대의 주요 장점입니다. 즉, 낮은 초기 비용, 클라우드 서비스 제공업체의 고객 지원, 다양한 규모의 컴퓨팅 클러스터(computing cluster)로 빠르게 확장하고 축소할 수 있는 장점들이 있습니다.

반면, 주택 구매는 고정된 가격의 주택을 한 번에 구매하는 겁니다. 일단 부동산을 구매하면 언제까지나 그 곳에서 살 수 있습니다. 주택 소유주가 십대 자녀와 함께 살고 있는 것이 아니라면, 소유주가 집 내부에서 일어나는 모든 일에 대해 완전한 권한을 갖게 됩니다. 임대 계약이 없기 때문에 그 집이 수용할 수 있는 범위 안에서 친구나 친척을 초대해 장기적으로 머물게 할 수도 있습니다.

바로 이것이 온프레미스 GPU에 투자해야 하는 이유입니다. 온프레미스 시스템은 하드웨어가 처리할 수 있는 만큼의 시간 동안, 하드웨어가 처리할 수 있는 수량의 프로젝트를 처리할 수 있습니다. 따라서, 비용 걱정 없이 다양한 방법을 반복해서 시도할 수 있죠. 재무정보나 의료기록과 같은 민감한 정보의 경우, 모든 정보를 조직 내 방화벽 뒤에 보관하는 것이 꼭 필요할지도 모릅니다.

데이터의 용도와 종류에 따라, 개발자들은 AI 툴을 사무실 책상 옆 시스템, 온프레미스 데이터센터, 또는 클라우드에 구축할 수 있습니다. 또 초기 시험 단계에서 대규모 실제 적용단계에 이르기까지 전 과정속에서 작업 환경을 수차례 바꿀 가능성이 높습니다.

클라우드 GPU 사용하기

클라우드 기반 GPU다국어 AI 음성 엔진 학습, 당뇨병으로 인한 초기 시각장애 증상 탐지, 미디어 압축 기술 개발 등 다양한 목적으로 사용할 수 있습니다. 스타트업, 대학 교수, 크리에이터들은 구체적인 GPU 크기나 구성을 장기적으로 사용해야 할 필요 없이 프로젝트를 빠르게 시작하고 새로운 아이디어들도 자유롭게 실험해 볼 수 있습니다.

엔비디아 데이터 센터의 GPU는 알리바바 클라우드(Alibaba Cloud), 아마존웹서비스(Amazon Web Services), 구글 클라우드(Google Cloud), IBM 클라우드(IBM Cloud), 마이크로소프트 애저(Microsoft Azure), 오라클 클라우드 인프라(Oracle Cloud Infrastructure) 등 모든 주요 클라우드 플랫폼을 통해 액세스할 수 있습니다.

클라우드 서비스 제공업체들은 개발 도구, 사전 학습된 신경망, 개발자를 위한 기술 지원 등 유용한 리소스를 제공해 사용자들이 직면하는 설정 등 다양한 문제를 해결할 수 있도록 도움을 줍니다.

어마어마한 양의 학습 데이터가 입력되고, 시범사업이 시작되거나 신규 사용자가 대규모로 유입될 때, 클라우드는 시시각각 달라지는 컴퓨팅 리소스에 대한 수요에 대응하기 위해 기업들이 자사 인프라를 간편하게 확장하고 축소할 수 있게 도와줍니다.

클라우드 기반 GPU는 높은 비용효율성을 자랑합니다. 그 외에도 연구, 콘테이너형 애플리케이션, 다양한 시도, 또는 시간에 크게 구애받지 않는 프로젝트를 목적으로 클라우드를 사용하는 개발자들은 초과용량을 사용해 최대 90%할인을 받을 수 있습니다. 이것을 ‘스팟 인스턴스 (spot instances)’라고 하는데, 다른 고객이 사용하지 않는 클라우드 GPU를 전대해 사용할 수 있죠.

클라우드를 장기적으로 사용하는 사용자들은 클라우드 공급업체가 클라우드 서비스를 업데이트할 때마다 그에 맞는 가장 강력한 최신 데이터 센터 GPU로 업그레이드하고 플랫폼 장기사용에 대한 할인을 적용 받을 수 있습니다.

온프레미스 GPU 사용하기

대규모 데이터 세트를 갖춘 복잡한 AI 모델을 구축할 때 장기 프로젝트의 운영비가 급증할 수 있습니다. 이렇게 되면 개발자들은 모든 반복, 학습작업을 주의해서 실행해야 하고 되도록이면 실험적인 시도는 하지 않게 되죠. 하지만 고정 비용을 한번만 지급하면 되는 온프레미스 GPU 시스템을 사용하면 반복이나 테스트 작업을 시간 제약 없이 할 수 있습니다.

온프레미스 GPU를 사용하는 데이터 과학자, 학생, 그리고 기업들은 특정 기간 내에 몇 개의 시스템을 사용했는지, 또 얼마만큼의 비용이 발생했는지 계산할 필요가 없습니다.

즉, 새로 시도한 방법이 실패해서 다른 코드를 사용해도 추가비용이 발생하지 않아 개발자들이 충분의 자신의 창의력을 발휘할 수 있습니다. 온프레미스 시스템을 사용하면 할수록, 개발자들의 투자 수익률은 높아지게 되죠.

강력한 데스크톱 GPU에서 워크스테이션, 엔터프라이즈 시스템에 이르기까지, 사용자들은 다양한 온프레미스 AI 기계들 중에서 선택해 사용할 수 있습니다. 사용자들은 적합한 가격대와 필요한 성능 수준에 따라 한 개의 엔비디아 GPU 또는 워크스테이션에서 시작해 단계적으로 AI 슈퍼컴퓨터 클러스터로 업그레이드할 수 있습니다.

엔비다아와 VM웨어는 v컴퓨트서버(vComputeServer) 소프트웨어와 엔비디아 NGC 콘테이너 레지스트리(container registry)로 최신 가상화 데이터 센터를 지원합니다. 조직들은 이와 같은 방법으로 GPU 서버를 사용해 가상 환경의 AI워크로드 도입과관리과정을 간소화할 수 있습니다.

의료보건기업이나 인권단체, 금용서비스 산업은 엄격한 데이터 주권과 사생활 침해기준을 적용하고 있습니다. 온프레미스 딥 러닝 시스템을 사용하면 손쉽게 AI를 적용해 관련 규제를 준수하고 사이버보안 위험을 최소화할 수 있죠.

하이브리드 클라우드 아키텍처 사용하기

대다수 기업들의 경우, 한 가지 방법만을 선택할 순 없습니다. 하이브리드 클라우드 컴퓨팅은 온프레미스 시스템과 공공 클라우드를 모두 사용하는 방법으로, 온프레미스 시스템의 보안,관리상의 이점과 서비스 제공업체의 공공 클라우드 리소스를 모두 이용하는 방법입니다.

하이브리드 클라우드는 수요가 높고 온프레미스 리소스가 최대 수준으로 필요한 경우 사용되는데, 이를 ‘클라우드 버스팅(cloud bursting)’이라고 합니다. 혹은 기업들은 자사의 가장 민감한 데이터를 처리할 때 온프레미스 데이터 센터를 이용하는 동시에 하이브리드 클라우드를 통해 동적이고 연산 집약적인 업무를 진행할 수 있습니다.

많은 기업의 데이터 센터들이 이미 가상화를 마쳤으며, 자사의 기존 컴퓨팅 자원에 맞는 하이브리드 클라우드를 도입하기 위해 준비중입니다. 엔비디아는 ‘VM웨어 클라우드 온 AWS(VMware Cloud on AWS)’와 함께 AI, 머신 러닝, 데이터 분석 워크플로우(data analytics workflow) 등 최신 엔터프라이즈 애플리케이션용 가속 GPU 서비스를 제공합니다.

하이브리드 클라우드 사용자들은 이 서비스를 이용해 데이터 센터의 GPU가속화 가상 서버와 VM웨어 클라우드 간 AI 워크로드를 매끄럽게 조정하고 실시간으로 이전할 수 있습니다.

온 프레미스와 클라우드, 양쪽의 장점을 모두 누리는 것이 최선의 방법입니다

클라우드와 온프레미스 GPU, 둘 중 선택하는 일은 한 기업이나 연구팀이 AI 프로젝트를 시작하기 전 일회성으로 내릴 수 있는 결정이 아닙니다. 프로젝트 진행기간 중에 여러 단계에 걸쳐 개발자들이 의논해야 할 문제죠.

스타트업들은 클라우드에서 초기 프로토타이핑을 진행한 뒤에 데스크톱 시스템이나 GPU 워크스테이션으로 전환해 딥 러닝 모델을 개발하고 학습시킵니다. 고객의 요구사항에 따라 클러스터 개수를 조정해 생산단계에서 확장작업을 할 때 클라우드로 다시 이전할 수도 있습니다. 또한 글로벌 인프라를 구축해가면서 온 프레미스의 GPU기반 데이터 센터에 투자를 할 수도 있죠.

고도의 기밀정보를 처리하기 위해 AI모델을 만드는 일부 조직들은 아예 처음부터 최종 단계까지 온프레미스 기기만 사용할 수 있습니다. 한편, 클라우드 우선 기업(cloud-first company)을 구축하고 난 뒤, 시간이 지나도 온프레미스 데이터 센터를 만들지 않는 기업들도 있을 수 있죠.

조직 구축의 핵심 원칙 중 하나는 데이터가 저장된 위치에서 학습을 진행하는 것입니다. 기업의 데이터가 클라우드 서버에 저장 돼있다면, 데이터를 온프레미스 시스템으로 이전해 학습을 진행하기보다 클라우드 내에서 AI 모델을 개발하는 것이 더 비용 효율적인 방법일 것입니다. 학습용 데이터 세트가 현장 서버에 위치해 있다면 온프레미스 GPU에 투자하는 것이 방법이죠다.

GPU를 이용한 AI개발을 가속화 하기 위해 어떤 방법을 선택하든, 개발자들은 엔비디아 개발자 리소스를 이용해 SDK, 콘테이너, 그리고 오픈소스 프로젝트를 진행할 수 있습니다. 또한 가속화 컴퓨팅 도구의 사용법을 알고 싶은 개발자, 데이터 과학자, 연구원, 학생 분들은 엔비디아 딥 러닝 인스티튜트(NVIDIA Deep Learning Institute, DLI)에서 실습 교육을 받을 수 있습니다.

자세한 내용은 ‘엔비디아 딥 러닝과 AI’ 페이지를 참조하세요.

메인 이미지 출처: CC BY-SA 2.0 하Flickr의 승인을 받은 MyGuysMoving.com