엔비디아, 1억 대 윈도우 RTX PC 및 워크스테이션에 생성형 AI 기능과 획기적 성능 제공

텐서 코어 탑재된 엔비디아 RTX GPU로 생성형 AI 모델 개발 및 배포 가속화
by NVIDIA Korea
엔비디아, 1억 대 윈도우 RTX PC 및 워크스테이션에 생성형 AI 기능과 획기적 성능 제공

생산성과 콘텐츠 제작, 게이밍 등에서 생성형 AI는 컴퓨팅의 새 시대를 앞당기고 있습니다. 엔비디아 네모(Nemo), DLSS 3 프레임 제너레이션(Frame Generation), 메타 라마(Meta LLAMA), 챗GPT(ChatGPT), 어도비 파이어플라이(Adobe Firefly), 스테이블 디퓨전(Stable Diffusion) 등의 생성형 AI 모델 및 애플리케이션은 뉴럴 네트워크를 통해 기존 데이터 내에서 식별한 패턴과 구조를 기반으로 새롭고 독창적인 콘텐츠를 생성하게 됩니다.

AI 추론에 최대 1,400 텐서 테라플롭스(Tensor TFLOPS)를 제공하는 엔비디아 RTX GPU와 지포스 RTX(GeForce RTX)에 최적화된 생성형 AI 모델은 실행 속도가 경쟁 디바이스 대비 5배까지 빨라지게 되는데요, 이는 AI 연산을 가속하고자 구축된 RTX GPU 전용 하드웨어인 텐서 코어(Tensor Core)와 정기적인 소프트웨어 개선 덕분입니다. 지난 5월 중순에 마이크로소프트 빌드(Microsoft Build) 컨퍼런스에서 소개된 개선 기능들의 경우, 새로운 다이렉트ML(DirectML) 최적화를 활용하는 스테이블 디퓨전 등의 생성형 AI 모델 성능을 무려 2배까지 높였습니다.

로컬 디바이스에서의 추론이 더욱 빈번해짐에 따라 PC에는 복잡한 작업의 지원을 위한 강력하면서도 효율적인 하드웨어가 필요해질 것입니다. 이를 충족하고자 RTX GPU는 AI 워크로드를 위한 맥스-Q 저전력 추론 기능을 추가할 계획입니다. RTX는 가벼운 추론 작업에는 적은 양의 전력만을 사용하는 반면, 복잡한 생성형 AI 워크로드에는 독보적인 수준의 성능 확장을 지원합니다.

개발자는 새로운 AI 애플리케이션을 생성할 때 윈도우 11에서 실행되는 RTX 가속 AI 개발 스택 일체에 액세스할 수 있어 고급 AI 모델의 개발, 훈련, 배포가 한층 쉬워집니다. 이를 위해 먼저 리눅스용 윈도우 서브시스템(Windows Subsystem for Linux)의 경로로 사용이 가능하게 최적화된 딥 러닝 프레임워크로 모델을 개발해 미세 조정합니다.

다음으로 개발자는 클라우드로 이동해 동일한 엔비디아 AI 스택에서 훈련을 진행하게 됩니다. 이 스택은 주요 클라우드 서비스 공급자 전체에서 지원되는데요, 모델의 훈련을 마친 뒤에는 마이크로소프트 올리브(Microsoft Olive) 등의 툴을 사용해 최적화하고 추론을 가속하게 됩니다. 마지막으로 AI에 최적화된 1억 대 이상의 RTX PC와 워크스테이션의 설치 기반에 AI 지원 애플리케이션과 기능을 배포합니다.

마이크로소프트의 윈도우 실리콘 및 시스템 통합 부문 부사장인 파반 다불루리(Pavan Davuluri)는 “AI는 향후 윈도우 사용 고객들을 위한 혁신을 견인하는 가장 큰 동력이 될 것입니다. 저희는 엔비디아와 협력해 하드웨어와 소프트웨어를 최적화함으로써 혁신적이며 우수한 성능을 지닌 배포하기 용이한 고객 경험을 제공하고 있습니다”라고 밝혔습니다.

현재까지 400개가 넘는 RTX AI 가속 앱과 게임이 공개되었으며, 향후 더 많은 제품들이 출시를 앞두고 있는데요,

여기에 젠슨 황 CEO는 COMPUTEX 2023 키노트에서 엔비디아 게임용 아바타 클라우드 엔진(NVIDIA Avatar Cloud Engine for Games, 이하 게임용 ACE)을 발표했습니다. 게임용 ACE는 게임 개발을 지원하는 생성형 AI입니다.

맞춤형 AI 모델 파운드리 서비스인 게임용 ACE는 AI 기반 자연어 상호작용으로 NPC(non-playable character)들에게 인텔리전스를 부여해 게임을 혁신하게 됩니다. 미들웨어, 툴, 게임의 개발자들은 게임용 ACE를 사용해 소프트웨어와 게임에서 맞춤형 음성, 대화, 애니메이션 AI 모델을 구축 및 배포할 수 있게 되었지요.

 

어디서든 휴대 가능한 RTX 기반 생성형 AI

서버와 클라우드에서 디바이스에 이르기까지, RTX GPU 기반 생성형 AI는 빠지는 곳이 없습니다. 엔비디아의 가속 AI 컴퓨팅은 로우 레이턴시 풀스택 작업입니다. 엔비디아는 RTX GPU 전용 AI 하드웨어인 4세대 텐서 코어 등 하드웨어와 소프트웨어 아키텍처의 모든 부분을 오랜 기간에 걸쳐 최적화해 왔습니다.

여기에 정기적인 드라이버 최적화도 최고의 성능을 보장합니다. 올리브 최적화 모델과 다이렉트ML 업데이트를 결합한 최신 엔비디아 드라이버는 윈도우 11을 사용하는 개발자에게 유의미한 속도 향상을 제공합니다. 가령 스테이블 디퓨전의 경우, 다이렉트ML 최적화 경로를 사용해 개발자가 경험하는 간섭 시간을 전보다 2배 향상시켰답니다.

또한 엔비디아 에이다 러브레이스(Ada Lovelace) 아키텍처를 기반으로 구축된 최신 세대의 RTX 노트북과 모바일 워크스테이션이 있으면 어디서나 생성형 AI를 휴대할 수 있는데요, 엔비디아의 차세대 모바일 플랫폼은 14인치 규격에 1350그램밖에 나가지 않는 소형 폼팩터로 차원이 다른 성능과 휴대성을 제공하고 있고, 델(Dell), 휴렛팩커드(HP), 레노버(Lenovo), 에이수스(ASUS) 등의 제조사들은 RTX GPU와 텐서 코어를 기반으로 생성형 AI의 시대를 앞당기고 있습니다.

 

“2030년까지 AI가 37% 이상의 연간 성장률을 기록하며 산업 전반에 배포될 것으로 기대됩니다. 이에 따라 기업과 소비자의 입장에서는 생성형 AI 등을 제대로 개발, 구현할 기술의 필요성이 점차 증가할 것입니다. 레노버는 다년에 걸쳐 AI 워크로드를 위한 제품과 솔루션을 개발해왔으며 각종 디바이스와 서버, 클라우드 등에서 생성형 AI에 힘을 실어줄 독보적 위치에 있습니다. 레노버 싱크패드(ThinkPad)와 싱크스테이션(ThinkStation), 싱크북(ThinkBook), 요가(Yoga), 리전(Legion), LOQ 디바이스 등의 엔비디아 RTX GPU 기반 PC들은 시간 절약과 콘텐츠 제작, 작업 마무리, 게이밍 등에서 일상적인 사용자 경험을 개선해줄 생성형 AI의 혁신을 지원할 것입니다” — 데릴 크로머(Daryl Cromer), 레노버 PC 및 스마트 디바이스 부문 부사장 겸 최고기술책임자

 

“생성형 AI는 획기적이며 산업 전반에 걸친 미래 혁신의 촉매제입니다. HP와 엔비디아는 오늘날의 가속 AI 모델을 실행하는 데 필요한 성능과 기동성, 신뢰성을 제공하는 동시에 생성형 AI의 새 시대를 지원할 것입니다.” —  짐 노팅엄(Jim Nottingham), Z by HP 부사장 겸 총괄 책임

 

“최근에 엔비디아와 협업한 프로젝트 헬릭스(Project Helix)는 기업이 온프레미스 환경에 신뢰할 만한 생성형 AI를 보다 쉽게 구축, 배포할 수 있게 만드는 데 중점을 두고 있습니다. 생성형 AI를 PC로 가져가는 시도 또한 역사적이라 할 만합니다. 완벽한 신경망 알고리즘을 모색하면서 훈련용 데이터와 IP를 로컬에서 제어하는 앱 개발자의 모습을 그려보세요. 이것이 엔비디아 RTX GPU를 탑재해 강력하고 확장 또한 가능한 프리시전(Precision) 워크스테이션이 추구하는 바입니다. 워크스테이션의 글로벌 리더로서 델 테크놀로지스는 사용자가 엣지에서 데이터센터로 AI 애플리케이션을 안전하게 가속할 수 있게 도울 독보적 위치에 있습니다.” — 에드 워드(Ed Ward), 델 테크놀로지스 클라이언트 제품 그룹 부문 사장

 

“생성형 AI의 시대가 오고 있습니다. 중요한 것은 완벽히 최적화된 하드웨어, 소프트웨어, 그리고 극강의 처리 능력입니다. 엔비디아 옴니버스(Omniverse)를 비롯한 엔비디아 AI 플랫폼은 이제 에이수스 제품 다수에 사전 설치되며, 에이수스와 ROG 노트북에서 AI 혁명이 지속적으로 구체화되는 모습을 볼 수 있게 되어 기쁘게 생각합니다.” — 갈립 푸(Galip Fu), 에이수스 글로벌 소비자 마케팅 책임

 

이와 같이 RTX GPU를 탑재한 노트북과 모바일 워크스테이션이 곧 두 가지의 장점들을 고루 누리게 될 전망입니다. AI 추론 전용 워크로드는 GPU의 전력 소비를 최대한 낮게 유지하면서 텐서 코어 성능에 맞춰 최적화되는데요, 배터리 수명 또한 연장되며 발열 없고 조용한 시스템을 유지할 것입니다. GPU는 워크로드가 필요로 하는 경우 동적으로 확장돼 AI 성능을 극대화하게 됩니다.

또한 개발자라면 ‘가속 애플리케이션 개발자를 위한 엔비디아 AI 사이트’에서 자신의 애플리케이션을 엔드 투 엔드로 최적화하고 GPU 가속화의 이점을 극대화하는 방법을 배울 수 있으니 바로 확인해보세요!