문서 요약에서 맞춤형 소프트웨어 에이전트에 이르기까지, AI 사용 사례가 계속 확장되고 있습니다. 개발자와 AI 애호가들도 LLM을 더욱 빠르고 유연하게 실행할 수 있는 방법을 찾고 있죠.
NVIDIA GeForce RTX GPU가 탑재된 PC에서 로컬로 모델을 실행하면 고성능 추론, 향상된 데이터 프라이버시, AI 배포와 통합에 대한 완전한 제어가 가능합니다. 무료로 체험할 수 있는 LM 스튜디오와 같은 도구는 이러한 로컬 AI 실행을 간편하게 구현할 수 있도록 지원합니다. 이를 통해 사용자는 자신의 하드웨어에서 LLM을 탐색하고 구축할 수 있습니다.
LM 스튜디오는 로컬 LLM 추론을 위해 가장 널리 채택된 도구 중 하나입니다. 고성능 llama.cpp 런타임을 기반으로 구축된 이 애플리케이션은 모델을 완전히 오프라인에서 실행할 수 있도록 하죠. 또한, 사용자 지정 워크플로우에 통합하기 위해 오픈AI(OpenAI) 호환 API(application programming interface) 엔드포인트 역할도 수행할 수 있습니다.
LM 스튜디오 0.3.15 버전은 CUDA 12.8을 통해 RTX GPU에서 성능이 향상되면서 모델 로드와 응답 시간이 크게 개선됐습니다. 또한, ‘툴_초이스(tool_choice)’ 파라미터를 통한 도구 활용 개선, 시스템 프롬프트 편집기 재설계 등 개발자 중심의 새로운 기능도 추가됐죠.
LM 스튜디오의 최신 업데이트 사항은 성능과 사용성을 향상시켜 RTX AI PC에서 역대 최고 수준의 처리량을 제공합니다. 즉, 더 빠른 응답, 더 신속한 상호작용, 그리고 로컬에서 AI를 구축하고 통합하기 위한 더 나은 툴을 경험할 수 있습니다.
일상적인 앱과 AI 가속의 만남
LM 스튜디오는 유연성을 염두에 두고 제작돼 간단한 실험부터 맞춤형 워크플로우 통합까지 다양한 용도로 활용할 수 있습니다. 사용자는 데스크톱 채팅 인터페이스를 통해 모델과 상호작용하거나 개발자 모드를 활성화해 오픈AI 호환 API 엔드포인트를 제공할 수 있는데요. 이를 통해 로컬 LLM을 비주얼 스튜디오 코드(VS Code)나 맞춤형 데스크톱 에이전트와 같은 앱의 워크플로우에 쉽게 연결할 수 있습니다.
예를 들어, LM 스튜디오는 마크다운 기반의 인기 지식 관리 애플리케이션인 옵시디언(Obsidian)에 통합될 수 있습니다. 사용자는 텍스트 제너레이터(Text Generator), 스마트 커넥션(Smart Connections)과 같은 커뮤니티 개발 플러그인을 사용해 콘텐츠를 생성하고, 연구를 요약하고, 자신의 노트 검색을 수행할 수 있죠. 이 모든 기능은 LM 스튜디오를 통해 실행되는 로컬 LLM으로 구동됩니다. 이러한 플러그인은 LM 스튜디오의 로컬 서버에 직접 연결되므로 클라우드에 의존하지 않고도 빠르고 비공개적인 AI 상호작용이 가능하게 합니다.

LM 스튜디오 0.3.15 업데이트에는 개발자를 위한 새로운 기능이 추가됐습니다. 그중에는 ‘툴_초이스’ 매개변수를 통한 도구 사용에 대한 세분화된 제어 기능과 더 길거나 복잡한 프롬프트를 처리할 수 있는 시스템 프롬프트 편집기 업그레이드 등이 포함돼 있습니다.
개발자는 툴_초이스 파라미터를 통해 도구 호출을 강제하거나, 완전히 비활성화하거나, 모델이 동적으로 결정하도록 허용하는 등 모델이 외부 도구와 연동하는 방식을 제어할 수 있습니다. 이러한 유연성은 구조화된 상호작용, 검색 증강 생성(retrieval-augmented generation, RAG) 워크플로우 또는 에이전트 파이프라인 구축에 특히 유용합니다. 따라서 LLM을 사용하는 개발자의 실험과 프로덕션 사용 사례 모두에서 높은 효율성을 발휘합니다.
LM 스튜디오는 젬마(Gemma), 라마3(Llama 3), 미스트랄(Mistral), 오르카(Orca) 등 광범위한 개방형 모델과 4비트부터 고정밀까지 다양한 양자화 형식을 지원합니다.
주요 사용 사례로는 RAG, 긴 컨텍스트 윈도우가 있는 멀티턴(multi-turn) 채팅, 문서 기반 질의응답, 로컬 에이전트 파이프라인 등이 있는데요, 또한, NVIDIA RTX로 가속된 llama.cpp 소프트웨어 라이브러리로 구동되는 로컬 추론 서버를 통해 RTX AI PC에서 로컬 LLM을 쉽게 통합할 수 있습니다.
소형 RTX 기반 시스템에서 효율성을 최적화하든, 고성능 데스크톱에서 높은 처리량을 달성하든, LM 스튜디오는 RTX에서 완전한 제어, 속도, 프라이버시를 모두 제공합니다.
RTX GPU에서 최대 처리량 경험
LM 스튜디오 가속화의 핵심은 소비자 하드웨어에서 효율적인 추론을 제공하도록 설계된 오픈 소스 런타임인 llama.cpp입니다. NVIDIA는 LM 스튜디오, llama.cpp 커뮤니티와 협력해 RTX GPU 성능을 극대화하기 위해 몇 가지 최적화 사항을 통합했습니다.
주요 최적화 사항은 다음과 같습니다.
- CUDA 그래프 활성화: 여러 GPU 작업을 단일 CPU 호출로 그룹화해 CPU 오버헤드를 줄이고 모델 처리량을 최대 35%까지 개선합니다.
- 플래시 어텐션 CUDA 커널(Flash attention CUDA kernel): 트랜스포머 모델에서 중요한 작업인 LLM의 어텐션 처리 방식을 개선해 처리량을 최대 15%까지 향상시킵니다. 이 최적화를 통해 메모리 또는 연산 요구 사항을 늘리지 않고도 더 긴 컨텍스트 윈도우를 사용할 수 있습니다.
- 최신 RTX 아키텍처 지원: CUDA 12.8로 업데이트된 LM 스튜디오는 GeForce RTX 20 시리즈부터 NVIDIA Blackwell급 GPU까지 모든 범위의 RTX AI PC와의 호환성을 보장합니다. 따라서 사용자가 노트북에서 하이엔드 데스크톱까지 로컬 AI 워크플로우를 유연하게 확장할 수 있도록 지원합니다.

모든 구성은 BS=1, ISL=4000, OSL=200에서 Q4_K_M GGUF(Int4) 양자화를 사용해 플래시 어텐션을 켜고 측정했습니다. 그래프는 llama.cpp 추론 백엔드에 대한 NVIDIA의 기여로 인해 최신 버전의 LM 스튜디오에서 최대 27%의 속도 향상을 보여줍니다.
호환되는 드라이버를 사용하면 LM 스튜디오가 CUDA 12.8 런타임으로 자동 업그레이드되므로 모델 로드 시간이 훨씬 빨라지고 전반적인 성능이 향상됩니다.
이러한 향상된 기능은 얇고 가벼운 노트북부터 고성능 데스크톱, 워크스테이션에 이르기까지 모든 범위의 RTX AI PC에서 더 원활한 추론과 빠른 응답 시간을 제공합니다.
LM 스튜디오 시작하기
LM 스튜디오는 윈도우, 맥OS(macOS), 리눅스에서 무료로 다운로드해 실행할 수 있습니다. 최신 0.3.15 버전과 지속적인 최적화를 통해 사용자는 성능, 맞춤화, 사용성에서 지속적인 개선을 기대할 수 있으며, 로컬 AI를 더 빠르고 유연하며 접근 가능하게 만듭니다.
사용자는 데스크톱 채팅 인터페이스를 통해 모델을 로드하거나 개발자 모드를 활성화해 오픈AI 호환 API를 사용할 수 있습니다.
빠르게 시작하려면 LM 스튜디오의 최신 버전을 다운로드하고 애플리케이션을 실행하세요.
1. 왼쪽 패널의 돋보기 아이콘을 클릭해 Discover 메뉴를 실행하세요.
2. 왼쪽 패널에서 Runtime 설정을 선택하고 사용 가능 목록에서 CUDA 12 llama.cpp(Windows) 런타임을 검색하세요. Download and Install 버튼을 선택하세요.
3. 설치가 완료되면 기본 선택 드롭다운에서 CUDA 12 llama.cpp(Windows)를 선택하고, 이 런타임을 기본으로 사용할 수 있도록 LM 스튜디오를 구성하세요.
4. CUDA 실행 최적화의 마지막 단계로, LM 스튜디오에서 모델을 로드하고 로드된 모델의 왼쪽에 있는 톱니바퀴 아이콘을 클릭해 설정 메뉴로 들어가세요.
5. 결과 드롭다운 메뉴에서 ‘Flash Attention’을 켜고 ‘GPU Offload’ 슬라이더를 오른쪽으로 드래그해 모든 모델 레이어를 GPU로 오프로드하세요.
이러한 기능을 활성화하고 구성한 후에는 로컬 설정에서 NVIDIA GPU 추론을 실행할 수 있습니다.
LM 스튜디오는 모델 프리셋, 다양한 양자화 형식, 파인튜닝된 추론을 위한 툴_초이스와 같은 개발자 제어 옵션을 지원합니다. LM 스튜디오의 성능 개선에 관심이 있는 사용자는 커뮤니티와 NVIDIA 주도의 성능 개선이 지속적으로 반영되는 llama.cpp 깃허브(GitHub) 리포지토리에 참여할 수 있습니다.
RTX AI Garage 블로그 시리즈는 매주 커뮤니티 주도의 AI 혁신과 NVIDIA NIM 마이크로서비스, AI Blueprint 학습을 원하는 사용자에게 유용한 콘텐츠를 전달하고 있습니다. 또한, AI PC와 워크스테이션에서 AI 에이전트, 크리에이티브 워크플로우, 디지털 휴먼, 생산성 애플리케이션 등을 구축하고자 하는 이들을 위한 정보를 제공합니다.
페이스북(Facebook), 인스타그램(Instagram), 틱톡(TikTok), X에서 NVIDIA AI PC에 대해 알아보고, RTX AI PC 뉴스레터를 구독해 최신 정보를 받아보세요.
또한 링크드인(LinkedIn)과 X에서 NVIDIA Workstation 채널을 팔로우하세요.