NVIDIA RTX AI PC에서 비주얼 생성형 AI를 시작하는 방법

AI 기반 콘텐츠 생성 기술은 어도비(Adobe), 캔바(Canva) 등 일상적으로 활용되는 도구에도 기본으로 탑재되며, 수많은 에이전시와 스튜디오 워크플로우 전반에 통합되고 있는데요. 이미지 생성 기술은 사진 수준의 사실적인 결과물을 안정적으로 구현하며, 비디오 생성 기술은 분량이 길고 일관성 있는 영상을 생성할 수 있죠. 이러한 기술은 모두 크리에이터의 창작 의도를 정교하게 반영할 수 있도록 돕습니다.

크리에이터는 에셋을 직접 관리하고, 클라우드 서비스 비용과 반복 작업의 번거로움을 줄이기 위해 이러한 워크플로우를 로컬 PC 환경에서 점점 더 많이 운영하고 있습니다. 이를 통해 크리에이터는 실제 프로젝트에 필요한 작업 흐름에 맞춰 결과물을 쉽게 다듬을 수 있는데요.

NVIDIA RTX PC는 출시 초기부터 높은 성능으로 반복 작업 시간을 단축하고, 토큰 비용 부담 없이 모델을 무료로 실행할 수 있다는 점에서 대표적인 크리에이티브 AI 구동 시스템으로 자리잡아 왔습니다.

최근 진행한 RTX 최적화와 이달 초 CES에서 새롭게 공개한 오픈 웨이트(open-weight) 모델을 통해 크리에이터는 신속하고 효율적으로 작업하는 동시에, 더 높은 수준의 창작 주도권을 확보할 수 있죠.

시작하기

비주얼 생성형 AI 모델을 시작하는 것은 다소 복잡하고 제한적으로 느껴질 수 있는데요. 온라인 생성형 AI 서비스는 사용이 간편하지만, 제어할 수 있는 부분에는 한계가 있죠.

컴피UI와 같은 오픈소스 커뮤니티 도구는 고급 크리에이티브 워크플로우 설정이 간단하며, 설치가 간편합니다. 또한 플럭스.2, LTX-2 등 최신 고성능 모델과 커뮤니티의 주요 워크플로우를 쉽게 다운로드할 수 있죠.

컴피UI와 주요 모델을 활용해 로컬 RTX PC 환경에서 비주얼 생성형 AI를 시작할 수 있습니다.

comfy.org 홈페이지에서 윈도우(Windows)용 컴피UI 다운로드 후 설치
컴피UI 실행
스타터 템플릿을 활용해 초기 이미지 생성

‘템플릿(Templates)’을 클릭하고, ‘시작하기(Getting Started)’를 선택한 뒤, ‘1 스타터 – 텍스트 투 이미지(1.1 Starter – Text to Image)’를 선택
모델 ‘노드(Node)’를 ‘이미지 저장 노드(Save Image Node)’에 연결하면, 노드가 파이프라인에서 작동해 AI 콘텐츠 생성
파란색 ‘실행(Run)’ 버튼을 누르고, RTX PC가 첫 번째 이미지를 생성하는 동안 녹색 ‘노드’ 하이라이트 확인

프롬프트를 바꿔가며 반복 실행하면 비주얼 생성형 AI의 창작 세계를 경험할 수 있습니다.

아래 글에서 계속해서 고급 이미지, 비디오 모델을 활용하는 컴피UI 템플릿에 대한 내용을 읽어보세요.

모델 크기와 GPU

사용자가 컴피UI와 이를 지원하는 모델에 익숙해질수록, GPU의 VRAM 사용량이 해당 모델에 적합한지 고려해야 합니다. 아래는 GPU의 VRAM 사용량에 따른 예시입니다.

* 최상의 결과를 위해 NVIDIA GeForce RTX 50 시리즈 GPU에서는 FP4 모델, RTX 40 시리즈 GPU에서는 FP8 모델 사용이 권장됩니다. 이를 통해 VRAM 사용량을 줄이면서 더 높은 성능을 얻을 수 있습니다.

이미지 생성하기

플럭스.2-Dev(FLUX.2-Dev)를 활용해 이미지 생성 품질을 개선할 수 있습니다.

컴피UI 템플릿 섹션의 ‘모든 템플릿(All Templates)’을 클릭하고, ‘플럭스.2 Dev 텍스트 투 이미지(FLUX.2 Dev Text to Image)’를 검색합니다. 이를 선택하고, 서로 연결된 노드들의 집합인 ‘워크플로우(Workflow)’를 컴피UI에 불러옵니다.

플럭스.2-Dev를 사용하려면 모델 가중치(model weights)를 다운로드해야 합니다.

모델 가중치는 AI 모델 내부에 담긴 지식으로, 인간의 뇌에서 시냅스와 같은 역할을 수행하죠. 플럭스.2와 같은 이미지 생성 모델은 수백만 장의 이미지를 훈련하며 다양한 패턴을 학습하고, 이러한 패턴은 수십억 개의 수치 값으로 이뤄진 가중치 형태로 저장됩니다.

컴피UI에는 이러한 가중치가 내장돼 있지 않으며, 대신 허깅 페이스(Hugging Face)와 같은 저장소에서 필요할 때마다 다운로드합니다. 이러한 파일들은 용량이 매우 크기 때문에(플럭스.2 버전에 따라 30GB 이상), 시스템에는 이를 다운로드할 충분한 저장 공간과 시간이 필요하죠.

다운로드 시 모델 가중치 다운로드를 안내하는 대화창이 표시되며, 가중치 파일(filename.safetensors)은 사용자의 PC 내 올바른 컴피UI 폴더에 자동으로 저장됩니다.

워크플로우 저장하기:

모델 가중치 다운로드를 완료하면, 새로 다운로드한 템플릿을 ‘워크플로우’로 저장할 수 있습니다.

왼쪽 상단의 메뉴 아이콘(세 개의 가로선)을 클릭하고 ‘저장(Save)’을 선택하면, 워크플로우가 사용자의 ‘워크플로우’ 목록에 저장됩니다. W 키를 눌러 이 창을 표시하거나 숨길 수 있습니다. 워크플로우를 종료하려면 탭을 닫으면 됩니다.

모델 가중치 다운로드가 완료되기 전에 실수로 다운로드 대화창을 닫은 경우에는 다음 단계를 따르면 됩니다.

W 키를 눌러 ‘워크플로우’ 창을 빠르게 엽니다.
워크플로우를 선택하면 컴피UI가 이를 불러오며, 이때 누락된 모델 가중치 다운로드를 자동으로 실행합니다.
이제 컴피UI에서 플럭스.2-Dev를 사용해 이미지를 생성할 준비가 완료됐습니다.

플럭스.2-Dev 프롬프트 작성하기:

피사체, 배경, 스타일, 분위기 등 명확하고 구체적인 묘사
- “비 오는 날 빈티지 레이싱카를 클로즈업으로 담은 시네마틱 장면, 젖은 아스팔트 위 네온 불빛 반사, 높은 대비, 35mm 사진 스타일”. 초반에는 긴 이야기식 프롬프트보다 문장 1~2개의 짧고 간략한 프롬프트가 결과를 제어하기 훨씬 쉽습니다.
일관성과 품질 향상을 위한 제약 추가
- 구도: “와이드 샷(wide shot)”, “인물사진(portrait)”
- 디테일 수준: “높은 디테일(high detail)”, “선명한 초점(sharp focus)”
- 표현 방식: “포토리얼리스틱(photorealistic)”, “일러스트 스타일(stylized illustration)”
결과가 너무 복잡해 보인다면, 형용사를 추가하는 것보다는 줄이는 것이 효과적입니다.
부정적인 프롬프트는 피하고, 원하는 요소를 중심으로 프롬프트 작성

블랙 포레스트 랩스(Black Forest Labs)가 제공하는 플럭스.2 프롬프트 작성 가이드를 확인하세요.

디스크 저장 위치:

이미지 수정을 마친 후 ‘이미지 저장 노드’를 마우스 오른쪽 버튼으로 클릭하면, 브라우저에서 이미지를 열거나 새로운 위치에 저장할 수 있습니다.

컴피UI의 기본 출력 폴더는 애플리케이션 형태와 운영체제에 따라 보통 다음과 같은 위치에 저장됩니다.

윈도우(Standalone/Portable 버전): 프로그램을 압축 해제한 위치, 또는 유사한 경로에 저장 (C:\ComfyUI\output)
윈도우(데스크톱 애플리케이션): 보통 앱데이터(AppData) 디렉터리 내 다음과 같은 경로에 저장 (C:\Users\%username%\AppData\Local\Programs\@comfyorgcomfyui-electron\resources\ComfyUI\output)
리눅스(Linux): 기본 설치 위치 (~/.config/ComfyUI)

비디오 프롬프팅

새로운 LTX-2 모델을 활용해 비디오 생성 품질을 개선할 수 있습니다.

라이트릭스(Lightricks)의 LTX-2는 고급 오디오-비디오 모델로, 컴피UI 환경에서 스토리보드 스타일의 제어 가능한 비디오 생성을 지원합니다. LTX-2 이미지 투 비디오 템플릿(LTX-2 Image to Video Template)과 모델 가중치를 다운로드한 뒤, 프롬프트를 영화 전체의 각본이 아닌 짧은 샷 설명처럼 작성하면 됩니다.

앞선 두 가지 템플릿과 달리, LTX-2 이미지 투 비디오는 이미지와 텍스트 프롬프트를 결합해 비디오를 생성합니다.

사용자는 플럭스.2-Dev로 생성한 이미지 중 하나를 선택한 뒤, 텍스트 프롬프트를 추가해 이미지를 생동감 있게 표현할 수 있습니다.

LTX-2 프롬프트 작성 팁:

컴피UI에서 최상의 결과를 얻기 위해서는 현재 시제를 사용한 하나의 자연스러운 문단을 작성하거나, 장면 헤딩(슬러그라인), 동작, 캐릭터 이름, 대사를 포함한 간단한 스크립트 형식을 활용하는 것이 좋습니다. 핵심 요소가 모두 담긴 묘사 문장 4~6개를 목표로 프롬프트를 작성하면 됩니다.

샷과 장면의 와이드(wide), 미디움(medium), 클로즈업(closeup) 구도, 조명, 색감, 질감, 분위기 등을 설정합니다.
동작의 흐름을 명확한 순서로 설명하고, 캐릭터의 외형적 특징과 신체 움직임을 정의하며, 카메라 움직임을 구체적으로 지정합니다.
마지막으로 배경음, 음악, 대사 등 오디오를 큰따옴표로 표기해 추가합니다.
이때 샷의 규모에 맞게 디테일 수준을 조절하는 것이 중요합니다. 예를 들어 클로즈업은 와이드 샷보다 캐릭터와 질감에 대한 정밀한 묘사가 필요하죠. 카메라가 어떻게 피사체와 관계를 맺는지 명확히 설명해야 하며, 단순한 이동 경로 설명에 그쳐서는 안 됩니다.

프롬프트에 아래의 요소를 추가로 고려해볼 수 있습니다.

카메라 움직임 표현: “슬로 도리 인(slow dolly in)”, “핸드헬드 트래킹(handheld tracking)”, “오버 더 숄더 샷(over‑the‑shoulder shot)”, “팬 어크로스(pans across)”, “틸트 업워드(tilts upward)”, “푸시 인(pushes in)”, “풀 백(pulls back)”, “스태틱 프레임(static frame)” 등 구체적인 방향을 명시합니다.
샷 유형: 와이드, 미디엄, 클로즈업을 구분하고, 세심한 조명, 얕은 심도, 자연스러운 움직임을 지정합니다.
페이스 조절: 슬로우 모션, 타임랩스, 여운을 주는 샷, 원테이크, 정지화면, 자연스러운 전환 등 리듬과 톤을 형성하는 요소를 지시합니다.
분위기: 안개, 물안개, 비, 황금 시간대 조명, 반사 효과, 풍부한 표면 질감 등 장면의 현실감을 높이는 디테일을 추가합니다.
스타일: 프롬프트 초반에 회화, 필름 누아르, 아날로그 필름, 스톱모션, 픽셀화된 가장자리, 패션 에디토리얼, 초현실적 스타일 등을 지정합니다.
조명: 역광, 특정 색감 팔레트, 부드러운 림 라이트, 렌즈 플레어 등 조명 요소를 구체적인 표현으로 지시합니다.
감정: 명확한 표정과 섬세한 제스처가 드러나는 단일 피사체 연기에 초점을 맞춰 프롬프트를 작성합니다.
음성, 오디오: 캐릭터가 다양한 언어로 말하거나 노래하도록 지시하고, 명확한 배경음 설명을 함께 제공합니다.

VRAM 사용량과 이미지 품질 최적화

프론티어 모델인 LTX-2는 높은 품질의 결과물을 제공하기 위해 상당한 양의 VRAM을 사용합니다. 해상도, 프레임 속도, 길이, 스텝 수가 증가할수록 메모리 사용량도 함께 늘어나죠.

컴피UI와 NVIDIA는 GPU의 VRAM이 부족할 경우 워크플로우 일부를 시스템 메모리로 오프로딩할 수 있는 웨이트 스트리밍 기능을 최적화했습니다. 다만 이 경우 일부 성능 저하가 발생할 수 있죠.

사용자는 GPU 성능과 사용 목적에 따라 이러한 요소를 적절히 제한해 합리적인 생성 시간을 유지할 수 있습니다.

LTX-2는 수준급의 고급 모델입니다. 그러나 다른 모델과 마찬가지로 설정 조율에 따라 결과 품질이 크게 달라질 수 있죠.

RTX GPU에서 LTX-2 활용을 최적화하는 방법은 컴피UI LTX-2 빠른 시작 가이드(Quick Start Guide)를 통해 확인할 수 있습니다.

플럭스.2-Dev와 LTX-2를 활용한 커스텀 워크플로우 구축하기

사용자는 플럭스.2-Dev 이미지 생성 워크플로우와 LTX-2 이미지 투 비디오 워크플로우를 하나로 결합함으로써, 생성된 이미지를 디스크에서 찾아 다시 이미지 프롬프트로 추가해야 했던 번거로운 과정을 대폭 간소화할 수 있습니다.

저장된 플럭스.2-Dev 텍스트 투 이미지 워크플로우 열기
플럭스.2-Dev 텍스트 투 이미지 노드를 Ctrl + 좌클릭으로 선택
LTX-2 이미지 투 비디오 워크플로우에서 Ctrl + V로 노드를 붙여넣기
플럭스.2-Dev 텍스트 투 이미지 노드의 이미지(IMAGE) 지점에 마우스를 올린 뒤 좌클릭해 이미지/마스크 입력 크기 조정(Resize Image/Mask Input) 지점으로 드래그하면 파란색 연결선이 생성됩니다.

새 이름으로 저장한 뒤, 하나의 워크플로우에서 이미지와 비디오용 텍스트 프롬프트를 함께 활용할 수 있습니다.

고급 3D 생성

플럭스.2로 이미지를 생성하고 LTX-2로 비디오를 제작했다면, 다음 단계는 3D 가이던스를 추가하는 것입니다. 3D 가이드 생성형 AI를 위한 NVIDIA Blueprint는 사용자가 직접 점검, 수정, 확장할 수 있는 기성 워크플로우를 활용합니다. 이를 통해 RTX PC에서 3D 장면과 에셋을 활용하고, 보다 정밀한 제어가 가능한 프로덕션 수준의 이미지, 비디오 파이프라인을 구현하죠.

크리에이터는 스테이블 디퓨전 서브레딧(Stable Diffusion subreddit)과 컴피UI 디스코드(Discord)에서 자신의 작업을 공유하고, 다른 사용자와 교류하며 도움을 받을 수 있습니다.

#ICYMI – NVIDIA RTX AI PC의 새로운 진전

💻 NVIDIA @ CES 2026

CES에서 LTX-2, 컴피UI 업그레이드를 활용한 PC 기반 4K AI 비디오 생성 가속 등 신규 발표가 이어졌습니다. 또한 컴피UI, LTX-2, 라마.cpp(Llama.cpp), 올라마(Ollama), 하이퍼링크(Hyperlink)에 걸친 대규모 RTX 가속을 통해 AI PC에서 비디오, 이미지, 텍스트 생성 활용 사례를 한층 확대했죠.

📝 블랙 포레스트 랩스 플럭스.2 버전: 플럭스.2 [klein]은 이미지 생성과 편집을 모두 지원하는 초고속 콤팩트 모델 세트입니다. 최상급 이미지 품질을 제공하며, NVFP4와 NVFP8 가속을 통해 최대 2.5배 빠른 속도를 구현하죠. 다양한 RTX GPU 제품에서 높은 성능으로도 구동됩니다.

✨ Project G-Assist 업데이트: Project G-Assist는 기본값으로 활성화된 신규 ‘추론 모드(Reasoning Mode)’를 통해 정확도와 인텔리전스가 향상됐습니다. 이와 함께 여러 명령을 동시에 처리할 수 있는 기능을 갖췄는데요. G-Assist는 iCUE를 통해 G-SYNC 모니터, 커세어(CORSAIR) 주변기기, 커세어 PC 부품의 조명, 프로필, 성능, 냉각 설정을 제어할 수 있습니다. 엘가토 스트림 덱(Elgato Stream Deck) 지원이 곧 추가될 예정이며, 이를 통해 G-Assist는 대다수 시스템을 조정하고 제어할 수 있는 통합 AI 인터페이스에 더욱 가까워지죠. G-Assist 플러그인 개발자는 커서(Cursor)의 에이전틱 코딩 환경을 활용한 신규 커서 기반 플러그인 빌더를 통해 개발 속도를 한층 높일 수 있습니다.

페이스북(Facebook), 인스타그램(Instagram), 틱톡(TikTok), X에서 NVIDIA AI PC에 연결하고 RTX AI PC 뉴스레터를 구독해 최신 소식을 받아보세요.

링크드인(LinkedIn)과 X에서 NVIDIA Workstation을 팔로우하세요.

소프트웨어 제품 정보에 관한 공지를 확인할 수 있습니다.