편집자 노트: 본 게시물은 NVIDIA RTX PC 및 워크스테이션 사용자를 위한 새로운 하드웨어, 소프트웨어, 도구, 가속화를 보여주는 동시에 기술의 접근성을 높여 AI를 쉽게 이해하도록 돕기 위해 작성된 AI Decoded 시리즈 중 하나입니다.
생성형 AI 개발을 간소화하고 최적화하는 도구에 대한 수요가 급증하고 있습니다. 특정 외부 소스에서 가져온 팩트로 생성형 AI 모델의 정확성과 신뢰성을 향상하는 기술인 검색 증강 생성(RAG)과 맞춤형 모델을 기반으로 하는 애플리케이션을 통해 개발자는 특정한 니즈에 맞게 AI 모델을 조정할 수 있습니다.
과거에는 이러한 작업에 복잡한 설정이 필요했을 수 있지만 새로운 도구를 사용하면 그 어느 때보다 쉽게 작업할 수 있습니다.
NVIDIA AI Workbench는 사용자가 자체 RAG 프로젝트를 구축하고 모델을 맞춤화하는 등의 작업을 지원하여 AI 개발자 워크플로우를 간소화합니다. 지난 달 COMPUTEX에서 출시된 RTX AI Toolkit의 일부로, AI 기능을 맞춤화, 최적화 및 배포하기 위한 도구 및 소프트웨어 개발 키트 제품군입니다. AI Workbench는 전문가에게 있어 계획에 차질을 빚게 하고 초기 단계에 있는 작업자의 작업 진행을 중단시킬 수 있는 기술 작업의 복잡성을 제거해줍니다.
NVIDIA AI Workbench란?
무료로 제공되는 NVIDIA AI Workbench를 통해 사용자는 노트북이나 워크스테이션에서 데이터센터와 클라우드에 이르는 원하는 GPU 시스템 전반에서 AI 애플리케이션을 개발, 실험, 테스트 및 프로토타이핑할 수 있습니다. 사람과 시스템 전반에서 GPU 지원 개발 환경을 생성, 사용 및 공유하기 위한 새로운 접근 방식을 제공합니다.
간단한 설치로 사용자는 몇 분 만에 로컬 또는 원격 시스템에서 AI Workbench를 가동하고 실행할 수 있습니다. 그런 다음 사용자는 새 프로젝트를 시작하거나 GitHub 예제에서 프로젝트를 복제할 수 있습니다. 모든 것이 GitHub 또는 GitLab을 통해 작동하므로 사용자는 쉽게 협업하고 작업을 배포할 수 있습니다. AI Workbench 시작하기에 대해 자세히 알아보세요.
AI Workbench로 AI 프로젝트 과제를 해결하는 방법
AI 워크로드를 개발하려면 처음부터 복잡한 수동 프로세스가 필요할 수 있습니다.
GPU 설정, 드라이버 업데이트, 버전 비호환성 관리는 번거로울 수 있으며, 여러 시스템에서 프로젝트를 재현하려면 수동 프로세스를 반복해서 복제해야 할 수 있습니다. 프로젝트를 복제할 때 데이터 조각화 및 버전 제어 문제와 같은 불일치가 협업을 방해할 수 있습니다. 다양한 설정 프로세스, 자격 증명 및 비밀 정보 이동, 환경, 데이터, 모델 및 파일 위치의 변경으로 인해 프로젝트의 이식성이 제한될 수 있습니다.
AI Workbench를 사용하면 데이터 사이언티스트와 개발자가 작업을 관리하고 이종 플랫폼에서 협업하기가 더 쉬워집니다. 개발 프로세스의 다양한 측면을 통합하고 자동화하여 다음을 제공합니다.
- 설정 용이성: AI Workbench는 제한된 기술 지식을 가진 사용자도 GPU 가속 개발자 환경을 설정하는 프로세스를 간소화합니다.
- 원활한 협업: AI Workbench는 GitHub 및 GitLab과 같은 버전 제어 및 프로젝트 관리 도구와 통합되어 협업 시 마찰을 줄입니다.
- 로컬에서 클라우드로 확장 시 일관성: AI Workbench는 여러 환경에서 일관성을 보장하여 로컬 워크스테이션 또는 PC에서 데이터센터 또는 클라우드로 확장 또는 축소를 지원합니다.
그 어느 때보다 쉬워진 문서용 RAG
NVIDIA는 사용자가 AI Workbench를 시작하는 데 도움이 되는 샘플 개발 Workbench 프로젝트를 제공합니다. 하이브리드 RAG Workbench 프로젝트가 한 가지 예로서, 로컬 워크스테이션, PC 또는 원격 시스템에서 사용자 문서와 함께 맞춤형 텍스트 기반 RAG 웹 애플리케이션을 실행합니다.
모든 Workbench 프로젝트는 AI 애플리케이션을 실행하는 데 필요한 모든 구성 요소를 포함하는 소프트웨어인 ‘컨테이너’에서 실행됩니다. 하이브리드 RAG 샘플은 호스트 시스템의 Gradio 채팅 인터페이스 프런트엔드를 컨테이너화된 RAG 서버(사용자 요청을 서비스하고 벡터 데이터베이스 및 선택된 거대 언어 모델로/부터 쿼리를 라우팅하는 백엔드)와 페어링합니다.
이 Workbench 프로젝트는 NVIDIA의 GitHub 페이지에서 사용할 수 있는 다양한 LLM을 지원합니다. 또한 프로젝트의 하이브리드 특성으로 인해 사용자가 추론을 실행할 위치를 선택할 수 있습니다.
개발자는 호스트 시스템에서 임베딩 모델을 실행하고, NVIDIA API 카탈로그와 같은 NVIDIA 추론 엔드포인트나 NVIDIA NIM 또는 타사 서비스와 같은 셀프 호스팅 마이크로 서비스를 사용하여 Hugging Face 텍스트 생성 추론 서버에서 로컬로 추론을 실행할 수 있습니다.
하이브리드 RAG Workbench 프로젝트에는 다음도 포함됩니다.
- 성능 지표: 사용자는 RAG 기반 및 비 RAG 기반 사용자 쿼리가 각 추론 모드에서 어떻게 수행되는지 평가할 수 있습니다. 추적된 지표에는 검색 시간, TTFT(Time to First Token) 및 토큰 속도가 있습니다.
- 검색 투명성: 패널에는 벡터 데이터베이스에서 맥락적으로 가장 관련성이 높은 콘텐츠에서 검색된 텍스트의 정확한 스니펫이 표시되며, LLM에 입력되어 사용자 쿼리에 대한 응답의 관련성을 개선합니다.
- 응답 맞춤화: 생성할 최대 토큰, 온도 및 빈도 패널티와 같은 다양한 매개변수로 응답을 조정할 수 있습니다.
이 프로젝트를 시작하려면 로컬 시스템에 AI Workbench를 설치하기만 하면 됩니다. 하이브리드 RAG Workbench 프로젝트는 GitHub에서 사용자의 계정으로 가져와 로컬 시스템에 복제할 수 있습니다.
AI 디코딩 사용 설명서에서 더 많은 리소스를 사용할 수 있습니다. 또한 커뮤니티 회원은 아래의 Joe Freeman의 튜토리얼과 같은 유용한 영상 튜토리얼을 제공합니다.
맞춤화, 최적화, 배포
개발자는 종종 특정 사용 사례에 맞게 AI 모델을 맞춤화하려고 합니다. 추가 데이터로 모델을 트레이닝하여 변경하는 기술인 미세 조정은 스타일 전송 또는 모델 동작 변경에 유용할 수 있으며, AI Workbench 또한 파인 튜닝에 도움이 됩니다.
Llama-factory AI Workbench 프로젝트는 다양한 모델에 대한 메모리 요구 사항을 최소화하는 미세 조정 방법인 QLoRa와 함께 간단한 그래픽 사용자 인터페이스를 통한 모델 양자화를 지원합니다. 개발자는 공개 또는 자체 데이터세트를 사용하여 애플리케이션의 니즈를 충족할 수 있습니다.
파인 튜닝이 완료되면 모델을 양자화하여 성능을 개선하고 메모리 설치 공간을 줄인 다음 로컬 추론을 위한 기본 Windows 애플리케이션 또는 클라우드 추론을 위한 NVIDIA NIM에 배포할 수 있습니다. NVIDIA RTX AI 툴킷 리포지토리에서 이 프로젝트에 대한 전체 튜토리얼을 찾아보세요.
진정한 하이브리드 — 어디서나 AI 워크로드 실행
위에서 설명한 Hybrid-RAG Workbench 프로젝트는 여러 가지 면에서 하이브리드 기능을 갖추고 있습니다. 추론 모드를 선택할 수 있는 것 외에도 프로젝트는 NVIDIA RTX 워크스테이션 및 GeForce RTX PC에서 로컬로 실행하거나 원격 클라우드 서버 및 데이터센터로 확장할 수 있습니다.
인프라 설정에 대한 오버헤드 없이 사용자가 선택한 시스템에서 프로젝트를 실행할 수 있는 기능은 모든 Workbench 프로젝트로 확장됩니다. AI Workbench 빠른 시작 가이드에서 미세 조정 및 맞춤화에 대한 더 많은 예제와 가이드를 찾아보세요.
생성형 AI는 게이밍 및 화상 회의 등 모든 인터랙티브 경험을 변화시키고 있습니다. AI Decoded 뉴스레터를 구독하여 새로운 기능과 업데이트를 알아보세요.