에디터 노트: 본 게시글은 AI On 블로그 시리즈의 일부로, 에이전틱 AI, 챗봇, 코파일럿의 최신 기술과 실제 적용 사례를 살펴봅니다. 이 시리즈는 또한 최첨단 AI 에이전트를 구동하는 NVIDIA 소프트웨어와 하드웨어를 조명하며, 일상 경험을 혁신하고 산업을 재편하는 통찰을 수집하고 작업을 수행하는 AI 쿼리 엔진의 기반을 소개합니다.
거대 언어 모델(LLM)로 구동되는 AI 에이전트는 FAQ 챗봇의 초기 단계를 넘어, 계획을 세우고, 추론하며, 행동하고, 그 과정에서 교정 피드백을 받아들이는 진정한 디지털 동료로 발전하고 있습니다.
추론 AI 모델(Reasoning AI model) 덕분에 에이전트는 비판적으로 사고하고 복잡한 작업을 해결하는 방법을 배울 수 있었는데요, 이 새로운 ‘추론 에이전트(Reasoning Agents)’ 계열은 복잡한 문제를 분석하고, 여러 선택지들을 저울질하며, 최종적으로 정보에 기반한 결정을 내릴 수 있습니다. 이 과정에서 필요한 만큼의 컴퓨팅과 토큰만을 사용합니다.
추론 에이전트는 여러 요소에 기반해 결정을 내려야 하는 산업에서 큰 반향을 일으키고 있는데요, 이러한 산업에는 고객 서비스, 의료, 제조, 금융 서비스 등이 포함됩니다.
추론(Reasoning) On vs. 추론(Reasoning) Off
최신 AI 에이전트는 추론 기능을 켜거나 끌 수 있어, 컴퓨팅 성능과 토큰을 효율적으로 사용할 수 있습니다.
추론이 수행되는 전체 Chain-of-thought 과정은 빠른 단일 응답보다 최대 100배 더 많은 컴퓨팅과 토큰을 사용할 수 있기 때문에, 반드시 필요할 때만 사용해야 합니다. 이것을 헤드라이트에 비유할 수 있는데요, 어두울 때만 하이빔을 켜고, 충분히 밝을 때는 다시 로우빔으로 전환하는 것과 같습니다.
단일 응답(single-shot response)은 주문 번호 확인, 비밀번호 재설정, 간단한 FAQ 답변과 같은 단순한 쿼리에 적합합니다. 반면, 세금 감가상각 일정 조정이나 120명 하객의 결혼식 좌석 배치와 같이 복잡하고 다단계 작업에는 추론이 필요할 수 있습니다.
새로운 NVIDIA Llama Nemotron 모델은 최첨단 추론 기능을 갖추고 있으며, 추론을 활성화하거나 비활성화할 수 있는 간단한 시스템 프롬프트 플래그를 제공하여 개발자가 쿼리별로 프로그래밍 방식으로 결정할 수 있습니다. 이를 통해 에이전트는 중요한 상황에서만 추론을 수행할 수 있어, 사용자의 대기 시간을 줄이고 비용을 최소화할 수 있죠.
추론 AI 에이전트의 실제 적용
추론 AI 에이전트는 다음과 같이 이미 다양한 산업에서 복잡한 문제 해결에 사용되고 있습니다.
- 헬스케어: 진단 및 치료 계획 강화
- 고객 서비스: 청구 분쟁 해결부터 맞춤형 제품 추천에 이르기까지 복잡한 고객 상호작용을 자동화하고 개인화
- 금융: 시장 데이터를 자율적으로 분석하고 투자 전략 제공
- 물류 및 공급망: 배송 경로 최적화, 장애 발생 시 배송 재조정, 다양한 시나리오 시뮬레이션을 통한 위험 예측 및 완화
- 로보틱스: 창고 로봇과 자율주행 자동차에 적용되어 계획, 적응, 안전한 동적 환경 내비게이션 가능
많은 고객들이 이미 추론 에이전트를 통해 향상된 워크플로우와 혜택을 경험하고 있는데요, 예를 들면,
Amdocs는 추론 기반 AI 에이전트를 활용해 통신사 고객 참여 방식을 혁신하고 있습니다. NVIDIA Llama Nemotron과 amAIz Telco verticalization과 같은 고급 추론 모델이 적용된 amAIz GenAI 플랫폼은 에이전트가 고객 영업, 청구, 고객 지원에 이르는 복잡하고 다단계의 고객 여정을 자율적으로 처리할 수 있도록 합니다.
EY는 추론 에이전트를 활용해 세금 관련 문의에 대한 응답 품질을 크게 향상시키고 있습니다. 이 기업은 범용 모델과 세금 특화 추론 모델을 비교한 결과, 추론 방식을 사용할 때 세금 질문에 대한 응답 품질이 최대 86%까지 향상됨을 확인했죠.
SAP의 Joule 에이전트는 Llama Nemotron의 추론 기능이 탑재될 예정으로, 복잡한 사용자 요청을 해석하고, 엔터프라이즈 데이터에서 관련 인사이트를 도출하며, 교차 기능적 비즈니스 프로세스를 자율적으로 실행할 수 있습니다.
AI 추론 에이전트 설계
AI 에이전트를 구축하려면 도구, 메모리, 계획 모듈 등 몇 가지 핵심 구성 요소가 필요합니다. 이러한 각 구성 요소는 에이전트가 외부 세계와 상호작용하고, 상세한 계획을 수립 및 실행하며, 반(半)자율적 또는 완전 자율적으로 행동할 수 있는 능력을 강화합니다.
추론 기능은 개발 과정의 다양한 지점에서 AI 에이전트에 추가할 수 있습니다. 가장 자연스러운 방법은 Llama Nemotron Ultra나 DeepSeek-R1과 같은 대형 추론 모델로 계획 모듈을 보강하는 것입니다. 이를 통해 에이전트 워크플로우의 초기 계획 단계에서 더 많은 시간과 추론 노력을 투입할 수 있을 뿐만 아니라, 이는 시스템의 전체적인 결과에 직접적인 영향을 미치게 되죠.
AI-Q NVIDIA AI Blueprint와 NVIDIA Agent Intelligence 툴킷은 기업이 사일로를 해소하고, 복잡한 워크플로우를 간소화하며, 대규모 에이전트형 AI 성능을 최적화할 수 있도록 지원하고 있습니다.
AI-Q Blueprint는 고급 에이전트형 AI 시스템 구축을 위한 레퍼런스 워크플로우를 제공하여, 고정확도·고속의 디지털 워크포스를 위한 NVIDIA 가속 컴퓨팅, 스토리지, 도구와의 연결을 쉽게 만듭니다. AI-Q는 NVIDIA NeMo Retriever, NIM 마이크로서비스, AI 에이전트를 활용한 빠른 멀티모달 데이터 추출 및 검색을 통합합니다.
또한 오픈소스인 NVIDIA Agent Intelligence 툴킷은 에이전트, 도구, 데이터 간의 원활한 연결을 가능하게 합니다. GitHub에서 제공되는 이 툴킷은 사용자가 AI 에이전트 팀을 연결, 프로파일링, 최적화할 수 있도록 하며, 전체 시스템 추적성과 성능 프로파일링을 통해 비효율성을 식별하고 결과를 개선할 수 있습니다. 프레임워크에 구애받지 않고, 온보딩이 간단하며, 기존의 멀티 에이전트 시스템에 필요에 따라 통합할 수 있습니다.
Llama Nemotron을 통한 추론 에이전트 구축과 테스트
최근 과학, 코딩, 수학 분야의 업계 벤치마크 리더보드에서 최상위에 오른 Llama Nemotron에 대해 자세히 알아보세요. 에이전틱, 추론 기반 AI의 미래를 만들어가는 커뮤니티에 가입한다면 더욱 자세한 내용들을 얻어갈 수 있습니다.
또한 오픈된 Llama Nemotron 사후 학습 데이터셋을 활용해 맞춤형 추론 에이전트를 구축하고, 직접 탐구하고 파인 튜닝해 보세요. 비용과 성능 최적화를 위해 추론 기능을 켜고 끄는 실험도 해볼 수 있습니다.
아울러, 검색 증강 생성(RAG) 및 NVIDIA AI Blueprint를 활용한 영상 검색과 요약 등 NIM 기반의 에이전트형 워크플로우를 테스트해보고, 최신 AI 솔루션을 빠르게 프로토타입하고 배포해 보세요.