‘스케일링 법칙’이 어떻게 강력하고 지능적인 AI 구축을 가능하게 하는가

스케일링 법칙은 훈련 데이터, 모델 파라미터 또는 계산 리소스의 크기가 증가함에 따라 AI 성능이 어떻게 향상되는지를 보여줍니다
by NVIDIA Korea

올라간 것은 반드시 내려온다거나, 모든 작용에는 그에 상용하는 반작용이 있다는 것과 같이 널리 알려진 경험적 법칙이 있습니다. 마찬가지로 AI 분야에서도 오랫동안 정의된 하나의 아이디어가 있는데요. 바로 컴퓨팅, 훈련 데이터, 파라미터가 더 많을수록 더 나은 AI 모델이 만들어진다는 것입니다.

하지만 이후 AI에는 컴퓨팅 리소스를 다양한 방식으로 적용하는 것이 모델 성능에 어떻게 영향을 미치는지 설명하는 세 가지 법칙이 대두됐습니다. 즉 사전 훈련 스케일링(pretraining scaling), 사후 훈련 스케일링(post-training scaling), 긴 사고(long thinking)라고도 불리는 테스트 타임 스케일링(test-time scaling)입니다. 이 법칙들은 점점 더 복잡해지는 다양한 AI 사용 사례에서 추가 컴퓨팅을 사용하는 기술을 통해 AI 분야가 어떻게 발전해왔는지를 보여줍니다.

최근 추론 시 더 많은 컴퓨팅을 적용해 정확도를 향상시키는 테스트 타임 스케일링이 부상하면서, AI 추론 모델의 발전을 가능하게 했습니다. 이 모델은 작업을 해결하는 데 필요한 단계를 설명하면서 복잡한 문제를 해결하기 위해 여러 추론 패스를 수행하는 새로운 종류의 거대 언어 모델(LLM)입니다. 테스트 타임 스케일링은 AI 추론을 지원하기 위해 많은 양의 컴퓨팅 리소스를 필요로 하는데요. 이는 가속 컴퓨팅에 대한 수요를 더욱 증가시킬 것입니다.

사전 훈련 스케일링이란?

사전 훈련 스케일링은 AI 개발의 기본 법칙입니다. 훈련 데이터 세트 크기, 모델 파라미터 수, 컴퓨팅 리소스를 늘림으로써 개발자가 모델 지능과 정확도의 예측 가능한 향상을 기대할 수 있음을 입증했죠.

이 세 가지 요소인 데이터, 모델 크기, 컴퓨팅은 각각 상호 연관돼 있습니다. 한 연구 논문에서 설명한 사전 훈련 스케일링 법칙에 따르면, 규모가 큰 모델에 더 많은 데이터가 공급되면 모델의 전반적인 성능이 향상됩니다. 이를 실현하려면, 개발자는 컴퓨팅을 확장해야 하며, 이 거대한 훈련 워크로드를 실행하기 위해서는 강력한 가속 컴퓨팅 리소스가 필요합니다.

이러한 사전 훈련 스케일링 법칙은 획기적인 기능을 달성한 거대 모델들을 탄생시켰습니다. 또한, 10억 개와 1조 개 파라미터를 가진 트랜스포머 모델, 전문가 조합 방식(Mixture-Of-Experts, MoE) 모델, 새로운 분산 훈련 기법 등장을 비롯한 모델 아키텍처의 주요 혁신에 박차를 가했습니다. 이들은 모두 상당한 컴퓨팅을 필요로 하죠.

사전 훈련 스케일링 법칙의 관련성은 계속되고 있습니다. 인간이 계속해서 방대한 양의 멀티모달 데이터를 생산하면서, 이들의 텍스트, 이미지, 오디오, 비디오, 센서 정보는 강력한 미래 AI 모델을 훈련하는 데 사용될 것입니다.

사전 훈련 스케일링은 모델, 데이터 세트, 컴퓨팅의 규모를 AI 성능 향상과 연결하는 AI 개발의 기본 원칙입니다. 전문가 조합 방식은 AI 훈련을 위해 널리 사용되는 모델 아키텍처입니다.

사후 훈련 스케일링이란?

거대 파운데이션 모델을 사전 훈련하는 것은 쉬운 일이 아닙니다. 상당한 투자, 숙련된 전문가, 데이터 세트가 필요하기 때문이죠. 하지만 어느 한 조직이 모델을 사전 훈련해 배포하면, 다른 조직이 사전 훈련된 해당 모델을 기반으로 자신의 애플리케이션에 맞게 조정할 수 있습니다. 따라서 AI 도입 장벽을 낮출 수 있습니다.

이러한 사후 훈련 프로세스는 기업과 광범위한 개발자 커뮤니티에서 가속 컴퓨팅에 대한 추가적인 누적 수요를 창출합니다. 인기 있는 오픈 소스 모델들은 수백 또는 수천 개의 파생 모델을 만들어내며, 다양한 도메인에서 훈련됩니다.

사후 훈련 기법은 조직이 원하는 사용 사례에 맞춰 모델의 특이성과 관련성을 더욱 향상시킬 수 있습니다. 사전 훈련이 AI 모델을 학교에 보내 파운데이션 기술을 배우게 하는 것이라면, 사후 훈련은 목표한 업무에 적용할 수 있는 기술을 갖추도록 모델을 향상시키는 과정입니다. 예를 들어, LLM은 감정 분석이나 번역과 같은 작업을 수행하거나 의료, 법률과 같은 특정 분야의 전문 용어를 이해하도록 사후 훈련될 수 있습니다.

사후 훈련 스케일링 법칙은 사전 훈련된 모델의 성능을 계산 효율성, 정확도 또는 도메인 특이성 측면에서 더욱 향상시킬 수 있다고 가정합니다. 미세 조정, 가지치기, 양자화, 증류, 강화 학습, 합성 데이터 증강 등의 기술을 사용해 이뤄질 수 있습니다.

  • 미세 조정은 추가 훈련 데이터를 사용해 특정 도메인과 애플리케이션에 맞게 AI 모델을 조정하는 것입니다. 조직의 내부 데이터 세트를 사용하거나 샘플 모델 입력, 출력 쌍을 사용해 수행할 수 있습니다.
  • 증류에는 거대하고 복잡한 교사 모델과 경량 학생 모델이라는 한 쌍의 AI 모델이 필요합니다. 가장 일반적인 증류 기법인 오프라인 증류에서 학생 모델은 사전 훈련된 교사 모델의 출력을 모방하는 방법을 학습합니다.
  • 강화 학습(reinforcement learning, RL)은 보상 모델을 사용해 특정 사용 사례에 맞는 결정을 내리도록 에이전트를 훈련시키는 머신 러닝 기법입니다. 에이전트는 환경과 상호작용하면서 시간이 지남에 따라 누적 보상을 극대화하는 결정을 내리는 것을 목표로 하죠. 예를 들어, 사용자의 ‘좋아요’ 반응에 따라 챗봇 LLM은 긍정적으로 강화됩니다. 이 기법을 인간 피드백 기반 강화 학습(reinforcement learning from human feedback, RLHF)이라고 합니다. 또 다른 최신 기술인 AI 피드백 기반 강화 학습(reinforcement learning from AI feedback, RLAIF)은 AI 모델의 피드백을 사용해 학습 프로세스를 안내하며 사후 훈련 노력을 간소화합니다.
  • 최적 샘플링(best-of-n Sampling)은 언어 모델에서 여러 개의 출력을 생성하고 보상 모델을 기반으로 보상 점수가 가장 높은 출력을 선택합니다. 이 방법은 모델 파라미터를 수정하지 않고 AI의 출력을 개선하는 데 자주 사용되며, 강화 학습을 통한 미세 조정의 대안을 제공합니다.
  • 검색 방법은 최종 결과를 선택하기 전에 다양한 잠재적 의사 결정 경로를 탐색합니다. 이 사후 훈련 기법은 모델의 응답을 반복적으로 개선할 수 있습니다.

개발자는 사후 훈련을 지원하기 위해  합성 데이터를 사용해 미세 조정 데이터 세트를 보강하거나 보완할 수 있습니다. AI가 생성한 데이터로 실제 데이터 세트를 보완하면, 모델이 기존 훈련 데이터에서 제대로 표현되지 않거나 누락된 일부 사례를 처리하는 능력을 향상시키는 데 도움이 될 수 있습니다.

사후 훈련 스케일링은 미세 조정, 가지치기, 증류와 같은 기술을 사용해 사전 훈련된 모델을 개선해 효율성과 업무 관련성을 향상시킵니다.

테스트 타임 스케일링이란?

LLM은 입력 프롬프트에 대한 빠른 응답을 생성합니다. 이 과정은 간단한 질문에 대한 정답을 얻는 데는 적합하지만, 사용자가 복잡한 쿼리를 제기할 때는 제대로 작동하지 않을 수 있죠. 복잡한 질문에 답변하는 것은 에이전틱 AI(Agentic AI) 워크로드의 필수 역량으로, LLM이 답을 도출하기 전에 먼저 질문을 추론(reason)해야 합니다.

이는 대다수 사람들이 생각하는 방식과 유사합니다. 사람들은 2 더하기 2를 계산하라는 질문을 받으면, 덧셈이나 정수의 기초를 설명할 필요 없이 즉각적인 답을 제공하죠. 하지만 즉석에서 회사의 수익을 10% 늘릴 사업 계획을 수립하라는 질문을 받으면, 다양한 옵션을 추론해 여러 단계에 걸쳐 답을 제시할 가능성이 높습니다.

긴 사고라고도 하는 테스트 타임 스케일링은 추론 중에 발생합니다. 사용자 프롬프트에 대한 단답형 답변을 빠르게 생성하는 기존 AI 모델과 달리, 이 기술을 사용하는 모델은 추론 중에 추가적인 계산 작업을 할당합니다. 이를 통해 여러 가지 잠재적 답변을 추론한 후 최적의 답변에 도달할 수 있도록 하죠.

개발자를 위한 복잡한 맞춤형 코드 생성과 같은 작업에서 AI 추론 과정은 몇 분, 심지어 몇 시간까지 걸릴 수 있습니다. 어려운 쿼리에 대해 기존 LLM의 단일 추론 패스 대비 100배 이상의 컴퓨팅을 요구할 수 있습니다. 기존 LLM은 복잡한 문제에 대해 첫 시도에서 올바른 답변을 생성할 가능성이 낮기 때문입니다.

이러한 테스트 타임 컴퓨팅 기능을 통해 AI 모델은 문제에 대한 다양한 해결책을 탐색하고 복잡한 요청을 여러 단계로 세분화할 수 있습니다. 대부분의 경우 추론하는 동안 사용자에게 작업 결과를 보여줄 수도 있습니다. 연구에 따르면, 여러 추론과 계획 단계가 필요한 개방형 프롬프트가 AI 모델에 주어질 때, 테스트 타임 스케일링을 통해 더 높은 품질의 응답을 얻을 수 있는 것으로 나타났습니다.

테스트 타임 컴퓨팅 방법론에는 다음과 같은 다양한 접근 방식이 있습니다.

  • 사고 사슬(chain-of-thought) 프롬프팅: 복잡한 문제를 일련의 간단한 단계로 나누는 방법
  • 다수결 투표를 통한 샘플링: 동일한 프롬프트에 대해 여러 개의 답변을 생성한 다음 가장 자주 반복되는 답변을 최종 출력으로 선택하는 방법
  • 검색: 응답의 트리 구조에 존재하는 여러 경로를 탐색하고 평가하는 방법

최적 샘플링과 같은 사후 훈련 방법은 추론 중 긴 사고에 사용돼, 사람의 선호도나 기타 목표에 맞게 응답을 최적화할 수 있습니다.

테스트 타임 스케일링은 AI 추론을 개선하기 위해 추가 컴퓨팅을 할당하며, 모델이 복잡한 다단계 문제를 효과적으로 처리할 수 있도록 합니다.

테스트 타임 스케일링이 AI 추론을 가능하게 하는 방법

테스트 타임 컴퓨팅의 부상으로 AI는 복잡한 개방형 사용자 쿼리에 대해 합리적이고 유용하며, 보다 정확한 답변을 제공하는 능력을 갖추게 됐습니다. 이러한 기능은 자율 에이전틱 AI피지컬 AI(Physical AI) 애플리케이션에서 기대되는 세밀하고 다단계의 추론 작업에 매우 중요하죠. 또한, 산업 전반에서 사용자에게 업무 속도를 높일 수 있는 고성능 비서를 제공해 효율성과 생산성을 향상시킬 수 있습니다.

의료 분야에서는 모델이 테스트 타임 스케일링을 사용해 방대한 양의 데이터를 분석하고 질병이 어떻게 진행될지 추론할 수 있습니다. 뿐만 아니라, 약물 분자의 화학 구조를 기반으로 새로운 치료법이 불러올 수 있는 잠재적인 합병증을 예측할 수 있죠. 또는 임상시험 데이터베이스를 검색해 개인 질병 프로필에 맞는 옵션을 제안하고 다양한 연구의 장단점에 대한 추론 과정을 공유할 수 있습니다.

소매와 공급망 물류 분야에서는 긴 사고가 단기적인 운영 과제와 장기적인 전략 목표를 해결하는 데 필요한 복잡한 의사 결정을 도와줄 수 있습니다. 추론 기법은 여러 시나리오를 동시에 예측하고 평가해 기업이 위험을 줄이고 확장성 문제를 해결하는 데 도움이 됩니다. 이를 통해 보다 정확한 수요 예측, 간소화된 공급망 이동 경로, 조직의 지속 가능성 이니셔티브에 부합하는 소싱 결정을 가능하게 합니다.

나아가 글로벌 기업에서는 이 기술을 세부적인 사업 계획 작성, 소프트웨어 디버깅을 위한 복잡한 코드 생성, 배송 트럭과 창고 로봇, 로보택시의 이동 경로 최적화 등에 적용할 수 있습니다.

AI 추론 모델은 빠르게 진화하고 있습니다. 최근 몇 주 동안 오픈AI(OpenAI) o1-미니(o1-mini)와 o3-미니(o3-mini), 딥시크(DeepSeek) R1, 구글 딥마인드(Google DeepMind) 제미나이 2.0 플래시 씽킹(Gemini 2.0 Flash Thinking)이 소개됐으며, 곧 새로운 모델들이 추가로 출시될 예정입니다.

이러한 모델은 추론 중에 사고하고, 복잡한 질문에 대한 정답을 생성하기 위해 훨씬 더 많은 컴퓨팅이 필요합니다. 따라서 기업은 복잡한 문제 해결, 코딩, 다단계 계획을 지원할 수 있는 차세대 AI 추론 도구를 제공하기 위해 가속 컴퓨팅 리소스를 확장해야 합니다.

추론 가속화를 위한 NVIDIA AI의 이점에 대해 알아보세요.