모든 AI 애플리케이션의 내부에는 토큰 어휘를 기반으로 한 자체 언어로 데이터를 처리하는 알고리즘이 있습니다.
토큰은 더 큰 정보 덩어리를 분해하여 만든 작은 데이터 단위인데요, AI 모델은 토큰을 처리하여 토큰 간의 관계를 학습하고 예측, 생성, 추론 등의 기능을 수행하게 됩니다. 그러기에 토큰을 더 빠르게 처리할수록 모델은 더 빠르게 학습하고 대응할 수 있죠.
AI 워크로드를 가속화하도록 설계된 새로운 종류의 데이터 센터인 AI 팩토리(AI factories)는 토큰을 효율적으로 크런치(Crunch)하여 AI의 언어에서 인텔리전스라는 AI의 통화로 변환시키게 됩니다.
AI 팩토리를 통해 기업은 최신 풀스택 컴퓨팅 솔루션을 활용하여 더 낮은 컴퓨팅 비용으로 더 많은 토큰을 처리하고 고객에게 부가 가치를 창출할 수 있는데요, 한 사례에서는 소프트웨어 최적화를 통합하고 최신 NVIDIA GPU를 채택함으로써 이전 세대 GPU에서 최적화되지 않은 프로세스에 비해 토큰당 비용을 20배 절감하여 단 4주 만에 25배 더 많은 수익을 달성한 바가 있습니다.
AI 팩토리는 토큰을 효율적으로 처리함으로써 새로운 산업 혁명에서 가장 가치 있는 자산인 AI 인텔리전스를 생산하게 됩니다.
토큰화(Tokenization)란 무엇인가?
트랜스포머 AI 모델은 텍스트, 이미지, 오디오 클립, 동영상 등 다양한 형태의 데이터를 처리할 때 데이터를 토큰으로 변환시키게 됩니다. 이 프로세스를 바로 토큰화라고 합니다.
효율적인 토큰화는 학습과 추론에 필요한 컴퓨팅 파워를 줄이는 데 도움이 되는데요, 이 토큰화 방법에는 여러 가지가 있으며, 특정 데이터 유형과 사용 사례에 최적화된 토큰화 도구는 더 적은 어휘만을 필요로 할 수 있기 때문에 처리해야 할 토큰이 더 적을 수도 있습니다.
가령, 거대 언어 모델(LLM)의 경우, 짧은 단어는 하나의 토큰으로 표현할 수 있고, 긴 단어는 두 개 이상의 토큰으로 분할할 수 있습니다.
예를 들어 ‘어두움(Darkness)’이라는 단어는 217과 655와 같은 숫자로 표현되는 두 개의 토큰, 즉 “dark”와 “ness”로 분할됩니다. 반대 단어인 ‘밝음(Brightness)’도 마찬가지로 ‘bright’와 ‘ness’로 나뉘며, 각 토큰은 491과 655라는 숫자 표현을 갖습니다.
이 예시에서 ‘ness’와 관련된 공유 숫자 값은 AI 모델이 두 단어가 공통점이 있을 수 있음을 이해하는 데 도움이 될 수 있는데요, 다른 상황에서는 토큰화 도구가 문맥에서의 의미에 따라 동일한 단어에 대해 전혀 다른 숫자 표현을 할당할 수 있습니다.
이에 대한 예를 들면, ‘거짓말(Lie)’이라는 단어는 쉬고 있는 자세를 의미하거나 진실하지 않은 말을 하는 것을 의미할 수 있습니다. 학습 과정에서 모델은 이 두 가지 의미의 차이를 학습하고 서로 다른 토큰 번호를 할당합니다.
이미지, 비디오 또는 센서 데이터를 처리하는 시각 AI 모델의 경우, 토큰화 도구는 픽셀이나 복셀과 같은 시각적 입력을 일련의 개별 토큰으로 매핑하는 데 도움을 줄 수 있습니다.
오디오를 처리하는 모델은 짧은 클립을 시간 경과에 따른 음파의 시각적 묘사인 스펙트로그램(Spectrograms)으로 변환한 다음 이미지로 처리할 수 있는데요, 다른 오디오 애플리케이션은 음성이 포함된 사운드 클립의 의미를 캡처하는 데 초점을 맞추고, 단순한 음향 정보 대신 언어 또는 문맥 데이터를 나타내는 의미 토큰을 캡처하는 다른 종류의 토큰라이저를 사용할 수 있습니다.
AI 학습 과정에서 토큰은 어떻게 사용되는가?
AI 모델 훈련은 해당 훈련 데이터 세트의 토큰화에서부터 시작하게 됩니다.
학습 데이터의 크기에 따라 토큰의 수는 수십억 또는 수조 개에 달할 수 있으며, 사전 학습 스케일링 법칙(Pretraining scaling law)에 따라 학습에 사용되는 토큰이 많을수록 AI 모델의 품질이 향상하게 됩니다.
AI 모델이 사전 학습되면 샘플 토큰 세트를 보여주고 다음 토큰을 예측하도록 요청하여 테스트하게 되는데요, 예측이 정확한지 여부에 따라 AI 모델은 다음 예측을 향상시키기 위해 스스로를 업데이트하게 됩니다. 이 과정은 해당 AI 모델이 실수를 통해 학습하고 목표로 하는 정확도 수준에 도달할 때까지 반복되며, 이를 모델 컨버전스(Model convergence)라고 합니다.
사전 학습 후, 모델은 배포될 사용 사례와 관련된 토큰의 하위 집합에 대해 계속 학습하는 사후 학습을 통해 더욱 향상되는데요, 여기에는 법률, 의학, 그리고 비즈니스 분야까지, 해당 애플리케이션에 대한 각각의 도메인별 정보가 포함된 토큰이나 추론, 채팅 또는 번역과 같은 특정 작업에 맞게 모델을 조정하는 데 도움이 되는 토큰이 포함될 수 있습니다. 이 과정의 목표가 바로 사용자의 쿼리에 따라 올바른 답변을 제공하는 데 적합한 토큰을 생성하는 모델, 즉 추론이라고 더 잘 알려진 기술을 만드는 것이지요.
AI 추론(Inference & Reasoning) 과정에서 토큰은 어떻게 사용되는가?
추론하는 동안 AI는 모델에 따라 텍스트, 이미지, 오디오 클립, 비디오, 센서 데이터 또는 유전자 서열 데이터와 같은 프롬프트를 수신하여 일련의 토큰으로 변환시킵니다. 이 모델은 이러한 입력 토큰을 처리하여 해당 답변을 토큰으로 생성한 다음, 사용자가 원하는 형태로 번역해 줍니다.
영어를 일본어로 번역하는 모델이나 텍스트 프롬프트를 이미지로 변환하는 모델처럼 입력 언어와 출력 언어가 다를 수 있습니다.
완전한 프롬프트를 이해하려면 AI 모델이 한 번에 여러 토큰을 처리할 수 있어야 하는데요, 많은 모델에는 컨텍스트 창(Context window)이라고 하는 지정된 제한이 있고, 각 사용 사례마다 각기 다른 컨텍스트 창 크기가 필요합니다.
일례로, 한 번에 수천 개의 토큰을 처리할 수 있는 모델은 하나의 고해상도 이미지나 몇 페이지의 텍스트를 처리할 수 있을 수도 있습니다. 컨텍스트 길이가 수만 토큰인 다른 모델은 소설 한 권이나 한 시간 분량의 팟캐스트 에피소드를 요약할 수 있을 테고요. 일부 어떤 모델은 무려 백만 개 이상의 토큰으로 구성된 컨텍스트 길이를 제공하여 사용자가 방대한 데이터 소스를 입력하여 AI가 분석할 수 있도록 합니다.
LLM의 최신 발전인 추론 AI 모델은 토큰을 이전과 다르게 처리하여 더 복잡한 쿼리를 처리할 수 있는데요, 여기서 모델은 입력 및 출력 토큰 외에도 주어진 문제를 해결하는 방법을 생각하면서 몇 분 또는 몇 시간에 걸쳐 수많은 추론 토큰을 생성하게 됩니다.
이러한 추론 토큰을 사용하면 문제를 풀 시간이 주어졌을 때 더 나은 답을 공식화할 수 있는 것처럼 복잡한 질문에 대해 더 나은 답변을 할 수 있는데요, 프롬프트당 토큰의 증가에 따라 기존 LLM의 단일 추론 패스에 비해 100배 이상의 컴퓨팅이 필요할 수 있으며, 이것이 바로 테스트 타임 스케일링(Test-time scaling), 즉 긴 사고(Long thinking)의 예시라 볼 수 있습니다.
토큰은 어떻게 AI 경제를 이끌게 될 것인가?
사전 학습과 사후 학습 과정에서 토큰은 인텔리전스에 대한 투자와 동일하며, 추론 과정에서 비용과 수익을 창출하게 되는데요, 따라서 AI 애플리케이션이 확산됨에 따라 AI 경제학의 새로운 원칙이 등장하고 있습니다.
AI 팩토리는 대량의 추론을 지속할 수 있도록 구축되어 토큰을 수익화 가능한 인사이트로 전환함으로써 사용자를 위한 인텔리전스를 생산하게 됩니다. 그렇기 때문에 점점 더 많은 AI 서비스가 소비 혹은 생성된 토큰의 수를 기준으로 제품의 가치를 측정하고 모델의 토큰 입력 및 출력 비율에 따라 요금제를 제공하게 되는 것입니다.
일부 토큰 요금제는 사용자에게 입력과 출력 간에 공유되는 토큰 수를 제한하기도 하는데요, 이러한 토큰 한도에 따라 고객은 입력에 몇 개의 토큰만 사용하는 짧은 텍스트 프롬프트를 사용하여 수천 개의 토큰이 필요한 긴 AI 생성 응답을 출력으로 생성할 수 있습니다. 또는 사용자가 토큰의 대부분을 입력에 사용하여 몇 가지 요점으로 요약할 수 있는 문서 세트를 AI 모델에 제공할 수도 있습니다.
한편 많은 동시 사용자를 지원하기 위해 일부 AI 서비스에서는 개별 사용자에 대해 분당 생성되는 최대 토큰 수인 토큰 제한을 설정하기도 하는데요, 토큰은 또한 AI 서비스의 사용자 경험을 정의하게 됩니다. 사용자가 프롬프트를 제출하고 AI 모델이 응답을 시작할 때까지의 지연 시간인 첫 번째 토큰까지의 시간과 후속 출력 토큰이 생성되는 속도인 토큰 간 또는 토큰 간 지연 시간은 최종 사용자가 AI 애플리케이션의 결과물을 경험하는 방식을 결정합니다.
각 지표에는 장단점이 있으며 사용 사례에 따라 적절한 균형이 결정됩니다.
LLM 기반 챗봇의 경우 첫 번째 토큰까지의 시간을 단축하면 부자연스러운 멈춤 없이 대화 속도를 유지하여 사용자 참여를 향상시킬 수 있습니다. 토큰 간 지연 시간을 최적화하면 텍스트 생성 모델이 일반인의 읽기 속도에 맞출 수 있고, 비디오 생성 모델이 원하는 프레임 레이트를 달성할 수 있습니다. 긴 시간 동안 사고하고 연구하는 AI 모델의 경우, 지연 시간이 늘어나더라도 고품질 토큰을 생성하는 데 더 중점을 두게 되지요.
개발자는 AI 팩토리에서 생성할 수 있는 토큰의 수인 최적의 처리량으로 고품질 사용자 경험을 제공하기 위해 이러한 지표 간의 균형을 맞춰야 하는 과제에 직면하게 되는데요, 이러한 문제 해결하기 위해 NVIDIA AI 플랫폼은 강력한 가속 컴퓨팅 인프라와 함께 방대한 소프트웨어, 마이크로서비스와 Blueprints을 제공하는 유연한 풀스택 솔루션으로, 기업이 AI 팩토리를 진화, 최적화 및 확장하여 산업 전반에서 차세대 인텔리전스를 생성할 수 있도록 지원합니다.
다양한 작업에서 토큰 사용을 최적화하는 방법을 이해하면 개발자, 기업, 심지어 최종 사용자까지 AI 애플리케이션에서 최대한의 가치를 얻을 수 있을텐데요, 관련된 자세한 내용은 이 eBook에서 자세히 알아보고 build.nvidia.com에서 바로 시작해보시기 바랍니다.