UK-LLM 프로젝트, 영국 전역의 언어에 NVIDIA AI 적용

by NVIDIA Korea

콘월어, 아일랜드어, 스코틀랜드 게일어, 웨일스어 등 켈트계 언어는 오늘날까지도 사용되는 영국의 가장 오래된 언어입니다. 이러한 언어 사용자들이 AI 기술의 혜택을 누릴 수 있도록, UK-LLM 소버린 AI 프로젝트는 약 85만 명이 사용하는 웨일스어와 영어 모두에서 자연어 추론이 가능한 모델을 NVIDIA Nemotron 기반으로 개발하고 있습니다.

AI가 웨일스어로 고품질 추론을 수행할 수 있게 되면, 다양한 공공 서비스가 사용자의 생활 언어에 맞춰 더욱 정밀하게 제공될 수 있습니다.

“영국의 모든 지역이 인공지능의 혜택을 온전히 누릴 수 있어야 합니다. AI가 웨일스어로도 추론할 수 있도록 함으로써, 보건의료부터 교육까지 공공 서비스가 국민 개개인의 언어에 맞춰 제공될 수 있게 됩니다.”라고 Keir Starmer 영국 총리는 밝혔습니다. “이번 프로젝트는 브리스톨에 위치한 영국 최고 수준의 AI 슈퍼컴퓨터에서 훈련된 최신 AI 기술이 공익에 기여하고, 문화유산을 보호하며, 전국적인 기회를 여는 훌륭한 사례입니다.”

UK-LLM 프로젝트는 2023년 BritLLM이라는 이름으로 출범했으며, University College London이 주도하고 있습니다. 지금까지 두 개의 영국 언어 모델을 공개한 바 있으며, 이번 웨일스어 모델은 Wales의 Bangor University 및 NVIDIA와 협력해 개발되었습니다. 이 모델은 2050년까지 웨일스어 사용자 수를 100만 명으로 확대하려는 웨일스 정부의 ‘Cymraeg 2050’ 정책과도 맞물려 있습니다.

이번 모델은 영국의 AI 클라우드 제공업체 Nscale을 통해 API 형태로 개발자들에게 제공될 예정입니다.

“우리의 목표는 웨일스어가 시대에 발맞춰 계속 발전하는, 살아 숨 쉬는 언어로 남는 것입니다.” University College London의 웨일스어 서비스·연구·기술 센터인 Canolfan Bedwyr에서 언어 기술 부서를 이끄는 수석 용어학자 Gruffudd Prys는 이렇게 말했습니다. “AI는 웨일스어를 제2언어로 학습하려는 이들에게 큰 도움을 줄 수 있을 뿐 아니라, 원어민들이 자신의 언어 능력을 향상시키는 데에도 막대한 가능성을 보여주고 있습니다.”

이번에 개발된 새 모델은 Wales 내 공공 기관과 기업들이 콘텐츠를 번역하거나 이중 언어 기반 챗봇 서비스를 제공할 수 있도록 지원함으로써, 웨일스어 자원의 접근성을 크게 높일 수 있습니다. 이를 통해 보건의료 제공자, 교육자, 방송사, 소매업체, 음식점 운영자 등 다양한 분야에서 영어 못지않게 웨일스어로도 콘텐츠를 손쉽게 제공할 수 있게 됩니다.

UK-LLM 팀은 이번 웨일스어 모델 개발에 활용된 동일한 방법론을 적용해, Cornish, Irish, Scots, Scottish Gaelic 등 영국 내의 다른 언어들을 위한 AI 모델도 개발할 계획입니다. 더불어 아프리카 및 동남아시아 언어를 위한 모델 개발을 위해 국제 파트너들과의 협력도 추진하고 있습니다.

“NVIDIA 및 Bangor University와의 협업을 통해 우리는 새로운 학습 데이터를 빠르게 구축하고, 역대 가장 짧은 시간 안에 새로운 모델을 훈련할 수 있었습니다. 이는 최고의 웨일스어 언어 모델을 만드는 우리의 목표를 앞당기는 데 큰 도움이 되었습니다.” University College London 인공지능 센터의 부소장이자 자연어처리 교수인 Pontus Stenetorp는 이렇게 밝혔습니다. “우리는 이번 웨일스어 모델에서 얻은 통찰을 기반으로, 영국을 비롯한 전 세계의 소수 언어에 이 기술을 적용해 나갈 계획입니다.”

소버린 AI 인프라를 활용한 모델 개발

이번 웨일스어 모델은 가중치, 데이터셋, 학습 방식이 모두 공개된 오픈소스 모델인 NVIDIA Nemotron을 기반으로 하고 있습니다. UK-LLM 개발팀은 매개변수 490억 개 규모의 Llama Nemotron Super 모델과 9억 개 규모의 Nemotron Nano 모델을 웨일스어 데이터로 후속 학습(post-training)하여 모델을 완성했습니다.

영어, 스페인어 같은 언어에 비해 웨일스어는 AI 훈련에 사용할 수 있는 데이터가 훨씬 적습니다. 이를 보완하기 위해, 팀은 NVIDIA Nemotron의 3천만 건 이상의 영어 오픈 데이터셋을 웨일스어로 번역하는 데 NVIDIA NIM 마이크로서비스(gpt-oss-120bDeepSeek-R1)를 활용해 충분한 규모의 훈련 데이터를 생성했습니다.

훈련과 번역 작업에는 NVIDIA DGX Cloud Lepton 플랫폼 기반 GPU 클러스터와, 영국 정부의 2억 2,500만 파운드 투자가 이루어진 브리스톨 대학의 슈퍼컴퓨터 Isambard-AI에 탑재된 수백 개의 NVIDIA GH200 Grace Hopper Superchip이 활용되었습니다.

이번에 생성된 데이터셋은 UK-LLM 팀이 기존에 구축해온 웨일스어 자료를 보완하는 용도로 사용됩니다.

언어적 정밀성과 문화적 맥락까지 고려한 평가

웨일스어 사용자 비율이 가장 높은 Gwynedd 지역에 위치한 Bangor University는, 언어적·문화적 전문성을 바탕으로 이번 모델 개발을 적극 지원하고 있습니다.

“우리의 목표는 웨일스어가 시대의 흐름에 따라 계속 발전하는, 살아 숨 쉬는 언어로 남도록 하는 것입니다.” — Gruffudd Prys, Bangor University

University College London 산하 웨일스어 센터의 Gruffudd Prys는 웨일스어 언어 기술 분야에서 약 20년의 경험을 보유하고 있으며, 이번 협업에 해당 전문성을 바탕으로 참여하고 있습니다. 그는 팀과 함께 기계 번역된 학습 데이터와 수작업으로 번역한 평가 데이터의 정확성을 검증하고 있으며, AI가 일반적으로 어려움을 겪는 웨일스어 특유의 언어적 뉘앙스—예를 들어, 단어 앞부분의 자음이 인접한 단어에 따라 변화하는 현상 등—에 대해 모델이 어떻게 처리하는지를 평가하고 있습니다.

이 모델과 웨일스어 학습 및 평가 데이터셋은 기업 및 공공 부문에서 활용할 수 있도록 공개될 예정이며, 추가적인 연구, 모델 훈련, 애플리케이션 개발을 지원하게 됩니다.

또 Prys는 이렇게 말했습니다. “AI가 웨일스어에서 작동하는 것과, 그것을 모두에게 개방하고 접근 가능하게 만드는 것은 전혀 다른 이야기입니다. 이 미묘한 차이가 이 기술이 실제로 활용되느냐 마느냐를 결정짓는 요소가 될 수 있습니다.”

NVIDIA Nemotron 및 NIM 마이크로서비스로 소버린 AI 모델 배포

UK-LLM의 웨일스어 모델에 활용된 프레임워크는 앞으로 전 세계 다국어 AI 개발의 기반이 될 수 있습니다.

Nemotron은 벤치마크 최상위권 성능을 기록한 모델, 데이터, 학습 레시피를 모두 공개해, 개발자가 다양한 언어·도메인·워크플로우에 맞춤형 추론 모델을 손쉽게 구축할 수 있도록 지원합니다. 이러한 모델은 NVIDIA NIM 마이크로서비스 형태로 제공되어, 노트북부터 클라우드까지 어디서나 비용 효율적으로 실행할 수 있습니다.

이 같은 개방형 접근은 지역별 주권적 AI 개발에도 힘을 보태고 있는데요. 예를 들어 유럽 기업들은 Perplexity의 AI 기반 검색 엔진을 통해 소버린 모델을 직접 운용할 수 있게 됩니다.

지금 NVIDIA Nemotron을 통해 직접 경험해 보세요.