데이터센터의 ‘교통 경찰’ AI가 디지털 혼잡 해결

NVIDIA 연구진이 컴퓨터 네트워크의 트래픽 정체를 해소하고자 개발한 AI 모델이 데이터센터 출동을 앞두고 있습니다
by NVIDIA Korea

실제 통근자에게도 재택 근무자에게도 트래픽 해소는 중요합니다.

NVIDIA의 선임 연구원이자 이스라엘 10인 연구소 소속인 갈 달랄(Gal Dalal)은 AI를 활용해 컴퓨터 네트워크 혼잡을 완화합니다.

한없이 돌아가는 버퍼링 표시나 멈춰버린 커서는 노트북 사용자의 입장에서 보면 고속도로를 가득 메우고 선 차량들의 브레이크등 못지않게 최악입니다. 출퇴근 시간대의 도로와 마찬가지로 컴퓨터 네트워크에서도 수많은 인파가 서둘러 목적지로 향하고, 정체를 야기하며, 이따금 충돌 사고를 내기도 하죠.

교차로의 AI

네트워크들은 혼잡 제어(congestion control)를 통해 디지털 트래픽을 관리합니다. 혼잡 제어는 기본적으로 네트워크 어댑터와 스위치에 규칙들의 집합 형태로 내장되어 있지만, 네트워크 사용자 수의 증가로 지나치게 복잡해지는 충돌들은 예측하지 못합니다.

이 경우, 패턴들을 보고 그 전개 양상에 반응할 줄 아는 AI가 보다 훌륭한 트래픽 경찰로 기능할 수 있습니다. 달랄을 비롯한 전세계의 수많은 연구자들도 이 점에 착안해 강화 학습(reinforcement learning)을 도입하고, 우수한 솔루션을 찾아낸 모델에게 보상을 제공하는 AI를 개발해 더욱 스마트한 네트워크를 구축하는 방법을 모색하고 있죠.

하지만 실사용이 가능한 접근법은 아직까지도 도출되지 못했는데요. 여기에는 몇 가지 이유가 있습니다.

시간과의 싸움

네트워크는 빨라야 합니다. 그와 동시에 사용자의 요청을 빠트리는 일이 없게 공정해야 하죠. 디지털 도로상의 다른 운전자들과 그들의 목적지라는 변화무쌍한 정보가 표시되는 지도를 전체적으로 확인하는 운전자가 없이는 신속과 공정 사이의 균형을 달성하기가 힘듭니다.

시간과의 싸움도 문제입니다. 효과적인 네트워크라면 백만분의1초를 의미하는 1마이크로초 내에 각 상황에 반응해야 합니다.

원활한 트래픽을 위해 NVIDIA 팀은 최첨단 컴퓨터 게임용 AI에서 영감을 받아 새롭게 구축한 강화 학습 기법을 네트워킹 문제에 적용했습니다.

2021년에 발표된 논문에서는 개별 네트워크 스트림에서 사용이 가능한 로컬 정보만을 바탕으로 균형 잡힌 네트워크 알고리즘과 그에 따른 보상 함수를 고안하는 방안을 돌파구로 제시했습니다. 이 알고리즘을 통해 NVIDIA DGX 시스템에 AI 모델을 구축하고 훈련과 실행을 진행했습니다.

감동 포인트

달랄은 NVIDIA 동료인 첸 테슬러(Chen Tessler)가 시뮬레이션으로 구축한 InfiniBand 데이터센터 네트워크에서 해당 모델이 도출한 결과를 최초로 공개하던 회의를 지금도 기억합니다.

“차트를 본 우리는 이랬습니다. 와우, 좋네요! 엄청 근사하게 작동하는군요.” 이렇게 말하는 달랄은 이스라엘의 명문 기술대학으로 손꼽히는 테크니온(Technion)에서 강화 학습 관련 논문으로 박사 학위를 취득했습니다.

“특히 만족스러웠던 건 겨우 32개의 네트워크 흐름으로 훈련한 모델이 자신이 학습한 바를 훌륭히 일반화해 온갖 유형의 복잡한 상황이 포함된 8,000개 이상의 네트워크 흐름을 관리했다는 점입니다. 사전에 설정되어 있는 규칙들보다도 휠씬 뛰어나게 작업을 수행한 셈입니다.”

NVIDIA가 실시한 테스트에서 강화 학습(보라색)은 규칙 기반 혼잡 제어 알고리즘들보다 뛰어난 성능을 보여줬습니다.

사실 이 알고리즘은 최고로 손꼽히는 규칙 기반 기법과 비교해서도 1.5배 이상 월등한 처리량과 4배 낮은 지연시간을 제공했습니다.

논문이 발표된 이후 이 기법은 강화 학습의 잠재력을 증명하는 실세계 애플리케이션이라는 찬사를 받았습니다.

네트워크에서 AI 처리하기

아직 현재 진행형인 또 하나의 중요 연구는 네트워크 내의 제한된 컴퓨팅과 메모리 리소스를 사용해 마이크로초 단위의 속도로 실행이 가능한 AI 모델을 설계하는 것입니다. 달랄은 이와 관련해 두 가지 문제에 주력하고 있다고 설명합니다.

먼저 NVIDIA BlueField DPU를 설계하는 엔지니어들과 협업하며 미래의 하드웨어에 맞춰 AI 모델을 최적화합니다. BlueField DPU는 네트워크 내부에서 확장되는 형태의 통신 작업을 실행하고, 과부화가 걸린 CPU에서 작업을 오프로드할 것입니다.

이와 더불어 달랄의 연구팀은 자체 AI 모델의 진수를 뽑아내 일명 부스팅 트리(boosting tree)라는 머신 러닝 기법으로 전환하고 있습니다. 부스팅 트리는 탁월함은 유지하면서도 실행은 훨씬 간단한 네/아니오 결정들을 의미합니다. 연구팀은 네트워크 트래픽 완화에 즉시 적용이 가능한 형태의 결과물을 올해 안에 선보일 계획입니다.

시기적절한 트래픽 솔루션

달랄은 자율주행 자동차와 데이터센터 냉각, 칩 설계 등의 다양한 분야에 강화 학습을 적용해 왔습니다. 2020년 4월에 NVIDIA가 멜라녹스(Mellanox)를 인수하던 당시 이 NVIDIA 이스라엘 지사의 연구자는 근처의 네트워킹 그룹에 소속된 새로운 동료들과 협업을 시작했습니다.

그는 “우리의 AI 알고리즘을 그들의 혼잡 제어 팀에 적용한다는 건 일리가 있는 선택이었고, 2년이 지난 지금 관련 연구는 더욱 무르익었습니다”라고 설명합니다.

타이밍이 좋습니다. 이스라엘의 교통량이 팬데믹 이전 대비 두 자릿수 증가세를 기록했다는 최근의 보고는 재택 근무를 장려해 네트워크의 혼잡을 가중할 것입니다.

하지만 다행히도, AI 트래픽 경찰이 출동을 준비 중입니다.