슈투트가르트의 슈퍼컴퓨터 센터가 고성능 컴퓨팅(HPC)이라는 아우토반을 질주해 왔습니다. 그리고 이제 AI 연료를 채우기 위해 잠시 정차했다고 하는데요.
독일 고성능 컴퓨팅 센터 슈투트가르트(HLRS)는 유럽 최대 규모 슈퍼컴퓨터 센터의 하나로 지난 2002년에 미카엘 레시(Michael Resch) 소장이 부임한 이래 인력 3배 증원, 산업과의 협력을 통한 수익 20배 증대를 달성했습니다. 작년 한 해 동안 이룩한 성장의 대부분은 AI에 대한 관심에서 비롯되었죠.
머신 러닝에의 수요가 증대하는 가운데 HLRS는 NVIDIA Mellanox InfiniBand 네트워크로 연결하는 NVIDIA Ampere 아키텍처 GPU 192개를 휴렛팩커드 엔터프라이즈(Hewlett Packard Enterprise)의 아폴로(Apollo) 시스템 기반 슈퍼컴퓨터 ‘호크(Hawk)’에 추가하는 계약을 체결했습니다.
더 높이 날아오르는 호크
NVIDIA GPU는 시스템 규모 세계 16위에 랭크되어 있는 호크의 새로운 비상을 견인할 전망입니다. 이번 확장에 대비해 연구자들은 코로나 19 대유행 경로 예측부터 차량과 항공기 개선을 뒷받침할 과학에 이르기까지 다양한 영역에 걸친 AI 프로젝트를 수립하고 있습니다.
엔지니어링과 컴퓨터 사이언스, 수학 분야에서 경력을 쌓았고 현재 슈투트가르트 대학의 교수로도 재직 중인 레시 소장은 “인간이 거대 시뮬레이션을 만들 수는 있지만 데이터를 매번 이해할 수 있는 건 아닙니다. AI의 이점은 데이터를 훑어 나가면서 그 결과를 보는 능력을 갖추고 있다는 점이죠”라고 말했습니다.
지난 해 HLRS는 미국 슈퍼컴퓨터 제조사 크레이(Cray)가 60개 이상의 NVIDIA GPU를 탑재해 구축한 CS-Storm 시스템을 도입하는 것으로 AI를 향한 도약을 시작했습니다. CS-Storm은 이미 메르세데스 벤츠(Mercedes-Benz)의 시장 데이터, 독일 대형 은행의 투자 포트폴리오, 지역방송국의 음악 데이터베이스 분석용AI 프로그램들을 구동하고 있습니다.
“CS-Storm 시스템의 대중성이 입증된 셈입니다. AI의 이점을 이해하는 이들의 커뮤니티가 계속 성장하고 있으니까요.” 레시 소장은 이 시스템이 최대 수용치에 근접했다고 설명하며 이렇게 덧붙였습니다. “2020년 중반에 이르니 날로 증가하는 우리의 AI 요건을 충족하기 위해 시스템을 확장해야 한다는 사실이 분명해졌습니다.”
HPC와 AI의 결합이 여는 새로운 가능성
슈투트가르트 센터와 고성능 컴퓨팅(HPC) 커뮤니티 전반의 미래는 CPU와 GPU를 함께 사용하는 하이브리드 컴퓨팅이며 이는 AI를 활용한 HPC 시뮬레이션의 진일보로도 이어집니다.
레시 소장은 CPU와 GPU의 결합이 “여러 문제들에 대한 우리의 더 나은 이해를 촉진할 혁신”이라고 평가했습니다.
예를 들어 슈투트가르트대학의 한 연구자는 20억 개에 달하는 시뮬레이션을 통해 얻은 데이터로 신속하고 경제적인 금속합금 평가용 신경망을 훈련시킬 계획입니다. 이를 활용해 구축되는 AI 모델은 PC에서 구동이 가능하고 판금 제조사들이 자동차 문 등에 활용될 최고의 합금을 선택할 수 있도록 도울 전망입니다.
“실험이 까다롭거나 그에 따른 비용 부담이 큰 경우에는 이런 모델이 아주 유용합니다”는 것이 레시 소장의 설명입니다.
이는 메르세데스와 포르쉐(Porsche)의 본사와 같은 도시에 위치한 슈투트가르트 센터에 유용한 기능이기도 합니다.
대세는 머신 러닝
유체 역학 부문의 프로젝트 또한 유사한 접근법을 취합니다.
슈투트가르트대학의 연구팀은 고도의 정확성을 확보한 시뮬레이션에서 얻은 데이터로 신경망을 훈련시켜 난기류 분석용 AI 모델을 구축할 계획입니다. 기류 관련 데이터 추출을 위해 협력을 이어오고 있는 에어버스(Airbus) 등의 기업과 HLRS에게 이는 아주 중요한 문제죠.
슈투트가르트 센터는 또한 코로나19 대유행 기간에 병원 중환자실의 병상 부족이 시작되는 시점을 예측하는 유럽 연구 프로젝트의 일환으로 AI를 활용하려고 합니다. 이 프로젝트는 코로나바이러스의 등장 전에 시작되었지만 대유행의 여파로 속도를 내고 있습니다.
AI로 추적하는 코로나19
이 프로젝트의 목표 중 하나는 병원의 수용능력이 한계에 도달하기 4주 전에 미리 파악하여 정책입안자들이 대책을 마련할 시간을 확보하는 것입니다.
레시 소장은 “너무도 많은 사망자가 발생하는 상황에서 이는 매우 중요한 문제입니다. 우리는 대유행 발생 첫 주에 중환자실이 꽉 차버린 이탈리아, 뉴욕, 우한 등지의 사례들을 확인해 왔습니다”라고 설명했습니다.
“따라서 향후 수주에서 수개월에 이르는 기간 동안 대유행의 전망과 관련한 시뮬레이션과 예측을 실시하게 될 텐데요. 이 과정에서 GPU가 엄청난 역할을 해줄 것입니다.”
이는 현재 GPU 가속 엔진용으로 준비 중인 여러 애플리케이션 중에서도 특히 커다란 관심의 중심이 텐데요, 이를 통해 슈투트가르트의 연구자들은 AI의 세계로 향하는 여정에 더욱 박차를 가하게 될 것입니다.