NVIDIA GPU 기반 퍼듀대학의 슈퍼컴퓨터 Anvil로 그려보는 과학의 발전

미국 퍼듀대학의 새로운 슈퍼컴퓨터의 프로젝트 책임자가 고성능 컴퓨팅 분야에서 리더가 되기까지의 개인 여정을 공개합니다
by NVIDIA Korea

캐롤 송(Carol Song)은 미국 퍼듀대학(Purdue Univ.)의 새로운 인공지능(AI) 슈퍼컴퓨터인 Anvil을 통해 연구자들이 과학을 발전시킬 수 있는 문을 열어 나가고 있습니다. 이는 중국에서 캐롤 송이 10대 시절에 상상할 수 없었던 길이었죠.

현재 Anvil의 프로젝트 책임자인 캐롤 송은 “저는 특별한 상황이 아닌 한, 고등학교를 졸업하면 농업인이나 공장 노동자들과 함께 일하는 것 외에는 선택권이 없었던 불안한 시기에 자랐습니다. 그런데 갑자기 대학을 갈 수 있다는 소식을 듣게 되었습니다”라고 말했습니다.

그건 보통 대학이 아니었는데요. 캐롤 송의 대학 입학시험 점수는 중국 최고 명문 공과 대학의 본거지인 칭화대학교(Tsinghua Univ.)로의 길을 열어 주었습니다.

그러다가 누군가가 그녀에게 컴퓨터가 앞으로 전망 있을 것이라고 말했고, 그래서 캐롤 송은 컴퓨터를 전에 한 번도 본 적이 없었지만 컴퓨터 공학 수업을 들었습니다. 그리고 금방 익히게 되었죠.

캐롤 송은 “우리는 기초부터 하드웨어를 만들고 있었는데, 마이크로 명령어와 논리 회로를 설계했기 때문에 저는 컴퓨터를 완전히 이해할 수 있게 됐습니다”라고 회상했습니다.

쉬워진 슈퍼컴퓨터 액세스

몇 년 뒤 일리노이 대학(Illinois Univ.)의 대학원에 들어간 캐롤 송에게 또 다른 커다란 길이 열렸습니다.

분산 시스템에서 작업하던 캐롤 송은 연구원들이 공유하는 슈퍼 컴퓨터에 자금을 조달하는 미국 프로그램 중 하나인, 국립 슈퍼컴퓨팅 애플리케이션 국립센터(National Center for Supercomputing Applications)에 최초의 프로그래머들 중 한 명으로 고용되게 된 것이죠.

시스템에 보다 쉽게 접근하기 위해 캐롤 송은 프로그램을 한 번에 한 줄씩 표시하던 당시의 조잡한 편집 도구에 대한 대안책을 개발하는 일을 도왔습니다. 그리고 마이클 노먼(Michael Norman)과 같은 선구적인 연구자들의 연구를 시각화 하는 일을 지원했죠.

고성능컴퓨팅(HPC)에 AI를 더한 GPU

2005년 퍼듀대학에 들어갔던 캐롤 송은 슈퍼 컴퓨팅 센터의 선임 연구 과학자로 일하며, 6천만 달러 이상의 보조금을 받는 약 36개의 연구 프로젝트를 관리하는 업무를 했습니다.

캐롤 송은 “우리가 Anvil을 정의하기 시작했을 때 모든 것들이 도움이 됐습니다. 저는 연구자들이 새로운 시스템을 사용할 때 어떤 부분이 힘든 지 이해합니다”라고 전합니다.

슈퍼컴퓨터 Anvil은 1,000개의 Dell EMC PowerEdge C6525 서버 노드를 NVIDIA Quantum InfiniBand 네트워크에서 2,000개의 최신 AMD x86 CPU 와 64개의 NVIDIA A100 Tensor Core GPU를 연결해 기존 HPC와 새로운 AI 워크로드를 처리합니다.

델 테크놀로지스(Dell Technologies)가 만든 이 슈퍼컴퓨터는 미국 국립과학재단(National Science Foundation)의 XSEDE 네트워크에서 일하는 수만 명의 연구자들에게 매년 5.3 페타플롭과 50만 개의 GPU 사이클을 제공할 예정입니다.

데스크톱과 클라우드를 연결하는 Anvil

이러한 기능을 활용하기 위해 Anvil은 대화형 사용자 인터페이스는 물론 고성능 컴퓨팅의 전통적인 배치(batch) 작업을 지원합니다.

캐롤 송은 “연구자가 주피터 노트북(Jupyter notebook)과 원격 데스크톱 인터페이스와 같은 인기있는 도구를 통해 클러스터가 일상적인 작업 환경과 똑같이 보이게 만들 수 있습니다”라고 말했습니다.

또한 Anvil은 마이크로소프트 애저(Microsoft Azure)에 대한 링크도 지원해, 연구원들은 애저의 대규모 데이터 세트와 상용 클라우드 컴퓨팅에 액세스할 수 있습니다. 캐롤 송은 “연구원들이 연구와 상업 환경을 아우르는 워크플로우를 만들어보도록 실험해 볼 수 있는 것이 이 시스템의 혁신적인 부분”이라고 전했습니다.

코로나 퇴치, AI 탐색

이미 30개 이상의 연구팀이 Anvil의 초기 사용자 등록을 했는데요.

한 연구팀은 코로나19를 비롯해 호흡기 질환 진단을 개선하기 위해 의료 영상에 딥 러닝을 적용할 예정입니다. 또 다른 팀은 딥 러닝이 우수한 결과를 제공하는 이유를 찾기 위해 인과 및 논리 체크 포인트를 신경망에 구축할 계획입니다.

캐롤 송은 “우리는 가속 애플리케이션을 위해 NGC 컨테이너와 같은 많은 GPU 전용 툴을 지원할 예정이며, 모든 새로운 시스템과 마찬가지로 사용자는 원하는 추가 툴킷과 라이브러리를 요청할 수 있습니다”라고 밝혔습니다.

Anvil 팀의 목표는 업계 간 협업을 도모해 시스템 용량의 최대 10%를 사용한 새로운 아이디어를 테스트하는 것입니다. 캐롤 송은 “우리는 이것을 재량적으로 사용해 이런 자원 없이는 불가능했을 프로젝트를 전략적으로 가능하게 할 수 있습니다”라고 말했습니다.

과학과 통합의 기회 열기

현재 초기 사용자들이 Anvil을 이용하고 있으며, 약 한 달 내로 모든 사용자들이 이용 가능해질 것입니다.

Anvil의 오프닝 날은 국립 슈퍼컴퓨터 프로그램의 선임 책임자로 활동하는 몇 안되는 여성인 캐롤 송에게 특별한 의미가 될 것입니다.

Carol Song. project director, Purdue Anvil supercomputer
캐롤 송과 퍼듀대학의 슈퍼컴퓨터 Anvil

캐롤 송은 “저는 항상 최선을 다하도록 격려 받고 기회를 얻을 수 있었기에 운이 좋았습니다”라고 소감을 말했습니다.

또한 “산업계와 연구 컴퓨팅 커뮤니티에서는 리더 역할을 맡은 여성들이 아직 많지 않습니다. 따라서 이 부분에 지속적인 노력이 있어야 하고 더 발전될 여지가 많이 있습니다. 저 또한 여성들이 이 분야에 진출할 수 있도록 열정적으로 멘토링하고 있습니다”라고 덧붙였습니다.

퍼듀대학의 연구 컴퓨팅 그룹은 슈퍼컴퓨팅에 여성 참여를 진작하기 위한 캐롤 송의 열정을 지원합니다. 그리고 국제 고성능 컴퓨팅 여성 단체의 첫 번째 지부 중 한 곳이 있습니다.

퍼듀대학의 여성 고성능 컴퓨팅 지부는 2018년에 열린 고성능컴퓨팅 컨퍼런스인 SC18행사에서 학생 클러스터 대회에 여성으로만 구성된 팀을 파견했습니다. 또한 외부 연사를 주최하고, 컨퍼런스를 위한 참여 지원금을 제공하며 학생과 초기 직업 전문가가 캐롤 송과 같은 경험 많은 멘토들과 연결해주는 활동을 하고 있습니다.

 

상단 사진:  (중앙) Anvil의 주임 조사관(PI)이자 프로젝트 책임자인 캐롤 송, (왼쪽부터) Anvil의 공동 주임 조사관 라제시 칼랴남(Rajesh Kalyanam), 샤오주(Xiao Zhu), 프레스턴 스미스(Preston Smith).