엔비디아 HPC의 획기적 변신의 정체는?

우리는 시각을 통해 얻은 정보를 기반으로 이해의 폭을 넓힙니다.

시뮬레이션 기술을 이용하면 블랙홀의 수수께끼를 풀고, 코로나바이러스의 단백질 돌기가 코로나19를 일으키는 원인을 알아낼 수도 있죠. 디자이너들은 시뮬레이션을 활용해 멋진 자동차에서 제트 엔진에 이르기는 제품들을 디자인하기도 합니다.

하지만 시뮬레이션은 최대 난이도의 수학능력이 수반되는 가장 높은 수준의 컴퓨팅 애플리케이션입니다.

시뮬레이션은 ‘FP64’라는 배정밀도 부동 소수점(double-precision floating-point format)을 사용하는 연산방식으로 숫자 모델을 시각화합니다. 여기에 사용되는 숫자들은 컴퓨터에서 개당 64 비트를 사용해 현재 GPU가 지원하는 많은 연산 방식 중 가장 계산 집약적인 방식입니다.

HPC의 비약적인 가속화를 위한 노력의 일환으로 엔비디아 암페어(NVIDIA Ampere) 아키텍처가 FP64 연산을 전세대 GPU 대비 2.5 배 가속화한 3 세대 텐서 코어(Tensor Core)를 정의했습니다.

이제 연구원들과 디자이너들이 시뮬레이션 결과를 확인하기 위해 더 이상 밤을 샐 필요가 없어졌습니다. 새로운 A100 GPU를 이용하면 단 몇 시간 안에 시뮬레이션 결과를 볼 수 있기 때문이죠.

적극 활용되는 AI 기술

속도 향상으로 인공지능(AI)과 시뮬레이션, 실험이 결합할 수 있게 돼 선순환 체계를 구축하면서 이 작업에 소요되는 시간도 크게 단축됐습니다.

우선 시뮬레이션을 통해 AI 모델을 훈련시키는 데이터 세트가 생성됩니다. 그리고 AI와 시뮬레이션 모델이 동시에 실행되면서 AI 모델이 추론을 통해 실시간 결과물을 제공할 수 있을 때까지 서로의 강점을 기반으로 지속적으로 업그레이드됩니다. 훈련된 AI 모델은 실험 또는 센서를 통해 데이터를 제공받아 완성도를 높입니다.

AI는 이 기술을 사용해 고해상도 시뮬레이션을 위한 몇 가지 관심 영역을 지정합니다. AI는 이 영역을 좁혀 나가며 장시간이 소요되는 수천 회의 시뮬레이션 횟수를 최대 수십 배 줄일 수 있습니다. 반드시 필요한 시뮬레이션을 A100 GPU에서 돌리면 그 속도가 약 2.5 배 빨라지죠.

엔비디아 암페어 아키텍처에 기반한 A100 GPU는 FP64방식을 비롯해 기타 새로운 기능을 통해 현대 HPC 워크플로우인 AI 추론과 훈련뿐 아니라 시뮬레이션을 위한 유연한 플랫폼으로 거듭납니다. 개발자들은 이런 장점을 보고 시뮬레이션 코드를 A100으로 마이그레이션 할 것입니다.

사용자는 새로운 쿠다-X(CUDA-X) 라이브러리를 호출해 A100에서 FP64 가속기에 액세스 할 수 있습니다. 이 GPU에는 배정밀도 행렬 곱셈누적 연산(double-precision matrix multiply-accumulate operations)을 가속화하는 새로운 모드인 DMMA를 지원하는 3 세대 텐서 코어가 탑재되어 있습니다.

가속 행렬 연산

단일 DMMA 작업은 단 하나의 컴퓨터 명령어로 8 개의 기존 FP64 명령어를 대체합니다. 그 결과, A100은 다른 칩보다 FP64 연산처리 속도가 빨라져 시간과 전력이 절약될 뿐 아니라 메모리 사용량과 I / O 대역폭도 축소됩니다.

이 새로운 기능은 배정도 텐서 코어(Double-Precision Tensor Cores)라고 합니다. 이 기능은 텐서 코어의 강력한 성능을 HPC 애플리케이션에 제공해 높은 FP64 정밀도로 행렬연산을 가속화합니다.

시뮬레이션 이외에도, 반복솔버(iterative solver, 반복 행렬연산 알고리즘)라는 HPC애플리케이션들도 이 새로운 기능을 활용할 수 있습니다. 이 애플리케이션들은 석유와 가스 탐사에서 지구 과학, 유체 역학, 헬스케어, 재료 과학, 원자력 분야에 이르기까지 광범위한 분야에 사용될 수 있죠.

세계에서 가장 다루기 어려운 애플리케이션에 사용될 목적으로 개발된 배정밀도 텐서 코어는 엔비디아에서 개발된 GPU 중 가장 강력한 대용량 GPU에 탑재됐습니다. A100는 현존하는 GPU 중 최대 메모리와 대역폭을 자랑합니다.

엔비디아 암페어 아키텍처의 3 세대 텐서 코어는 이전 버전 대비 훨씬 강력한 성능을 선보이고 있는데요. 암페어 아키텍처가 지원하는 행렬 크기는 8x8x4로 이전 버전 볼타(Volta)의 4x4x4 대비 큰 사이즈로 사용자는 3 세대 텐서 코어로 더 복잡한 문제를 해결할 수 있습니다.

이와 같은 이유로 총 432 개의 텐서 코어를 갖춘 A100는 볼타 V100대비 2 배 이상 우수한 19.5 FP64 TFLOPs를 구현합니다.

보다 자세한 정보 확인은 여기서

엔비디아의 최신 GPU에서 FP64가 어떤 역할을 하는지 좀 더 자세히 알고 싶다면, 엔비디아 젠슨 황(Jensen Huang) CEO의 키노트를 시청하세요. 엔비디아 암페어 아키텍처에 대한 웨비나와 관련기사도 준비돼 있습니다.

배정밀도 텐서 코어는 엔비디아 암페어 아키텍처의 HPC 성능뿐 아니라 AI 훈련과 추론 성능을 획기적으로 업그레이드한 수많은 신규 성능 중 하나입니다. 보다 자세한 내용은 아래 블로그를 확인하세요.