금융 서비스 부문 추론 벤치마크에서 최고 성능 기록한 NVIDIA A100

슈퍼마이크로 서버의 NVIDIA A100 GPU가 STAC-ML 마켓 표준에서 최고의 처리량과 낮은 지연시간을 기록했습니다
by NVIDIA Korea

슈퍼마이크로(Supermicro) 서버의 NVIDIA A100 Tensor Core GPU가 최신 STAC-ML 마켓(Markets) 벤치마크의 추론 부문에서 우수한 결과를 기록했습니다. STAC-ML은 금융 서비스 관련 기술의 성능을 측정하는 주요 벤치마크입니다.

NVIDIA는 가장 까다로운 모델에서 초당 수천 개의 추론을 제공하는 등 처리량 면에서 타의 추종을 불허하는 결과를 달성하는 한편, 최신 STAC-ML 추론 표준의 지연시간(latency) 부문에서도 선두에 올랐습니다.

여러 금융 기관들이 근소한 차로 NVIDIA의 뒤를 쫓고 있는데요. 최근의 조사에 따르면 이들의 4분의3이 머신 러닝이나 딥 러닝, 고성능 컴퓨팅에 의존하고 있다고 합니다.

NVIDIA A100: 지연시간 부문 선두

STAC-ML 추론 벤치마크는 장단기 메모리(LSTM) 모델 추론의 지연시간을 측정하도록 설계됩니다. 지연시간은 새로운 인풋 데이터를 받아 모델의 아웃풋이 연산되기까지 걸리는 시간을 의미하죠. LSTM은 자산 가격과 같은 금융 시계열 데이터의 발견에 주로 사용되는 모델입니다.

STAC 벤치마크에는 복잡성이 증가하는 LSTM 모델 세 개가 포함됩니다. 슈퍼마이크로 울트라 슈퍼서버(Supermicro Ultra SuperServer)에서 구동되는 NVIDIA A100 GPU는 백분위 점수로 99점의 낮은 지연시간을 기록했습니다.

STAC-ML과 STAC-A2, STAC-A3 벤치마크와 가속 컴퓨팅

NVIDIA A100이 STAC-ML 추론에서 보여준 성능을 비롯해 STAC-A2 옵션 가격 예시(discovery) 벤치마크 STAC-A3 모델 백테스팅(backtesting) 벤치마크에서 달성한 기록적인 성능은 NVIDIA AI 컴퓨팅이 오늘날 거래 환경의 파이프라인을 가속할 수 있음을 보여줍니다.

이는 또한 금융 기관에 최고의 성능과 워크로드의 다기능성을 제공할 수 있는 A100 GPU의 역량을 증명하는 것이기도 합니다.

예측 가능한 성능과 지속적인 낮은 지연시간

금융 부문에서 예측 가능한 성능과 그에 따른 낮은 지연시간 환경의 구축은 매우 중요합니다. 급박하게 돌아가는 시장 상황에서 과도한 이상값(outlier)은 상당한 손실을 초래할 수 있기 때문입니다.

이와 관련해 NVIDIA의 지연시간에는 큰 이상값이 없었다는 점에 주목해야 합니다. LSTM모델 일체와 다수의 모델 인스턴스(동시 인스턴스 수 최대 32개1)에서 최대 지연시간이 중간값의 2.3배를 넘지 않았죠.

NVIDIA는 STAC 타카나 스위트(Tacana Suite) 벤치마크의 성능 결과를 최초로 제출하기도 했습니다. 타카나 스위트는 각 추론 작업에 새로운 시간 단계(timestep)가 추가되고 가장 오래된 것은 제거되는 슬라이딩 윈도에서 추론을 실행합니다. 따라서 시장 데이터의 업데이트 전체에서 추론을 수행해야 하는 초단타 매매에 유용합니다.

수마코(Sumaco) 스위트의 경우 각 추론이 완전히 새로운 데이터 세트에서 실행되며, 이벤트에 따라 최근의 기록을 기반으로 추론을 진행해야 하는 활용 사례를 대표합니다.

우수한 처리량

NVIDIA는 또한 FP16 정밀도의 수마코 스위트용으로 동일한 하드웨어에서 처리량을 최적화한 구성을 제출하기도 했습니다.2

벤치마크 모델 중 복잡성이 가장 덜한 LSTM에서 슈퍼마이크로 서버의 A100 GPU는 초당 170만 개 이상의 추론이 실행되도록 도왔습니다.3

가장 복잡한 LSTM의 경우에도 초당 12,800개의 추론을 처리했습니다.4

NVIDIA A100: 성능과 다기능성

NVIDIA GPU의 이점을 활용하면 전자 거래 스택의 소유 총비용(TCO)을 절감할 수 있습니다.

일례로 NVIDIA AI는 단일 플랫폼에서 훈련과 추론을 실행합니다. AI 모델의 개발과 백테스팅, 배포의 전 단계에서 최고의 성능을 제공하죠. 개발자의 입장에서는 연구와 거래를 위해 서로 다른 프로그래밍 언어와 프레임워크를 배울 필요가 없습니다.

또한 NVIDIA CUDA 프로그래밍 모델은 GPU 가속 임베디드 시스템, 데스크톱 워크스테이션, 엔터프라이즈 데이터센터, 클라우드 기반 플랫폼, HPC 슈퍼컴퓨터 전반에 걸쳐 애플리케이션의 개발과 최적화, 배포를 지원합니다.

효율 개선을 통한 운영비 절감

금융 서비스 업계는 데이터 처리량의 개선과 더불어 운영 효율의 향상을 통해 이익을 창출할 수 있습니다.

데이터센터 내 시스템들의 에너지와 평방 피트당 사용량을 줄이는 것으로 운영비 지출에 큰 차이를 만들 수 있습니다. 이는 새로운 고성능 시스템의 비용 문제로 고민하는 IT 조직들에게 특히 중요한 부분이죠.

가장 까다로운 LSTM 모델에서 NVIDIA A100은 1킬로와트 기준으로 초당 17,700개가 넘는 추론을 처리하면서 722와트의 전력을 소비해 최고의 에너지 효율을 보여줬습니다.5

이번 벤치마크 결과는 NVIDIA GPU가 백테스팅과 시뮬레이션 같은 워크로드의 처리량과 에너지 효율 부분에서 압도적인 성능을 제공함을 다시 한번 확인하는 기회가 됐습니다.

보다 스마트하고 안전한 금융 서비스를 제공하는 NVIDIA 테크놀로지를 더 자세히 알아보세요.

[1] SUT ID NVDA221118b, STAC-ML.Markets.Inf.T.LSTM_A.2.LAT.v1의 최대.

[2] SUT ID NVDA221118a

[3] STAC-ML.Markets.Inf.S.LSTM_A.4.TPUT.v1

[4] STAC-ML.Markets.Inf.S.LSTM_C.[1,2,4].TPUT.v1

[5] SUT ID NVDA221118a, STAC-ML.Markets.Inf.S.LSTM_C.[1,2,4].ENERG_EFF.v1