중국 바이두와 텐센트, 엔비디아 튜링 T4 클라우드 GPU 채택

엔비디아 T4의 채택이 날로 가속화되고 있습니다! 중국의 바이두(Baidu)와 텐센트(Tencent)를 포함한 글로벌 기술 기업들이 엔비디아 튜링(Turing) T4 클라우드 GPU(이하 T4)를 기반으로 한 제품과 서비스 출시함에 따라 높은 관심을 받고 있는데요. 실제로, T4는 서버 GPU 중 가장 빠른 채택률을 보이고 있습니다.

중국 최대 인터넷 기업 바이두, 텐센트, 징둥닷컴(JD.com), 아이플라이텍(iFLYTEK)은 자체 하이퍼스케일 데이터센터의 확장과 가속화를 위해 T4를 도입했다고 합니다. 또한, 인스퍼(Inspur), 레노버(Lenovo), 화웨이(Huawei), 수곤(Sugon), 인스퍼 파워 시스템(IPS), H3C 등을 포함한 중국 유수의 컴퓨터 제조업체들은 T4를 탑재한 새로운 서버를 발표했습니다.

엔비디아의 T4는 의료와 금융, 소매업을 포함한 광범위한 분야에 걸쳐 엔터프라이즈와 하이퍼스케일을 위한 고성능 컴퓨팅(HPC) 시장의 핵심인 AI 추론과 훈련을 가속화하는데 사용되고 있습니다.

최근 개최된 HPC 컨퍼런스인 슈퍼컴퓨팅 2018(SC18)에서 발표한 바와 같이 T4는 출시 두 달 만에 전세계 선도적 컴퓨터 제조업체가 제공하는 57가지 서버 설계에 적용됐는데요. 구글 클라우드(Google Cloud)도 구글 클라우드 플랫폼 고객을 위해 T4를 채택했다고 합니다. 이외에도, T4를 채택한 업체로는 Dell EMC, HPE, IBM, 레노버, 슈퍼마이크로(Supermicro) 등이 있습니다.

이안 벅(Ian Buck) 엔비디아 엑셀레이티드 컴퓨팅 담당 부사장 겸 총괄은 “T4의 전례 없는 성능을 고려할 때 전세계 기업들이 이를 빠른 속도로 채택하는 것은 지극히 당연한 일”이라며, “지금까지 퍼블릭과 프라이빗 클라우드가 대규모의 컴퓨팅 집약적인 워크로드를 비용 효율적으로 처리하는데 요구되는 성능과 에너지 효율성을 제공하는 GPU는 볼 수 없었다. 규모가 관건인 시장에서 T4의 채택은 더욱 가속화될 것으로 기대된다”고 설명했습니다.

새로운 엔비디아 튜링 아키텍처에 기반한 T4 GPU는 다중 정밀 튜링 텐서(Tensor) 코어와 새로운 RT 코어를 특징으로 하며, 가속화된 컨테이너형 소프트웨어 스택과 결합될 경우 전례 없는 성능을 제공합니다.

중국 서버기업 중 T4를 사용 중인 곳은 인스퍼, 화웨이, 레노버, 수곤, IPS, H3C 등이 있습니다. T4를 사용해 이들 기업이 선보이는 새로운 시스템은 아래와 같으며, 올해 말 출하될 예정이라고 합니다.

인스퍼: NF5280M4/NF5280M5/NF5288M5/NF5468M5
레노버: 씽크시스템(ThinkSystem) SR630/SR650
화웨이: G2500/2288 HV5/5288V5/G530 V5/G560 V5
수곤: X580-G30/X745-G30/X780-G30/X780-G35/X785-G30/X740-H30
IPS: FP5295G2
H3C: 유니서버(Uniserver) G4900G3

유연한 설계, 획기적인 성능

퍼블릭, 엔터프라이즈 클라우드 환경에서 요구되는 고유한 확장성을 충족시키도록 설계된 T4는 처리량(throughput), 사용률, 사용자 동시성(concurrency)을 극대화시켜 고객들이 사용자와 데이터 폭증에 효과적으로 대응하도록 지원하는데요.

T4는 또한 70W(와트) 소형 폼팩터로 표준 서버나 오픈 컴퓨트 프로젝트(Open Compute Project) 하이퍼스케일 서버 설계에 적합한 유연성을 제공합니다. 서버 설계는 단일 노드에서 1개부터 20개의 GPU를 지원합니다.

T4가 가진 다중정밀 기능은 네 가지 정밀 수준에서 다양한 AI 워크로드를 위한 획기적인 AI 성능을 제공합니다. 이를 통해, FP32에서 8.1 테라플롭(teraflop), FP16에서 65 테라플롭, INT8에서 130 TOPS(초당 테라 연산), INT4에서 260 TOPS의 성능을 구현할 수 있는데요. AI 추론 워크로드의 경우 T4 GPU 2개를 탑재한 서버로 CPU 전용 서버 54개를 대체할 수 있습니다. 또한, AI 훈련을 위해서는 T4 GPU 2개를 탑재한 서버로 이중 소켓 CPU 전용 서버 9개를 대체할 수 있습니다.