슈퍼컴퓨팅 데이터센터 다운타임 최소화하는 AI 플랫폼 공개

보안 위협 탐지, 네트워크 장애 예측, 유지보수 지원하는 엔비디아 멜라녹스 UFM 사이버-AI 플랫폼 선보인다
by NVIDIA Korea

엔비디아 멜라녹스 UFM 사이버-AI(NVIDIA® Mellanox® UFM® Cyber-AI) 플랫폼이 오늘 공개됐습니다. 이 플랫폼은 인공지능(AI) 기반 애널리틱스를 활용해 보안 위협과 운영 문제를 탐지하고, 네트워크 장애를 예측해 인피니밴드(InfiniBand) 데이터센터의 다운타임을 최소화하는 것이 특징인데요.

UFM 사이버-AI 플랫폼은 약 10 여년 간 인피니밴드 시스템을 관리해온 UFM 플랫폼 제품 포트폴리오가 확대된 것으로, AI를 적용해 데이터센터의 운영상태와 네트워크 워크로드 패턴을 학습함으로써 실시간 데이터는 물론 과거의 텔레메트리(telemetry) 및 워크로드 데이터까지 모두 활용합니다. 이를 통해 시스템 상태와 네트워크 수정을 추적하고, 성능저하, 사용, 프로파일 변경을 감지하죠.

UFM 사이버-AI 플랫폼은 비정상적 시스템, 애플리케이션 동작, 잠재적 시스템 장애 및 위협에 대한 경고를 제공할 뿐 아니라, 시정 조치를 수행하는데요. 그 외에도 가상화폐 마이닝과 같이 잘못되거나 원치 않는 애플리케이션을 호스팅하기 위해 시스템 해킹 시도가 있는 경우 보안 경고를 제공하도록 설계됐습니다. 이는 결과적으로 데이터센터의 다운타임을 감소시킵니다. ITIC 연구에 따르면, 다운타임 발생 시 일반적으로 시간 당 30만 달러 이상의 비용이 발생한다고 합니다.

엔비디아의 멜라녹스 네트워킹 부문 마케팅 담당 수석 부사장 길라드 샤이너(Gilad Shainer)는 “UFM 사이버-AI 플랫폼은 데이터센터 고유의 운영상태를 파악해 성능 저하, 구성요소 장애, 비정상적인 사용 패턴을 식별합니다. 이 플랫폼을 통해 시스템 관리자들은 잠재적인 보안 위협을 신속히 탐지 및 대응하고 잠재적인 오류를 해결함으로써, 비용은 줄이면서 고객들에게 일관된 서비스를 보장할 수 있습니다”고 설명했습니다.

생태계 지원

오랜 기간 자사 데이터센터에 UFM 플랫폼을 적용해 활용하고 있는 많은 기업들이 UFM 사이버-AI 플랫폼에 지지를 표하고 있습니다.

호주 국가 컴퓨팅 인프라(National Computational Infrastructure, NCI)의 부소장 앨런 윌리엄스(Allan Williams)는 “NCI는 국가 연구 환경에 핵심 역할을 하고 있다. 5천여 명의 연구원들이 NCI의 슈퍼컴퓨팅 인프라를 활용해 중요한 국가 및 글로벌 활동을 수행하고 있습니다. UFM은 슈퍼컴퓨터를 효율적으로 관리하고 성능을 최적화할 수 있도록 합니다. UFM 사이버-AI 플랫폼의 새로운 기능을 통해 슈퍼컴퓨팅의 활용도를 더욱 향상시키고 투자수익률(ROI)을 개선할 수 있기를 기대합니다”고 말했습니다.

오하이오 슈퍼컴퓨터 센터(Ohio Supercomputer Center) 부소장 더글라스 존슨(Douglas Johnson)은 “지난 수년간 인피니밴드 데이터센터에서 UFM 플랫폼을 사용해왔는데요. UFM과 멜라녹스 네트워킹 팀이 보유한 전문성은 우리 센터의 네트워크를 관리하고 안정성을 유지하는데 핵심적인 요소였습니다. UFM 사이버-AI 플랫폼은 보다 다양한 혜택을 제공할 것으로 기대됩니다”고 말했습니다.

UFM 플랫폼의 확대

UFM 사이버-AI 플랫폼은 네트워크 모니터링, 관리, 성능 최적화, 구성 확인 및 안전한 케이블 관리 등을 제공하는 UFM 엔터프라이즈 플랫폼을 보완합니다.

엔비디아는 또한 UFM 제품군의 세 번째 제품인 UFM 텔레메트리(Telemetry) 플랫폼도 추가로 공개했습니다. 이 툴은 온프레미스 혹은 클라우드 기반 데이터베이스로 스트리밍 되는 실시간 네트워크 텔레메트리 데이터를 캡처하여 네트워크 성능을 모니터링하고 네트워크 구성을 검증합니다.

[추가 자료]