엔비디아, 딥 러닝 소프트웨어 제품군 ‘제트팩 2.3’ 무료 출시

by NVIDIA Korea

엔비디아, 딥 러닝 소프트웨어 제품군 ‘제트팩 2.3’ 무료 출시

인공 지능 시스템 가속화의 진전을 위해 지속적으로 이뤄지는 소프트웨어 제품군 개발! 이번에는  임베디드 모듈 시스템인 ‘젯슨(Jetson) TX1’용 개발자 도구 및 라이브러리를 포함하는 최신 소프트웨어 제품군 ‘제트팩(JetPack) 2.3’ 공개 소식입니다.

제트팩(JetPack) 2.3은 시스템 소프트웨어, 도구, 최적화된 라이브러리 및 API를 모두 포함하는 올인원(all-in-one) 패키지로, 임베디드 시스템에서 최고 성능의 딥 러닝 플랫폼을 구축하고 그 속도와 효율 또한 두 배 이상 향상시킵니다. 혁신적인 딥 러닝 시스템을 효율적으로 설계하고자 하는 개발자라면 누구나 무료로 다운로드 받아 사용할 수 있습니다.

엔비디아 제트팩 2.3에 포함되는 주요 기능들은 다음과 같습니다.

• 텐서(Tensor)RT: GIE(GPU Inference Engine)의 새로운 이름인 텐서RT는 이미지 분류, 분할, 물체 감지와 같은 분야의 런타임 성능을 극대화하는 딥 러닝 추론 엔진입니다. 이를 통해 개발자는 젯슨 기반의 실시간 신경망을 배포할 수 있다. 특히 딥 러닝 라이브러리 cuDNN을 함께 활용할 경우 두 배의 딥 러닝 성능을 제공하는 것이 특징입니다.

• cuDNN 5.1: 컨볼루션, 활성화 함수, 텐서 변환과 같은 표준 루틴에 맞춰 정밀 조정된, 딥 러닝을 위한 쿠다(CUDA) 가속화 라이브러리입니다. LSTM(Long-Short Term Memory), RNN(Recurrent Neural Network)과 같은 고급 네트워크 모델에 대한 지원도 이번 릴리스에 포함되어 있습니다.

• 멀티미디어 API: 유연한 애플리케이션 개발에 이상적인 로우레벨 API 패키지로, 다음을 포함합니다.

 카메라 API: 카메라 매개 변수와 EGL 스트림 출력을 프레임별로 제어해 파이프라인 기반 멀티미디어 프레임워크인 GStreamer와 카메라 입력을 받기 위한 표준 인터페이스 V4L2 파이프라인의 효율적인 상호운용을 지원합니다. 개발자들은 이들 API의 로우레벨 접근을 통해 MIPI CSI(카메라 시리얼 인터페이스)로 카메라 센서를 연결할 수 있습니다.
 V4L2 API: 비디오 디코딩, 인코딩, 형식 변환, 크기 조정 등의 기능을 제공합니다. 인코딩에 V4L2를 사용하면 비트레이트 제어, 품질 사전 설정, 저지연 인코딩, 임시 트레이드오프 및 모션 벡터 맵과 같은 기능을 로우레벨에서 접근할 수 있다. 이전 릴리스에서의 GStreamer 구현도 지원됩니다.

• CUDA 8: 이번 최신 릴리스에는 GCC 5.x의 업데이트된 호스트 컴파일러 지원이 추가됐으며, NVCC CUDA 컴파일러는 최적화를 거쳐 최대 2배 빠른 컴파일 성능을 제공합니다. CUDA 8은 가속화된 그래픽 분석 라이브러리인 nvGRAPH도 포함한다. CUDA 커널에서의 반정밀도 부동소수점 연산을 위한 새로운 API와 cuBLAS 및 cuFFT 라이브러리도 추가됐죠.

현재 제트팩 2.3은 엔비디아 공식 개발자 페이지(https://developer.nvidia.com/embedded/jetpack)에서 다운로드 가능한데요. 관련 개발자 누구나 무료 다운로드 가능하답니다^^

한편, 엔비디아는 임베디드 머신용 시각 애플리케이션을 위한 스테레오 뎁스 매핑(stereo depth mapping), 지능형 시스템 지원 카메라와 같은 카메라 솔루션을 전문적으로 다루는 레오파드 이미징(Leopard Imaging)과 협력하고 있는데요.

개발자들은 레오파드 이미징과의 협력을 통해 현재 YUV 센서를 통해 사용할 수 있는 ISP 바이패스 이미징 모드 외에도 엔비디아 자체 온칩(on-chip) ISP나 CSI, USB 인터페이스를 통한 외부 ISP를 사용해 여러 개의 RAW 이미지 센서를 쉽게 통합할 수 있습니다. 제트팩 2.3에 포함된 새로운 카메라 API는 이러한 통합을 쉽게 만들어 주는 향상된 기능을 제공합니다.


*딥 러닝 에너지 효율성 비교(하단 차트 설명 참조)

– 에너지 효율성은 엔비디아에서 제공하는 백서에 설명된 방법을 통해 측정됐다.(다운로드 링크: https://nvda.ws/2cQjd7A)
– 젯슨 TX1의 에너지 효율은 691 MHz의 GPU 클럭에서 측정됐습니다.
– 인텔 코어 i7-6700k의 에너지 효율은 4 GHz의 CPU 클럭에서 측정됐습니다.
– GoogLeNet 배치 사이즈는 젯슨 TX1의 메모리 사이즈 제한으로 제트팩 2.0을 실행할 수 있는 최대 크기인 64로 제한했다. 반면, 제트팩 2.3과 텐서RT는 FP16을 지원함으로써 더 나은 성능을 위해 128의 GoogLeNet 배치 사이즈를 지원합니다.
– 젯슨 TX1의 FP16/FP32 결과는 인텔 코어 i7-6700k의 FP32 결과와 유사하다. 그 이유는 인퍼런스시 FP16의 분류 정확성이 FP32와 비교해도 손실을 초래하지 않기 때문입니다.
– IntelCaffe의 최신 배포 소프트웨어 버전과 MKL2017 베타가 사용됐습니다.
– 제트팩 2.0과 인텔 코어 i7의 경우, 가중치 및 입력 이미지 모두 논제로(non-zero) 데이터가 사용됐다. 제트팩 2.3(텐서RT)의 경우, 실제 이미지와 가중치가 사용됐습니다.

간편하게 올인원으로 최고 성능의 딥 러닝 플랫폼 구축이 가능한 소프트웨어 패키지 ‘제트팩(JetPack) 2.3’!
딥 러닝 시스템을 최신으로 향상시키고자 하는 개발자들이 많이 다운로드 받아 설계에 도움이 되었으면 하는 바람입니다^