Join experts from Google, Meta, NVIDIA, and more at the first annual NVIDIA Speech AI Summit.   Register Free


딥 러닝 소프트웨어



NVIDIA CUDA-X AI는 연구원과 소프트웨어 개발자가 대화형 AI, 추천 시스템 및 컴퓨터 비전을 위한 고성능 GPU 가속 애플리케이션을 구축할 수 있도록 도와주는 완벽한 딥 러닝 소프트웨어 스택입니다. CUDA-X AI 라이브러리는 MLPerf와 같은 업계 벤치마크 전반의 훈련 및 추론 영역에서 세계 최고의 성능을 자랑합니다.

PyTorch, TensorFlow, JAX를 포함한 모든 딥 러닝 프레임워크는 단일 GPU에서 가속화되며 다중 GPU 및 다중 노드 구성으로 확장됩니다. 프레임워크 개발자와 연구원은 GPU에 최적화된 CUDA-X AI 라이브러리의 유연성을 활용해 새 프레임워크와 모델 아키텍처를 가속할 수 있습니다.

CUDA-X를 기반으로 하는 NVIDIA의 통합 프로그래밍 모델은 데스크톱이나 데이터 센터에서 딥 러닝 애플리케이션을 개발하고, 코드 변경이 거의 없는 상태로 이를 데이터 센터, 리소스가 제한된 IoT 장치 및 자율주행차 플랫폼에 배포하는 방법을 제공합니다.

NVIDIA® NGC™ 카탈로그는 사전 훈련된 모델, 훈련 스크립트, 최적화된 프레임워크 컨테이너 및 인기 딥 러닝 모델을 위한 추론 엔진을 제공합니다. NVIDIA AI Toolkit에는 전이 학습과 파인 튜닝을 비롯해 광범위한 산업 및 AI 워크로드에서 사전 훈련 모델을 최적화 및 배포하는 데 사용되는 라이브러리가 포함되어 있습니다.

NVIDIA Github에는 시작하는 데 필요한 제품, 데모, 샘플, 튜토리얼 등 100개가 넘는 저장소가 있습니다.


deep learning training and inference software chart


모든 프레임워크에 통합


딥 러닝 프레임워크는 상위 레벨 프로그래밍 인터페이스를 통해 심층 신경망을 설계, 훈련 및 검증하기 위한 빌딩 블록을 제공합니다. PyTorch, TensorFlow, and JAX 딥 러닝 프레임워크는 상위 레벨 프로그래밍 인터페이스를 통해 심층 신경망을 설계, 훈련 및 검증하기 위한 빌딩 블록을 제공합니다.

NGC의 컨테이너화된 프레임워크는 최신 GPU 최적화 기능을 탑재하고 있고, CUDA 라이브러리와 드라이버에 통합되어 있습니다. 컨테이너화된 프레임워크는 매월 릴리스 과정에서 검증 및 테스트되어 다수의 에지 및 클라우드 플랫폼에 걸쳐 최상의 성능을 발휘합니다. 시작에 필요한 프레임워크 통합 기능과 리소스 및 예제에 대한 자세한 정보는 딥 러닝 프레임워크 페이지를 참조하세요.


logos




딥 러닝 훈련



CUDA-X AI 라이브러리는 고성능 최적화를 통해 모든 프레임워크에서 딥 러닝 훈련을 가속하여 대화형 AI, 자연어 이해(NLU), 추천 시스템, 컴퓨터 비전 등 애플리케이션 전반에 걸쳐 GPU에서 세계 최고의 성능을 발휘합니다. 최신 GPU 성능은 딥 러닝 훈련 성능 페이지에서 상시 확인할 수 있습니다.

GPU 가속 프레임워크를 사용하면 Tensor Core에서 혼합 정밀 컴퓨팅을 포함한 최적화 기능을 활용하고, 다양한 모델 세트를 가속하며, 단일 GPU에서 수천 개의 GPU가 포함된 DGX SuperPod로 훈련 작업을 손쉽게 확장할 수 있습니다.

MLPerf 0.6 AI 벤치마크의 NVIDIA 성능

ResNet-50 v1.5 Time to Solution on V100

MXNet | 배치(batch) 사이즈 아래 CNN V100 훈련 테이블 참조 | 정밀도: 혼합 | 데이터세트: ImageNet2012 | 컨버전스 기준 - MLPerf 요구사항 참조


언어 이해나 대화형 AI와 같은 복잡한 작업에 딥 러닝이 적용되면서 모델의 크기와 모델 훈련에 필요한 컴퓨팅 리소스가 폭발적으로 증가했습니다. 일반 데이터 세트에서 사전 훈련된 모델로 시작한 후 산업군과 도메인 및 사용 사례에 맞게 미세 조정하는 것이 가능 보편적인 방식입니다. NVIDIA AI 툴킷은 사전 훈련 모델로 시작하여 전이 학습과 미세 조정을 수행하는 데 필요한 라이브러리와 툴을 제공하므로 AI 애플리케이션의 성능과 정확도를 극대화할 수 있습니다.





neural network
cuDNN

CUDA Deep Neural Network (cuDNN)는 합성곱, 활성화 함수 및 텐서 변환을 위한 딥 러닝 프리미티브를 포함해 심층 신경망 애플리케이션을 위한 빌딩 블록을 갖추고 있는 고성능 라이브러리입니다.

자세히 알아보기

nccl
NCCL

NVIDIA Collective Communications Library (NCCL)는 최대 8개의 GPU로 확장이 되는 all-gather, reduce 및 broadcast 같은 루틴을 사용하여 다중 GPU 통신을 가속합니다.


자세히 알아보기


nemo
NeMo

NVIDIA Neural Modules (NeMo)는 AI 가속 음성 및 언어 애플리케이션을 위한 최첨단 신경망을 구축하기 위한 오픈 소스 툴킷입니다.






자세히 알아보기

tao toolkit
TAO Toolkit

TAO Toolkit은 사전 훈련된 모델을 최적화하고 전이 학습을 적용해 정확도를 높이는 방식으로 AI 훈련을 가속하는 Python 기반 툴킷입니다. DeepStream SDK와 TensorRT를 사용해 훈련된 모델을 NVIDIA 에지 플랫폼에서 효율적으로 프루닝 및 배포함으로써 고성능의 AI 시스템을 개발할 수 있습니다.

자세히 알아보기
Deep Learning GPU Training System (DIGITS)
DIGITS

NVIDIA Deep Learning GPU Training System (DIGITS)은 데이터를 관리하고, 다중 GPU 시스템에서 컴퓨터 비전 네트워크를 설계 및 훈련하며, 성능을 실시간으로 모니터링하여 배포에 가장 적합한 모델을 선택하도록 도와주는 대화형 툴입니다.




자세히 알아보기


AI-Assisted Annotation Toolkit
AI-Assisted Annotation Toolkit

AI-Assisted Annotation Toolkit은 클라이언트 API와 사전 훈련된 모델을 통해 의료 뷰어를 'AI-Ready'로 만들 수 있는 툴킷입니다.


자세히 알아보기


딥 러닝 인터페이스



CUDA-X AI에는 프로덕션 환경에서 컴퓨터 비전, 대화형 AI, 추천 시스템과 같은 애플리케이션의 지연 시간을 최소화하고 처리량을 극대화하는 고성능 딥 러닝 추론 SDK가 포함되어 있습니다. NVIDIA의 추론 SDK를 사용해 개발된 애플리케이션에서는 CPU 전용 플랫폼에 비해 GPU에서 추론 성능을 최대 40배까지 개선할 수 있습니다.

CUDA 통합 플랫폼을 기반으로 하는 NVIDIA의 CUDA-X 추론 솔루션은 어떤 프레임워크에서든 데스크톱에서 개발된 모델을 가져오고, 최적화 기능을 적용하며, 에지 환경과 데이터 센터에서 배포해 추론할 수 있는 손쉬운 방법을 제공합니다.

대화형 AI 및 추천 시스템 애플리케이션 파이프라인은 단일 고객 쿼리에 대해 20~30개의 모델을 실행하는데, 이때 각 모델에는 수백만 개의 매개변수가 할당됩니다. 애플리케이션이 응답하는 것처럼 보이려면 파이프라인이 300ms 이내에 완료되어야 하므로 각 모델에 매우 엄격한 지연 시간 요구 사항이 적용됩니다. 고성능 최적화 기능저정밀 추론(FP16 및 INT8)을 사용하면 GPU에서 대체 플랫폼에서보다 훨씬 높은 성능을 달성할 수 있습니다.

최신 GPU 성능은 딥 러닝 추론 성능 페이지페이지에서 상시 확인할 수 있습니다.

TensorRT를 통한 CNN에서의 추론 이미지 분류

ResNet-50 v1.5 처리량

DGX-1: 1x NVIDIA V100-SXM2-16GB, E5-2698 v4 2.2 GHz | TensorRT 6.0 | 배치 사이즈 = 128 | 19.12-py3 | 정밀도: 혼합 | 데이터세트: Synthetic
Supermicro SYS-4029GP-TRT T4: 1x NVIDIA T4, Gold 6240 2.6 GHz | TensorRT 6.0 | 배치 사이즈 = 128 | 19.12-py3 | 정밀도: INT8 | 데이터 세트: Synthetic

 
 

ResNet-50 v1.5 지연 시간

DGX-2: 1x NVIDIA V100-SXM3-32GB, Xeon Platinum 8168 2.7 GHz | TensorRT 6.0 | 배치 사이즈 = 1 | 19.12-py3 | 정밀도: INT8 | 데이터 세트: Synthetic Supermicro
SYS-4029GP-TRT T4: 1x NVIDIA T4, Gold 6240 2.6 GHz | TensorRT 6.0 | 배치 사이즈 = 1 | 19.12-py3 | 정밀도: INT8 | 데이터 세트: Synthetic




TensorRT
TensorRT

NVIDIA TensorRT는 고성능 딥 러닝 추론을 위한 SDK입니다. 여기에는 딥 러닝 추론 애플리케이션에 짧은 지연 시간과 높은 처리량을 제공하는 딥 러닝 추론 옵티마이저와 런타임이 포함되어 있습니다.

자세히 알아보기

DeepStream SDK
DeepStream SDK

DeepStream SDK는 다중 센서 처리, AI 기반 비디오 및 이미지 인식을 지원하는 완벽한 스트리밍 분석 툴킷입니다.



자세히 알아보기
NVIDIA Triton Inference Server
NVIDIA Triton Inference Server

NVIDIA Triton Inference Server는 GPU 활용도를 극대화하는 DL 모델을 지원하는 오픈 소스 추론 서비스 소프트웨어로, Kubernetes에 통합되어 오케스트레이션과 메트릭 및 오토 스케일링을 지원합니다.


자세히 알아보기


NVIDIA Riva
NVIDIA Riva

NVIDIA Riva는 비전, 음성 및 기타 센서를 융합한 AI 애플리케이션을 구축 및 배포하기 위한 SDK입니다. 컨텍스트의 음성과 더불어 제스처나 응시와 같은 시각적 신호를 사용할 수 있는 GPU 가속 AI 시스템을 구축, 훈련 및 배포할 수 있도록 완벽한 워크플로우를 제공합니다.

자세히 알아보기


NGC 카탈로그에서 사전 훈련된 모델 및 DL 소프트웨어



The NVIDIA® NGC™ catalog카탈로그는 딥 러닝 및 머신 러닝을 위한 GPU 최적화 소프트웨어 허브입니다. AI 소프트웨어는 매월 업데이트되며 컨테이너를 통해 사용이 가능하기 때문에 워크스테이션, 온프레미스 서버, 에지 및 클라우드의 GPU 기반 시스템에 손쉽게 배포할 수 있습니다. NGC™ 카탈로그는 사전 훈련된 모델과 모델 스크립트도 제공하는데, 개발자는 이를 활용해 자신의 데이터 세트로 자체 모델을 신속하게 구축할 수 있습니다. 또한 NGC™ 카탈로그는 산업별 AI 솔루션을 구축하는 데 필요한 SDK와 소프트웨어를 손쉽게 배포할 수 있는 Helm 레지스트리를 제공하므로 솔루션 제작 기간이 단축됩니다.

AI 소프트웨어에 손쉽게 액세스하는 방법을 제공하여 데이터 과학자와 개발자가 AI 솔루션 구축에 집중할 수 있게 돕는 것이 NGC™ 카탈로그의 목표입니다.




Deep Learning Software Containers
딥 러닝 소프트웨어 컨테이너

TensorFlow, PyTorch, TensorRT와 같은 딥 러닝 소프트웨어 컨테이너는 컨테이너는 효율적인 라이브러리로 계속 업데이트되어 더 나은 성능을 제공하며, 이러한 소프트웨어는 매월 릴리스됩니다. 따라서 사용자는 최신 버전의 컨테이너를 가져오기만 하면 동일한 하드웨어에서 보다 우수한 훈련 및 추론 성능을 실현할 수 있습니다. 이 소프트웨어는 단일 및 다중 GPU 시스템, 워크스테이션, 서버 및 클라우드 인스턴스에서 테스트를 완료했으므로 컴퓨팅 플랫폼 전반에 걸쳐 일관된 경험을 제공합니다.

자세히 알아보기

Pre-Trained Models
사전 훈련된 모델

NVIDIA® NGC™ 카탈로그는 텍스트-음성변환, 자동 음성 인식, 자연어처리 등 다양한 일반 AI 애플리케이션에 사전 훈련된 모델을 모델을 제공합니다. 사용자는 모델을 처음부터 새로 훈련시키는 대신, 자체 데이터 세트로 NVIDIA® NGC™ 카탈로그 모델을 훨씬 빠르게 재훈련함으로써 귀중한 시간을 절약할 수 있습니다. 게다가 이렇게 사전 훈련된 모델은 높은 정확도를 제공하고 MLPerf 벤치마크를 획득했기 때문에 맞춤형 데이터 세트를 토대로 미세 조정하여 탁월한 성능과 정확도를 달성할 수 있습니다.


자세히 알아보기

scripts for creating deep learning models
스크립트

NVIDIA® NGC™ 카탈로그는 결과를 비교하기 위한 샘플 성능 및 정확도 메트릭과 함께 딥 러닝 모델을 생성하기 위한 단계별 지침과 스크립트를 제공합니다. 이러한 스크립트는 모범 사례를 활용해 간결하면서도 매우 정확한 모델을 구축하는 동시에, 사용 사례에 맞게 모델을 맞춤화할 수 있는 유연성을 제공합니다.






Learn more...


개발자 및 DevOps 툴



데스크톱과 에지 환경에서 실행되는 NVIDIA 개발자 툴은 딥 러닝, 머신 러닝 및 HPC 애플리케이션을 위해 복잡한 CPU-GPU 애플리케이션에 대한 고유의 인사이트를 제공합니다. 따라서 개발자는 이러한 애플리케이션을 효과적으로 구축하여 디버그, 프로파일링하고 성능을 최적화할 수 있습니다. Kubernetes on NVIDIA GPUs를 사용하면 훈련 및 추론 배포를 다중 클라우드 GPU 클러스터로 원활하게 확장할 수 있습니다.



NSIGHT Systems

Nsight Systems는 시스템 전반의 성능을 분석하는 툴로, 애플리케이션의 알고리즘을 시각화하고, 절호의 최적화 기회를 식별하며, 튜닝을 통해 CPU와 GPU의 수량과 크기를 효율적으로 확장하도록 설계되었습니다.


DLProf

Deep Learning Profiler (DLProf)는 GPU 활용도, Tensor Core에서 지원되는 연산 및 실행 시 사용량을 시각화하는 프로파일링 툴입니다.





Kubernetes on NVIDIA GPUs

Kubernetes on NVIDIA GPUs를 사용하면 훈련 및 추론 배포를 다중 클라우드 GPU 클러스터로 원활하게 확장할 수 있습니다. 개발자는 종속성과 함께 GPU 가속 애플리케이션을 단일 패키지에 포함시켜 Kubernetes와 함께 배포하고, 배포 환경에 관계없이 NVIDIA GPU에서 최상의 성능을 구현할 수 있습니다.


NSIGHT Compute

Nsight Compute는 CUDA를 사용해 직접 구축한 딥 러닝 애플리케이션을 위한 대화형 커널 프로파일러로, GUI 또는 명령줄 인터페이스를 통해 상세한 성능 메트릭과 API 디버깅을 제공합니다. 또한 맞춤화가 가능한 데이터 기반의 사용자 인터페이스 및 메트릭 컬렉션을 제공하는데, 이를 분석 스크립트로 확장하여 후처리 결과를 얻을 수 있습니다.

Feature Map Explorer

Feature Map Explorer (FME)는 개략적인 채널 시각화에서부터 전체 특성 맵 텐서와 각 채널 슬라이스에 대한 상세 수치 정보에 이르기까지 다양한 뷰를 사용해 4차원의 이미지 기반 특성 맵 데이터를 시각화할 수 있게 해줍니다.





Back to Top