Cloud Services

2026년 5월 22일

AI 모델 서빙 파이프라인의 마찰을 제거하는 방법

학습된 AI 모델을 프로덕션 환경으로 배포하는 과정은 매끄러워야 하지만, 실제로 그렇게 되는 경우는 드뭅니다. 많은 팀이 몇 주 동안 모델을…

6 MIN READ

2025년 7월 16일

NCCL 2.27을 활용한 빠른 추론과 안정적인 학습 구현

AI 워크로드가 확장되면서 GPU 간 빠르고 안정적인 통신은 학습뿐 아니라 대규모 추론 환경에서도 필수 요소로 자리잡고 있습니다.

6 MIN READ

2025년 7월 9일

스마트하게 사고하고, 백과사전급 질문을 던지세요: 수백만 토큰 실시간 추론으로 32배 더 많은 사용자 지원

최신 AI 애플리케이션은 수억 개의 토큰을 처리하는 컨텍스트 윈도우와 수십억 개의 파라미터를 결합한 모델에 점점 더 의존하고 있습니다.

6 MIN READ

2025년 5월 28일

NVIDIA Blackwell 플랫폼 DeepSeek-R1 추론 성능에서 세계 기록 달성

NVIDIA는 NVIDIA GTC 2025에서 DeepSeek-R1 추론 성능 세계 기록을 발표했습니다.

9 MIN READ

2025년 2월 7일

OpenAI Triton, NVIDIA Blackwell에서 AI 성능 및 프로그래머블성 향상

행렬 곱셈과 어텐션 메커니즘은 현대 AI 워크로드의 연산적 기반입니다. NVIDIA cuDNN과 같은 라이브러리는 고도로 최적화된 구현을 제공하며…

3 MIN READ

2025년 1월 24일

차세대 DPU 가속 클라우드 인프라의 물결에 동력을 공급하는 NVIDIA DOCA 플랫폼 프레임워크

생성형 AI, 5G 통신, 소버린 클라우드에 대한 수요가 증가하면서 가속 컴퓨팅으로 전환하는 조직이 늘어나고 있습니다.

5 MIN READ

2024년 11월 15일

NVSwitch와 TensorRT-LLM 멀티샷으로 3배 빠른 AllReduce 구현

사용자 수가 수백 명에서 수십만 명까지 변동하고 각 요청의 입력 시퀀스 길이가 다른 프로덕션 환경에서 생성형 AI 워크로드를 배포하는 데는 여러…

3 MIN READ

2024년 10월 30일

추론 속도를 2배 높인 NVIDIA GH200 슈퍼칩, Llama 모델과의 멀티턴 상호작용에서 추론 가속화

프로덕션 환경에 거대 언어 모델(LLM)을 배포하려면 사용자 상호 작용을 향상시키는 것과 시스템 처리량을 늘리는 것 사이에서 어려운 절충점을 찾아야…

4 MIN READ

2024년 8월 7일

리랭킹을 통한 RAG 파이프라인 강화

빠르게 진화하는 AI 기반 애플리케이션 환경에서 리랭크는 기업 검색 결과의 정확도와 관련성을 향상시키는 핵심 기술로 부상했습니다.

5 MIN READ

2024년 7월 26일

Mistral 및 Mixtral 모델을 위한 새로운 NVIDIA NIM으로 AI 프로젝트 지원

거대 언어 모델(LLM)은 엔터프라이즈 조직 전반에서 점점 더 많이 채택되고 있으며, 많은 기업이 이를 AI 애플리케이션에 구축하고 있습니다.

4 MIN READ

2024년 7월 3일

NVIDIA NIM을 통해 원활하게 여러 LoRA 어댑터 배포

최신 최첨단 파운데이션 거대 언어 모델(LLM)에는 수십억 개의 매개 변수가 있으며 수조 개의 입력 텍스트 토큰에 대해 사전 트레이닝됩니다.

7 MIN READ

2024년 6월 5일

NVIDIA NIM으로 생성형 AI를 배포하기 위한 빠른 가이드

온프레미스에서 작업하든 클라우드에서 작업하든 NVIDIA NIM 추론 마이크로서비스는 엔터프라이즈 개발자에게 커뮤니티…

2 MIN READ

2024년 5월 29일

업그레이드된 NVIDIA TensorRT 10.0의 사용성, 성능, AI 모델 지원

NVIDIA는 오늘 고성능 딥 러닝 추론을 위한 API 에코시스템인 NVIDIA TensorRT의 최신 릴리스를 발표했습니다.

4 MIN READ

2024년 5월 17일

NVIDIA TensorRT Model Optimizer로 생성형 AI 추론 성능 가속화

빠르게 진화하는 생성형 AI 환경에서 가속화된 추론 속도에 대한 요구는 여전히 시급한 문제입니다. 모델 크기와 복잡성이 기하급수적으로 증가함에 따라…

6 MIN READ

2024년 5월 11일

NVIDIA H100 Tensor 코어 GPU에서의 컨피덴셜 컴퓨팅 일반 액세스 발표

NVIDIA는 2023년 7월 NVIDIA LaunchPad를 통해 컨피덴셜 컴퓨팅(CC) 초기 버전 솔루션을 비공개 프리뷰 형태의 얼리 액세스…

2 MIN READ

2024년 4월 5일

RAG 애플리케이션을 파일럿 단계에서 프로덕션 단계로 전환하는 4가지 방법

생성형 AI는 모든 산업을 혁신할 수 있는 잠재력을 가지고 있습니다. 인간 작업자들은 이미 거대 언어 모델 (LLM)을 사용하여 어려운 인지 작업을…

5 MIN READ