AI Inference

2026년 5월 22일

AI 모델 서빙 파이프라인의 마찰을 제거하는 방법

학습된 AI 모델을 프로덕션 환경으로 배포하는 과정은 매끄러워야 하지만, 실제로 그렇게 되는 경우는 드뭅니다. 많은 팀이 몇 주 동안 모델을…

6 MIN READ

2026년 5월 20일

모델 양자화: NVIDIA Model Optimizer로 구현하는 학습 후 양자화(PTQ)

모델 양자화는 NVIDIA GeForce RTX GPU와 같은 컨슈머 디바이스에서 VRAM 사용량을 줄이고 추론 성능을 끌어올리는 효과적인…

5 MIN READ

2026년 5월 14일

NVIDIA NemoClaw·OpenClaw로 DGX Spark에 더 안전한 상시 로컬 AI 에이전트 구축하기

NVIDIA NemoClaw가 OpenShell·OpenClaw를 오케스트레이션해 Nemotron 3 Super 120B 모델을 DGX Spark에서 로컬 추론하고 Telegram으로 원격 접속하는 상시 가동 AI 에이전트를 약 20~30분에 구축하는 단계별 가이드입니다.

6 MIN READ

2026년 5월 14일

NVIDIA Nemotron 3 Super 공개 — 에이전틱 추론을 위한 오픈 하이브리드 Mamba-Transformer MoE

NVIDIA Nemotron 3 Super가 120B 총 파라미터·12B 활성 파라미터의 하이브리드 Mamba-Transformer MoE 아키텍처와 1M 토큰 컨텍스트, 네이티브 NVFP4 사전 학습으로 에이전틱 추론 성능과 효율을 동시에 끌어올리며 정식 공개됐습니다.

8 MIN READ

2026년 5월 13일

NVIDIA로 차량 내 AI 에이전트 구축하기 — 클라우드부터 자동차까지 풀 스택 가이드

NVIDIA DRIVE AGX, MediaTek Dimensity AX C-X1, NeMo, TensorRT Edge-LLM을 활용해 룰 기반 명령에서 에이전틱 멀티모달 캐빈 어시스턴트로 진화하는 차량 내 AI 아키텍처와 클라우드-에지 하이브리드 파이프라인 구축 방법을 다룹니다.

9 MIN READ

2026년 2월 20일

NVIDIA TensorRT-LLM AutoDeploy를 통한 추론 최적화 자동화

NVIDIA TensorRT-LLM은 개발자가 거대 언어 모델(LLM)을 위한 고성능 추론 엔진을 구축하도록 지원합니다.

6 MIN READ

2026년 2월 3일

NVIDIA TensorRT Edge-LLM을 활용한 오토모티브 및 로보틱스용 LLM/VLM 추론 가속화

거대 언어 모델(LLM)과 멀티모달 추론 시스템이 데이터 센터의 경계를 넘어 빠르게 확장되고 있습니다. 오토모티브 및 로보틱스 개발자들 사이에서는…

4 MIN READ

2026년 1월 23일

NVIDIA Blackwell 데이터 센터 GPU 기반 FLUX.2를 위한 NVFP4 추론 스케일링

2025년, NVIDIA는 Black Forest Labs(BFL)와 협력하여 FLUX.1 텍스트-이미지 모델 시리즈를 최적화했으며…

5 MIN READ

2025년 12월 12일

AI 모델 추론을 가속화하는 핵심 최적화 기법 5가지

AI 모델이 점점 더 대형화되고 아키텍처가 복잡해지면서, 연구자들과 엔지니어들은 AI 시스템을 실제 환경에 적용하기 위한 성능 최적화 및 비용 절감…

5 MIN READ

2025년 11월 14일

수학 문제 해결 속도를 4배 높이는 추론 가속 전략

거대 언어 모델은 뛰어난 문제 해결 능력을 갖추고 있지만, 실제 서비스 환경에서 빠르고 안정적으로 활용하려면 성능만으로는 부족합니다.

5 MIN READ

2025년 11월 5일

쿠버네티스에서 복잡한 AI 추론을 NVIDIA Grove로 간소화하기

최근 몇 년간 AI 추론은 단일 모델, 단일 파드 형태의 단순한 배포 방식에서 벗어나, 여러 구성 요소로 이뤄진 복잡한 시스템으로 진화하고 있습니다.

6 MIN READ

2025년 10월 10일

NVIDIA Blackwell, SemiAnalysis InferenceMAX™ v1 벤치마크에서 놀라운 기록을 세우다

SemiAnalysis가 최근 발표한 InferenceMAX™ v1은 추론 하드웨어 성능을 평가하기 위한 포괄적인 방법론을 제공하는 새로운 오픈…

7 MIN READ

2025년 7월 23일

Google Cloud & NVIDIA 개발자 커뮤니티에 지금 함께하세요.

구글 클라우드와 NVIDIA는 개발자를 위한 새로운 커뮤니티를 함께 만들고 있습니다. 이곳에서는 두 회사의 핵심 기술을 바탕으로 혁신적인 솔루션을…

1 MIN READ

2024년 10월 18일

DataStax, NVIDIA AI로 구축된 새로운 AI 개발 플랫폼 발표

AI 기술을 점점 더 많이 채택하는 기업들은 데이터 자산을 활용하기 위해 AI 애플리케이션을 효율적으로 개발, 보호하고 지속적으로 개선해야 하는…

4 MIN READ

2024년 8월 30일

NVLink Switch가 탑재된 NVIDIA HGX H200의 Medusa로 최대 1.9배 향상된 Llama 3.1 성능

거대 언어 모델(LLM)의 크기와 복잡성이 계속 증가함에 따라, 실시간 생성형 AI 애플리케이션이 요구하는 짧은 지연 시간과 높은 처리량을 제공하기…

3 MIN READ

2024년 8월 23일

LLM 추론 크기 조정 및 성능 최적화를 위한 실용적인 전략

챗봇, 콘텐츠 제작 등 다양한 애플리케이션에서 거대 언어 모델(LLM)의 사용이 증가함에 따라 추론 시스템을 확장하고 최적화하는 과정을 이해하여…

1 MIN READ