NVIDIA Technical Blog
-
AI Platforms / DeploymentLLM 추론, AI 에이전트, 및 테스트 시간 스케일링 알아보기
-
Generative AI / LLMsDitto in Action: Torch-TensorRT로 손쉽게 LLM 추론 가속하기
-
Data Center / CloudLLM 추론 벤치마크: TensorRT-LLM을 활용한 성능 튜닝
-
AI Platforms / DeploymentNVIDIA, GB200 NVL72로 OpenAI gpt-oss 모델을 클라우드부터 엣지까지 초당 150만 토큰 속도로 가속
-
Generative AI에이전틱 AI 보안: 시맨틱 프롬프트 인젝션이 AI 안전장치를 우회하는 방법
최신

2025년 8월 13일
LLM 추론, AI 에이전트, 및 테스트 시간 스케일링 알아보기
고도화된 AI 모델을 개발하고 배포하려면, 확장 가능하고 효율적인 GPU 인프라가 꼭 필요합니다. 하지만 클라우드 네이티브 환경에서 컨테이너…
4 MIN READ

2025년 8월 8일
Ditto in Action: Torch-TensorRT로 손쉽게 LLM 추론 가속하기
Direct Torch to TensorRT-LLM Optimizer, 줄여서 Ditto는 Transformer 모델을 TensorRT 엔진으로…
5 MIN READ

2025년 8월 8일
LLM 추론 벤치마크: TensorRT-LLM을 활용한 성능 튜닝
이 글은 TensorRT-LLM으로 LLM 추론 성능을 벤치마킹하고 최적화하는 방법을 소개하는 시리즈의 세 번째 편입니다.
6 MIN READ

2025년 8월 6일
NVIDIA, GB200 NVL72로 OpenAI gpt-oss 모델을 클라우드부터 엣지까지 초당 150만 토큰 속도로 가속
NVIDIA와 OpenAI는 2016년 NVIDIA DGX 출시를 시작으로 AI의 한계를 넓혀왔습니다. 이번에는 OpenAI의 gpt-oss…
4 MIN READ

2025년 8월 1일
에이전틱 AI 보안: 시맨틱 프롬프트 인젝션이 AI 안전장치를 우회하는 방법
Prompt injection은 공격자가 입력값을 조작하여 거대 언어 모델이 의도하지 않은 방식으로 작동하게 만드는 기법으로…
5 MIN READ

2025년 8월 1일
CUDA 활용 팁: 벡터화된 메모리 접근으로 성능 향상하기
CUDA 커널의 성능은 종종 메모리 대역폭에 의해 제한되며, 최신 하드웨어일수록 연산 성능 대비 대역폭이 상대적으로 부족합니다.
4 MIN READ

2025년 7월 30일
AI에 안정적인 전력을 제공하는 GB300 NVL72의 새로운 기능
전기 그리드는 조명, 가전제품, 일정한 출력을 유지하는 산업용 기계처럼 비교적 일정한 부하를 처리하도록 설계되어 있습니다.
6 MIN READ

2025년 7월 25일
NVIDIA Warp와 Gaussian Splatting을 활용한 로봇의 인지 모델 구축하기
디지털 트윈 기술은 이제 정적인 복제를 넘어, 물리 세계의 동적인 변화를 실시간으로 포착하는 단계에 이르고 있습니다. 특히 로보틱스와 관련한 최신…
3 MIN READ