Data Center / Cloud

2025년 9월 25일
NVIDIA Rubin CPX, 100만 토큰 이상 컨텍스트 워크로드의 추론 성능과 효율을 가속하다
AI에서 추론은 이제 가장 복잡한 과제에 당면한 영역이 되었습니다. 최신 모델은 에이전틱 AI로 진화하며, 다단계 추론과 지속적인 메모리…
3 MIN READ

2025년 9월 25일
NVFP4, 16비트 정밀도와 4비트 성능으로 학습 가속
최근 몇 년간 AI 워크로드는 폭발적으로 증가했습니다. 이는 거대 언어 모델(LLM)의 배포는 물론, 사전 학습과 후속 학습 과정에서 점점 더 많은…
6 MIN READ

2025년 9월 24일
Dynamo 0.4, 4배 더 빠른 성능과 SLO 기반 오토스케일링, 실시간 가시성 제공
최근 몇 주간 OpenAI의 gpt-oss와 Moonshot AI의 Kimi K2를 비롯한 새로운 오픈소스 모델들이 등장하면서 거대 언어…
6 MIN READ

2025년 9월 19일
AI 추론 지연 시간을 줄이기 위한 Speculative Decoding 소개
거대 언어 모델(LLM)로 텍스트를 생성할 때는 구조적인 한계로 인해 성능을 제대로 끌어내기 어려운 경우가 많습니다. GPU는 뛰어난 연산 성능을…
7 MIN READ

2025년 9월 10일
NVIDIA RTX PRO 6000 Blackwell Server Edition으로 단백질 구조 추론 100배 이상 가속
단백질 구조를 이해하기 위한 경쟁은 그 어느 때보다 중요해졌습니다. 신약 개발을 앞당기고 미래 팬데믹에 대비하기 위해서는…
4 MIN READ

2025년 9월 5일
GPU 메모리 스왑으로 성능은 유지하면서 모델 배포 비용 절감하기
거대 언어 모델(LLM)을 배포할 때는 두 가지 과제가 동시에 발생합니다. 높은 수요 속에서도 빠른 응답성을 보장해야 하고…
4 MIN READ

2025년 8월 22일
AI 팩토리의 확장성을 높이는 공동 패키징 광학 기술로 전력 효율성 향상
인공지능이 컴퓨팅 환경을 재편하면서 네트워크는 이제 미래 데이터센터를 형성하는 핵심적 기반으로 자리 잡았습니다. 거대 언어 모델(LLM)의 학습…
5 MIN READ

2025년 8월 13일
LLM 추론, AI 에이전트, 및 테스트 시간 스케일링 알아보기
고도화된 AI 모델을 개발하고 배포하려면, 확장 가능하고 효율적인 GPU 인프라가 꼭 필요합니다. 하지만 클라우드 네이티브 환경에서 컨테이너…
4 MIN READ

2025년 8월 8일
Ditto in Action: Torch-TensorRT로 손쉽게 LLM 추론 가속하기
Direct Torch to TensorRT-LLM Optimizer, 줄여서 Ditto는 Transformer 모델을 TensorRT 엔진으로…
5 MIN READ

2025년 8월 8일
LLM 추론 벤치마크: TensorRT-LLM을 활용한 성능 튜닝
이 글은 TensorRT-LLM으로 LLM 추론 성능을 벤치마킹하고 최적화하는 방법을 소개하는 시리즈의 세 번째 편입니다.
6 MIN READ

2025년 7월 30일
AI에 안정적인 전력을 제공하는 GB300 NVL72의 새로운 기능
전기 그리드는 조명, 가전제품, 일정한 출력을 유지하는 산업용 기계처럼 비교적 일정한 부하를 처리하도록 설계되어 있습니다.
6 MIN READ

2025년 7월 18일
NVIDIA Dynamo, 비용 효율적인 대규모 추론을 위한 AWS 서비스 지원 추가
이제 AWS의 개발자와 솔루션 아키텍트는 NVIDIA Blackwell 기반 Amazon EC2 P6를 포함한 NVIDIA GPU 기반 Amazon…
3 MIN READ

2025년 7월 16일
NCCL 2.27을 활용한 빠른 추론과 안정적인 학습 구현
AI 워크로드가 확장되면서 GPU 간 빠르고 안정적인 통신은 학습뿐 아니라 대규모 추론 환경에서도 필수 요소로 자리잡고 있습니다.
6 MIN READ

2025년 7월 11일
InfiniBand 다층 보안으로 데이터 센터와 AI 워크로드를 보호
오늘날의 데이터 중심 환경에서 보안은 단순한 기능을 넘어 전체 시스템을 지탱하는 근간입니다. AI, HPC…
4 MIN READ

2025년 5월 28일
NVIDIA Blackwell 플랫폼 DeepSeek-R1 추론 성능에서 세계 기록 달성
NVIDIA는 NVIDIA GTC 2025에서 DeepSeek-R1 추론 성능 세계 기록을 발표했습니다.
9 MIN READ

2025년 5월 28일
Blackwell, Meta의 Llama 4 Maverick을 활용해 사용자당 1,000 TPS 장벽 돌파
NVIDIA가 세계 최고 속도의 거대 언어 모델(LLM) 추론 성능을 달성했습니다. NVIDIA Blackwell GPU 8개를 탑재한 단일…
6 MIN READ