Dynamo

2026년 5월 27일

DynoSim: 파레토 프런티어를 시뮬레이션하다

오늘날의 LLM 서빙은 튜닝하기가 까다롭습니다. 배포마다 모델 백엔드, 텐서 병렬(TP) 형태, 프리필/디코드 분할, 워커 수, 스케줄러 설정…

8 MIN READ

2026년 5월 21일

NVIDIA Vera Rubin 플랫폼이 에이전틱 AI의 스케일업 과제를 해결하는 방식

에이전틱 추론은 비결정적 궤적—AI 에이전트가 과제를 수행하며 생성하는 행동, 관찰, 의사 결정—을 추론 워크로드에 도입하여 런타임 동작 방식을…

5 MIN READ

2026년 4월 3일

NVIDIA Groq 3 LPX 심층 분석: Vera Rubin 플랫폼을 위한 저지연 추론 가속기

NVIDIA Groq 3 LPX, Vera Rubin 플랫폼 전용 랙 규모 저지연 추론 가속기. 315 PFLOPS·128 GB SRAM과 AFD 아키텍처로 GB200 NVL72 대비 35배 높은 TPS/MW와 10배 수익 기회를 실현합니다. LPU 아키텍처와 NVIDIA Dynamo 오케스트레이션을 살펴보세요.

12 MIN READ

2026년 4월 1일

NVIDIA 플랫폼, 극한의 공동 설계로 최저 토큰 비용 구현

NVIDIA Blackwell Ultra GPU가 MLPerf Inference v6.0에서 291회 누적 우승. DeepSeek-R1 Interactive 등 신규 벤치마크 전항목 1위, 소프트웨어 최적화로 6개월 만에 2.7배 성능 향상.

6 MIN READ

2025년 11월 5일

쿠버네티스에서 복잡한 AI 추론을 NVIDIA Grove로 간소화하기

최근 몇 년간 AI 추론은 단일 모델, 단일 파드 형태의 단순한 배포 방식에서 벗어나, 여러 구성 요소로 이뤄진 복잡한 시스템으로 진화하고 있습니다.

6 MIN READ

2025년 10월 10일

NVIDIA Blackwell, SemiAnalysis InferenceMAX™ v1 벤치마크에서 놀라운 기록을 세우다

SemiAnalysis가 최근 발표한 InferenceMAX™ v1은 추론 하드웨어 성능을 평가하기 위한 포괄적인 방법론을 제공하는 새로운 오픈…

7 MIN READ

2025년 8월 6일

NVIDIA, GB200 NVL72로 OpenAI gpt-oss 모델을 클라우드부터 엣지까지 초당 150만 토큰 속도로 가속

NVIDIA와 OpenAI는 2016년 NVIDIA DGX 출시를 시작으로 AI의 한계를 넓혀왔습니다. 이번에는 OpenAI의 gpt-oss…

4 MIN READ

2025년 5월 21일

NVIDIA Dynamo, 대규모 분산 추론 발전을 위한 llm-d 커뮤니티 이니셔티브 가속화

2025년 Red Hat Summit에서 공개된 llm-d 커뮤니티는 오픈소스 생태계에서 생성형 AI 추론 혁신을 가속하는 중요한 진전입니다.

3 MIN READ

NVIDIA 풀스택 솔루션을 통한 AI 추론 성능 최적화

2025년 5월 15일

NVIDIA 풀스택 솔루션을 통한 AI 추론 성능 최적화

2025년 3월 18일부로 NVIDIA Triton Inference Server는 이제 NVIDIA Dynamo로 명칭이 변경되었습니다.

5 MIN READ

2025년 5월 14일

추론형 AI 모델을 위한 저지연 분산 추론 프레임워크, NVIDIA Dynamo 출시

NVIDIA는 GTC 2025에서 고처리량, 저지연 오픈소스 추론 프레임워크인 NVIDIA Dynamo의 출시를 발표했습니다.

9 MIN READ