LLMs

2025년 9월 25일
NVIDIA Rubin CPX, 100만 토큰 이상 컨텍스트 워크로드의 추론 성능과 효율을 가속하다
AI에서 추론은 이제 가장 복잡한 과제에 당면한 영역이 되었습니다. 최신 모델은 에이전틱 AI로 진화하며, 다단계 추론과 지속적인 메모리…
3 MIN READ

2025년 9월 25일
NVFP4, 16비트 정밀도와 4비트 성능으로 학습 가속
최근 몇 년간 AI 워크로드는 폭발적으로 증가했습니다. 이는 거대 언어 모델(LLM)의 배포는 물론, 사전 학습과 후속 학습 과정에서 점점 더 많은…
6 MIN READ

2025년 9월 24일
Dynamo 0.4, 4배 더 빠른 성능과 SLO 기반 오토스케일링, 실시간 가시성 제공
최근 몇 주간 OpenAI의 gpt-oss와 Moonshot AI의 Kimi K2를 비롯한 새로운 오픈소스 모델들이 등장하면서 거대 언어…
6 MIN READ

2025년 9월 5일
NVIDIA DRIVE AGX Thor 개발자 키트로 자율주행차 개발 가속화
자율주행차(AV) 기술은 점점 더 크고 복잡한 AI 모델이 엣지에서 활용되면서 빠르게 발전하고 있습니다. 최신 차량은 고도화된 인지와 센서 융합뿐…
5 MIN READ

2025년 9월 3일
CPU-GPU 메모리 공유를 통한 대규모 LLM 추론 및 KV 캐시 오프로드 가속화
거대 언어 모델(LLM)은 AI 혁신의 최전선에 있지만, 그 방대한 크기 때문에 추론 효율성에 어려움을 주기도 합니다.
4 MIN READ

2025년 8월 27일
피지컬 AI를 위한 궁극의 플랫폼 NVIDIA Jetson Thor을 소개합니다.
로보틱스는 이제 전문 기계를 넘어, 다양한 작업에 유연하게 대응할 수 있는 범용 로봇의 시대로 접어들고 있습니다. 과거처럼 단일 목적의 고정된…
9 MIN READ

2025년 8월 22일
AI 팩토리의 확장성을 높이는 공동 패키징 광학 기술로 전력 효율성 향상
인공지능이 컴퓨팅 환경을 재편하면서 네트워크는 이제 미래 데이터센터를 형성하는 핵심적 기반으로 자리 잡았습니다. 거대 언어 모델(LLM)의 학습…
5 MIN READ

2025년 8월 8일
LLM 추론 벤치마크: TensorRT-LLM을 활용한 성능 튜닝
이 글은 TensorRT-LLM으로 LLM 추론 성능을 벤치마킹하고 최적화하는 방법을 소개하는 시리즈의 세 번째 편입니다.
6 MIN READ

2025년 7월 23일
Google Cloud & NVIDIA 개발자 커뮤니티에 지금 함께하세요.
구글 클라우드와 NVIDIA는 개발자를 위한 새로운 커뮤니티를 함께 만들고 있습니다. 이곳에서는 두 회사의 핵심 기술을 바탕으로 혁신적인 솔루션을…
1 MIN READ

2025년 7월 18일
NVIDIA Dynamo, 비용 효율적인 대규모 추론을 위한 AWS 서비스 지원 추가
이제 AWS의 개발자와 솔루션 아키텍트는 NVIDIA Blackwell 기반 Amazon EC2 P6를 포함한 NVIDIA GPU 기반 Amazon…
3 MIN READ

2025년 7월 9일
스마트하게 사고하고, 백과사전급 질문을 던지세요: 수백만 토큰 실시간 추론으로 32배 더 많은 사용자 지원
최신 AI 애플리케이션은 수억 개의 토큰을 처리하는 컨텍스트 윈도우와 수십억 개의 파라미터를 결합한 모델에 점점 더 의존하고 있습니다.
6 MIN READ

2025년 7월 4일
업계 최고 수준의 멀티모달 RAG: Llama 3.2 NeMo Retriever 임베딩 모델이 파이프라인 정확도를 높이는 방법
데이터는 단순한 텍스트를 넘어서 이미지, 동영상, 오디오 등 다양한 형태를 포함하는 멀티모달 특성을 지니고 있습니다.
5 MIN READ

2025년 7월 4일
NVIDIA Jetson와 RTX에서 Google DeepMind의 Gemma 3n 실행하기
이제 NVIDIA는 RTX 및 Jetson 플랫폼에서 Gemma 3n을 공식 지원합니다. 지난달 Google I/
3 MIN READ

2025년 5월 30일
LLM 추론, AI 에이전트, 및 테스트 시간 스케일링에 대한 간단한 소개
거대 언어 모델(LLM)을 복잡한 문제 해결에 적용하는 데 있어 에이전트는 핵심적인 역할을 해왔습니다. 2023년 AutoGPT를 시작으로…
6 MIN READ

2025년 5월 28일
NVIDIA Blackwell 플랫폼 DeepSeek-R1 추론 성능에서 세계 기록 달성
NVIDIA는 NVIDIA GTC 2025에서 DeepSeek-R1 추론 성능 세계 기록을 발표했습니다.
9 MIN READ

2025년 5월 28일
Blackwell, Meta의 Llama 4 Maverick을 활용해 사용자당 1,000 TPS 장벽 돌파
NVIDIA가 세계 최고 속도의 거대 언어 모델(LLM) 추론 성능을 달성했습니다. NVIDIA Blackwell GPU 8개를 탑재한 단일…
6 MIN READ