AI Platforms / Deployment

2025년 10월 17일

NVIDIA 양자화 기술과 TensorRT-LLM을 이용한 서비스 최적화

이 글은 최신 LLM 서빙 환경에서 직면한 효율성과 ROI 문제를 해결하기 위해 NVIDIA TensorRT-LLM을 도입한 연구 사례를 다룹니다.

6 MIN READ

2025년 9월 25일

NVIDIA Rubin CPX, 100만 토큰 이상 컨텍스트 워크로드의 추론 성능과 효율을 가속하다

AI에서 추론은 이제 가장 복잡한 과제에 당면한 영역이 되었습니다. 최신 모델은 에이전틱 AI로 진화하며, 다단계 추론과 지속적인 메모리…

3 MIN READ

2025년 9월 24일

Dynamo 0.4, 4배 더 빠른 성능과 SLO 기반 오토스케일링, 실시간 가시성 제공

최근 몇 주간 OpenAI의 gpt-oss와 Moonshot AI의 Kimi K2를 비롯한 새로운 오픈소스 모델들이 등장하면서 거대 언어…

6 MIN READ

2025년 9월 5일

NVIDIA DRIVE AGX Thor 개발자 키트로 자율주행차 개발 가속화

자율주행차(AV) 기술은 점점 더 크고 복잡한 AI 모델이 엣지에서 활용되면서 빠르게 발전하고 있습니다. 최신 차량은 고도화된 인지와 센서 융합뿐…

5 MIN READ

2025년 9월 5일

GPU 메모리 스왑으로 성능은 유지하면서 모델 배포 비용 절감하기

거대 언어 모델(LLM)을 배포할 때는 두 가지 과제가 동시에 발생합니다. 높은 수요 속에서도 빠른 응답성을 보장해야 하고…

4 MIN READ

2025년 9월 3일

CPU-GPU 메모리 공유를 통한 대규모 LLM 추론 및 KV 캐시 오프로드 가속화

거대 언어 모델(LLM)은 AI 혁신의 최전선에 있지만, 그 방대한 크기 때문에 추론 효율성에 어려움을 주기도 합니다.

4 MIN READ

2025년 8월 22일

AI 팩토리의 확장성을 높이는 공동 패키징 광학 기술로 전력 효율성 향상

인공지능이 컴퓨팅 환경을 재편하면서 네트워크는 이제 미래 데이터센터를 형성하는 핵심적 기반으로 자리 잡았습니다. 거대 언어 모델(LLM)의 학습…

5 MIN READ

2025년 8월 22일

NVIDIA Streaming Sortformer를 사용하여 회의, 통화 및 음성 앱에서 실시간으로 발언자 식별하기

회의, 통화, 복잡한 공간, 음성 지원 앱 등 어디에서나 기술이 직면하는 핵심 질문은 “누가 언제 말했는가?”라고 할 수 있는데요. 수십 년 동안…

4 MIN READ

2025년 8월 13일

LLM 추론, AI 에이전트, 및 테스트 시간 스케일링 알아보기

고도화된 AI 모델을 개발하고 배포하려면, 확장 가능하고 효율적인 GPU 인프라가 꼭 필요합니다. 하지만 클라우드 네이티브 환경에서 컨테이너…

4 MIN READ

2025년 8월 6일

NVIDIA, GB200 NVL72로 OpenAI gpt-oss 모델을 클라우드부터 엣지까지 초당 150만 토큰 속도로 가속

NVIDIA와 OpenAI는 2016년 NVIDIA DGX 출시를 시작으로 AI의 한계를 넓혀왔습니다. 이번에는 OpenAI의 gpt-oss…

4 MIN READ

2025년 7월 30일

AI에 안정적인 전력을 제공하는 GB300 NVL72의 새로운 기능

전기 그리드는 조명, 가전제품, 일정한 출력을 유지하는 산업용 기계처럼 비교적 일정한 부하를 처리하도록 설계되어 있습니다.

6 MIN READ

2025년 7월 18일

NVIDIA Dynamo, 비용 효율적인 대규모 추론을 위한 AWS 서비스 지원 추가

이제 AWS의 개발자와 솔루션 아키텍트는 NVIDIA Blackwell 기반 Amazon EC2 P6를 포함한 NVIDIA GPU 기반 Amazon…

3 MIN READ

2025년 7월 4일

NVIDIA Jetson와 RTX에서 Google DeepMind의 Gemma 3n 실행하기

이제 NVIDIA는 RTX 및 Jetson 플랫폼에서 Gemma 3n을 공식 지원합니다. 지난달 Google I/

3 MIN READ

2025년 6월 13일

Alibaba Cloud PAI, 이제 NVIDIA Cosmos Reason-1 원클릭 배포 및 사용 지원

NVIDIA는 최근 멀티모달 거대 언어 모델(MLLM) Cosmos Reason-1을 공개했습니다. 이번에 발표된 모델은 7B와 56B 두 가지…

5 MIN READ

2025년 5월 23일

PCIe Gen6 연결성을 갖춘 NVIDIA ConnectX-8 SuperNIC, AI 플랫폼 아키텍처를 발전시킵니다.

AI 작업이 점점 더 복잡해지고 규모도 커지면서, 거대 언어 모델(LLM)부터 에이전틱 AI, 피지컬 AI에 이르기까지 더 빠르고 확장 가능한…

4 MIN READ

2025년 5월 21일

NVIDIA Dynamo, 대규모 분산 추론 발전을 위한 llm-d 커뮤니티 이니셔티브 가속화

2025년 Red Hat Summit에서 공개된 llm-d 커뮤니티는 오픈소스 생태계에서 생성형 AI 추론 혁신을 가속하는 중요한 진전입니다.

3 MIN READ