Inference

2026년 4월 3일

NVIDIA Groq 3 LPX 심층 분석: Vera Rubin 플랫폼을 위한 저지연 추론 가속기

NVIDIA Groq 3 LPX, Vera Rubin 플랫폼 전용 랙 규모 저지연 추론 가속기. 315 PFLOPS·128 GB SRAM과 AFD 아키텍처로 GB200 NVL72 대비 35배 높은 TPS/MW와 10배 수익 기회를 실현합니다. LPU 아키텍처와 NVIDIA Dynamo 오케스트레이션을 살펴보세요.

12 MIN READ

2023년 9월 12일

추론 성능 가속화하는 새로운 소프트웨어 TensorRT-LLM 출시

대규모 언어 모델(LLM)의 획기적인 새로운 기능은 AI의 영역을 넓히고 있습니다. 그러나 큰 크기와 특수한 실행 특성으로 비용 효율적인 방식으로…

5 MIN READ

2023년 5월 17일

CV-CUDA로 AI 기반 컴퓨터 비전을 위한 처리량 증가 및 비용 절감

AI 기반 컴퓨터 비전과 관련된 실시간 클라우드 규모 애플리케이션이 빠르게 성장하고 있습니다. 이러한 사용 사례에는 이미지 이해, 콘텐츠 제작…

7 MIN READ

2023년 4월 28일

NVIDIA Faster Transformer를 통한 KoGPT의 추론 가속화

트랜스포머는 오늘날 가장 영향력 있는 AI 모델 아키텍처 중 하나이며 미래 AI R&D의 방향을 형성하고 있습니다. 자연어 처리(NLP)를 위한…

4 MIN READ

2023년 4월 19일

AI를 위한 풀스택 최적화를 통해 MLPerf 추론 v3.0에서 새로운 기록 수립

현재 가장 주목받는 컴퓨팅 애플리케이션은 복잡한 AI 모델을 학습하고 추론을 실행하는 데 의존하고 있으며, 종종 까다로운 실시간 배포 시나리오에서…

9 MIN READ

2022년 8월 19일

Torch-TensorRT를 통해 PyTorch에서 추론 속도 최대 6배 향상하기

코드 한 줄로 추론 속도를 높여주는 NVIDIA TensorRT와 PyTorch의 새로운 통합인 Torch-TensorRT가 매우 기대됩니다.

5 MIN READ

2022년 8월 5일

NVIDIA TensorRT를 통한 양자화 인식 학습을 사용하여 INT8 추론에 대한 FP32 정확도 달성

딥 러닝은 산업이 제품 및 서비스를 제공하는 방식을 혁신하고 있습니다. 이러한 서비스에는 컴퓨터 비전을 위한 개체 감지, 분류 및 세분화…

10 MIN READ

2022년 3월 25일

2022 GTC 발표의 모든것: AI 소프트웨어, 추천 시스템, 추론 등

GTC 2022에서 NVIDIA는 개발자들이 실시간 음성 AI 애플리케이션을 구축하고, 규모에 맞는 고성능 추천 시스템을 만들고…

3 MIN READ

2022년 2월 3일

NVIDIA Riva를 사용하여 대화형 AI 애플리케이션 개발하기

사람들은 스마트 스피커에 “에베레스트 산의 높이”와 같은 질문을 하곤 합니다. 그에 대한 답변은 아마도 “에베레스트 산은 해발 29,032피트입니다”…

3 MIN READ