AI Inference

2024년 10월 18일
DataStax, NVIDIA AI로 구축된 새로운 AI 개발 플랫폼 발표
AI 기술을 점점 더 많이 채택하는 기업들은 데이터 자산을 활용하기 위해 AI 애플리케이션을 효율적으로 개발, 보호하고 지속적으로 개선해야 하는…
4 MIN READ

2024년 8월 30일
NVLink Switch가 탑재된 NVIDIA HGX H200의 Medusa로 최대 1.9배 향상된 Llama 3.1 성능
거대 언어 모델(LLM)의 크기와 복잡성이 계속 증가함에 따라, 실시간 생성형 AI 애플리케이션이 요구하는 짧은 지연 시간과 높은 처리량을 제공하기…
3 MIN READ

2024년 8월 23일
LLM 추론 크기 조정 및 성능 최적화를 위한 실용적인 전략
챗봇, 콘텐츠 제작 등 다양한 애플리케이션에서 거대 언어 모델(LLM)의 사용이 증가함에 따라 추론 시스템을 확장하고 최적화하는 과정을 이해하여…
1 MIN READ

2024년 8월 9일
CUDA 그래프로 llama.cpp AI 추론 최적화하기
오픈 소스인 llama.cpp 코드 베이스는 원래 2023년에 출시된 가볍지만 효율적인 프레임워크로서 Meta Llama 모델에 대한 추론을…
5 MIN READ

2024년 8월 7일
리랭킹을 통한 RAG 파이프라인 강화
빠르게 진화하는 AI 기반 애플리케이션 환경에서 리랭크는 기업 검색 결과의 정확도와 관련성을 향상시키는 핵심 기술로 부상했습니다.
5 MIN READ

2024년 5월 29일
업그레이드된 NVIDIA TensorRT 10.0의 사용성, 성능, AI 모델 지원
NVIDIA는 오늘 고성능 딥 러닝 추론을 위한 API 에코시스템인 NVIDIA TensorRT의 최신 릴리스를 발표했습니다.
4 MIN READ

2024년 5월 17일
NVIDIA TensorRT Model Optimizer로 생성형 AI 추론 성능 가속화
빠르게 진화하는 생성형 AI 환경에서 가속화된 추론 속도에 대한 요구는 여전히 시급한 문제입니다. 모델 크기와 복잡성이 기하급수적으로 증가함에 따라…
6 MIN READ

2024년 5월 3일
NVIDIA TensorRT-LLM 및 NVIDIA Triton Inference Server로 Meta Llama 3 성능 강화
LLM 추론 성능을 가속화 및 최적화하는 NVIDIA TensorRT-LLM의 Meta Llama 3 모델 제품군에 대한 지원을 발표합니다.
5 MIN READ

2024년 4월 18일
NVIDIA TensorRT-LLM으로 LoRA LLM 조정 및 배포
거대 언어 모델(LLM)은 방대한 양의 텍스트로 학습하여 다양한 작업 및 분야에 대해 유창하고 일관된 텍스트를 생성하는 기능으로 자연어…
10 MIN READ

2024년 4월 3일
수조 개의 파라미터 LLM 트레이닝 및 실시간 추론을 제공하는 NVIDIA GB200 NVL72
조 단위 매개변수 모델에 대해 흥미로운 점은 오늘날 많은 사용 사례가 있으며, 아래과 같은 작업의 용량이 증가할 수 있다는 점이며 최근 관심이…
6 MIN READ

2024년 3월 12일
8-bit 포스트 트레이닝 양자화로 안정적인 확산을 2배 더 빠르게 가속화하는 NVIDIA TensorRT
생성형 AI의 동적 영역에서 확산 모델은 텍스트 프롬프트가 포함된 고품질 이미지를 생성하기 위한 가장 강력한 아키텍처로 각광받고 있습니다.
5 MIN READ

2024년 1월 10일
NVIDIA RTX 시스템으로 Windows PC에서 LLM 애플리케이션 강화하기
거대 언어 모델(LLM)은 우리가 컴퓨터와 상호작용하는 방식을 근본적으로 바꾸고 있습니다. 이러한 모델은 인터넷 검색부터 사무 생산성 도구에…
3 MIN READ

2023년 12월 15일
NVIDIA H100 Tensor 코어 GPU 및 NVIDIA TensorRT-LLM으로 최고의 추론 성능 달성하기
동급 최고의 AI 성능을 위해서는 효율적인 병렬 컴퓨팅 아키텍처, 생산적인 툴 스택, 고도로 최적화된 알고리즘이 필요합니다.
3 MIN READ

2023년 12월 6일
NVIDIA H200에서 거대 언어 모델 속도 향상을 제공하는 NVIDIA TensorRT-LLM
거대 언어 모델(LLM)은 지난 한 해 동안 급격한 성장을 거듭했습니다. 뛰어난 사용자 경험을 제공하기 위해서는 높은 컴퓨팅 처리량과 대량의…
3 MIN READ

2023년 11월 29일
LLM, 추천 시스템 및 GNN을 위한 하나의 거대한 슈퍼칩: NVIDIA GH200 NVL32
AWS re:Invent 2023에서 AWS와 NVIDIA는 AWS가 클라우드 제공업체 중 최초로 NVIDIA DGX 클라우드를 통해 NVIDIA…
6 MIN READ

2023년 11월 27일
LLM 기술 마스터하기: 인퍼런스 최적화
트랜스포머 레이어를 쌓아 대규모 모델을 만들면 다양한 언어 작업에서 정확도가 향상되고, 퓨샷 러닝이 가능하며, 심지어 인간에 가까운 능력을 발휘할…
15 MIN READ