Generative AI

2026년 2월 11일

OpenAI Triton을 위한 CUDA Tile IR 백엔드 도입: GPU 프로그래밍의 진화

NVIDIA CUDA Tile은 NVIDIA 텐서 코어의 이식성을 극대화해 GPU 성능을 정점까지 끌어올리는 프로그래밍 모델입니다.

5 MIN READ

2026년 2월 9일

엔터프라이즈 LLM 서빙을 위한 NeMo Microservices 아키텍처

LLM을 실제 서비스 환경에 적용해 운영하다 보면, 시간이 지날수록 체감 성능이 서서히 저하되는 현상을 피하기 어렵습니다.

13 MIN READ

2025년 10월 17일

NVIDIA 양자화 기술과 TensorRT-LLM을 이용한 서비스 최적화

이 글은 최신 LLM 서빙 환경에서 직면한 효율성과 ROI 문제를 해결하기 위해 NVIDIA TensorRT-LLM을 도입한 연구 사례를 다룹니다.

6 MIN READ

2025년 9월 25일

NVIDIA Rubin CPX, 100만 토큰 이상 컨텍스트 워크로드의 추론 성능과 효율을 가속하다

AI에서 추론은 이제 가장 복잡한 과제에 당면한 영역이 되었습니다. 최신 모델은 에이전틱 AI로 진화하며, 다단계 추론과 지속적인 메모리…

3 MIN READ

2025년 9월 25일

NVFP4, 16비트 정밀도와 4비트 성능으로 학습 가속

최근 몇 년간 AI 워크로드는 폭발적으로 증가했습니다. 이는 거대 언어 모델(LLM)의 배포는 물론, 사전 학습과 후속 학습 과정에서 점점 더 많은…

6 MIN READ

2025년 9월 24일

Dynamo 0.4, 4배 더 빠른 성능과 SLO 기반 오토스케일링, 실시간 가시성 제공

최근 몇 주간 OpenAI의 gpt-oss와 Moonshot AI의 Kimi K2를 비롯한 새로운 오픈소스 모델들이 등장하면서 거대 언어…

6 MIN READ

2025년 9월 5일

GPU 메모리 스왑으로 성능은 유지하면서 모델 배포 비용 절감하기

거대 언어 모델(LLM)을 배포할 때는 두 가지 과제가 동시에 발생합니다. 높은 수요 속에서도 빠른 응답성을 보장해야 하고…

4 MIN READ

2025년 9월 3일

CPU-GPU 메모리 공유를 통한 대규모 LLM 추론 및 KV 캐시 오프로드 가속화

거대 언어 모델(LLM)은 AI 혁신의 최전선에 있지만, 그 방대한 크기 때문에 추론 효율성에 어려움을 주기도 합니다.

4 MIN READ

2025년 8월 29일

QAT로 정확도와 성능을 높이는 gpt-oss 파인튜닝

대규모 오픈소스 파운데이션 모델 공개는 AI 커뮤니티에 늘 큰 기대를 불러일으킵니다. 새로운 아키텍처적 혁신과 기능이 함께 등장하기 때문입니다.

5 MIN READ

2025년 8월 20일

ProRL v2를 활용한 장기 학습 기반 LLM 강화학습 확장

현재 AI 분야에서 가장 흥미로운 질문 중 하나는, 거대 언어 모델(LLM)이 지속적인 강화학습(RL)을 통해 계속 발전할 수 있을지…

6 MIN READ

2025년 8월 13일

LLM 추론, AI 에이전트, 및 테스트 시간 스케일링 알아보기

고도화된 AI 모델을 개발하고 배포하려면, 확장 가능하고 효율적인 GPU 인프라가 꼭 필요합니다. 하지만 클라우드 네이티브 환경에서 컨테이너…

4 MIN READ

2025년 8월 8일

LLM 추론 벤치마크: TensorRT-LLM을 활용한 성능 튜닝

이 글은 TensorRT-LLM으로 LLM 추론 성능을 벤치마킹하고 최적화하는 방법을 소개하는 시리즈의 세 번째 편입니다.

6 MIN READ

2025년 8월 1일

에이전틱 AI 보안: 시맨틱 프롬프트 인젝션이 AI 안전장치를 우회하는 방법

Prompt injection은 공격자가 입력값을 조작하여 거대 언어 모델이 의도하지 않은 방식으로 작동하게 만드는 기법으로…

5 MIN READ

2025년 7월 30일

AI에 안정적인 전력을 제공하는 GB300 NVL72의 새로운 기능

전기 그리드는 조명, 가전제품, 일정한 출력을 유지하는 산업용 기계처럼 비교적 일정한 부하를 처리하도록 설계되어 있습니다.

6 MIN READ

2025년 7월 25일

NVIDIA Llama Nemotron Super v1.5로 더 정확하고 효율적인 AI 에이전트를 만드세요

NVIDIA Nemotron 제품군은 NVIDIA의 오픈 합성 데이터셋, 고급 기술 및 도구를 활용해 생태계 내에서 가장 강력한 오픈 모델들을…

2 MIN READ

2025년 7월 23일

정보 검색을 위한 PDF 데이터 추출 방법

PDF는 재무 보고서, 연구 논문, 기술 문서, 마케팅 자료 등 다양한 정보를 공유할 때 가장 널리 사용되는 파일 형식 중 하나입니다.

7 MIN READ