최근 몇 년간 AI 워크로드는 폭발적으로 증가했습니다. 이는 거대 언어 모델(LLM)의 배포는 물론, 사전 학습과 후속 학습 과정에서 점점 더 많은 토큰을 처리해야 하는 수요로도 이어지고 있습니다. 수십억 개 파라미터를 가진 파운데이션 모델을 학습하고 배포하기 위해 조직들이 컴퓨팅 인프라를 확장함에 따라, 더 높은 토큰 처리량을 지속적으로 유지하는 능력은 핵심 과제로 떠올랐습니다. 이제는 효율성만이 아니라, AI 팩토리가 처리할 수 있는 토큰의 양이 다음 단계 모델 역량을 여는 핵심 기준이 되고 있습니다.
이 과정에서 AI 최적화 데이터 형식은 중요한 혁신으로 자리 잡았습니다. 특히 낮은 정밀도의 연산은 이미 추론 방식을 크게 바꿔 놓았습니다. NVIDIA가 도입한 NVFP4는 추론을 위해 특별히 설계된 4비트 형식으로, 뛰어난 지연 시간, 처리량, 효율성을 제공하면서도 실제 서비스 환경에 적합한 정확도를 유지합니다.
이제 NVIDIA는 이러한 혁신을 사전 학습 단계로 확장해 거대 언어 모델 개발에서 중요한 도약을 이끌고 있습니다. NVFP4를 사전 학습에 적용하면 대규모 학습 속도와 인프라 효율이 크게 향상됩니다. 이는 단순한 최적화가 아니라, 거대 모델 학습 방식을 근본적으로 바꾸는 전환점이라고 할 수 있습니다.
AI 팩토리 시대에 컴퓨팅은 발전을 이끄는 핵심 동력입니다. 정밀도는 더 이상 부차적인 기술 요소가 아니라 전략적 이점으로 자리 잡았습니다. NVFP4 기반 4비트 사전 학습은 효율성과 확장성의 한계를 새롭게 정의하며, 고성능 AI 모델 개발의 새로운 기준을 마련합니다.
NVFP4 학습은 현재 연구 단계에 있으며, 거대 모델 사전 학습에서 4비트 정밀도의 가능성을 탐구하고 검증하고 있습니다. 또한 Amazon Web Services, Cohere, Google Cloud, Kimi AI, Microsoft AI, Mistral, OpenAI, Perplexity, Reflection, Runway 등 주요 기업들과의 협력도 적극적으로 이어가고 있습니다.
4비트 양자화란 무엇일까요?
4비트 양자화는 모델의 가중치와 활성값(activation)의 정밀도를 단 4비트로 줄이는 과정을 말합니다. 이는 일반적으로 사용되는 16비트 또는 32비트 부동소수점 형식에 비해 극적으로 낮은 정밀도입니다.
다만 4비트로 사전 학습을 진행하는 것은 쉽지 않습니다. 정확도를 유지하면서 학습 속도를 높이기 위해서는 그래디언트와 업데이트를 매우 신중하게 처리해야하기 때문입니다. 고정밀 텐서를 훨씬 작은 양자화 값 집합으로 매핑하면서도 효과성을 유지하려면 특수한 기법과 학습 레시피가 필요합니다.
더 적은 비트가 AI 팩토리의 역량을 확장하는 방법
추론은 FP32와 FP16을 거쳐 FP8, 그리고 최근 NVIDIA가 발표한 NVFP4까지 여러 차례 혁신을 경험했습니다. 특히 사후 학습 양자화(PTQ) 기법을 통해 NVFP4는 정확도를 유지하면서도 추론 처리량을 크게 높일 수 있는 강력한 도구로 자리 잡았습니다. 하지만 사전 학습 단계에서는 여전히 안정성과 수렴성을 이유로 BF16이나 FP8 같은 형식을 사용해야 한다는 한계가 남아 있습니다.
AI 팩토리에서 가장 많은 자원과 시간이 투입되는 곳은 바로 학습 과정입니다. 전력 예산은 한정되어 있고 GPU 자원도 제한적이기 때문에, 개발자는 비트 하나, 토큰 하나, 학습 주기 하나까지 철저히 따져야 합니다. 처리량은 단순한 지표가 아니라, 어떤 규모의 모델을 학습할 수 있는지, 몇 번의 실험을 반복할 수 있는지, 그리고 얼마나 빨리 새로운 성과를 낼 수 있는지를 결정하는 핵심 요소입니다.
이런 이유로 4비트 정밀도는 중요한 전환점을 만듭니다. 메모리 사용을 줄이고, 연산 속도를 높이며, 통신 효율을 개선함으로써 동일한 하드웨어에서도 훨씬 더 많은 토큰을 처리할 수 있게 해주기 때문입니다. 올바른 양자화 기법을 적용하면 FP8이나 BF16 수준의 정확도를 유지하면서도 처리량을 크게 끌어올릴 수 있습니다. 결과적으로 더 빠른 수렴, 더 많은 실험, 더 거대한 모델 학습이 가능해집니다. 즉, 비트를 줄인다는 것은 단순히 비용 절감에 그치지 않고, AI 팩토리가 해낼 수 있는 일의 범위를 넓히는 전략적 선택입니다.
사전 학습을 위한 NVFP4 양자화 레시피
4비트 정밀도로 사전 학습을 가능하게 하기 위해, NVIDIA는 NVFP4 사전 학습 전용 레시피를 개발했습니다. 이 레시피는 대규모 학습 과정에서 발생하는 동적 범위, 그래디언트 변동성, 수치적 안정성 문제를 해결하도록 설계되었습니다.
Blackwell은 NVIDIA 아키텍처 가운데 최초로 FP4 형식을 기본 지원합니다. GB200과 GB300이 제공하는 막대한 FP4 FLOPS 처리량은 협소 정밀도의 행렬 연산을 가속해 효율적인 4비트 학습을 가능하게 합니다. 또한 대규모 모델의 수렴에 필요한 확장성과 병렬성을 유지하면서, FP4 기반 사전 학습을 위한 차세대 AI 팩토리에 적합한 기반을 제공합니다.
아래 그림 1은 Blackwell Ultra에서 측정된 GEMM 성능을 보여주며, Hopper 세대 대비 7배 향상된 속도를 기록했습니다. 최신 거대 언어 모델은 본질적으로 행렬 곱 연산에 의존하며, 특히 완전연결 레이어나 선형 레이어에서 핵심 연산으로 사용됩니다. 따라서 이러한 연산의 효율성은 매우 중요합니다. FP4 정밀도를 통해 이러한 연산이 더 빠르고 효율적으로 수행되면서, GEMM 가속 효과는 곧 사전 학습 전체 과정—순전파부터 그래디언트 업데이트까지—를 크게 단축시킵니다. 그 결과 학습 시간이 줄어들고, 더 빠르게 대규모 모델을 개발할 수 있게 됩니다.

효율적인 협소 정밀도 학습을 위해 NVIDIA의 NVFP4 사전 학습 레시피는 성능과 정확도를 기준으로 선택된 여러 핵심 기법을 활용합니다. 주요 기법은 다음과 같습니다.
- NVFP4 마이크로 블록 스케일링을 통한 향상된 값 표현: Blackwell은 NVFP4를 위한 네이티브 텐서 코어 지원을 도입했습니다. NVFP4는 가중치와 활성값 모두에 적용되는 4비트 수치 형식으로, 마이크로 블록 스케일링 방식을 사용합니다. 이는 16개의 4비트 요소마다 하나의 스케일링 팩터를 공유하는 구조입니다. MXFP4가 32개 단위 블록을 사용했던 것과 비교하면, NVFP4는 블록 크기를 절반으로 줄여 이상치(outlier)의 영향을 최소화하고 더 정밀한 스케일링을 가능하게 합니다. 이러한 세밀한 단위는 양자화 오류를 줄이고 모델 전체 정확도를 개선합니다.
- E4M3 스케일 팩터를 활용한 고정밀 블록 인코딩: 스케일 팩터의 정밀도는 양자화 품질과 정확도에 핵심적인 역할을 합니다. MXFP4는 2의 거듭제곱(E8M0) 스케일만 지원해 반올림 오류가 크게 발생할 수 있지만, NVFP4는 가수 비트를 추가한 E4M3 스케일 팩터를 사용합니다. 이를 통해 더 세밀한 스케일링이 가능해지고, 제한된 양자화 구간을 효과적으로 활용할 수 있으며, 블록 내 값의 표현력이 향상됩니다.
- 협소 정밀도 형식에 맞춘 텐서 분포 재구성: 거대 언어 모델 사전 학습 중의 그래디언트와 활성값에는 종종 큰 이상치가 존재해 협소 정밀도 양자화에 영향을 줍니다. 이를 해결하기 위해 GEMM 입력에 아다마르(Hadamard) 변환을 적용해 분포를 보다 가우시안 형태에 가깝게 재구성합니다. 이 과정은 이상치를 완화하고 텐서를 더 정확히 표현할 수 있도록 돕습니다. 또한 모델 아키텍처에는 영향을 주지 않으며, 순전파와 역전파의 선형 레이어에 그대로 적용할 수 있습니다.
- 정확도를 유지하는 양자화 기법: 안정적이고 효율적인 학습을 위해 순전파와 역전파 간의 일관성을 보장하는 양자화 방식을 사용합니다. 특히 선택적 2차원 블록 기반 양자화 기법을 적용해 학습 전 과정에서 텐서 표현의 정렬(alignment)을 유지합니다. 이러한 일관성은 신호 왜곡을 최소화하고 수렴 특성을 개선하며, 특히 NVFP4처럼 협소 정밀도 환경에서 모델의 안정성을 높이는 데 필수적입니다.
- 확률적 반올림을 통한 편향 감소: 기존의 결정적 반올림(deterministic rounding)은 항상 가장 가까운 수로 반올림하기 때문에 그래디언트가 특정 방향으로 치우칠 수 있습니다. 반면 확률적 반올림(stochastic rounding)은 수가 두 표현값 사이 어디에 위치하는지에 따라 확률적으로 위나 아래로 반올림합니다. 이 과정은 반올림 편향을 줄이고 학습 중 그래디언트 흐름을 유지하며, 결과적으로 모델 정확도를 높이는 데 기여합니다.

NVFP4, 4비트 사전 학습을 현실로 만들다: 조 단위 토큰 규모에서의 정확도와 안정성
협소 정밀도 형식이 대규모 사전 학습에서 실용성을 가지려면 모델 정확도와 안정적인 수렴을 동시에 보장해야 합니다. 이를 확인하기 위해 NVIDIA는 1조 토큰 규모의 대규모 학습 환경에서 4비트 정밀도의 가능성을 검증했습니다. 실험은 120억 파라미터 규모의 하이브리드 Mamba-Transformer 모델(12B Hybrid Mamba-Transformer, NVIDIA Nemotron Nano 2와 유사)을 대상으로 FP8과 NVFP4를 비교하는 방식으로 진행했습니다. 학습에는 총 10조 토큰에 달하는 대규모 데이터셋을 사용했으며, 70%와 90% 지점에서 데이터 구성을 단계적으로 바꾸는 방식으로 진행했습니다.
먼저 FP8 정밀도로 학습을 진행해 16비트와 유사한 결과를 기준선으로 삼았습니다. 이어 동일한 모델을 NVFP4만으로 처음부터 학습했으며, 그 결과 초저정밀 학습에서 흔히 나타나는 불안정성이나 수렴 실패 없이 안정적으로 수렴하는 모습을 확인했습니다. 이는 NVFP4가 조 단위 토큰 규모의 전체 사전 학습을 지원할 수 있음을 보여줍니다.
아래 그림 3은 NVFP4의 검증 손실 곡선이 FP8 기준선과 거의 일치하는 양상을 전체 학습 과정에서 유지하는 모습을 보여줍니다. 앞서 소개한 양자화 기법 덕분에 비트 폭을 4비트까지 줄였음에도 불구하고, 학습 역학은 고정밀 학습과 크게 다르지 않았습니다.

이후 NVFP4로 사전 학습한 120억 파라미터 규모 하이브리드 Mamba-Transformer 모델을 FP8 기준선과 비교해, 다양한 다운스트림 작업과 지능 영역에서 성능을 평가했습니다. 그림 4는 모든 영역에서 NVFP4가 FP8과 동등한 성능을 보여주며, 그 효과를 입증합니다. 이 결과는 초기 가설을 강화하는 것입니다. 즉, NVFP4는 조 단위 토큰 규모에서도 거대 언어 모델 사전 학습을 안정적으로 지원할 수 있는 강력한 선택지이며, 대규모 프런티어 모델 학습을 효율적으로 수행할 수 있는 잠재력을 지닌다는 것입니다.

더 똑똑하게 학습하기
NVIDIA의 NVFP4 형식은 AI 학습의 패러다임을 새롭게 정의하며, 속도와 효율, 그리고 혁신의 새로운 기준을 제시합니다. 4비트 사전 학습을 가능하게 함으로써 NVFP4는 AI 팩토리가 더 빠르고 지속 가능하게 확장할 수 있도록 지원하며, 생성형 AI의 새로운 시대를 열어가고 있습니다. NVFP4는 끊임없이 발전하는 기술로서, 프런티어 모델을 개발하는 팀들에게 새로운 기회를 제공하고 있습니다. 에너지 효율적이면서도 고성능 AI를 구현하기 위한 발전을 이끌고 있는 것입니다. 컴퓨팅 효율성에서의 혁신을 통해, 4비트 사전 학습은 더 정교한 아키텍처, 더 큰 규모의 학습, 그리고 훨씬 더 많은 토큰 처리를 가능하게 하여 지능형 시스템의 미래를 앞당기고 있습니다.