복잡한 배터리 혁신 분야와 같은 과학 연구는 종종 소재를 수작업으로 평가하는 방식에 의존해 하루에 수십 개의 후보만 검토할 수 있어 연구 속도가 제한됩니다. 이번 블로그에서는 추론 능력이 강화된 도메인 특화 거대 언어 모델(LLM)이 특히 배터리 혁신처럼 복잡하고 중요한 분야에서 과학 연구를 어떻게 변화시키고 있는지 살펴봅니다. 실제 적용 사례로, 700억 개 파라미터를 가진 과학 특화 LLM인 SES AI의 Molecular Universe LLM을 소개합니다.
또한 NVIDIA NeMo Curator, NVIDIA NeMo Framework, NVIDIA DGX Cloud, NVIDIA NIM, 을 활용해 구축한 학습 및 추론 파이프라인과, 도메인 적응, 인스트럭션 튜닝, 추론 정렬(reasoning alignment) 등의 기법을 결합해 과학적 발견을 가속화하고 전문가의 생산성을 높이는 방법에 대해서도 알아봅니다.
개요

거대 언어 모델(LLM)은 논문 요약, 복잡한 통찰의 종합, 새로운 가설 생성 등 과학 연구의 다양한 작업을 지원하며 큰 잠재력을 입증해왔습니다. 하지만 범용 LLM은 사전 학습 단계에서 전문 용어나 맥락적 지식에 대한 노출이 제한적이기 때문에, 특정 도메인 과제에서는 기대에 미치지 못하는 경우가 많습니다.
이러한 한계를 극복하기 위해 도메인 특화 LLM이 더 현실적인 대안으로 떠오르고 있습니다. 처음부터 새롭게 모델을 학습시키는 데 드는 높은 비용과 연산 자원을 줄이기 위해, 도메인 적응 사전 학습(Domain Adaptive Pretraining, DAPT)은 기존의 기반 모델(e.g., LLaMA)에 특화된 데이터를 추가로 학습시키는 방식으로 기능을 확장합니다.
이 방식은 기존 모델의 폭넓은 언어 처리 능력을 유지하면서도, 과학과 같은 특수 분야에서의 성능을 효과적으로 끌어올립니다. 이후에는 일반 질문과 특정 작업에 모두 효과적으로 응답할 수 있도록 fine-tuning을 진행합니다. 도메인 적응과 인스트럭션 튜닝은 과제 수행력을 높여주지만, 논리적 사고나 추론 능력을 직접적으로 강화하진 않습니다.
이 한계를 극복하기 위해 ‘추론 정렬’ 기법이 적용됩니다. 이를 통해 모델은 모델이 스스로 가설을 세우고, 사고 과정을 따라가며, 필요시 자기 교정까지 할 수 있도록 돕습니다. 이와 같은 기능은 복잡한 문제 해결이나 신소재 탐색에 필수적입니다.
배터리 혁신을 전문으로 하는 SES AI는 독자적인 모델인 Molecular Universe LLM을 구축했습니다. 이 모델은 700억 개의 파라미터를 갖춘 대규모 맞춤형 추론 모델로, Llama 3.1 70B를 기반으로 하며, 특정 도메인 과학 작업에서 기존 모델을 뛰어넘는 성능을 보이며 새로운 기준을 제시하고 있습니다.
이 모델은 기본 모델을 고성능 도메인 특화 모델로 전환하는 연산 효율적인 학습 및 정렬 전략을 보여주며, DAPT, 인스트럭션 튜닝, 추론 기반 fine-tuning을 결합하는 방식이 특수 도메인 과제에서 얼마나 효과적인지를 입증합니다.
Molecular Universe LLM은 고급 추론 기능을 활용해 전해질 용매 및 첨가제 후보를 선별·순위화하는 AI 기반 배터리 연구 LLM입니다. 과거에는 과학자들이 수작업으로 용매와 첨가제를 평가해야 했기에, 하루에 수십 개의 후보만 분석하는 데 그쳤습니다.
이제는 장문 컨텍스트 이해, 구조화된 추론, 전문가 수준의 의사결정을 통합함으로써, 도메인 특화 추론 모델이 과학 혁신의 돌파구를 어떻게 가속화하고, 배터리 전문가의 생산성을 얼마나 크게 향상시키는지를 보여줍니다.
Molecular Universe LLM은 NVIDIA NeMo Framework를 기반으로 NVIDIA DGX Cloud에서 다음과 같은 세 단계의 파이프라인을 통해 학습되었습니다:
- 1단계: NVIDIA NeMo Curator로 정제한 과학 논문을 활용한 지속적 사전학습
- 2단계: NVIDIA Llama 3.1 70B NIM이 생성한 합성 데이터를 이용한 지도학습 기반 fine-tuning(SFT)
- 3단계: 필터링된 s1K Reasoning Data를 활용해 복잡한 과학 추론 능력 정렬을 위한 후처리 학습
이 접근법은 모델이 도메인 특화되고, 맥락에 적절하며, 고품질의 응답을 제공하도록 보장합니다. SES AI는 Molecular Universe LLM을 NVIDIA ALCHEMI GPU 가속 시뮬레이션 데이터 및 NVIDIA cuML이 생성한 분자 맵과 통합함으로써 수십 년이 걸릴 배터리 연구를 수개월로 단축하고 있습니다.
지금부터 이 모델 구축 과정의 단계별 내용을 자세히 살펴보겠습니다.

인프라 셋업
Molecular Universe LLM은 NVIDIA와 주요 클라우드 서비스 제공업체가 공동 설계한 완전 관리형 AI 학습 플랫폼인 NVIDIA DGX Cloud에서 128개의 NVIDIA H100 GPU를 활용해 학습되었습니다. DGX Cloud는 NVIDIA가 직접 운영하는 Kubernetes 기반 환경으로, Run:ai를 통한 작업 최적화와 리소스 스케줄링, 오케스트레이션 기능을 함께 제공합니다. 개발자는 복잡한 인프라 설정 없이도, 전용 클러스터에서 손쉽게 분산 학습을 시작할 수 있습니다.
AI 모델 개발 플랫폼으로는 NVIDIA NeMo Framework가 사용되었으며, DGX Cloud 상에서 손쉽고 가속화된 개발 환경을 제공해 대규모 생성형 AI 모델을 효율적으로 구축, 커스터마이징, 배포할 수 있도록 지원합니다. 최신 모델과 알고리즘을 지원하며, 4차원 병렬화(4D parallelism) 및 기타 최적화를 통해 수천 개의 GPU에 걸친 높은 학습 처리량과 확장성을 보장합니다.
또한 NVIDIA Run:ai는 GPU 리소스를 ‘프로젝트’ 및 ‘부서’ 단위로 오케스트레이션할 수 있도록 지원해, 각 팀이 학습 작업에 필요한 용량을 적절히 할당받을 수 있도록 합니다. 이 스케줄러는 워크로드 버스팅(workload bursting)도 지원해, 클러스터에 여유 자원이 있을 경우 추가 용량을 활용할 수 있게 하여 GPU 자원을 최대한 효율적으로 활용하면서도 프로젝트별 할당 기준을 유연하게 충족합니다. 이를 통해 개발자 생산성을 높이고, 가치 실현까지의 시간을 단축할 수 있습니다.

1단계: 지속적 사전 학습
배터리 연구 분야에 특화된 탄탄한 지식 기반을 구축하기 위해, Llama 3.1 70B 모델에는 지속적인 사전 학습(continuous pretraining)이 적용되었습니다. 이 과정에서는 방대한 양의 정제된 과학 문헌 코퍼스를 활용해 모델을 학습시켰으며, 이 과정 덕분에 모델은 보다 정밀한 이해력과 과학적 전문성을 갖추고, 맥락에 맞는 정확한 응답을 생성할 수 있게 되었습니다.
데이터 큐레이션 및 처리
사전 학습에 사용된 코퍼스는 동료 평가 저널 및 프리프린트 저장소에서 수집한 1,900만 건의 오픈소스 논문으로 구성되어 있습니다. 데이터 출처에 대한 세부 사항은 표 1을 참고하세요.
다양한 출처의 PDF 문서는 학습 전 일반 텍스트로 변환되었으며, 이후 NeMo Curator를 활용해 문서 추출 및 전처리 과정을 거쳤습니다. 이 과정에는 고급 휴리스틱 필터링과 GPU 가속 퍼지 중복 제거(fuzzy deduplication) 기법이 적용되었으며, MinHash와 Locality Sensitive Hashing(LSH) 등의 기술이 포함되었습니다. 이러한 엄격한 파이프라인을 통해 원본 1,900만 건의 샘플이 1,700만 건의 중복 없는 고품질 데이터로 정제되었습니다. NeMo Curator는 중복 제거와 저품질 필터링은 물론, 도메인 지식의 정밀한 보존에도 핵심 역할을 했습니다.
데이터 소스 | 데이터 |
Peer-reviewed Literature from Open Source | ~4M |
arXiv | 1.4M |
ChemRxiv | 26K |
Open Research | 12M |
PubChem | 60K |
Academic Textbooks or Monographs | 80 |
PLOS | 200K |
모델 아키텍처 및 교육 세부 정보
Molecular Universe LLM의 베이스 모델은 LLaMA 3.1 70B의 사전 학습된 가중치를 기반으로 도메인 적응을 통해 구축되었습니다. 이 모델의 지속 학습(continued pretraining)은 NeMo Framework를 활용해 수행되었으며, 여기에 4차원 병렬화(4D parallelism), 혼합 정밀도 학습(mixed precision training), 플래쉬 어텐션(Flash Attention) 등 최신 최적화 기법이 적용되었습니다. 특히, **NeMo의 컨텍스트 병렬화(context parallelism)는 최대 8K 토큰에 이르는 긴 시퀀스를 메모리 효율성과 속도, 안정성을 유지하면서 처리할 수 있도록 하는 데 중요한 역할을 했습니다.
학습은 입력 시퀀스 길이 8,192 토큰 기준으로 이루어졌으며, 한 번의 forward pass마다 524,288개의 토큰을 처리했습니다. 총 128개의 NVIDIA H100 GPU를 활용해 모델을 학습했으며, 총 144시간 동안 bfloat16 정밀도로 학습이 진행되었습니다. 도메인 적응 사전 학습(DAPT)은 원래 모델 학습에 사용된 토큰 대비 소량의 데이터만을 사용했으며, 전체 사전 학습 연산량의 약 1.5% 수준으로 훨씬 효율적으로 수행되었습니다.
학습 및 검증 손실 곡선을 살펴보면 초기에는 손실이 급격히 감소하며 빠른 도메인 적응을 보여주었습니다. 시간이 지남에 따라 손실 값은 안정적으로 수렴하며 과적합 없이 효과적인 학습 완료를 나타냈습니다.
2단계: 감독된 fine-tuning을 통한 모델 정렬
도메인 특화 지식에 모델을 정렬하고, 인스트럭션 수행 능력을 향상시키기 위해 지도 학습 기반 fine-tuning(SFT)이 적용되었습니다. SFT는 레이블이 지정된 예시 데이터를 기반으로 모델을 학습시켜, 특히 도메인 특성에 맞는 지시문을 잘 이해하고, 과제에 맞는 정밀한 응답을 생성하는 데 매우 효과적입니다.
데이터 큐레이션 및 처리
SES는 고품질 SFT 데이터셋 생성을 위해 NVIDIA Llama 3.1 70B NIM을 활용한 합성 데이터 생성(Synthetic Data Generation, SDG) 기법을 적용했습니다. 총 5만 건의 논문을 샘플링하여, 질문 응답, 요약, 독해, 객관식 문제 등 네 가지 과제에 걸쳐 20만 개의 인스트럭션 샘플을 생성했으며, 이 중 16만 개는 학습용, 4만 개는 평가용으로 사용되었습니다.
여기에 Daring-Anteater 데이터셋의 일반 대화 샘플 9만 건을 추가해, 최종 SFT 데이터셋은 총 25만 건으로 구성되었습니다. 대부분의 샘플이 SDG 방식으로 생성되었으며, NIM을 활용한 도메인 데이터 생성이 얼마나 효율적인지를 보여줍니다.
모델 아키텍처 및 학습 정보
이 데이터셋은 먼저 LLaMA 3.1 70B 토크나이저를 이용해 토크나이징되며, 이후 NeMo Framework 기반 멀티 노드 시스템에서 SFT가 진행되어 최종 Molecular Universe Chat 모델이 완성되었습니다. 학습은 DGX Cloud에서 128개의 NVIDIA H100 GPU와 NVIDIA Run:ai 소프트웨어를 활용해 진행되었으며, 총 학습 시간은 32시간에 불과했습니다.
학습 및 검증 손실 추이는 초기 단계에서 빠르게 하강해 효율적인 학습 진행을 보여주었으며, 약 400스텝 이후 안정화되었습니다. 600스텝 이후 소폭의 학습 손실 증가는 학습률에 대한 민감도 또는 과적합 가능성을 시사하지만, 검증 손실은 일정하게 유지되어 모델의 우수한 일반화 성능을 확인할 수 있었습니다.
3단계: 고품질 추론 데이터로 사후 학습하기
과학 문헌 기반의 도메인 적응 사전 학습과 인스트럭션 기반 fine-tuning은 모델이 일반 및 도메인 특화 질문에 대응하는 능력을 향상시키지만, 다단계 추론이 요구되는 복잡한 과학 문제 해결에는 한계가 있습니다.
이를 극복하기 위해, Molecular Universe Chat 모델은 Gemini Thinking에서 생성한 고품질 고난이도 질문과 추론 과정이 담긴 s1K Reasoning Data 중 약 2만 5천 개의 샘플을 선별해 추론 정렬 fine-tuning을 진행했습니다. 이 데이터셋은 형식 오류가 있는 저품질 샘플이나 Qwen2.5 7B/32B Instruct와 같은 베이스 모델이 쉽게 해결할 수 있는 단순 질문을 필터링해 제외했습니다.
또한, LLM을 활용해 샘플을 수학, 과학 등 주제별 카테고리로 클러스터링하고, 긴 추론 경로를 포함한 샘플에 가중치를 둔 균등 샘플링을 적용해 복잡한 작업 특성을 더 잘 반영할 수 있도록 했습니다. 이후, GPQA Diamond와 같은 작업별 벤치마크 데이터는 오염 방지를 위해 제거(decontamination)했습니다.
마지막 단계로, NeMo Framework를 사용해 컨텍스트 길이를 16K로 확장하고, 64개의 H100 GPU에서 총 5에폭, 약 12시간에 걸쳐 지도 학습 fine-tuning을 수행했습니다. 이 과정은 사실 정확도 향상뿐만 아니라, 모델이 복잡한 아이디어를 추론해내는 능력까지 개선시켰으며, 그 결과 GPQA Diamond에서 0.72점이라는 높은 성능을 기록했습니다.
결과
Molecular Universe Chat 및 Reasoning 모델은 GPQA Diamond와 같은 과학 중심의 공개 벤치마크와 도메인 특화 커스텀 벤치마크에서 평가를 진행했습니다. 그 결과, GPQA Diamond에서 0.72점을 기록하며, DeepSeek-R1 등 유사 크기 또는 더 큰 오픈소스 모델 대부분을 능가하는 성능을 보였습니다.
또한, Molecular Universe Reasoning 모델은 LLaMA 3.1 70B와 비교해 MMLU, Winogrande, Hellaswag, ARC-E와 같은 다양한 공개 벤치마크에서도 더 우수한 성능을 달성했습니다. 이는 단순한 인스트럭션 정렬을 넘어, 지속적인 도메인 사전 학습과 추론 중심 후처리 학습을 통해 모델의 전반적인 역량이 크게 향상될 수 있음을 잘 보여줍니다.

모델 | 파라미터 수 | 배터리 Q/A | 배터리 MCQ | 배터리 RC | 배터리 요약 | 배터리 추론 |
GPT-o1 | – | 96% | 92% | 90% | 88% | 84% |
Molecular Universe Reasoning | 70B | 96% | 89% | 90% | 86% | 82% |
Claude 3.7 Sonnet | – | 94% | 86% | 89% | 86% | 80% |
Gemini Flash Thinking | – | 92% | 85% | 88% | 82% | 79% |
Molecular Universe Chat | 70B | 93% | 79% | 84% | 79% | 73% |
LLaMA 3.1 | 70B | 71% | 67% | 78% | 75% | 66% |
Molecular Universe Chat 및 Reasoning 모델은 40,000개 샘플로 구성된 SFT 보류 테스트 세트와 배터리 분야에 특화된 사용자 정의 추론 벤치마크를 통해 추가로 평가되었습니다. 본 모델은 GPT-o1, LLaMA 3.1 70B, Claude 3.7 Sonnet 50B, Gemini 60B 등과 비교되었습니다.
질문 응답(Q&A), 객관식 문제(MCQ), 독해, 요약, 추론 등 다양한 작업에서 Molecular Universe Reasoning LLM은 GPT-o1을 제외한 모든 기준 모델 대비 일관되게 우수한 성능을 보였습니다. GPT-o1이 일부 미세 조정 데이터 생성에 사용된 점을 고려하더라도, Molecular Universe Reasoning 모델은 훨씬 적은 파라미터 수와 낮은 학습 비용으로 경쟁력 있는 성과를 달성해, 도메인 적응과 추론 정렬의 중요성을 강조했습니다.
결론 및 향후 과제
Molecular Universe Reasoning은 700억 개 파라미터 규모의 과학적 추론에 특화된 LLM으로, 동일한 규모의 모델 중 과학 분야 작업에서 최첨단 성능을 보여주었습니다. 도메인 적응 사전 학습(domain-adaptive pretraining)과 추론 기반 감독 미세 조정(reasoning-based supervised fine-tuning)을 결합한 계산 효율적인 학습 전략을 통해, 최소한의 추가 계산 비용으로 기본 모델 대비 성능을 크게 향상시켰습니다.
두 기법을 결합함으로써 단독 사용보다 뛰어난 성과를 거두었으며, 일반 벤치마크와 배터리 특화 벤치마크 모두에서 훨씬 더 큰 모델들과 견줄 만한 결과를 달성했습니다. 해당 모델은 NVIDIA NIM 마이크로서비스를 통해 배포되어, fine-tuning된 모델을 실시간으로 확장 가능하게 제공하며 다수의 동시 요청을 처리할 수 있습니다. Molecular Universe Reasoning 모델은 SES AI의 소재 탐색 플랫폼 Molecular Universe(MU-0)에 통합될 예정입니다. MU-0는 방대한 소분자 후보군을 단일 통합 검색 인터페이스를 통해 탐색할 수 있도록 설계된 소프트웨어 및 서비스 솔루션입니다.
향후 계획은 배터리 분야에 특화된 데이터셋을 구축하고, 이를 활용한 도메인 중심의 추론 후속 학습(domain-specific reasoning post-training)을 통해 성능을 더욱 정교화하는 것입니다. 또한 인간 피드백 기반 강화 학습(RLHF) 기법을 도입해 도메인 특화 성능을 한층 더 향상시킬 예정입니다. 본 연구는 다양한 분야에서 강력한 전문성을 갖춘 중간 규모(<100B)의 비용 효율적인 도메인 특화 모델 개발 가능성을 보여줍니다.
NVIDIA DGX Cloud에서 NeMo 프레임워크에 대해 더 알아보려면 NVIDIA 공식 문서 및 GitHub에서 확인해보세요.
지금 바로 NVIDIA DGX Cloud를 시작하고, NVIDIA ALCHEMI 및 NVIDIA cuML을 통해 고급 머신러닝 솔루션도 함께 경험해 보세요.
본 연구는 NVIDIA의 Zihan Wang, SES의 Kang Xu의 소중한 지원과 통찰에 힘입어 진행되었습니다.
관련 리소스
- GTC 세션: 추론 모델에서 AI 계획 시스템으로
- GTC 세션: 철도 운송에서 인사이트 향상을 위한 맞춤형 LLM 활용
- GTC 세션: 차세대 리튬 금속 배터리를 위한 AI 가속 재료 발견
- NGC 컨테이너: genai-llm-playground
- SDK: Llama3 8B Instruct NIM
- 웨비나: 신약 개발의 미래: NVIDIA BioNeMo 소개