NVIDIA 연구원들이 금요일, 인공지능 분야에서 인류의 범용 인공지능(AGI) 진척도를 실시간으로 가늠하는 지표로 여겨지는 주요 Kaggle 대회에서 우승을 차지했습니다.
NVIDIA의 Kaggle 그랜드마스터(Kaggle Grandmasters of NVIDIA, KGMoN) 멤버인 Ivan Sorokin과 Jean-Francois Puget은 Kaggle ARC Prize 2025 공개 리더보드에서 27.64%의 점수로 1위를 차지했습니다. 이들은 ARC-AGI-2 벤치마크의 기반이 되는 것과 동일한 데이터셋으로 평가되는 솔루션을 구축했습니다.
팀 NVARC은 4B 모델 변형을 파인튜닝하여, 동일한 벤치마크에서 훨씬 더 크고 값비싼 모델들을 능가했으며, 작업당 단 20센트의 비용으로 이를 달성했습니다. 이는 단순히 최고 성능을 넘어, 확장 가능하면서도 비용 효율적인 AGI 스타일 추론 방식의 새로운 가능성을 입증한 성과였습니다.
ARC-AGI 벤치마크는 AI 시스템이 그리드 기반 시각 퍼즐을 사용하여 추상적 추론을 얼마나 잘 수행하고, 매우 적은 수의 예제로부터 얼마나 잘 일반화하는지를 측정합니다. ARC-AGI-2는 공개 학습 데이터와의 중복을 제거한 더 어렵고 업데이트된 버전입니다. 이는 단축키와 무차별 암기(brute-force memorization)를 막도록 명시적으로 설계되어, 진정한 체계적 추상화를 위한 더욱 날카로운 테스트가 됩니다.
ARC-AGI 벤치마크는 AI가 일반적 추론 능력에 얼마나 가까워지고 있는지를 가장 면밀히 보여주는 핵심 지표로 자리 잡았습니다. 일반적인 머신러닝 벤치마크와는 달리 ARC-AGI 과제는 단순한 규모 확장이나 암기, 패턴 추출만으로는 해결할 수 없습니다. 각 퍼즐은 몇 개의 예시만 제공하는 작은 그리드 형태이며, 시스템은 여기에 담긴 추상적 규칙을 스스로 도출해 완전히 새로운 테스트 사례에 적용해야 합니다. 더 난이도 높은 ARC-AGI-2 점수는 AI 시스템이 극도로 제한된 정보에서 얼마나 효과적으로 학습할 수 있는지를 가늠하는 대표적 척도로 널리 받아들여지고 있습니다.
이 때문에 Kaggle ARC Prize 2025 리더보드의 의미가 큽니다. 이 대회는 엄격한 연산 및 시간 제한 속에서 연구자들이 AGI 스타일 추론 능력을 가장 개방적이고, 재현 가능하며, 공정한 조건에서 검증할 수 있는 장이기 때문입니다.
우승한 NVIDIA NVARC 솔루션은 거대한 모델이나 무차별적인 검색으로 구동되지 않았습니다. 대신, 모든 개발자들이 높이 평가할 만한 세 가지 아이디어에 의존했습니다: 합성 데이터(Synthetic Data), 테스트 시간 학습(Test-Time Training), 그리고 체계적인 엔지니어링입니다.
무거운 LLM 추론 방법(Chain-of-Thought, 도구 사용, 심지어 RL 스타일 에이전트)은 Kaggle의 촉박한 런타임 내에 맞출 수 없었습니다. 그래서 NVARC는 전략을 뒤집었습니다. 모든 복잡한 추론을 오프라인 합성 데이터 파이프라인으로 옮기고, 평가 중에 빠르게 실행될 수 있는 더 작은 모델을 훈련시킨 것입니다.
이 팀은 단계별 퍼즐 생성, 개념 분해, 그리고 투명하고 재현 가능한 연구를 가능하게 하는 Qwen과 같은 점진적으로 더 강력한 공개 가중치 모델을 사용하여 파인튜닝을 진행함으로써, ARC 스타일 작업의 다양하고 광범위한 합성 코퍼스를 구축했습니다. 공개 모델을 통해 팀은 가중치를 검사하고 조정하고, 방법을 공유하며, 추론 시스템을 신속하게 반복할 수 있었고, 최첨단 수준의 기능을 광범위하게 접근 가능하고 협력적인 기반으로 전환했습니다.
최종 모델들은 전체 프로그램-검색 로직을 실행하는 대신 패턴을 인식하고 적응하기만 하면 되었습니다. 테스트 시간 학습(Test-Time Training)은 각 퍼즐의 작은 예제 세트로부터 특이점을 학습하는데, 이는 ARC-AGI 최고 성능을 위해 필수적인 기술이 되었습니다.
그 결과는 훨씬 더 큰 시스템을 능가하고 ARC-AGI-2에서 새로운 기준을 설정한 작고 비용 효율적인 앙상블이었습니다. 이는 합성 데이터와 적응형 학습이 추론을 어떻게 발전시킬 수 있는지를 보여줍니다.
이러한 우승 솔루션을 성공적으로 구축하기 위해, 팀은 확장 가능한 강화 학습을 위한 NeMo RL과 SDG(Synthetic Data Generation, 합성 데이터 생성) 파이프라인 간소화를 위한 NeMo Skills를 포함한 NVIDIA NeMo 툴 스위트를 활용했습니다.
NVARC가 Kaggle에 올린 기술적 상세 내용과 ARC와의 인터뷰를 통해 더 자세히 알아보세요.