거대 언어 모델(LLM)은 수천억 개의 매개변수가 포함된 인터넷 규모의 데이터 세트로 학습된 딥 러닝 알고리즘입니다. LLM은 읽고, 쓰고, 코딩하고, 그림을 그리고, 인간의 창의력을 증강하여 산업 전반의 생산성을 향상하고 세계에서 가장 어려운 문제를 해결할 수 있습니다.
LLM은 소매업에서 헬스케어에 이르기까지 다양한 산업에서 다양한 업무에 사용됩니다. 이들은 단백질 서열의 언어를 배워 과학자들이 획기적이고 생명을 구할 수 있는 백신을 개발하는 데 도움이 되는 새롭고 실행 가능한 화합물을 생성합니다. 소프트웨어 프로그래머가 자연어 설명을 기반으로 코드를 생성하고 버그를 수정하는 데 도움을 줍니다. 또한 인간이 가장 잘하는 일, 즉 창조하고 질문하고 이해하는 일을 할 수 있도록 생산성 보조 기능을 제공합니다.
엔터프라이즈 애플리케이션 및 워크플로우에서 LLM을 효과적으로 활용하려면 모델 선택, 사용자 지정, 최적화 및 배포와 같은 주요 주제를 이해해야 합니다. 이 게시물에서는 다음과 같은 엔터프라이즈 LLM 주제를 살펴봅니다:
- 조직에서 LLM을 사용하는 방법
- LLM을 사용, 사용자 지정 또는 구축하는 방법
- 파운데이션 모델부터 시작하기
- 맞춤형 언어 모델 구축하기
- LLM을 외부 데이터에 연결하기
- LLM의 보안 및 추적 유지
- 프로덕션 환경에서 LLM 추론 최적화하기
- LLM 사용 시작하기
사용자 지정 모델을 구축하려는 데이터 과학자든, 조직을 위한 LLM의 잠재력을 탐색하는 최고 데이터 책임자든, 귀중한 인사이트와 지침을 읽어보세요.
조직에서 LLM을 사용하는 방법
LLM은 방대한 데이터 집합에서 얻은 지식을 기반으로 텍스트 및 기타 형태의 콘텐츠를 효율적으로 인식, 요약, 번역, 예측, 생성하기 위해 산업 전반에 걸쳐 다양한 애플리케이션에서 사용됩니다. 예를 들어, 기업들은 고객 문의를 지원하고, 개인화된 추천을 제공하며, 내부 지식 관리를 지원하는 챗봇과 같은 인터페이스를 개발하기 위해 LLM을 활용하고 있습니다.
또한 LLM은 산업과 기업 전반에 걸쳐 AI의 범위를 넓히고 연구, 창의성 및 생산성의 새로운 물결을 일으킬 수 있는 잠재력을 가지고 있습니다. 의료 및 화학 등의 분야에서 까다로운 문제에 대한 복잡한 솔루션을 생성하는 데 도움이 될 수 있습니다. LLM은 새로운 검색 엔진, 튜터링 챗봇, 작곡 도구, 마케팅 자료 등을 만드는 데도 사용됩니다.
ServiceNow와 NVIDIA의 협업은 새로운 수준의 자동화를 촉진하여 생산성을 높이고 비즈니스 영향력을 극대화하는 데 도움이 될 것입니다. 현재 검토 중인 생성형 AI 사용 사례에는 사용자 질문에 답변하고 지원 요청을 해결하는 지능형 가상 비서 및 에이전트 개발, 자동 문제 해결, 지식 기반 문서 생성, 채팅 요약에 생성형 AI를 사용하는 것 등이 있습니다.
스웨덴의 한 컨소시엄은 NVIDIA NeMo Megatron과 함께 최첨단 언어 모델을 개발 중이며, 이를 북유럽 지역의 모든 사용자가 사용할 수 있도록 제공할 예정입니다. 이 팀은 스웨덴어, 덴마크어, 노르웨이어, 잠재적으로 아이슬란드어 등 북유럽 언어의 모든 종류의 언어 작업을 처리할 수 있는 무려 1750억 개의 파라미터로 LLM을 훈련하는 것을 목표로 하고 있습니다.
이 프로젝트는 거의 200개국에서 수천 개의 언어를 사용하는 세계에서 디지털 주권의 핵심인 전략적 자산으로 간주됩니다. 자세한 내용은 The King’s Swedish를 참조하세요: 스칸디나비아의 역사를 다시 쓰는 인공지능.
한국의 선도적인 모바일 사업자인 KT는 NVIDIA DGX SuperPOD 플랫폼과 NVIDIA NeMo 프레임워크를 사용하여 10억 개의 파라미터를 가진 LLM을 개발했습니다. NeMo는 엔드투엔드 클라우드 네이티브 엔터프라이즈 프레임워크로, 커스텀 LLM을 구축, 트레이닝 및 실행하기 위한 사전 빌드된 구성 요소를 제공합니다.
KT의 LLM은 음성 명령을 기반으로 TV를 제어하고, 실시간 교통 정보를 제공하며, 기타 홈 어시스턴스 작업을 수행할 수 있는 인공지능 스피커 기가지니(GiGA Genie)의 이해도를 높이는 데 사용되었습니다. 자세한 내용은 한글로 끊김 없이: KT, 스마트 스피커와 고객 콜센터에 NVIDIA AI 교육을 실시하다를 참조하세요.
주요 리소스
- 거대 언어 모델이란 무엇에 사용되나요?
- NYU와 NVIDIA, 환자 재입원 예측을 위한 대규모 언어 모델 개발 협력
- 스타트업 “Writer”, NVIDIA NeMo로 생성형 AI 성공 사례 발표
LLM을 사용, 커스터마이징 또는 구축하시나요?
조직은 기존 LLM을 사용하거나, 사전 학습된 LLM을 커스터마이즈하거나, 처음부터 커스텀 LLM을 구축할 수 있습니다. 기존 LLM을 사용하면 빠르고 비용 효율적인 솔루션을 얻을 수 있으며, 사전 학습된 LLM을 사용자 지정하면 특정 작업에 맞게 모델을 조정하고 독점적인 지식을 포함할 수 있습니다. 처음부터 LLM을 구축하면 유연성이 가장 뛰어나지만 상당한 전문 지식과 리소스가 필요합니다.
NeMo는 여러 가지 사용자 지정 기법을 선택할 수 있으며, 멀티 GPU 및 멀티 노드 구성을 통해 언어 및 이미지 애플리케이션용 모델을 대규모로 추론하는 데 최적화되어 있습니다. 자세한 내용은 NVIDIA NeMo로 엔터프라이즈급 LLM의 성능 활용하기를 참조하세요.
NeMo는 기업에서 생성형 AI 모델을 쉽고 비용 효율적이며 빠르게 개발할 수 있도록 지원합니다. 이 솔루션은 모든 주요 클라우드에서 사용할 수 있으며, 구글 클라우드의 A3 인스턴스의 일부로 NVIDIA H100 Tensor 코어 GPU를 통해 대규모로 LLM을 빌드, 커스터마이징 및 배포할 수 있습니다. 자세한 내용은 GPU 가속 Google Cloud에서 NVIDIA NeMo로 생성형 AI 개발 간소화를 참조하세요.
사용하기 쉬운 인터페이스를 통해 브라우저에서 직접 라마 2와 같은 생성형 AI 모델을 빠르게 사용해 보려면 NVIDIA AI Playground를 방문하세요.
주요 리소스
파운데이션 모델로 시작하기
파운데이션 모델은 자가 지도 학습을 통해 방대한 양의 레이블이 지정되지 않은 데이터로 학습된 대규모 AI 모델입니다. 예를 들면 Llama 2, GPT-3, Stable Diffusion 등이 있습니다.
이 모델들은 이미지 분류, 자연어 처리, 질문 답변 등 다양한 작업을 놀라운 정확도로 처리할 수 있습니다.
이러한 파운데이션 모델은 보다 전문적이고 정교한 맞춤 모델을 구축하기 위한 출발점입니다. 조직은 도메인별 레이블이 지정된 데이터를 사용하여 파운데이션 모델을 맞춤화하여 특정 사용 사례에 대해 보다 정확하고 컨텍스트를 인식하는 모델을 만들 수 있습니다.
파운데이션 모델은 입력에 따를 수 있는 모든 항목에 대한 확률 분포를 생성한 다음 해당 분포에서 다음 출력을 무작위로 선택함으로써 단일 프롬프트에서 엄청난 수의 고유한 응답을 생성합니다. 무작위화는 모델의 컨텍스트 사용에 의해 증폭됩니다. 모델이 확률 분포를 생성할 때마다 마지막으로 생성된 항목을 고려하므로 각 예측이 그 다음 예측에 영향을 미칩니다.
NeMo는 NVIDIA에서 훈련된 파운데이션 모델뿐만 아니라 Llama 2, Falcon LLM, MPT와 같은 커뮤니티 모델도 지원합니다. NVIDIA AI Playground에서 브라우저에서 직접 최적화된 다양한 커뮤니티 및 NVIDIA가 구축한 파운데이션 모델을 무료로 체험할 수 있습니다. 그런 다음 독점적인 엔터프라이즈 데이터를 사용하여 파운데이션 모델을 사용자 지정할 수 있습니다. 그 결과 비즈니스 및 도메인에 대한 전문성을 갖춘 모델을 만들 수 있습니다.
주요 리소스
맞춤형 언어 모델 구축
기업은 특정 사용 사례와 도메인 지식에 맞게 언어 처리 기능을 조정하기 위해 맞춤형 모델이 필요한 경우가 많습니다. 맞춤형 LLM을 사용하면 특정 산업 또는 조직 컨텍스트 내에서 텍스트를 보다 효율적이고 정확하게 생성하고 이해할 수 있습니다. 이를 통해 기업은 브랜드 보이스에 부합하는 개인화된 솔루션을 만들고, 워크플로를 최적화하며, 보다 정확한 인사이트를 제공하고, 향상된 사용자 경험을 제공하여 궁극적으로 시장에서 경쟁 우위를 확보할 수 있습니다.
NVIDIA NeMo는 온프레미스, 모든 주요 클라우드 서비스 제공업체 또는 NVIDIA DGX 클라우드에서 커스텀 LLM을 구축하고 교육하기 위한 구성 요소를 제공하는 강력한 프레임워크입니다. 여기에는 즉각적인 학습부터 매개변수의 효율적인 미세 조정, 휴먼 피드백을 통한 강화 학습(RLHF)에 이르는 다양한 커스터마이징 기술이 포함되어 있습니다. 또한, NVIDIA는 추론 중에 튜닝할 수 있는 새로운 개방형 커스터마이징 기술인 SteerLM을 출시했습니다.
LLM을 훈련할 때는 항상 “쓰레기 입력, 쓰레기 출력(garbage in, garbage out.)”이 될 위험이 있습니다. 대부분의 노력은 LLM을 훈련하거나 사용자 지정하는 데 사용할 데이터를 수집하고 큐레이팅하는 데 집중됩니다.
NeMo 데이터 큐레이터는 확장 가능한 데이터 큐레이션 도구로, LLM의 사전 학습을 위해 조 단위의 다국어 데이터 세트를 큐레이션할 수 있습니다. 이 도구를 사용하면 데이터 세트를 전처리하고 정확도 또는 퍼지 중복 제거를 통해 중복을 제거할 수 있으므로 고유한 문서에 대해 모델을 학습시킬 수 있어 학습 비용을 크게 절감할 수 있습니다.
주요 리소스
- NVIDIA NeMo
- NVIDIA DGX 클라우드
- 거대 언어 모델 커스터마이징 기법 선택하기
- 추론 중에 모델의 응답을 커스터마이징할 수 있도록 하는 NVIDIA NeMo SteerLM
- 조 단위 데이터 세트 큐레이팅: NVIDIA NeMo 데이터 큐레이터 소개
LLM을 외부 데이터에 연결
LLM을 외부 엔터프라이즈 데이터 소스에 연결하면 기능이 향상됩니다. 이를 통해 LLM은 더 복잡한 작업을 수행하고 마지막으로 학습된 이후 생성된 데이터를 활용할 수 있습니다
검색 증강 생성(RAG)은 추가, 삭제, 업데이트가 용이한 최신의 큐레이션된 도메인별 데이터 소스를 사용할 수 있는 기능을 LLM에 제공하는 아키텍처입니다. RAG를 사용하면 외부 데이터 소스가 임베딩 모델을 사용하여 벡터로 처리되고 벡터 데이터베이스에 배치되어 추론 시점에 빠르게 검색할 수 있습니다.
RAG는 계산 및 재정적 비용을 절감할 뿐만 아니라 정확도를 높이고 더욱 안정적이고 신뢰할 수 있는 AI 기반 애플리케이션을 구현할 수 있게 해줍니다. 벡터 검색 가속화는 LLM과 제너레이티브 AI에 적용되기 때문에 AI 환경에서 가장 뜨거운 주제 중 하나입니다.
주요 리소스
벡터 검색 가속화: RAPIDS RAFT와 함께 GPU 기반 인덱스 사용하기
LLM의 추적 및 보안 유지
LLM의 동작이 원하는 결과에 부합하도록 하려면 가이드라인을 수립하고, 성능을 모니터링하며, 필요에 따라 사용자 지정하는 것이 중요합니다. 여기에는 윤리적 경계를 정의하고, 훈련 데이터의 편향을 해결하고, 사전 정의된 메트릭에 대해 모델의 출력을 정기적으로 평가하는 것이 포함되며, 종종 가드레일 기능과 함께 사용됩니다. 자세한 내용은 신뢰할 수 있고 안전하며 보안이 뛰어난 대규모 언어 모델 대화 시스템을 지원하는 NVIDIA를 참조하세요.
이러한 요구 사항을 해결하기 위해 NVIDIA는 개발자가 생성형 AI 애플리케이션의 정확성, 적절성 및 안전성을 보장하는 데 도움이 되는 오픈 소스 툴킷인 NeMo Guardrails를 개발했습니다. 이 툴킷은 개발자가 기초 모델을 활용하는 안전하고 신뢰할 수 있는 LLM 대화 시스템을 보다 쉽게 구축할 수 있도록 OpenAI의 ChatGPT를 비롯한 모든 LLM과 함께 작동하는 프레임워크를 제공합니다.
LLM을 안전하게 유지하는 것은 생성형 AI 기반 애플리케이션에서 가장 중요합니다. 또한, NVIDIA는 AI 워크로드를 위한 엔비디아 H100 Tensor 코어 GPU의 전례 없는 가속화에 대한 액세스를 제공하면서 위협을 완화하는 획기적인 보안 기능인 가속화된 컨피덴셜 컴퓨팅(Confidential Computing)을 도입했습니다. 이 기능을 사용하면 처리 중에도 민감한 데이터를 안전하게 보호할 수 있습니다.
주요 리소스
- 신뢰할 수 있고 안전하며 보안이 뛰어난 대규모 언어 모델 대화 시스템을 구현하는 NVIDIA
- 바로 시작하기 – 개발자가 AI 챗봇에 가드레일을 추가할 수 있도록 지원하는 NVIDIA 오픈 소스 소프트웨어
- NVIDIA Hopper H100의 컨피덴셜 컴퓨팅
프로덕션 환경에서 LLM 추론 최적화
LLM 추론 최적화에는 모델 양자화, 하드웨어 가속화, 효율적인 배포 전략과 같은 기술이 포함됩니다. 모델 양자화는 모델의 메모리 풋프린트를 줄이고, 하드웨어 가속화는 GPU와 같은 특수 하드웨어를 활용하여 추론 속도를 높입니다. 효율적인 배포 전략은 프로덕션 환경에서 확장성과 안정성을 보장합니다.
NVIDIA TensorRT-LLM은 NVIDIA 가속 컴퓨팅에서 대규모 LLM 추론을 강화하는 오픈 소스 소프트웨어 라이브러리입니다. 이를 통해 사용자는 모델 가중치를 새로운 FP8 형식으로 변환하고 모델을 컴파일하여 NVIDIA H100 GPU로 최적화된 FP8 커널을 활용할 수 있습니다. TensorRT-LLM은 추론 성능을 NVIDIA A100 GPU에 비해 4.6배 가속화할 수 있습니다. 또한 LLM을 더 빠르고 효율적으로 실행할 수 있는 방법을 제공하여 접근성과 비용 효율성을 높입니다.
이러한 맞춤형 생성형 AI 프로세스에는 모델, 프레임워크, 툴킷 등을 통합하는 작업이 포함됩니다. 이러한 도구 중 상당수는 오픈 소스이므로 개발 프로젝트를 유지하는 데 많은 시간과 에너지가 필요합니다. 특히 여러 환경과 플랫폼에서 협업하고 배포하려는 경우 프로세스가 매우 복잡하고 시간이 많이 소요될 수 있습니다.
NVIDIA AI Workbench는 데이터, 모델, 리소스 및 컴퓨팅 요구 사항을 관리하기 위한 단일 플랫폼을 제공하여 이 프로세스를 간소화하는 데 도움을 줍니다. 이를 통해 개발자는 원활한 협업과 배포를 통해 비용 효율적이고 확장 가능한 생성형 AI 모델을 빠르게 생성할 수 있습니다.
NVIDIA와 VMware는 VMware Cloud Foundation에 구축된 최신 데이터센터를 혁신하고 모든 엔터프라이즈에 AI를 제공하기 위해 협력하고 있습니다. VMware 고객은 NVIDIA AI 엔터프라이즈 제품군과 NVIDIA의 최첨단 GPU 및 데이터 처리 장치(DPU)를 사용하여 NVIDIA 인증 시스템에서 기존 엔터프라이즈 애플리케이션과 함께 현대적이고 가속화된 워크로드를 안전하게 실행할 수 있습니다.
주요 리소스
- 이제 정식 버전으로 제공되는 NVIDIA TensorRT-LLM을 통한 대규모 언어 모델 추론 최적화
- NVIDIA AI Workbench를 통한 확장 가능한 생성형 AI 모델의 원활한 개발 및 배포
- VMware 및 NVIDIA를 통한 데이터센터 현대화
LLM 시작하기
LLM을 시작하려면 비용, 노력, 트레이닝 데이터 가용성 및 비즈니스 목표와 같은 요소를 고려해야 합니다. 조직은 대부분의 상황에서 기존 모델을 사용하고 도메인별 지식으로 사용자 지정하는 것과 처음부터 사용자 지정 모델을 구축하는 것 사이의 장단점을 평가해야 합니다. 아래 나열된 것을 포함하여 특정 사용 사례 및 기술 요구 사항에 맞는 도구와 프레임워크를 선택하는 것이 중요합니다.
생성형 AI 지식 기반 챗봇 실습에서는 기존 AI 기본 모델을 조정하여 특정 사용 사례에 대한 응답을 정확하게 생성하는 방법을 보여줍니다. 이 무료 실습에서는 프롬프트 학습을 사용하여 모델을 커스터마이징하고, 벡터 데이터베이스에 데이터를 수집하고, 모든 구성 요소를 연결하여 챗봇을 만드는 실습 경험을 제공합니다.
모든 주요 클라우드 및 데이터센터 플랫폼에서 사용할 수 있는 NVIDIA AI 엔터프라이즈는 NeMo 프레임워크, 사전 훈련된 모델, 가속화된 GPU 인프라에 최적화된 개발 도구 등 50개 이상의 프레임워크를 제공하는 클라우드 네이티브 AI 및 데이터 분석 소프트웨어 제품군입니다. 이 엔드투엔드 엔터프라이즈용 소프트웨어 제품군을 90일 무료 평가판으로 사용해 볼 수 있습니다.
NeMo는 개발자가 수십억 개의 파라미터를 사용하여 생성형 AI 모델을 빌드, 사용자 지정 및 배포할 수 있는 엔드투엔드 클라우드 네이티브 엔터프라이즈 프레임워크입니다. 이 프레임워크는 멀티 GPU 및 멀티 노드 구성으로 모델을 대규모로 추론하는 데 최적화되어 있습니다. 이 프레임워크를 사용하면 기업에서 생성형 AI 모델을 쉽고 비용 효율적이며 빠르게 개발할 수 있습니다. 시작하려면 NeMo 튜토리얼을 살펴보세요.
NVIDIA 교육은 포괄적인 기술 실습 워크샵과 과정을 제공하여 조직이 최신 기술에 대해 인력을 교육하고 기술 격차를 해소할 수 있도록 지원합니다. NVIDIA 주제별 전문가가 개발한 LLM 학습 과정는 소프트웨어 엔지니어링 및 IT 운영 팀과 관련된 기초부터 고급 주제에 이르기까지 다양합니다. NVIDIA 교육 어드바이저는 맞춤형 교육 계획을 개발하고 팀을 위한 합리적인 가격을 제공합니다.
주요 리소스
요약
기업이 AI 발전에 발맞추기 위해 경쟁함에 따라 LLM을 채택하는 데 가장 적합한 접근 방식을 파악하는 것이 필수적입니다. 파운데이션 모델은 개발 프로세스를 빠르게 시작하는 데 도움이 됩니다. 주요 도구와 환경을 사용하여 데이터를 효율적으로 처리 및 저장하고 모델을 커스터마이즈하면 생산성을 크게 높이고 비즈니스 목표를 달성할 수 있습니다.
관련 리소스
- GTC 세션: 콘텐츠 생성을 위한 대규모 언어 모델 활용하기
- GTC 세션: 엔터프라이즈 사용 사례를 위한 생성형 AI 구축 방법
- GTC 세션: 대규모 언어 모델의 힘: 현재 상태와 미래 잠재력
- SDK: NeMo Megatron
- 웨비나: 대규모 언어 모델 구현하기
- 웨비나: AI 팀이 생성형 AI에 대해 알아야 할 사항