LLM 기술 마스터하기: LLMOps

Reading Time: 8 minutes

기업은 혁신을 이루고, 고객에게 가치를 제공하며, 경쟁력을 유지하기 위해 그 어느 때보다 데이터와 AI에 의존하고 있습니다. 머신 러닝(ML)을 도입하면서 코드, 데이터, 모델을 안정적이고 비용 효율적으로 대규모로 관리할 수 있는 도구, 프로세스, 조직 원칙이 필요해졌는데요, 이는 머신 러닝 운영(MLOps)이라고 널리 알려져 있습니다.

전 세계는 특히 기초 모델과 대규모 언어 모델(LLM)을 기반으로 하는 새로운 생성형 AI 시대로 빠르게 진입하고 있습니다. 그리고 ChatGPT의 출시는 이러한 전환을 더욱 가속화했습니다.

프로덕션 환경에서 생성형 AI 및 LLM 기반 앱을 개발하고 관리해야 하는 과제를 해결하기 위한 MLOps의 발전으로 생성형 AI 운영(GenAIOps)과 대규모 언어 모델 운영(LLMOps)이라는 새롭고 전문화된 영역이 등장했습니다.

본 게시물에서는 생성형 AI 앱 개발 여정을 간략하게 설명하고, GenAIOps와 LLMOps의 개념을 정의한 다음, 이를 MLOps와 비교 설명할 예정입니다. 또한 전사적인 AI 혁신을 실행하는 비즈니스 리더에게 운영 마스터가 가장 중요한 이유에 대해서도 소개할 것입니다.

엔터프라이즈를 위한 최신 생성형 AI 앱 구축

최신 생성형 AI 앱을 향한 여정은 세상에 대한 기초 지식을 학습하고 새로운 기능을 습득하기 위한 사전 학습 단계를 거치는 기초 모델에서부터 시작됩니다. 다음 단계는 사람이 생성한 프롬프트와 응답의 큐레이션된 데이터 세트를 사용하여 모델을 사람의 선호도, 행동, 가치에 맞게 조정하는 것입니다. 이를 통해 모델에 정확한 지침을 따르는 기능을 부여합니다. 사용자는 직접 기초 모델을 학습시키거나 사전 학습된 모델을 사용할 수 있습니다.

예를 들어, NVIDIA Nemotron-3와 같은 다양한 파운데이션 모델과 라마(Llama)와 같은 커뮤니티 모델을 NVIDIA AI Foundations을 통해 사용할 수 있습니다. 이러한 모델은 모두 NVIDIA의 전용 알고리즘 및 시스템 최적화, 보안, NVIDIA AI Enterprise에서 제공하는 엔터프라이즈급 지원을 통해 향상됩니다.

*그림 1. 맞춤형 기초 모델 및 검색 증강 생성(RAG)로 구동되는 생성 AI 애플리케이션의 수명 주기*

다음은 커스터마이징 단계입니다. 기초 모델은 작업별 프롬프트와 결합되거나 선별된 엔터프라이즈 데이터 세트에서 파인튜닝됩니다. 기초 모델에 대한 지식은 사전 학습 및 파인튜닝 데이터로 제한되며, 모델을 지속적으로 재학습하지 않으면 시간이 지남에 따라 구식이 되어 많은 비용이 발생할 수 있습니다.

검색 증강 생성(RAG) 워크플로우는 최신성을 유지하고 쿼리 시간 동안 외부 지식을 기반으로 모델을 유지하기 위해 사용됩니다. 이는 생성형 AI 앱 개발 수명 주기에서 가장 중요한 단계 중 하나이며, 모델이 엔터프라이즈 데이터에 숨겨진 고유한 관계를 학습할 때 사용됩니다.

커스터마이징이 끝나면 모델은 독립적으로 또는 여러 기초 모델과 API를 결합하여 엔드투엔드 애플리케이션 로직을 제공하는 체인의 일부로 실제 사용할 준비가 됩니다. 이 시점에서 전체 AI 시스템의 정확성, 속도 및 취약성을 테스트하고 모델 출력의 정확성, 안전성 및 보안을 보장하기 위한 가드레일을 추가하는 것이 중요합니다.

마지막으로 피드백 루프가 닫힙니다. 사용자는 사용자 인터페이스를 통해 앱과 상호 작용하거나 시스템 계측을 사용하여 자동으로 데이터를 수집합니다. 이 정보는 모델과 A/B 테스트를 지속적으로 업데이트하는 데 사용되어 고객에 대한 가치를 높일 수 있습니다.

기업에는 일반적으로 다양한 사용 사례, 비즈니스 기능 및 워크플로우에 맞게 커스터마이징된 여러 생성형 AI 앱이 있습니다. 이러한 AI 포트폴리오는 원활한 운영, 윤리적 사용, 사고, 편향성 또는 퇴보를 해결하기 위한 신속한 알림을 보장하기 위해 지속적인 감독과 위험 관리가 필요합니다.

GenAIOps는 자동화를 통해 연구부터 생산까지 이 여정을 가속화합니다. 개발 및 운영 비용을 최적화하고, 모델의 품질을 개선하며, 모델 평가 프로세스에 견고성을 더하고, 대규모로 지속적인 운영을 보장합니다.

GenAIOps, LLMOps 그리고 RAGOps의 이해

생성형 AI와 관련된 몇 가지 용어가 있습니다. 다음 섹션에서 그 정의에 대해 간략히 설명합니다.

*그림 2. 전문화 수준에 따라 구성된 AI 유형 및 관련 작업의 계층 구조*

AI를 일련의 중첩된 계층으로 생각하면 됩니다. 가장 바깥쪽 계층에서 ML은 프로그램의 로직이 명시적으로 정의되지 않고 데이터로부터 학습되는 지능형 자동화를 다룹니다. 더 깊이 들어가면 LLM이나 RAG에 구축된 것과 같은 특수한 AI 유형을 만나게 됩니다. 마찬가지로 재현성, 재사용, 확장성, 신뢰성, 효율성을 가능하게 하는 중첩된 개념이 있습니다.

각 개념은 기초적인 MLOps부터 새로 개발된 RAGOps 라이프사이클에 이르기까지 이전의 기능을 기반으로 하여 기능을 추가하거나 개선합니다:

MLOps는 프로덕션 환경에서 엔드투엔드 머신 러닝 시스템 개발 및 운영을 위한 핵심 도구, 프로세스 및 모범 사례를 포괄하는 중요한 개념입니다.
GenAIOps는 MLOps를 확장하여 생성형 AI 솔루션을 개발 및 운영합니다. GenAIOps의 뚜렷한 특징은 파운데이션 모델의 관리 및 상호 작용입니다.
LLMOps는 LLM 기반 솔루션의 개발 및 생산화에 특별히 초점을 맞춘 GenAIOps의 고유한 유형입니다.
RAGOps는 LLMOps의 하위 클래스로, RAG의 제공 및 운영에 중점을 두며, 생성형 AI 및 LLM을 위한 궁극적인 참조 아키텍처로 간주되어 대규모 채택을 주도합니다.

GenAIOps와 LLMOps는 전체 AI 라이프사이클에 걸쳐 있습니다. 여기에는 기초 모델 사전 학습, 감독 미세 조정을 통한 모델 조정, 인간 피드백을 통한 강화 학습(RLHF), 사전/사후 처리 로직과 결합된 특정 사용 사례에 대한 사용자 지정, 다른 기초 모델, API 및 가드레일과의 연쇄 연결이 포함됩니다. RAGOps 범위에는 사전 교육이 포함되지 않으며, 기초 모델이 RAG 수명 주기에 대한 입력으로 제공된다고 가정합니다.

GenAIOps, LLMOps, RAGOps는 AI 개발을 가능하게 하는 도구나 플랫폼 기능에 관한 것이 아닙니다. 목표와 KPI를 설정하고, 팀을 구성하고, 진행 상황을 측정하고, 운영 프로세스를 지속적으로 개선하기 위한 방법론도 다룹니다.

생성형 AI 및 LLM을 위한 MLOps 확장

핵심 개념이 정의되면 서로를 구분하는 미묘한 차이에 집중할 수 있습니다.

MLOps

MLOps는 프로덕션 환경에서 머신 러닝 모델의 개발, 학습, 평가, 최적화, 배포, 추론 및 모니터링에 대한 구조화된 접근 방식을 위한 토대를 마련합니다.

MLOps의 주요 아이디어와 기능은 다음과 같이 생성형 AI와 관련이 있습니다.

인프라 관리: 프로그래밍 방식으로 기본 하드웨어에 액세스하기 위해 컴퓨팅, 스토리지 및 네트워킹 리소스를 요청, 프로비저닝 및 구성합니다.
데이터 관리: 교육 및 평가를 위해 데이터를 수집, 수집, 저장, 처리 및 레이블 지정합니다. 역할 기반 액세스 제어, 데이터 세트 검색, 탐색 및 탐색, 데이터 출처 추적, 데이터 로깅, 데이터 세트 버전 관리, 메타데이터 인덱싱, 데이터 품질 검증, 데이터 세트 카드, 데이터 시각화를 위한 대시보드 등을 구성할 수 있습니다.
워크플로우 및 파이프라인 관리: 클라우드 리소스 또는 로컬 워크스테이션으로 작업하고, 데이터 준비, 모델 훈련, 모델 평가, 모델 최적화, 모델 배포 단계를 데이터와 컴퓨팅을 결합한 자동화된 확장 가능한 엔드투엔드 워크플로에 연결하세요.
모델 관리: 프로덕션을 위한 모델 훈련, 평가 및 최적화, 중앙 집중식 모델 레지스트리에 모델 카드와 함께 모델 저장 및 버전 관리, 모델 위험 평가 및 표준 준수 보장.
실험 관리 및 통합 가시성: 학습 데이터, 모델, 하이퍼파라미터의 변경 사항을 포함하여 다양한 머신러닝 모델 실험을 추적하고 비교합니다. 주어진 모델 아키텍처에 대해 가능한 모델 아키텍처 및 하이퍼파라미터의 공간을 자동으로 검색하고, 추론 중에 모델 성능을 분석하고, 모델 입력과 출력에서 개념이 흐트러지는지 모니터링하세요.
인터랙티브 개발: 개발 환경을 관리하고 외부 버전 관리 시스템, 데스크톱 IDE 및 기타 독립형 개발자 도구와 통합하여 팀이 프로토타입을 제작하고, 작업을 시작하고, 프로젝트에서 더 쉽게 협업할 수 있도록 지원합니다.

GenAIOps

GenAIOps는 언어, 이미지, 멀티모달에 이르는 모든 생성형 AI 워크로드에 대해 MLOps, 코드 개발 운영(DevOps), 데이터 운영(DataOps), 모델 운영(ModelOps)을 포괄합니다. 데이터 큐레이션 및 모델 학습, 사용자 지정, 평가, 최적화, 배포, 위험 관리는 생성형 AI를 위해 다시 생각해야 합니다.

새롭게 부상하는 GenAIOps 기능에는 다음과 같은 것들이 포함됩니다:

합성 데이터 관리: 새로운 네이티브 생성형 AI 기능으로 데이터 관리를 확장합니다. 도메인 무작위화를 통해 합성 훈련 데이터를 생성하여 전이 학습 기능을 강화합니다. 에지 사례를 선언적으로 정의하고 생성하여 모델 정확도와 견고성을 평가, 검증 및 인증합니다.
임베딩 관리: 모든 양식의 데이터 샘플을 고밀도 다차원 임베딩 벡터로 표현하고, 벡터 데이터베이스에서 임베딩을 생성, 저장 및 버전 관리합니다. 임베딩을 시각화하여 즉석에서 탐색할 수 있습니다. 능동 학습 루프의 일부로 RAG에 대한 벡터 유사성 검색, 데이터 라벨링 또는 데이터 큐레이션을 통해 관련 컨텍스트 정보를 찾을 수 있습니다. GenAIOps의 경우, 임베딩과 벡터 데이터베이스를 사용하면 MLOps와 관련된 기능 관리 및 기능 저장소를 대체할 수 있습니다.
에이전트/체인 관리: 복잡한 다단계 애플리케이션 로직을 정의합니다. 여러 파운데이션 모델과 API를 함께 결합하고, RAG 패턴에 따라 외부 메모리와 지식으로 파운데이션 모델을 보강할 수 있습니다. 비결정적 출력 또는 복잡한 계획 전략으로 체인을 디버그, 테스트 및 추적하고, 다단계 체인의 실행 흐름을 실시간 및 오프라인으로 시각화 및 검사할 수 있습니다. 에이전트/체인 관리는 추론 파이프라인의 핵심 부분으로서 전체 생성형 AI 라이프사이클에 걸쳐 중요합니다. 에이전트/체인 관리는 MLOps를 위한 워크플로/파이프라인 관리의 확장 역할을 합니다.
가드 레일: 적대적이거나 지원되지 않는 입력을 기초 모델로 보내기 전에 가로챕니다. 모델 출력이 정확하고 관련성이 있으며 안전하고 보안이 유지되는지 확인합니다. 대화 및 활성 컨텍스트의 상태를 유지 및 확인하고, 의도를 감지하고, 콘텐츠 정책을 적용하면서 조치를 결정하세요. 가드레일은 모델 관리에서 다루는 AI 입력/출력의 규칙 기반 사전/사후 처리를 기반으로 구축됩니다.
프롬프트 관리: 프롬프트 생성, 저장, 비교, 최적화 및 버전 관리. 프롬프트 엔지니어링 중에 입력 및 출력을 분석하고 테스트 사례를 관리합니다. 매개변수화된 프롬프트 템플릿을 생성하고, 사용자와 앱이 상호 작용하는 동안 시작점 역할을 하는 최적의 추론 시간 하이퍼파라미터 및 시스템 프롬프트를 선택하고, 각 기반 모델에 대한 프롬프트를 조정할 수 있습니다. 프롬프트 관리는 고유한 기능을 통해 생성형 AI를 위한 실험 관리의 논리적 확장입니다.

LLMOps

LLMOps는 프로덕션 애플리케이션에서 언어 사용 사례를 위한 트랜스포머 기반 네트워크 운영에 중점을 둔 광범위한 GenAIOps 패러다임의 하위 집합입니다. 언어는 다른 양식과 결합하여 AI 시스템 동작을 안내할 수 있는 기본 양식으로, 예를 들어 NVIDIA Picasso는 시각 콘텐츠 제작을 위해 텍스트와 이미지 양식을 결합한 멀티모달 시스템입니다.

이 경우 텍스트는 특정 작업을 위한 플러그인으로 사용되는 다른 데이터 양식 및 기반 모델과 함께 AI 시스템의 제어 루프를 구동합니다. 자연어 인터페이스는 사용자와 개발자 기반을 확장하고 AI 채택 장벽을 낮춥니다. LLMOps에 포함된 일련의 작업에는 프롬프트 관리, 에이전트 관리 및 RAGOps가 포함됩니다.

RAGOps를 통한 생성형 AI 도입 촉진

RAG는 범용 LLM의 기능을 향상시키기 위해 설계된 워크플로우입니다. 쿼리 시간 동안 독점 데이터 세트의 정보를 통합하고 생성된 답변을 사실에 근거하여 사실의 정확성을 보장합니다. 기존 모델은 외부 지식 없이도 감성 분석과 같은 작업에 맞게 미세 조정할 수 있지만, RAG는 질문 답변과 같이 외부 지식 소스에 액세스하여 이점을 얻을 수 있는 작업에 맞게 조정됩니다.

RAG는 정보 검색 구성 요소와 텍스트 생성기를 통합합니다. 이 프로세스는 두 단계로 구성됩니다:

문서 검색 및 수집 – 문서를 수집하고 임베딩 모델을 사용하여 텍스트를 청킹하여 벡터로 변환하고 벡터 데이터베이스에 저장하는 프로세스입니다.
사용자 쿼리 및 응답 생성 – 사용자 쿼리는 쿼리 시점에 임베딩 모델과 함께 임베딩 공간으로 변환되며, 임베딩 모델은 벡터 데이터베이스에서 가장 일치하는 청크와 문서를 검색하는 데 사용됩니다. 원래 사용자 쿼리와 상위 문서는 커스터마이징 생성기 LLM에 공급되어 최종 응답을 생성하고 사용자에게 다시 렌더링합니다.

또한 포괄적인 재교육 없이도 지식을 업데이트할 수 있다는 장점이 있습니다. 이 접근 방식은 생성된 응답의 신뢰성을 보장하고 출력의 ‘환각(Hallucination)’ 문제를 해결합니다.

RAGOps는 LLMOps의 확장입니다. 여기에는 임베딩 및 검색 모델과 함께 전통적인 의미의 문서와 데이터베이스는 물론 벡터화된 형식의 문서와 데이터베이스 관리가 포함됩니다. RAGOps는 생성형 AI 앱 개발의 복잡성을 하나의 패턴으로 간소화합니다. 따라서 더 많은 개발자가 새롭고 강력한 애플리케이션을 구축할 수 있고 AI 도입 장벽을 낮출 수 있습니다.

GenAIOps는 다양한 비즈니스 이점을 제공합니다.

연구자와 개발자가 GenAIOps를 마스터하여 DevOps, DataOps, ModelOps를 넘어 확장하면 많은 비즈니스 이점을 얻을 수 있습니다. 여기에는 다음이 포함됩니다.

시장 출시 기간 단축: 엔드투엔드 생성형 AI 워크플로우의 자동화 및 가속화는 AI 제품 반복 주기를 단축하여 조직이 더욱 역동적이고 새로운 과제에 적응할 수 있도록 합니다.
더 높은 수율과 혁신: AI 시스템 개발 프로세스를 간소화하고 추상화 수준을 높임으로써 GenAIOps는 더 많은 실험을 수행할 수 있고 엔터프라이즈 애플리케이션 개발자의 참여를 높여 AI 제품 릴리스를 최적화할 수 있습니다.
위험 완화: 기초 모델은 산업을 혁신할 수 있는 잠재력을 가지고 있지만, 학습 데이터에 내재된 편견이나 부정확성을 증폭시킬 수 있는 위험도 있습니다. 하나의 기초 모델의 결함은 모든 다운스트림 모델과 체인으로 전파됩니다. GenAIOps는 이러한 결함을 최소화하고 윤리적 문제를 정면으로 해결하려는 사전 예방적 자세를 보장합니다.
간소화된 협업: GenAIOps는 하나의 프로젝트 내에서 데이터 엔지니어링부터 연구, 제품 엔지니어링에 이르기까지 팀 간에 원활한 핸드오프를 가능하게 하고 프로젝트 간에 아티팩트와 지식 공유를 촉진합니다. 이를 위해서는 엄격한 운영 엄격성, 표준화, 협업 도구가 필요하며 여러 팀이 동기화 상태를 유지해야 합니다.
린 운영: GenAIOps는 워크로드 최적화, 일상적인 작업 자동화, AI 라이프사이클의 모든 단계에 특화된 도구의 가용성을 통해 낭비를 줄일 수 있도록 지원합니다. 이는 생산성 향상과 총소유비용(TCO) 절감으로 이어집니다.
재현성: GenAIOps는 코드, 데이터, 모델, 구성에 대한 기록을 유지하여 성공적인 실험 실행을 온디맨드로 재현할 수 있도록 지원합니다. 이는 재현성이 더 이상 기능이 아니라 비즈니스의 필수 요건이 된 규제 산업에서 특히 중요합니다.

생성형 AI의 혁신적 잠재력

GenAIOps를 조직 패브릭에 통합하는 것은 단순한 기술 업그레이드가 아닙니다. 이는 기업 전반의 고객과 최종 사용자 모두에게 장기적으로 긍정적인 효과를 가져다주는 전략적 움직임입니다.

사용자 경험 향상: GenAIOps는 프로덕션 환경에서 최적의 AI 앱 성능을 제공합니다. 기업은 향상된 사용자 경험을 제공할 수 있습니다. 챗봇, 자율 에이전트, 콘텐츠 생성기, 데이터 분석 도구 등을 통해 말이죠.
새로운 수익원 창출: GenAIOps가 지원하는 맞춤형 제너레이티브 AI 애플리케이션을 통해 기업은 이전에는 미지의 영역으로 진출하여 새로운 수익원을 창출하고 제품을 다양화할 수 있습니다.
선도적인 윤리 기준: 브랜드 이미지가 윤리적 고려 사항과 밀접하게 연관되어 있는 오늘날, GenAIOps의 안내에 따라 AI의 잠재적 함정에 선제적으로 대응하는 기업은 업계 리더로 부상하여 다른 기업이 따라야 할 벤치마크를 제시할 수 있습니다.

AI의 세계는 역동적이고 빠르게 진화하며 잠재력으로 가득 차 있습니다. 텍스트, 이미지, 분자, 음악을 이해하고 생성하는 데 탁월한 역량을 갖춘 기초 모델은 이러한 혁명의 최전선에 서 있습니다.

MLOps에서 GenAIOps, LLMOps, RAGOps에 이르는 AI 운영의 진화를 검토할 때 기업은 운영의 유연성, 발전성, 정밀성을 우선시해야 합니다. GenAIOps에 대한 포괄적인 이해와 전략적 적용을 통해 조직은 생성형 AI 혁명의 궤도를 형성할 준비가 되어 있습니다.

시작하는 방법

NVIDIA AI Foundation 모델을 사용하여 브라우저에서 최적화된 NVIDIA 가속 하드웨어/소프트웨어 스택에서 실행되는 최첨단 생성형 AI 모델을 사용해 보세요.

어디서나 생성형 AI 모델을 빌드, 커스터마이징 및 배포할 수 있는 엔드투엔드 클라우드 네이티브 프레임워크인 NVIDIA NeMo에서 LLM 개발을 시작하세요.

또는 NVIDIA 교육으로 학습 여정을 시작하세요. 전문가가 진행하는 교육 과정과 워크숍은 학습자에게 NVIDIA 솔루션의 잠재력을 최대한 활용하는 데 필요한 지식과 실습 경험을 제공합니다. 생성형 AI 및 LLM의 경우, 집중적인 Gen AI/LLM 학습 경로를 확인해 보세요.

LLM 기술 마스터하기: LLMOps

엔터프라이즈를 위한 최신 생성형 AI 앱 구축

GenAIOps, LLMOps 그리고 RAGOps의 이해