Generative AI

NVIDIA AI Workbench를 통한 확장 가능한 생성형 AI 모델의 원활한 개발 및 배포

Reading Time: 6 minutes

맞춤형 생성형 AI 모델과 애플리케이션을 개발하는 것은 목적지가 아니라 여정입니다. 개발은 탐색 목적으로 대규모 언어 모델과 같이 사전 학습된 모델을 선택하는 것으로 시작되며, 개발자는 특정 사용 사례에 맞게 모델을 조정하고자 하는 경우가 많습니다. 이 첫 단계에서는 일반적으로 PC나 워크스테이션과 같은 액세스 가능한 컴퓨팅 인프라를 사용해야 합니다. 하지만 트레이닝 작업의 규모가 커짐에 따라 개발자는 데이터 센터 또는 클라우드의 추가 컴퓨팅 인프라로 확장해야 합니다.

특히 여러 환경과 플랫폼에서 협업하고 배포하려고 할 때 이 프로세스는 매우 복잡하고 시간이 많이 소요될 수 있습니다. NVIDIA AI 워크벤치는 데이터, 모델, 리소스 및 컴퓨팅 요구 사항을 관리할 수 있는 단일 플랫폼을 제공하여 프로세스를 간소화합니다. 이를 통해 개발자는 원활한 협업과 배포를 통해 비용 효율적이고 확장 가능한 생성형 AI 모델을 빠르게 개발할 수 있습니다.

NVIDIA AI Workbench란?

NVIDIA AI Workbench는 PC 또는 워크스테이션에서 사전 훈련된 AI 모델을 생성, 테스트 및 커스터마이징할 수 있는 통합되고 사용하기 쉬운 개발자 툴킷입니다. 그런 다음 사용자는 모델을 거의 모든 데이터센터, 퍼블릭 클라우드 또는 NVIDIA DGX 클라우드로 확장할 수 있습니다. 이를 통해 모든 수준의 개발자가 비용 효율적이고 확장 가능한 생성형 AI 모델을 빠르고 쉽게 생성 및 배포할 수 있습니다.

그림 1. AI 개발자가 모델을 선택하고 NVIDIA AI Workbench 내에서 프로젝트를 생성한 후 인프라에서 해당 모델을 커스터마이징하는 과정

설치 후 플랫폼은 컨테이너화된 개발 환경을 위한 관리 및 배포를 제공하여 사용자의 머신에 관계없이 모든 것이 작동하는지 확인합니다. AI Workbench는 자체 호스팅 레지스트리 및 Git 서버뿐만 아니라 GitHub, Hugging Face, NVIDIA NGC와 같은 플랫폼과도 통합됩니다.

사용자는 높은 수준의 재현성과 투명성을 바탕으로 다양한 머신에서 작업을 관리하면서 JupyterLab과 VS Code 모두에서 자연스럽게 개발할 수 있습니다. 또한 NVIDIA RTX PC 또는 워크스테이션을 보유한 개발자는 로컬 시스템에서 엔터프라이즈급 생성형 AI 프로젝트를 시작, 테스트 및 미세 조정할 수 있으며, 확장 시 데이터센터 및 클라우드 컴퓨팅 리소스에 액세스할 수 있습니다.

기업은 AI Workbench를 NVIDIA AI Enterprise에 연결하여 생성형 AI의 채택을 가속화하고 프로덕션에 원활하게 통합할 수 있는 기반을 마련할 수 있습니다. 등록하여 AI Workbench가 얼리 액세스로 제공될 때 알림을 받아보세요.

동영상 1. NVIDIA AI Workbench로 생성형 AI 미세 조정하기

엔터프라이즈 AI 개발 워크플로우의 과제

생성형 AI 모델은 비즈니스에 놀라운 잠재력을 제공하지만, 개발 프로세스는 복잡하고 시간이 많이 소요될 수 있습니다.

맞춤형 생성형 AI를 개발하는 여정을 시작할 때 기업이 직면하는 몇 가지 과제는 다음과 같습니다.

기술 전문성: 생성형 AI 모델을 개발할 때는 적절한 기술력을 갖추는 것이 핵심입니다. 개발자는 머신러닝 알고리즘, 데이터 조작 기술, Python과 같은 언어, TensorFlow와 같은 프레임워크에 대한 깊은 이해가 있어야 합니다.

데이터 액세스 및 보안: 민감한 고객 데이터가 급증함에 따라 이러한 프로젝트를 진행하는 동안 적절한 보안 조치를 취하는 것이 중요합니다. 또한 기업은 모델 학습에 필요한 데이터 세트에 액세스하는 방법을 고려해야 하며, 여기에는 여러 소스의 대량의 비정형 또는 반정형 데이터를 처리하는 것이 포함될 수 있습니다.

워크플로우 및 애플리케이션 이동: 여러 머신과 환경에 걸쳐 개발 및 배포하는 작업은 구성 요소 간의 종속성으로 인해 복잡할 수 있습니다. 특히 Amazon AWS, Google Cloud Platform 또는 Microsoft Azure와 같은 클라우드 컴퓨팅 플랫폼과 같이 분산된 환경에서는 동일한 애플리케이션 또는 워크플로우의 여러 버전을 추적하는 것이 어려울 수 있습니다. 또한 여러 머신과 환경에서 리소스에 대한 안전한 액세스를 보호하려면 자격 증명과 기밀 정보를 관리하는 것이 필수적입니다.

이러한 과제는 전체 생성형 AI 개발 프로세스를 간소화하는 NVIDIA AI Workbench 같은 포괄적인 플랫폼의 중요성을 강조합니다. 이를 통해 데이터, 모델, 컴퓨팅 리소스, 구성 요소 간의 종속성 및 버전을 더 쉽게 관리할 수 있습니다. 동시에 머신과 환경 전반에서 원활한 협업 및 배포 기능을 제공합니다.

NVIDIA AI Workbench의 주요 이점

생성형 AI 모델 개발은 복잡한 프로세스이며, AI Workbench는 이를 간소화합니다. 데이터, 모델 및 컴퓨팅 리소스를 관리하기 위한 통합 플랫폼을 통해 모든 기술 수준의 개발자가 비용 효율적이고 확장 가능한 AI 모델을 빠르고 쉽게 생성 및 배포할 수 있습니다.

AI Workbench 사용 시 얻을 수 있는 몇 가지 주요 이점은 다음과 같습니다:

사용하기 쉬운 개발 플랫폼: AI Workbench는 데이터, 모델, 컴퓨팅 리소스를 관리할 수 있는 단일 플랫폼을 제공하여 개발 프로세스를 간소화하고 여러 머신 및 환경 간의 협업을 지원합니다.

AI 개발 도구 및 리포지토리와 통합: AI 워크벤치는 GitHub, NVIDIA NGC, Hugging Face와 같은 서비스, 자체 호스팅 레지스트리 및 Git 서버와 통합됩니다. 사용자는 높은 수준의 재현성과 투명성을 갖춘 플랫폼과 인프라 전반에서 JupyterLab 및 VS Code와 같은 도구를 사용하여 개발할 수 있습니다.

향상된 협업: AI Workbench는 콘텐츠와 그 관계를 설명하는 메타데이터 파일, 구성 및 실행 지침이 포함된 Git 리포지토리인 프로젝트를 중심으로 하는 아키텍처를 사용합니다. 위치 또는 사용자에 따라 달라지는 데이터는 AI Workbench에서 투명하게 처리되고 런타임에 주입되므로 이러한 정보를 프로젝트에 하드 코딩하지 않아도 됩니다. 프로젝트 구조는 버전 관리, 컨테이너 관리, 기밀 정보 처리와 관련된 복잡한 작업을 자동화하는 동시에 팀 간의 협업을 가능하게 합니다.

가속화된 컴퓨팅에 액세스: AI Workbench 배포는 클라이언트-서버 모델입니다. Workbench 사용자 인터페이스는 로컬 시스템에서 실행되며 Workbench 서비스와 원격으로 통신합니다. 사용자 인터페이스와 서비스는 모두 업무용 노트북과 같은 사용자의 기본 리소스에서 로컬로 실행됩니다. 이 서비스는 SSH 연결을 통해 액세스할 수 있는 원격 머신에 설치할 수 있습니다. 따라서 팀은 워크스테이션의 로컬 컴퓨팅 리소스에서 개발을 시작하고 트레이닝 작업의 규모가 커지면 데이터센터 또는 클라우드 리소스로 전환할 수 있습니다.

실제 NVIDIA AI Workbench

SIGGRAPH 2023에서는 텍스트 및 이미지 워크플로우 전반에서 생성형 AI 커스터마이징을 위한 AI 워크벤치의 성능을 시연했습니다.

안정적인 디퓨전 XL을 통한 커스텀 이미지 생성

Hugging Face Spaces와 같은 서비스의 Gradio 앱은 클릭 한 번으로 StableDiffusion XL과 같은 모델과 상호 작용할 수 있지만, 이러한 모델과 앱을 로컬에서 실행하는 것은 어려울 수 있습니다.

사용자는 NVIDIA TensorRT 및 NVIDIA Triton과 같은 적절한 NVIDIA 소프트웨어로 로컬 환경을 설정해야 합니다. 그런 다음 Hugging Face의 모델, GitHub의 코드, NVIDIA NGC의 컨테이너가 필요합니다. 마지막으로 컨테이너를 구성하고, JupyterLab과 같은 앱을 처리하고, GPU가 모델 크기를 지원하는지 확인해야 합니다.

그래야만 작업을 시작할 준비가 된 것입니다. 전문가도 할 일이 많습니다.

AI Workbench를 사용하면 GitHub에서 Workbench 프로젝트를 복제하여 전체 프로세스를 쉽게 완료할 수 있습니다. 다음 예는 우리 팀이 토이 젠슨 이미지를 만들 때 수행한 단계를 간략하게 설명합니다.

먼저 PC에서 AI Workbench를 열고 URL이 포함된 리포지토리를 복제했습니다. 로컬에서 Jupyter Notebook을 실행하는 대신 더 많은 GPU를 갖춘 원격 워크스테이션에서 열었습니다. AI Workbench에서 워크스테이션을 선택하고 Jupyter Notebook을 열 수 있습니다.

그림 2. Jupyter Notebook에서 실행 중인 AI Workbench를 보여주는 스크린샷

Jupyter 노트북에서 사전 학습된 Stable Diffusion XL 모델을 Hugging Face에서 로드하고 “우주에 있는 토이 젠슨”의 이미지를 생성하도록 요청했습니다. 그러나 출력 이미지에 따르면 모델은 토이 젠슨이 누구인지 알지 못합니다.

그림 3. StableDiffusion XL 모델의 출력과 함께 Jupyter 노트북을 실행하는 AI Workbench를 보여주는 스크린샷

드림부스를 사용하여 모델을 미세 조정함으로써 특정 관심 주제에 맞게 모델을 개인화할 수 있었습니다. 토이 젠슨의 경우 토이 젠슨의 사진 8장을 사용하여 모델을 미세 조정하고 좋은 결과를 얻었습니다. 이제 사용자 인터페이스로 추론을 다시 실행할 준비가 되었습니다. 이제 모델은 그림 4와 같이 토이 젠슨이 어떻게 생겼는지 알고 더 나은 사진을 생성할 수 있습니다.

그림 4. 훈련 후 토이 젠슨 이미지의 StableDiffusion XL 모델에서 출력된 결과와 함께 Jupyter Notebook을 실행하는 AI Workbench를 보여주는 스크린샷

의학적 추론을 위해 Llama 2 미세 조정하기

Llama 2 70B와 같은 더 큰 모델은 미세 조정과 추론 모두에 좀 더 가속화된 컴퓨팅 성능이 필요합니다. 이 데모에서는 모델을 커스터마이징할 수 있도록 데이터 센터에 GPU를 설정해야 했습니다.

일반적으로 환경 설정, 서비스 연결, 리소스 다운로드, 컨테이너 구성 등의 작업은 원격 리소스에서 수행됩니다. AI Workbench를 사용하면 GitHub에서 프로젝트를 복제하고 JupyterLab 시작을 클릭하기만 하면 됩니다.

이 데모의 목표는 Llama-2 모델을 사용하여 의료 사용 사례에 특화된 챗봇을 구축하는 것입니다. 기본적으로 Llama-2 모델은 연구 논문에 대한 의학적 질문에 잘 응답하지 않으므로 모델을 사용자 지정해야 합니다.

노트북에서 시작하여 데이터 센터 또는 클라우드에서 실행되는 8개의 NVIDIA L40 GPU에 연결합니다. 로컬 프로젝트는 AI Workbench를 사용하여 원격 머신으로 마이그레이션됩니다.

그림 5. PubMedQA 데이터 세트의 데이터로 라마 2 모델을 커스터마이징하는 AI 워크벤치 스크린샷

그런 다음 NeMo를 사용하여 오픈 소스 PubMedQA 데이터 세트로 P-튜닝합니다. 그런 다음 사용자 인터페이스를 열어 추론을 다시 실행하면 이제 모델이 주어진 의학적 맥락에 따라 이전에 알려지지 않은 질병에 대한 질문에 더 정확하게 답변합니다.

이 예에서는 튜닝된 모델에 응답 방법을 안내하기 위해 다음과 같은 프롬프트를 제공했습니다.

목표: 쌍둥이 A의 출생 시 모습을 예측하기 위한 초기 초음파 사진의 능력을 확인합니다.

방법: 임신 주수 7주 간격으로 쌍둥이 A의 초음파 기록을 검토하고, 입원 환자 의료 기록을 검토하여 쌍둥이 A가 분만 시 나타날 수 있는지 확인했습니다.

결과: 분만 시 두두증 지속 여부에 대한 초음파 검사로 판단한 쌍둥이 A의 두두증 양성 예측값은 임신 28주 후 95%에 달했습니다. 분만 시 무두증에 대한 초음파 검사로 확인된 무두증 발현에 대한 양성 예측값은 임신 32주 후 90% 이상이었습니다.

질문: 임신 3기 초음파로 분만 시 첫 쌍둥이의 출현을 예측할 수 있나요?

p-튜닝된 모델은 PubMedQA 데이터 세트에서 학습한 정보를 사용하여 프롬프트에 올바르게 응답할 수 있었습니다.

답변: 예, 임신 3기 초음파는 분만 시 첫 쌍둥이의 모습을 높은 정확도로 예측할 수 있습니다. 귀하가 제공한 연구에 따르면, 분만 시 두부 표현의 지속성에 대해 초음파로 판단한 쌍둥이 A의 두부 표현의 양성 예측값은 임신 28주 후 95%에 달했습니다.

마찬가지로, 분만 시 두개골이 아닌 태아의 초음파 검사에서 확인된 두개골이 아닌 태아의 양성 예측값은 임신 32주 후 90% 이상이었습니다.

이러한 결과는 임신 3기의 초음파 검사가 출생 시 첫 쌍둥이의 두개저 발현을 확실하게 예측할 수 있음을 시사합니다. 그러나 초음파가 항상 100% 정확한 것은 아니며 태아의 움직임과 위치 등 다른 요인이 예측의 정확도에 영향을 미칠 수 있다는 점에 유의해야 합니다.

AI Workbench를 사용하면 기존의 생성형 AI 프로젝트를 빠르게 생성하거나 복제하여 시작할 수 있습니다. 개발자는 로컬 머신에서의 초기 탐색부터 워크스테이션에서의 모델 튜닝까지 진행할 수 있으며, 대규모 학습을 위해 클라우드 및 데이터센터의 확장 가능한 리소스를 활용할 수 있습니다.

NVIDIA AI Workbench를 사용한 생성형 AI의 비용 효율적인 확장성

AI 모델이 점점 더 복잡해지고 컴퓨팅 집약적으로 변함에 따라 개발자에게는 빠르고 효율적으로 확장할 수 있는 비용 효율적인 도구가 필수적입니다. AI Workbench는 데이터, 모델, 컴퓨팅 리소스를 관리할 수 있는 단일 플랫폼을 제공하여 여러 머신과 환경에서 원활하게 협업하고 배포할 수 있도록 지원합니다. 이 플랫폼을 사용하면 모든 기술 수준의 개발자가 비용 효율적이고 확장 가능한 생성형 AI 모델을 빠르게 생성하고 배포할 수 있습니다.

AI Workbench에 대해 자세히 알아보거나 미리 체험판 이용 가능 여부에 대한 알림을 받으려면 AI Workbench 페이지를 방문하세요.

Discuss (0)

Tags