Generative AI

NVIDIA NIM을 통해 생성형 AI 성능을 가속화하고 비용을 절감하는 Amdocs

Reading Time: 7 minutes

통신 회사들은 프로세스를 자동화하고 고객 경험을 개선하며 네트워크 운영을 최적화하여 직원 생산성을 높이기 위해 생성형 AI를 활용하고 있습니다. 

통신 및 미디어 제공업체를 대상으로 소프트웨어 및 서비스를 제공하는 대표적인 업체인 Amdocs는 통신업체를 위한 도메인별 생성형 AI 플랫폼인 amAIz를 개방적이고 안전하며 비용 효율적이면서도 거대 언어 모델(LLM)에 구애받지 않는 프레임워크로 구축했습니다. Amdocs는 NVIDIA DGX 클라우드 및 NVIDIA AI Enterprise 소프트웨어를 사용하여 상용 LLM과 도메인 적응 모델을 기반으로 한 솔루션을 제공하며, 서비스 제공업체가 엔터프라이즈급 생성형 AI 애플리케이션을 구축하고 배포할 수 있도록 지원합니다. 

또한 Amdocs는 쉽게 사용할 수 있는 일련의 추론 마이크로서비스인 NVIDIA NIM도 사용하고 있는데, 이 서비스는 엔터프라이즈 전반에 걸쳐 생성형 AI의 배포를 가속화하도록 설계된 것이 특징입니다. 이 다용도 마이크로서비스는 개방형 커뮤니티 모델과 NVIDIA API 카탈로그의 NVIDIA AI 파운데이션 모델은 물론, 맞춤형 AI 모델도 지원합니다. NIM은 예측의 정확도를 유지하면서 최고 처리량과 최저 지연 시간으로 원활한 AI 추론을 쉽게 수행할 수 있도록 설계되었습니다. 

고객 청구 사용 사례 

통신업체 콜센터에서 청구 문의는 전체 고객 통화 중 상당량을 차지합니다. 고객들은 본인이 가입한 모바일 요금제, 프로모션 기간 종료 또는 예기치 못한 수수료 등 청구서의 내역에 영향을 미칠 수 있는 다양한 작업을 이유로 설명을 요구합니다. 

Amdocs는 청구 질문에 대해 즉각적이고 정확한 설명을 제공하여 고객을 지원하도록 맞춤 설계된 LLM 기반 솔루션을 개발하고 있습니다. 이 솔루션은 고객 서비스 상담원의 워크로드를 줄여 더 복잡한 작업에 집중할 수 있도록 지원하는 데 그 목적이 있습니다. 

그림 1은 데이터 수집 및 준비를 비롯해 LLM 파인 튜닝, 매개변수 효율적 기술과 평가에 이르기까지 수행되는 전체 프로세스를 보여줍니다.

그림 1. 데이터 수집 및 준비부터 LLM 파인 튜닝 및 평가에 이르기까지 전체 프로세스 흐름

데이터 수집 및 준비 

이 문제를 해결하기 위해 익명 처리된 통화 기록 및 청구서에서 통신 회사 고객 서비스 전문가가 레이블을 지정한 새 데이터 세트를 만들었습니다. 데이터 세트는 주석이 달린 수백 개의 질문과 답변을 포함하고 있는데 이들 질문과 답변은 관련 시나리오로 분류되어 있습니다. 대부분의 데이터는 파인 튜닝에 사용되었으며 성능은 작은 테스트 세트(수십 개의 샘플)에서 보고됩니다. 

표 1은 수집된 데이터의 예를 보여줍니다. 질문은 청구 변경과 관련이 있으며 주석이 달린 답변은 과거 고객 청구 내역에 근거합니다.

ID관련 청구서계정 ID주석이 달린 질문최종 답변(‘레이블’)주석이 있는 시나리오
id_1[‘id_12345.2310’, ‘id_12345.2311’]id_12345최근 청구서 요금이 인상된 것을 확인했습니다. 왜 이런 일이 발생했는지 설명해 주시겠습니까?청구 요금은 10월에 $100.02였지만 인터넷 서비스의 프로모션 크레딧 만료로 인해 11월에 $115.02로 증가했습니다. 세부적으로
  인터넷 크레딧은 10월에 -$75.00였지만 11월에는 -$60.00로 감소했습니다.
프로모션 만료됨
표 1. 모바일 요금제 프로모션 만료 시나리오에 대해 수집된 데이터의 예

이 과정에서 Amdocs는 스크립트를 필터링하여 시나리오로 분류하기 위한 도구로 OpenAI GPT-4 LLM을 사용했습니다. 그런 다음, LLM을 사용하여 잠재적인 질문-답변 쌍을 생성했으며, 해당 쌍은 도메인 전문가가 다시 검토하여 레이블을 지정했습니다.

데이터 형식 및 프롬프트 엔지니어링 

Amdocs는 Llama2-7b-chat, Llama2-13b-chat, Mixtral-8x7b LLM을 기본으로 사용하여 의도 분류 및 청구서 Q&A 기능을 갖춘 고객 서비스 챗봇을 개선했습니다. Amdocs는 대상 청구서(원시 XML 형식의 1~2개월 연속 청구)가 포함된 지침과 함께 질문이 뒤따르는 프롬프트를 디자인했습니다. 

기준 LLM과 제로샷 또는 퓨샷 추론을 이용한 초기 실험은 주로 고객 청구서에서 관련 정보를 추출하는 과정이 복잡한 이유로 성과가 저조했습니다. 또한 원시 XML 형식에는 LLM에 청구 형식을 설명하는 자세한 지침이 필요했습니다. 그 결과, Amdocs는 일부 LLM(예: Llama2의 4K 토큰)의 최대 컨텍스트 길이 제한으로 인해 청구서 및 지침을 프롬프트에 통합하는 데 어려움을 겪었습니다. 

컨텍스트 창에 맞추기 위해 Amdocs는 무엇보다도 프롬프트의 청구 형식 지침을 줄이는 데 노력을 집중했습니다. 그림 2는 Llama2 토크나이저를 이용하여 형식을 변경한 청구서의 토큰 수가 3,909개에서 1,153개로 감소한 평균 토큰 수를 보여줍니다. 

그림 2. 새로운 청구 형식을 적용하여 줄어든 토큰 수

NVIDIA DGX 클라우드에서의 LLM 파인 튜닝

주석이 달린 데이터의 볼륨은 제한되어 있기 때문에 Amdocs는 LoRA(Low-Rank Adaptation)와 같은 매개변수 효율적 파인 튜닝(PEFT) 방법을 모색했습니다. Amdocs는 두 개의 기본 LLM 아키텍처(Llama2 및 Mixtral)를 사용하여 1~2에포크에 걸쳐 여러 LoRA 하이퍼 매개변수를 탐색하는 몇 가지 파인 튜닝 실험을 수행했습니다. 

Amdocs의 실험은 개발자를 위한 엔드 투 엔드 AI 플랫폼인 NVIDIA DGX Cloud에서 수행되었으며, 최신 NVIDIA 아키텍처를 기반으로 구축되어 세계 최고의 클라우드 서비스 제공업체와 공동 엔지니어링된 확장 가능한 용량을 제공합니다. Amdocs는 다음과 같은 구성 요소와 함께 NVIDIA DGX 클라우드 인스턴스를 사용했습니다.

  • 8x NVIDIA A100 80GB Tensor 코어 GPU
  • 88개의 CPU 코어
  • 1TB 시스템 메모리

파인 튜닝 주기는 멀티 GPU 설정에서 수행되었으며 주기당 1시간 미만의 시간이 소요되었습니다. 

NVIDIA NIM을 이용한 LLM 배포

NVIDIA NIM은 NVIDIA Triton 추론 서버 를 기반으로 구축되었으며 NVIDIA GPU에서 최적의 LLM 추론을 도출하기 위해 TensorRT-LLM 을 사용합니다. NIM은 예측의 정확도를 유지하면서 가속화된 인프라에서 가능한 한 최적의 지연 시간과 처리량으로 즉시 작동하는 사전 최적화된 추론 컨테이너를 통해 원활한 AI 추론을 지원합니다. NIM은 온프레미스 또는 클라우드 환경 여부에 관계없이 다음과 같은 이점을 제공합니다.

  • AI 애플리케이션 개발 절차를 간소화
  • 최신 생성형 AI 모델에 맞게 사전 구성된 컨테이너
  • 서비스 수준 계약(SLA)을 통한 엔터프라이즈 지원 및 CVE에 대한 정기 보안 업데이트
  • 최신 커뮤니티의 최첨단 LLM을 지원
  • 비용 효율성 및 성능 

이 애플리케이션을 위해 Amdocs는 자체 호스팅된 NVIDIA NIM 인스턴스를 사용하여 파인 튜닝된 LLM을 배포했습니다. Amdocs는 LangChain ChatOpenAI 클라이언트를 사용하는 클라이언트 애플리케이션에 대해 균일한 솔루션을 지원하는 OpenAI와 유사한 API 엔드포인트를 노출했습니다.

Amdocs는 파인 튜닝 방법을 모색하는 과정에서 NIM을 통해 LoRA 파인 튜닝을 거친 체크포인트의 배포를 자동으로 실행하는 프로세스를 만들었습니다. 파인 튜닝된 Mixtral-8x7B 모델에서는 이 프로세스를 완료하는 데 약 20분의 시간이 걸렸습니다. 

결과

Amdocs는 이 프로세스에서 효율성이 몇 배로 증가한 것을 확인했습니다.

정확도 향상: NVIDIA와의 협력을 통해 AI 생성 응답의 정확도는 현저히 증가했으며 응답의 정확도는 최대 30%까지 향상되었습니다. 이러한 유형의 정확도 향상은 통신업계에서 실제로 이 프로세스를 폭넓게 수용하고 소비자를 직접 대상으로 하는 생성형 AI 서비스의 요구를 충족하는 데 있어 매우 중요합니다.

Amdocs는 NVIDIA NIM을 사용하여 비용 및 지연 시간에서 성능 향상을 실현했습니다.

운영 비용 절감: NVIDIA 인프라에서 Amdocs의 통신 검색 증강 생성(RAG) 기능은 배포된 사용 사례에 소모되는 토큰을 데이터 전처리에서 60%까지 줄이고 추론에서 40%까지 감소시켜 동일한 수준의 정확도를 제공하며 다양한 영향과 사용된 볼륨에 따라 차이는 있겠지만 토큰당 비용은 훨씬 감소했습니다.

지연 시간 개선: 협업을 통해 쿼리 지연 시간을 약 80%까지 줄이는 데 성공했으며 최종 사용자가 실시간에 가까운 응답을 경험할 수 있게 되었습니다. 이러한 가속화를 통해 상거래, 의료, 운영 등 다양한 분야에서 사용자 경험을 향상시킬 수 있습니다.

LLM 정확도 평가

Amdocs는 파인 튜닝 단계에서 테스트 데이터 세트에 대한 모델과 프롬프트 전반에 걸쳐 성능을 평가하기 위해 그림 3에서 보는 것처럼 높은 수준의 프로세스를 사용했습니다.

그림 3. LLM-as-a-Judge 및 인간 전문가를 포함해 LLM에 대한 평가 프로세스

각 실험에서 Amdocs는 테스트 데이터 세트에서 LLM 출력 예측부터 먼저 생성했습니다. 

그런 다음, 외부 LLM-as-a-Judge가 예측을 평가하는 데 사용되었으며 정확도 및 관련성에 관한 지표를 제공했습니다. 사전 정의된 기준을 충족하는 실험은 예측 세부 정보의 정확도를 검증하기 위해 자동화된 회귀 테스트를 거쳤습니다. 결과 점수는 다음을 포함한 여러 지표가 혼합된 것입니다.

  • F1 점수
  • 환각 지표 없음
  • 정확한 결론 지표
  • 관련성 답변
  • 대화 일관성
  • 폴백 표시자 없음
  • 완전성
  • 독성

마지막으로 전체 정확도를 확인하기 위해 최고 성능 모델을 수동으로 평가했습니다. 이 프로세스를 통해 파인 튜닝된 LLM은 효과적이고 신뢰할 수 있게 되었습니다. 

그림 4는 다양한 LLM에 대한 전체 정확도 점수를 보여줍니다. Amdocs는 기본 버전에 비해 LoRA 파인 튜닝을 거친 Mixtral-8x7B 및 Llama2-13b-chat 버전의 정확도가 각각 20~30% 정도 개선된 것을 관찰했습니다. 관리형 LLM 서비스와 비교할 때에도 정확도가 6% 향상된 결과를 확인했습니다. 

그림 4. 상위 3대 서비스의 모델당 평균 점수 향상

토큰 소비

청구 데이터를 다시 포맷한 결과, 입력 토큰이 60% 감소했습니다. 파인 튜닝된 LLM은 비슷하거나 더 나은 성능을 제공했지만 모델은 입력 토큰을 약 40% 추가 절감하는 결과를 가져왔습니다. 이는 프롬프트 지침을 최소화한 도메인 사용자 정의에서 비롯된 결과입니다.

그림 5는 Mixtral-8x7B, Llama2-13b 및 관리형 LLM 서비스의 토큰 소비 간 비교를 보여줍니다. 입력 토큰 수의 차이는 주로 관리형 LLM 서비스가 작업을 잘 수행하는 데 필요한 세부 지침 때문에 발생합니다. 도메인 맞춤형 Llama2 및 Mixtral-8x7B 모델의 경우, 토큰 수의 감소는 지속적인 컨텍스트 형식 개선에 따른 결과입니다.

그림 5. Mixtral-8x7B, Llama2 및 관리형 LLM 서비스의 토큰 소비

LLM 지연 시간 

Amdocs는 NVIDIA NIM을 사용하여 A100 80GB GPU에 배포된 모델을 평가하는 동안 추론 속도가 평균 4~6배 정도 향상된 결과를 확인했는데, 이는 선도적인 최첨단 관리형 LLM 서비스보다 약 80% 더 빠른 속도입니다. 

그림 6은 단일 LLM 호출을 사용하여 수행된 지연 시간 실험을 보여주고 있으며 전체 생성 주기의 평균 지연 시간을 계산한 것입니다. 모든 NIM은 DGX Cloud A100 기반 인스턴스에 원격으로 배포되었습니다. Llama2-13b 모델은 단일 GPU에 배포된 반면, Mixtral-8x7B 모델은 2개의 GPU에 배포되었습니다. 그림 6에 표시된 0.95의 신뢰 구간 선에서 볼 수 있듯이 응답 지연 시간은 자체 호스팅된 엔드포인트를 사용할 때 일관성이 더 높습니다. 

그림 6. 모델당 평균 지연 시간(단위: 초)

결론 및 다음 단계

NVIDIA NIM 추론 마이크로서비스는 지연 시간을 개선하여 Amdocs의 애플리케이션 내에서 더 빠른 속도로 처리할 수 있었습니다. Amdocs는 데이터 형식을 최적화하고 LLM을 파인 튜닝하여 청구 Q&A 시스템의 정확도를 높이는 동시에 비용을 크게 절감했습니다. 이 여정에서 Amdocs는 크리에이티브 데이터 형식 재지정, 신속한 엔지니어링, 모델별 사용자 정의 등 다양한 과제에 직면했습니다. 모델 평가와 엄격한 테스트를 위한 명확한 전략을 정의한 것이 성공의 열쇠였습니다.

Amdocs는 추론 중에 여러 모델 조정을 동적으로 로드할 수 있는 기술인 Multi-LoRA를 사용하여 다양한 애플리케이션에 대한 모델 사용자 정의를 생성하기 위해 다음 단계를 진행하고 있습니다. 이러한 접근 방식은 기본 모델만 일관되게 로드되는 반면, 모델 레이어 조정은 필요에 따라 동적으로 로드되므로 메모리 사용을 최적화합니다.

Amdocs는 NVIDIA와의 협업을 통해 애플리케이션 영역을 식별하고, UX 재설계를 통해 생성형 AI 기능을 보다 사용자 친화적인 기능으로 구현하며 빠른 엔지니어링을 우선시하는 등 생성형 AI를 핵심 포트폴리오에 통합하는 전략에 착수했습니다. Amdocs는 NVIDIA DGX Cloud 및 NVIDIA AI Enterprise 소프트웨어를 계속 사용하여 통신회사 분류를 통해 LLM을 사용자 정의하여 정확도를 더욱 높이고 생성형 AI 트레이닝 및 추론에 따른 비용을 최적화할 것입니다.

Amdocs는 다양한 전략적 방향에서 생성형 AI를 amAIz 플랫폼에 계속 통합할 계획입니다.

  • AI 기반의 언어 및 감정 분석을 사용하여 고객 쿼리 라우팅을 향상합니다.
  • AI 솔루션의 추론 기능을 향상하여 고객의 특정 요구 사항에 맞는 제안을 제공합니다.
  • 네트워크 진단 및 최적화와 같이 광범위한 분야 지식, 멀티 모달 및 다단계 솔루션이 필요한 복잡한 시나리오를 처리합니다.

이러한 전략을 통해 더욱 효율적이면서도 효과적인 운영과 혁신이 가능합니다.

자세한 내용을 알고 싶다면 ‘가정 시나리오(What If?)’의 힘: 생성형 AI를 통한 비즈니스 가치 제공 GTC 세션 영상을 시청하세요. 

NVIDIA NIM을 시작하면 NVIDIA에 의해 최적화 및 가속화된 API를 통해 커뮤니티에서 구축한 최신 생성형 AI 모델을 실행 및 배포할 수 있습니다.

관련 리소스

Discuss (0)

Tags