Writer는 두 가지 새로운 도메인 전용 AI 모델인 Palmyra-Med 70B와 Palmyra-Fin 70B를 출시하여 NVIDIA NIM의 기능을 확장했습니다. 이 모델들은 의료 및 금융 생성형 AI 애플리케이션에 탁월한 정확도를 제공하며, GPT-4, Med-PaLM 2, Claude 3.5 Sonnet과 같은 동급 모델보다 뛰어난 성능을 발휘합니다.
범용 거대 언어 모델(LLM)이 최근 주목을 받고 있지만, 향상된 정확도와 도메인 지식을 갖춘 전문화된 모델이 금융 및 의료와 같이 복잡하고 규제가 많은 산업을 재편할 것입니다. Palmyra-Med 70B와 Palmyra-Fin 70B는 전문화된 모델로, 엄격한 규제 및 규정 준수 표준으로 유명한 두 산업에서 AI 워크플로우를 지원하는 데 독보적으로 능숙합니다.
Palmyra-Med 70B와 Palmyra-Fin 70B는 Writer가 구축한 최고 수준의 LLM 명단에 합류하게 되었습니다. 여기에는 범용 모델인 Palmyra-X, 이미지 분석용 Palmyra-Vision 등이 포함됩니다. Palmyra-Med 70B와 팔미라-핀 70B를 NVIDIA NIM 마이크로서비스로 제공함으로써 클라우드, 데이터센터, 로컬 플랫폼 전반에서 NVIDIA 가속 아키텍처에 배포할 수 있는 사전 구성된 컨테이너로 모델의 구성성을 향상시켰습니다.
빠른 배포를 촉진하는 것 외에도, Palmyra-Med 70B와 Palmyra-Fin 70B 모두 NVIDIA AI 소프트웨어를 통해 성능이 향상되었습니다. NVIDIA TensorRT-LLM을 사용한 최적화를 통해 모델의 추론 지연 시간(TTFT)이 각각 23%와 30% 감소했으며, 토큰 반환 속도(TPS)는 두 모델 모두 최대 60%까지 증가했습니다. 그 결과 쿼리에 대한 답변을 신속하게 생성하는 보다 반응이 빠른 프롬프트 환경이 구축되었습니다.
그림 1. NVIDIA TensorRT-LLM 최적화가 Palmyra-Med 70B 및 Palmyra-Fin 70B 모두의 TTFT(왼쪽) 및 TPS(오른쪽)에 미치는 영향
기록적인 의료 정확도로 환자 치료 결과 개선
Palmyra-Med 70B는 의료용 모델의 최신 버전이자 시중에서 가장 정확한 모델입니다. 테스트 결과, Palmyra-Med 70B는 모든 의료 벤치마크에서 평균 85.9%를 기록하여 2위인 Med-PaLM 2를 2% 포인트 가까이 앞섰습니다. Med-PaLM 2는 Palmyra의 제로 샷 성능에 비해 5개의 사례가 제공되었을 때만 이러한 결과를 달성했습니다.
표 1은 인기 있는 모델 간의 종합적인 의료용 대규모 멀티태스크 언어 이해(MMLU) 벤치마크 비교를 보여줍니다. 벤치마크에는 MMLU 임상 지식, 전문 의학, PubMedQA 등이 포함됩니다. 전체 목록과 결과를 확인하세요.
Palmyra-Med | Med-PaLM 2 (5-shot) | GPT-4 | Gemini 1.0 | GPT-3.5 Turbo | |
MMLU Clinical Knowledge | 90.9 | 88.3 | 86 | 76.7 | 74.7 |
MMLU Medical Genetics | 94 | 90 | 91 | 75.8 | 74 |
MMLU Anatomy | 83.7 | 77.8 | 80 | 66.7 | 72.8 |
MMLU College Medicine | 84.4 | 80.9 | 76.9 | 69.2 | 64.7 |
PubMedQA | 79.6 | 79.2 | 75.2 | 70.7 | 72.7 |
평균* | 85.9 | 84.1 | 82.8 | 70.8 | 66 |
*평균 성능은 9개 테스트 모두에서 측정한 값입니다.
그 결과 다음과 같은 다양한 분야의 복잡한 의료 작업을 처리할 수 있는 정확하고 신뢰할 수 있는 모델로 환자 치료 결과와 연구를 개선하는 데 도움이 될 수 있습니다:
- 임상 지식 및 해부학: MMLU 임상 지식에서 90.9%, MMLU 해부학에서 83.7%의 점수를 획득한 Palmyra-Med 70B는 임상 절차 및 인체 해부학에 대한 탄탄한 이해를 입증했습니다. 따라서 의료 현장에서 진단의 정확성과 치료 계획을 지원하는 데 매우 유용합니다.
- 유전학 및 대학 의학: 의학 유전학에서 94.0%, 대학 의학에서 84.4%의 점수를 받은 이 모델은 유전 상담과 의학 교육에 필수적인 유전자 데이터 해석과 복잡한 의학 지식 적용에 탁월합니다.
- 생물의학 연구: PubMedQA에서 80%의 성능을 자랑하는 Palmyra-Med 70B는 생의학 문헌에서 정보를 효과적으로 추출하고 분석하여 연구 및 근거 기반 의료 행위를 지원하는 역량을 입증했습니다.
세계 유수의 의료 기업들과 협력하여 강력한 생성형 AI 애플리케이션으로 환자 치료 결과를 개선하는 데 도움을 주고 있습니다. Palmyra-Med 70B는 임상 의사 결정 지원을 포함한 다양한 의료 사용 사례에 매우 능숙하며, 증거 기반 진단 제안과 성공적인 치료 전략을 제공합니다. 또한 임상시험 프로토콜, 약물 상호작용 요약, 의료 문서 생성 등의 개발과 이해를 돕습니다.
의료 업계 전반의 개발자가 심층적인 의료 지식과 전문성을 갖춘 새로운 AI 앱을 개발할 수 있도록 Palmyra-Med 70B를 지원합니다.
70B는 의료 업계 전반의 개발자가 심도 있는 의료 지식과 전문성을 갖춘 새로운 AI 앱을 개발할 수 있도록 지원합니다.
금융을 위한 강력한 LLM
금융 분야에서 생성형 AI를 도입하려면 긴 재무제표, 복잡한 용어, 미묘한 시장 분석 등 고유한 장애물이 존재합니다. 이 팀은 잘 선별된 금융 학습 데이터 세트와 맞춤형 파인 튜닝 명령어 데이터를 결합하여 다양한 사용 사례를 지원할 수 있는 매우 정확한 금융 LLM을 학습시켰습니다.
- 금융 트렌드 분석 및 예측: 시장 역학을 조사하고 재무 성과에 대한 예측을 개발합니다.
- 투자 분석: 기업, 산업 또는 경제 지표에 대한 상세한 평가를 생성합니다.
- 위험 평가: 다양한 금융 도구 또는 접근 방식과 관련된 잠재적 위험을 평가합니다.
- 자산 배분 전략: 개인의 위험 선호도와 재무 목표에 맞는 투자 조합을 추천합니다.
Palmyra-Fin의 전문성을 테스트하기 위해 CFA 레벨 III 시험에 합격하는 과제를 부여했습니다. 이 모델은 CFA 레벨 III 샘플 시험의 객관식 영역에서 73%를 득점하여 시험에 합격한 최초의 모델이 되었습니다. 이러한 성과를 감안할 때 CFA 레벨 III 합격은 투자 관리 업계에서 가장 높은 수준의 자격증 중 하나입니다. 지난 11년 동안 평균 합격률은 60%였으며, 일반적으로 전체 응시자 중 절반 미만이 합격 점수를 받았습니다.
Palmyra-Fin의 성과는 이전에 시험에서 33%의 합격률을 기록한 GPT-4와 같은 다른 범용 모델에 비해 현저하게 개선된 것입니다.
팀은 또한 긴 지느러미 평가 벤치마크 테스트에서 Palmyra-Fin을 실행하여 복잡한 금융 주제를 분석하는 모델의 능력을 보여주는 Claude 3.5 Sonnet, GPT-4o, Mixtral 8x7B와 같은 인기 모델보다 뛰어난 성능을 보여주었습니다.
Palmyra LLM 시작하기
앞으로 도메인별 LLM은 AI 혁신의 최전선에 서게 될 것이며, 업계에서 특화된 AI 애플리케이션을 구축하는 방식을 변화시킬 것입니다. 필자는 기업 사용 사례에 매우 적합한 심층적인 분야별 전문성을 갖춘 Palmyra-Med 70B 및 Palmyra-Fin 70B 모델과 같은 모델을 개발하여 이러한 움직임을 선도하고 있습니다. 이러한 타깃 모델은 정확성과 효율성을 높일 뿐만 아니라 데이터 관리 및 규정 준수를 개선할 수 있습니다.
의료 또는 금융 분야에서 AI 애플리케이션을 구축하는 경우, NVIDIA API 카탈로그를 통해 액세스할 수 있는 Palmyra-Med 70B 및 Palmyra-Fin 70B를 사용해 보세요. 상업적 사용 사례의 경우, Writer 팀(sales@writer.com)에 문의할 수 있습니다.
관련 리소스
GTC 세션: 차세대 AI 및 LLM 스타트업이 의료 및 생명 과학을 변화시키는 방법
GTC 세션: 생성형 AI 및 LLM을 통한 의료 서비스 슈퍼스태핑
GTC 세션: LLM을 활용하여 생명과학 분야의 신약 개발을 가속화하기(Snowflake 발표)
NGC 컨테이너: genai-llm-playground
SDK: MONAI 배포 워크플로우 관리자
웨비나: AI를 통한 의료 워크플로우 혁신: CLLM에 대한 심층 분석