NVIDIA Clara Parabricks v4.0을 통한 유전자 서열 분석의 대중화 및 가속화

Reading Time: 5 minutes

컴퓨터 생물학 분야는 빠르고 정확하며 사용하기 쉬운 생물 정보학 도구에 의존합니다. 차세대 서열 분석(NGS)이 점점 더 빨라지고 비용이 저렴해짐에 따라 데이터 홍수가 부상하고 있으며, 액세스 가능하고 높은 처리량을 제공하는 업계 표준 분석에 관한 필요성이 계속 커지고 있습니다.

GTC 2022에서 NVIDIA는 유전체 연구원과 생물 정보학자가 유전자 서열 분석 파이프라인을 배포하고 확장하는 방식을 상당히 개선하는 NVIDIA Clara Parabricks v4.0의 출시를 발표했습니다.

  • Clara Parabricks 소프트웨어는 이제 개별 도구 또는 통합 컨테이너로 NGC 연구원에게 무료로 제공됩니다. 엔터프라이즈급 지원이 필요한 고객은 NVIDIA AI Enterprise를 통해 정식 버전을 사용할 수 있습니다.
  • 이제 Clara Parabricks는 WDL(Workflow Description Language) 및 NextFlow와 같은 일반적인 워크플로우 언어에 쉽게 통합되어 GPU 가속 및 타사 도구의 상호 연결과 온프레미스 및 클라우드에서의 확장 가능한 배포를 할 수 있습니다. Broad Institute의 Cromwell 워크플로우 관리 시스템도 지원됩니다. 
  • Clara Parabricks는 현재 The Broad Institute, Microsoft, Verily가 공동 개발한 SaaS 플랫폼인 Terra에서 25,000명 이상의 과학자에게 제공됩니다. Clara Parabricks를 사용하면 CPU 환경에서 24시간이 걸리는 것에 비해 유전자 분석 시간이 단 1시간으로 단축되며, 전체 유전자 서열 분석 비용을 50%까지 절감할 수 있습니다.
  • Clara Parabricks는 GPU 가속, 업계 표준 및 딥 러닝 기반 도구에 계속 집중하며 최신 DeepVariant v1.4 생식계열 호출자도 제공합니다. Clara Parabricks는 시퀀서에 구애받지 않는 도구 및 딥 러닝 접근 방식 분야에서의 개발에 초점을 맞추고 있습니다.
  • Clara Parabricks는 이제 Amazon Web Services, Google Cloud Platform, Terra, DNAnexus, Lifebit, Agilent Technologies, 영국 바이오뱅크 연구 분석 플랫폼(RAP), Oracle Cloud Infrastructure, Naver Cloud, Alibaba Cloud, Baidu AI 클라우드를 포함한 많은 클라우드 제공업체와 파트너를 통해 제공됩니다.

연구 개발을 위한 라이선스 없는 사용

Clara Parabricks v4.0은 이제 연구 개발에 완전히 무료로 제공됩니다. 이는 이전 버전의 분석 소프트웨어에 있던 설치 스크립트 및 엔터프라이즈 라이선스 서버가 제거되어 그 어느 때보다 기술 장벽이 적다는 것을 의미합니다. 

또한 온프레미스 또는 클라우드에서 최대한의 사용 편의성을 갖춘 NVIDIA 인증 시스템으로부터 Clara Parabricks Docker 컨테이너를 빠르고 쉽게 가져와 실행할 수 있는 기능으로 배포가 크게 단순화되었습니다.

프로덕션 워크플로우에 대한 엔터프라이즈급 기술 및 엔지니어링 지원이 필요하거나 NVDIA 전문가와 함께 새로운 기능, 애플리케이션, 성능 최적화를 위해 협력해야 하는 상용 사용자는 이제 NVIDIA AI Enterprise 지원을 구독할 수 있습니다. 이 지원은 곧 출시될 NVIDIA AI Enterprise v3.0과 함께 Parabricks v4.0에서 사용할 수 있습니다.

NVIDIA AI Enterprise 지원 구독은 컨테이너 수준에서 전체 온프레미스 및 클라우드 배포에 이르기까지 전체 스택을 지원하며, NVIDIA Parabricks 전문가에 대한 액세스, 보안 알림, IT 또는 데이터 사이언스와 같은 분야의 엔터프라이즈 트레이닝, TensorFlow, PyTorch, NVIDIA TensorRTNVIDIA RAPIDS에 대한 딥 러닝 지원과 함께 제공됩니다. NVIDIA AI Enterprise 지원 서비스 및 트레이닝에 대해 자세히 알아보십시오. 

그림 1. 파이프라인 및 워크플로우를 포함하여 Clara Parabricks 내의 모든 도구에 무료로 액세스

WDL 및 NextFlow 워크플로우에서 배포

이제 라이선스 서버 없이 NGC 컬렉션 컨테이너에서 직접 Clara Parabricks를 가져올 수 있습니다. 즉, 다양한 시스템과 플랫폼에서 확장 가능하고 유연한 생물정보학 워크플로우의 일부로 쉽게 실행할 수 있습니다.

여기에는 생물 정보학 커뮤니티에서 일반적으로 사용할 수 있도록 새로운 Clara-Parabricks-WorkflowsGitHub 리포지토리에서 제공되는 인기 있는 생물정보학 워크플로우 관리자 WDL 및 NextFlow가 포함됩니다. 다음에 대한 WDL 및 NextFlow 워크플로우 또는 모듈을 찾을 수 있습니다.

  • Clara Parabricks FQ2BAM을 사용한 BWA-MEM 정렬 및 처리
  • GATK 모범 사례를 적용하는 옵션과 함께 가속화된 HaplotypeCaller 및 DeepVariant를 실행하는 생식계열 호출 워크플로우
  • 판독 자료를 추출하여 새로운 참조 유전자(예: T2T 완료 인간 유전자)에 재정렬하는 BAM2FQ2BAM 워크플로우
  • 선택적 정상 패널과 함께 가속화된 Mutect2를 사용하는 체세포 워크플로우
  • VCF에서 체세포 변이 호출을 위한 새로운 정상 패널을 생성하는 워크플로우
  • 레퍼런스 인덱스를 구축하기 위한 워크플로우(앞서 나열된 여러 워크플로우 및 작업에 필요)

또한 국립암연구소의 연구원들과 공동으로 개발한 트리오 데이터에서 새로운 돌연변이를 호출하는 워크플로우가 올해 하반기에 제공될 예정입니다.

이러한 워크플로우는 놀라운 유연성을 제공하여 사용자가 Clara Parabricks의 GPU 가속 도구를 타사 도구와 결합할 수 있도록 합니다. 로컬 클러스터(예: SLURM) 또는 클라우드 플랫폼에 대규모로 배포하기 전에 각 작업에 대한 개별 컴퓨팅 리소스를 지정할 수 있습니다. 예제 구성 및 권장 GPU 인스턴스는 Clara-Parabricks-Workflows GitHub 리포지토리를 참조하십시오.

그림 2. Clara Parabricks Docker 컨테이너에서 직접 가져오고 gpuTypegpuCount 컴퓨팅 요구사항 지정

온프레미스 또는 클라우드에서 실행

Clara Parabricks는 클라우드 배포에 적합합니다. Clara Parabricks는 Amazon Web Services, Google Cloud Services, DNAnexus, Lifebit, Baidu AI Cloud, Naver Cloud, Oracle Cloud Infrastructure, Alibaba Cloud, Terra 등을 포함한 여러 클라우드 플랫폼에서 실행 가능합니다.

Clara Parabricks v4.0 WDL 워크플로우는 이제 Terra 플랫폼에 통합되어 25,000명 이상의 과학자들이 가속화된 유전자 분석을 실행할 수 있습니다. Terra의 확장 가능한 플랫폼은 수많은 NVIDIA GPU를 호스팅하는 Google Cloud에서 실행됩니다. 30배 전체 유전자에 대한 FASTQ-VCF 분석은 CPU 환경에서는 24시간이 걸리는 데 비해 Terra의 Clara Parabricks를 사용하는 경우 1시간이 조금 넘게 걸립니다. 또한 비용은 5달러에서 2달러로 50% 이상 절감됩니다(그림 3).

Terra 플랫폼에서 연구원은 온프레미스 환경보다 훨씬 더 쉽게 풍부한 데이터에 액세스할 수 있습니다. 하드웨어를 수동으로 관리하고 구성하는 대신 버튼 하나만 누르면 Clara Parabricks 작업 공간에 액세스할 수 있습니다. Terra 커뮤니티 워크벤치의 Clara Parabricks 페이지에서 시작하십시오.

그림 3. Terra에서 FASTQ-VCF 실행

Clara Parabricks 및 NVIDIA GPU를 사용하면 30배 전체 유전자(BWA-MEM, MarkDuplicates, BQSR 및 HaplotypeCaller 포함)의 생식계열 분석을 위한 런타임 및 컴퓨팅 비용(선점 가격)이 크게 줄어듭니다.

Clara Parabricks v4.0 도구 및 기능

Clara Parabricks v4.0은 빠른 정렬, 최적 표준 처리 및 높은 정확도의 변이 호출로 인해 이전 버전보다 더 집중된 유전자 분석 도구 세트입니다. GPU 및 CPU 작업을 자유롭고 원활하게 엮을 수 있는 유연성을 제공하고 유전체학 워크플로우에서 가장 인기 있고 병목 현상이 있는 도구의 GPU 가속을 우선적으로 처리합니다. Clara Parabricks는 또한 유전체학에 최첨단 딥 러닝 접근 방식을 통합할 수 있습니다.

그림 4. NVIDIA Clara Parabricks v4.0의 도구 세트

개별 Clara Parabricks 도구는 이제 NGC의 Clara Parabricks 컬렉션의 개별 컨테이너 또는 모든 도구를 하나로 통합하는 통합 컨테이너로 제공됩니다. 개별 컨테이너의 경우 생물정보학자는 린 컨테이너에 액세스할 수 있으며 Clara Parabricks 팀은 도구 릴리스별 민첩성을 더 자주 푸시하여 최신 버전에 대한 액세스를 제공할 수 있습니다. 

첫 번째 릴리스는 DeepVariant v1.4용입니다. 이 최신 버전의 DeepVariant는 여러 유전체학 시퀀서 전반에서 정확도를 개선합니다. Illumina 전체 유전자 및 전체 진유전체 모델에 대한 추가 판독 삽입 크기 기능이 있어 오류를 4~10%까지 줄이고, PacBio 서열 분석 실행에서 보다 정확한 변이 호출을 위한 직접 위상 조정이 제공됩니다. 즉, 이제 DeepVariant-WhatsHap-DeepVariant 또는 PEPPER-Margin-DeepVariant와 같은 파이프라인을 통해 DeepVariant에서 직접 PacBio 데이터에 대해 단계적으로 변이를 호출하는 높은 정확도의 프로세스를 수행할 수 있습니다.

DeepVariant v1.4는 새롭게 부상하는 유전체학 서열 분석 기기를 위한 여러 맞춤형 DeepVariant 모델과도 호환됩니다. 이 모델은 NVIDIA Clara Parabricks 팀과 협력하여 GPU 가속을 통해 서열 분석 기기 전반에 걸쳐 빠르고 정확한 변이 호출을 제공합니다. DeepVariant v1.4는 이제 NGC의 Clara Parabricks 컬렉션에서 사용할 수 있습니다.

유전체학 및 정밀 의학에 대한 딥 러닝 접근 방식은 Clara Parabricks의 주요 관심사이며, GTC 2022 NVIDIA 및 Broad Institute 발표에서GATK(유전자 분석 도구 키트) 및  DNA 및 RNA를 위한 대규모 언어 모델의 추가 개발에 대해 강조했습니다.

Clara Parabricks v4.0 시작하기 

Clara Parabricks를 무료로 사용하려면 NGC의 Clara Parabricks 컬렉션을 방문하십시오. 또한 무료 Clara Parabricks NVIDIA LaunchPad 랩을 요청하여 진유전체 및 전체 유전자 데이터세트를 위해 생식계열 및 체세포 분석의 가속화된 업계 표준 도구를 실행할 수 있는 실습 경험을 얻을 수 있습니다.

사용 가능한 도구에 대한 기술 세부 정보를 포함하여 Clara Parabricks에 대한 자세한 내용은 Clara Parabricks 문서를 참조하세요.

이 블로그에 열거된 SDK의 대부분의 독점 액세스, 얼리 액세스, 기술 세션, 데모, 교육 과정, 리소스는 NVIDIA 개발자 프로그램 회원은 무료로 혜택을 받으실 수 있습니다. 지금 무료로 가입하여 NVIDIA의 기술 플랫폼에서 구축하는 데 필요한 도구와 교육에 액세스하시고 여러분의 성공을 가속화 하세요.

Discuss (0)

Tags

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다