Data Center / Cloud

Evo 2와 함께 진화 전반에서 새로운 규모로 생명체의 생체 분자 언어 이해

Reading Time: 6 minutes

AI는 실험적인 호기심을 넘어서 생물학 연구의 원동력으로 진화했습니다. 딥 러닝 알고리즘, 방대한 오믹스 데이터 세트, 자동화된 실험실 워크플로우의 융합으로 인해 과학자들은 한때 해결하기 어렵다고 여겨졌던 단백질 구조의 신속한 예측, 생성형 신약 설계 등과 같은 문제를 해결할 수 있게 되었으며, 과학자들 사이에서 AI 사용 능력에 대한 필요성이 높아졌습니다. 이러한 모멘텀으로 현재 생물학을 위해 특별히 구축된 강력한 AI 파운데이션 모델의 출현이라는 새로운 패러다임 전환의 정점에 있다고 할 수 있습니다.

이러한 새로운 모델은 유전체 서열, RNA 및 단백질체 프로파일, 그리고 경우에 따라 과학 문헌과 같은 서로 이질적인 데이터 소스를 통합하여 분자, 세포, 시스템 수준에서 생명체에 대한 단일하고 일관된 이해를 가능하게 합니다. 생물학의 언어와 구조를 학습하면 더 스마트한 신약 개발, 합리적인 효소 설계, 질병 메커니즘 설명과 같은 혁신적인 응용 분야에 활용할 수 있습니다.

AI 기반 혁신의 새로운 물결을 위한 무대를 마련하는 가운데, 이러한 파운데이션 모델은 발전을 가속화할 뿐만 아니라 생물학 연구에서 가능한 것을 재정의할 준비가 되어 있다는 것이 분명합니다.

분자에서 유전체 규모까지 시퀀스 모델링 및 설계의 도약

2024년 11월의 첫 Evo 모델은 유전체 연구에서 획기적인 이정표를 세웠으며, DNA, RNA, 단백질 전반에 걸쳐 생물학적 시퀀스를 분석하고 생성할 수 있는 파운데이션 모델을 도입했습니다.

대부분의 모델이 단일 양식이나 짧은 컨텍스트로 제한되었던 시기에 출시된 Evo는 분자 수준부터 유전체에 이르는 다양한 범위에서 작동하는 통합된 접근 방식을 사용하는 능력으로 알려져 있습니다. 3천억 개의 뉴클레오티드 토큰을 포함하는 270만 개의 원핵생물 및 파지 유전체에 대해 훈련된 Evo는 많은 생물학적 진화 및 기능 작업에서 단일 뉴클레오티드 분해능을 제공했습니다.

Evo의 성공의 핵심은 혁신적인 StripedHyena 아키텍처입니다(그림 1). StripedHyena는 29개의 Hyena 레이어를 결합하는 하이브리드 모델이며, Transformer 아키텍처에 일반적인 기존 어텐션 메커니즘에 의존하지 않고 긴 시퀀스의 정보를 처리하도록 설계된 새로운 유형의 딥 러닝 아키텍처입니다. 대신 컨볼루션 필터와 게이트의 조합을 사용합니다.

이 설계 덕분에 Evo는 기존 Transformer 모델의 한계를 극복하여, 최대 131,072개의 토큰으로 구성된 긴 컨텍스트를 효율적으로 처리할 수 있게 되었습니다. 그 결과, 작은 시퀀스 변경을 전체 시스템 및 유기체 수준의 영향과 연결할 수 있는 모델이 구축되어 분자 생물학과 진화 유전체학 간의 간극을 해소했습니다.

그림 1. Evo 및 Evo 2 AI 모델 아키텍처

Evo의 예측 능력은 생물학 모델링의 새로운 기준을 제시합니다. EVO는 단백질, 비암호화 RNA, 조절 DNA에 대한 돌연변이의 적합성 효과 예측을 포함하여 여러 제로샷 작업에서 경쟁력 있는 성능을 달성했으며, 합성 생물학 및 정밀 의학 분야에 매우 유용한 인사이트를 제공했습니다.

Evo는 또한 기능적인 CRISPR-Cas 시스템과 트랜스포존을 설계하는 놀라운 생성형 기능을 입증했습니다. 이러한 결과는 실험을 통해 검증되었으며, Evo가 실제 유용하게 활용할 수 있는 새로운 생물학 시스템을 예측하고 설계할 수 있음을 보여줍니다.

Evo는 다중 모드 및 다중 규모의 생물학적 이해를 단일 모델로 통합하는 데 있어 주목할 만한 발전을 이루었습니다. 유전체 규모의 서열을 생성하고 전체 유전체에 걸쳐 유전자 필수성을 예측할 수 있는 능력은 생명 분석 및 생명 공학 기술의 도약을 의미합니다.

Evo의 이정표는 기술적 성과뿐만 아니라 그 비전에도 있습니다. 이 통합 프레임워크는 생물학의 방대한 복잡성과 최첨단 AI를 결합하여 생명과학 분야의 발견과 혁신을 가속화했습니다.

진화 전반에서 생명의 언어 학습

Evo 2는 유전체 모델링에서 이러한 연구 분야를 잇는 차세대 제품이며, Evo의 성공을 기반으로 확장된 데이터, 향상된 아키텍처, 탁월한 성능을 제공합니다.

Evo 2는 DNA, RNA, 단백질의 세 가지 필수 생체 분자와 Eukarya, Prokarya, Archaea의 세 가지 생체 영역에 대한 인사이트를 제공할 수 있습니다. 15,032개의 진핵생물 유전체와 113,379개의 원핵생물 유전체에서 수집된 8.85T 뉴클레오티드로 데이터 세트로 학습된 이 훈련 데이터 세트는 다양한 종을 포괄하여, 전례 없는 교차 종 일반화를 가능하게 하고, 원핵생물 유전체에만 초점을 맞춘 Evo에 비해 적용 범위를 크게 넓혔습니다.

Evo 2는 최대 400억 개의 매개변수로 확장된 새롭고 향상된 StripedHyena 2 아키텍처를 사용하여, 모델의 훈련 효율성과 1백만 토큰 컨텍스트 길이로 장거리 종속성을 포착하는 능력을 강화합니다. StripedHyena 2는 컨벌루션을 기반으로 하는 다중 하이브리드 설계 덕분에, Transformer는 물론 선형 어텐션이나 상태 공간 모델을 사용하는 다른 하이브리드 모델보다 훨씬 빠르게 훈련합니다.

가장 큰 Evo 2 모델은 AWS에서 NVIDIA DGX Cloud를 사용하는 2,048개의 NVIDIA H100 GPU로 훈련되었습니다. NVIDIA와 Arc의 파트너십을 통해 NVIDIA AI 소프트웨어와 전문 지식으로 대규모 분산 훈련에 최적화된 고성능의 이 완전 관리형 AI 플랫폼을 이용할 수 있었습니다.

이러한 발전은 Evo의 70억 개 매개변수와 131,000 토큰 컨텍스트 길이에 비해 획기적인 성능 향상을 가져왔으며, Evo 2는 다중 모드 및 다중 규모 생물학 모델링의 리더로서 자리매김했습니다(표 1).

기능EvoEvo 2
유전체 훈련 데이터박테리아 + 박테리오파지 (300B 뉴클레오티드)모든 생명 영역 + 박테리오파지 (9T 뉴클레오티드)
모델 매개변수7B7B + 40B
컨텍스트 길이131,072개 토큰최대 1,048,576개 토큰
양식DNA, RNA, 단백질DNA, RNA, 단백질
안전진핵생물 바이러스 제외진핵생물 바이러스 제외
적용제한된 교차 종 작업광범위한 교차 종 응용
표 1. Evo 2 및 Evo의 주요 기능

Evo 2의 확장된 훈련 데이터와 개선된 아키텍처는 다양한 생물학 응용 분야에서 탁월한 성능을 발휘할 수 있도록 지원합니다. 이 다중 모드 설계는 DNA, RNA, 단백질 데이터를 통합하므로, 돌연변이 영향 예측, 유전체 주석과 같은 작업에서 제로샷 성능을 가능하게 합니다. Evo 2는 또한 진핵생물 유전체를 포함하여 Evo를 근본적으로 개선하여, 인체 질병, 농업, 환경 과학에 대한 더 깊은 인사이트를 가능하게 합니다.

Evo 2의 예측 능력은 다양한 작업 전반에서 특화된 모델을 능가합니다.

  • 변이 영향 분석: 인간 및 비암호화 변이를 포함하여 다양한 생물 종에 걸쳐 돌연변이의 기능적 효과를 사전 학습 없이 예측하는 데 최첨단 정확도를 달성합니다.
  • 유전자 필수성: 원핵생물 및 진핵생물 유전체에서 필수 유전자를 식별하고, 실험 데이터 세트에 대해 검증되며, 분자 생물학 및 시스템 생물학 과제 간의 간극을 해소합니다.
  • 생성형 기능: 유전체 규모의 원핵생물 및 진핵생물 서열과 같은 복잡한 생물학 시스템을 설계하고, 염색질 접근성의 제어 가능한 설계를 통해 실제 적용 가능한 생물학 설계를 위한 새로운 기능을 시연합니다.

NVIDIA Evo 2 NIM 마이크로서비스 사용

NVIDIA Evo 2 NIM 마이크로서비스는 토큰화, 샘플링, 온도 매개변수를 조정할 수 있는 설정이 가능한 API를 통해 다양한 생물학 서열을 생성하는 데 유용합니다.

# Define JSON example human L1 retrotransposable element sequence
example = {
  
# nucleotide sequence to be analyzed  
        "sequence": "GAATAGGAACAGCTCCGGTCTACAGCTCCCAGCGTGAGCGACGCAGAAGACGGTGATTTCTGCATTTCCATCTGAGGTACCGGGTTCATCTCACTAGGGAGTGCCAGACAGTGGGCGCAGGCCAGTGTGTGTGCGCACCGTGCGCGAGCCGAAGCAGGGCGAGGCATTGCCTCACCTGGGAAGCGCAAGGGGTCAGGGAGTTCCCTTTCCGAGTCAAAGAAAGGGGTGATGGACGCACCTGGAAAATCGGGTCACTCCCACCCGAATATTGCGCTTTTCAGACCGGCTTAAGAAACGGCGCACCACGAGACTATATCCCACACCTGGCTCAGAGGGTCCTACGCCCACGGAATC", 
        "num_tokens": 102, # number of tokens to generate
        "top_k": 4, # only predict top 4 most likely outcomes per token
        "top_p": 1.0, # include 100% cumulative prob results in sampling
        "temperature": 0.7, # add variability (creativity) to predictions
        "
": True, # enable more diverse outputs
        "enable_logits": False, # disable raw model output (logits)
}
 
# Retrieve the API key from the environment
key = os.getenv("NVCF_RUN_KEY")
 
# Send the example sequence and parameters to the Evo 2 API
r = requests.post(
 
        # Example URL for the Evo 2 model API.
        url=os.getenv("URL","https://health.api.nvidia.com/v1/biology/arc/evo2-40b/generate")
         
        # Authorization headers to authenticate with the API
        headers={"Authorization": f"Bearer {key}"},
         
        # The data payload (sequence and parameters) sent as JSON
        json=example,
)

다양한 프롬프트의 API 출력에 대한 자세한 내용은 NVIDIA BioNeMo 프레임워크 문서를 참조하세요.

Evo 2는 오픈 소스 NVIDIA BioNeMo 프레임워크를 사용하여 미세 조정할 수도 있습니다. 이는 Evo 2와 같은 사전 훈련된 모델을 BioPharma의 특수 작업에 맞게 조정하기 위한 강력한 도구를 제공합니다.

# Prepare raw sequence data for training based on a YAML config file 
   preprocess_evo2 -c data_preproc_config.yaml
 
# Trains the Evo 2 model with preprocessed data and parallelism across multiple GPUs   
torchrun --nproc-per-node=8 --no-python train_Evo 2 -d data_train_config.yaml --num-nodes=1 --devices=8 --max-steps=100 --val-check-interval=25 --experiment-dir=/workspace/bionemo2/model/checkpoints/example --seq-length=8192 --tensor-parallel-size=4 --pipeline-model-parallel-size=1 --context-parallel-size=2 --sequence-parallel --global-batch-size=8 --micro-batch-size=1 --model-size=7b --fp8 --tflops-callback
 
# Optional Fine-tuning: Add this argument to start from a pretrained model  
# --ckpt-dir=/path/to/pretrained_checkpoint

Evo 2와 생물학 분야에서 AI의 미래

AI는 생물학 연구를 빠르게 변화시킬 준비가 되어 있으며, 이전에는 수십 년이 걸릴 것으로 생각된 혁신을 가능하게 합니다. Evo 2는 전례 없는 수준으로 DNA, RNA, 단백질 서열을 분석하고 생성할 수 있는 유전체 파운데이션 모델을 도입하여, 이러한 진화의 흐름을 주도합니다.

Evo는 원핵생물의 돌연변이 효과와 유전자 발현을 예측하는 데 탁월했지만, Evo 2의 기능은 훨씬 더 광범위하며 향상된 교차 종 일반화를 통해, 진핵생물 생물학, 인체 질병, 진화적 관계를 연구하는 데 유용한 도구입니다.

암 위험을 유발하는 유전자 식별에서 복잡한 생체 분자 시스템 설계에 이르기까지 제로샷 작업을 수행할 수 있는 Evo 2의 능력은 그 다재다능함을 보여줍니다. 긴 컨텍스트 종속성을 포함하면 유전체 전체에서 패턴을 발견할 수 있으며, 정밀 의학, 농업, 합성 생물학 분야의 발전에 중요한 다중 모드 및 다중 규모 인사이트를 제공할 수 있습니다.

이 분야가 발전함에 따라, Evo 2와 같은 모델은 AI가 생명 현상의 복잡성을 밝혀내고, 새롭고 유용한 생물학 시스템을 설계하는 데 사용되는 미래를 위한 발판을 마련하고 있습니다. 이러한 발전은 AI 기반 과학의 광범위한 트렌드와 부합하여, 기초 모델이 분야별 과제에 맞게 조정되어 이전에는 불가능했던 역량을 실현하고 있습니다. Evo 2의 기여는 AI가 생체 세계를 해독, 설계, 재구성하는 데 없어서는 안 될 파트너가 될 미래를 예고합니다.

Evo 2에 대한 자세한 내용은 Arc Institute에서 발행한 기술 보고서를 참조하세요. Evo 2는 NVIDIA BioNeMo 플랫폼 내에서도 사용할 수 있습니다.

도움 주신 분들

이 게시물의 아이디어, 글쓰기, 그림 디자인에 훌륭한 기여를 해 주신, 연구에 참여한 다음 분들에게 감사드립니다.

  • Garyk Brixi, 스탠퍼드 대학교 유전학 박사 과정
  • Jerome Ku, Arc Institute와 협력하는 머신 러닝 엔지니어
  • Michael Poli, Liquid AI 창립 과학자 및 스탠퍼드 대학교 컴퓨터과학 박사 과정
  • Greg Brockman, OpenAI의 공동 창립자 겸 사장
  • Eric Nguyen, 스탠퍼드 대학교 생물공학 박사 과정
  • Brandon Yang, Cartesia AI 공동 창립자 및 스탠퍼드 대학교 컴퓨터과학 박사 과정 (휴학 중)
  • Dave Burke, Arc Institute 최고 기술 책임자
  • Hani Goodarzi, Arc Institute의 핵심 연구원, 캘리포니아 대학 샌프란시스코(UCSF) 생물물리학 및 생화학 부교수
  • Patrick Hsu, Arc Institute 공동 창립자, 캘리포니아 대학 버클리(UC Berkeley) 생물공학과 조교수 겸 Deb Faculty Fellow
  • Brian Hie, 스탠퍼드 대학교 화학공학과 조교수, Dieter Schwarz Foundation Stanford Data Science(SDS) Faculty Fellow, Arc Institute 혁신 연구원, 스탠퍼드 Laboratory of Evolutionary Design 리더

관련 리소스

Discuss (0)

Tags