가장 빠르게 성장하고 있는 데이터 분석 도구 중 하나인 Polars가 월간 다운로드 수 900만 건을 돌파했습니다. 최신 데이터 프레임 라이브러리로, 대규모 워크로드에 필요한 분산 컴퓨팅 시스템의 오버헤드와 복잡성 없이 단일 컴퓨터에 맞는 데이터 세트를 효율적으로 처리할 수 있도록 설계되었습니다.
신용카드 거래의 시간 제한 패턴 감지부터 전 세계 고객 기반에서 빠르게 변화하는 재고 요구 사항 관리에 이르기까지 기업이 복잡한 데이터 문제와 씨름하면서 더 높은 성능은 필수적입니다.
Polars와 NVIDIA 엔지니어들은 코드 변경 없이도 성장하는 Polars 커뮤니티에 가속화된 컴퓨팅을 제공하는 RAPIDS cuDF 기반의 Polars GPU 엔진을 오픈 베타 버전으로 출시했습니다. 이로써 Polars의 쿼리 실행이 더욱 가속화되어 CPU에서 실행할 때보다 최대 13배 빠른 속도로 데이터를 처리할 수 있게 되었습니다. 이는 마치 치타가 더 빨리 질주할 수 있도록 로켓 연료를 공급하는 것과 같습니다.
Polars의 저자이자 CEO인 Ritchie Vink는 “NVIDIA와의 협업은 Polars에서 더 높은 성능을 얻고자 하는 모든 사람에게 NVIDIA RAPIDS 및 GPU의 성능을 제공하는 특별한 기회입니다.”라고 말했습니다.
NVIDIA CUDA-X의 일부인 RAPIDS는 데이터 사이언스 및 분석 파이프라인을 개선하도록 설계된 GPU 가속 라이브러리의 오픈 소스 제품군입니다. RAPIDS cuDF는 데이터 로드, 조인, 집계, 필터링 및 조작을 위한 GPU 데이터프레임 라이브러리입니다.
모든 규모에서 데이터 처리를 가속화하는 NVIDIA 소프트웨어
데이터 사이언스 및 엔지니어링 팀이 AI 애플리케이션을 구동하기 위해 점점 더 많은 데이터 처리 파이프라인을 구축함에 따라, 원활한 운영을 위해서는 작업에 적합한 소프트웨어와 인프라를 선택하는 것이 중요합니다.
개별 서버, 워크스테이션, 노트북에 적합한 워크로드의 경우 개발자는 반복을 가속화하고 개발 환경의 복잡성을 줄이며 인프라 비용을 절감하기 위해 Polars와 같은 라이브러리를 자주 사용합니다.
이러한 단일 머신 규모의 워크로드에서는 데이터 과학자가 다운스트림 모델 학습이나 의사 결정을 안내하기 위해 탐색적 분석을 수행해야 하는 경우가 많기 때문에 빠른 반복 시간이 최우선 순위인 경우가 많습니다. CPU 전용 컴퓨팅으로 인한 성능 병목 현상은 생산성을 떨어뜨리고 완료할 수 있는 테스트/학습 주기를 제한할 수 있습니다.
단일 머신에서 처리하기에는 너무 큰 대규모 데이터 처리 워크로드의 경우, 조직은 데이터 센터의 노드에 작업을 분산하는 데 도움이 되는 Apache Spark와 같은 프레임워크를 사용합니다. 이 규모에서는 비용과 전력 효율성이 최우선 순위인 경우가 많지만, 기존 CPU 기반 컴퓨팅 인프라 사용의 비효율성으로 인해 비용이 빠르게 급증할 수 있습니다.
NVIDIA CUDA-X 데이터 처리 플랫폼은 이러한 요구 사항을 염두에 두고 설계되어 대규모 워크로드의 비용 및 에너지 효율성과 단일 머신 크기의 워크로드에 최적화된 성능을 제공합니다.
생산성과 성능이 중요한 중간 규모의 워크로드는 업계 표준 벤치마크에 따라 CPU 대신 NVIDIA GPU 지원 시스템을 사용하는 pandas 라이브러리에서 50배 빠른 성능뿐만 아니라 Polars 모두에서 성능 향상을 확인할 수 있습니다.
비용과 에너지 효율성이 중요한 워크플로우에서 Apache Spark용 RAPIDS 가속기를 사용하면 최대 80%의 비용 절감 과 최대 12배의 에너지 절감을 경험할 수 있습니다.
지금 바로 시작하기
전 세계는 그 어느 때보다 많은 데이터를 생성하고 있으며, 가속화된 컴퓨팅을 통해 이를 효율적으로 운영할 수 있습니다. 워크스테이션에서 실행하든 데이터 센터에서 스케일 아웃하든, NVIDIA 가속 데이터 처리 소프트웨어는 생산성을 향상하고 비용을 절감할 수 있습니다.
코드 변경 없이 데이터 분석 워크플로우를 가속화하는 방법에 대한 자세한 내용은 NVIDIA RAPIDS 페이지를 참조하세요.
관련 리소스
- DLI 과정: RAPIDS cuDF로 데이터프레임 작업 속도 높이기
- GTC 세션: NetworkX 가속화: 간편한 그래프 분석의 미래
- GTC 세션: NVIDIA의 cuDSS 스파스 선형 시스템 솔버를 사용한 GPU 가속화 프로세스 시뮬레이션 성능
- GTC 세션 강력한 개발자 도구로 CUDA 디버깅 및 성능 이해하기
- SDK: RAPIDS
- SDK: cuSOLVER