数据科学

使用 RAPIDS 在 Azure Synapse Analytics 上构建 NVIDIA GPU – 加速管道

Azure 最近宣布支持 NVIDIA 的 T4 张量核心图形处理单元( GPUs ) ,这是为以经济高效的方式部署机器学习推断或分析工作负载而优化的。使用 Apache Spark ™ Azure Synapse Analytics 针对 NVIDIA GPU 的部署进行了优化,加上预安装的库,提供了一种利用 GPU 为各种数据处理和机器学习任务提供动力的简单方法。 GPU-accelerated Spark 的 Azure Synapse 版本内置了对 RAPIDS 加速的支持,与在 CPU 上运行相比,它在标准分析基准上的性能提升至少是在 CPU 上运行的 2 倍,所有这些都没有任何代码更改。

目前, Azure Synapse 中的 GPU 加速功能可用于 按请求进行私人预览

NVIDIA GPU 加速的好处

NVIDIA GPU 提供了极高的计算性能,将并行处理引入多核服务器,以加速苛刻的工作负载。 CPU 由几个为顺序串行处理而优化的内核组成,而。另一方面, GPU 具有大规模并行体系结构,由数千个更小、更高效的内核组成,设计用于同时处理多个任务。考虑到 数据科学家将 80% 的时间花在数据预处理上 , GPU s 是加速数据处理管道的关键工具,而不仅仅依赖于包含 CPU 的管道。

构建这些管道的最有效和最熟悉的方法之一是使用 Apache Spark ™. Apache Spark 中 NVIDIA GPU 加速的好处™ 包括:

  • 更快地完成数据处理、查询和模型训练,从而加快迭代速度,缩短洞察时间。
  • 相同的 GPU 加速基础架构有助于消除 Spark 和 ML / DL 框架对复杂决策和调优的需求。
  • 需要更少的计算节点;降低基础架构成本,并有助于避免与规模相关的问题。

NVIDIA 和 Azure Synapse 协作

NVIDIA 和 Azure Synapse 合作为数据科学家和数据工程师带来 GPU 加速。这种集成将使客户能够自由地使用 NVIDIA GPU for Apache Spark ™ 无代码更改且体验与 CPU 群集相同的应用程序。此外,这一合作将继续增加对最新 NVIDIA GPU 和网络产品的支持,并为希望通过数据工程、数据准备和机器学习的单一管道提高生产率和节约成本的大数据客户提供持续增强。

要了解有关此项目的更多信息,请访问 NVIDIA GTC 2021 年会议 查看我们的演示文稿。

Apache Spark ™ Azure Synapse 中的 3 . 0 GPU 加速

而 Apache Spark ™ 提供开箱即用的 GPU 支持,配置和管理所有必需的硬件以及安装所有低级库需要付出大量的努力。当您尝试启用 GPU 的 Apache Spark™ 时 在 Azure Synapse 中,您会立即注意到一个非常简单的用户体验:

幕后繁重的工作 :为了有效使用 GPU ,库用于与主机上的图形卡进行通信。安装和配置这些库需要时间和精力。 Azure Synapse 负责预安装这些库,并通过与 GPU Apache Spark™ 集成,在计算节点之间建立所有复杂的网络池。在短短几分钟内,您就可以不再担心设置问题,而是专注于解决业务问题。

优化的 Spark 配置 :通过 NVIDIA 和 Azure Synapse 之间的合作,我们为支持 GPU 的 Apache Spark 提供了最佳配置™ 游泳池。因此,您的工作负载以最佳方式运行,为您节省了时间和运营成本。

包含数据准备和 ML 库 :启用 GPU 的 Apache Spark ™ Azure Synapse 中的池内置了两个流行的库,支持更多功能:

  • RAPIDS 用于数据准备 : RAPIDS 是一套开源软件库和 API ,用于完全在 GPU 上执行端到端的数据科学和分析管道,以大幅提高速度,尤其是在大型数据集上。 RAPIDS Apache 加速器 Spark ™ 构建在 NVIDIA CUDA 和 UCX 之上,支持 GPU 加速 SQL 、数据帧操作和 Spark 洗牌。由于没有利用这些加速的代码更改,您还可以加速依赖 Linux 基金会 三角洲湖 或微软 Hyperspace 索引的数据管道(这两种索引都是在 BACK 中可用的)。
  • Hummingbird 用于加速对传统 ML 模型的评分和推理。 Hummingbird 是一个用于将传统 ML 运算符转换为张量的库,其目标是加速传统机器学习模型的推理(评分/预测)。
图 1 : Spark Azure Synapse 中的数据准备和 ML 。

当运行 NVIDIA 决策支持( NDS )测试查询时(源自行业已知基准测试),超过 1 TB 的拼花地板数据,我们的早期结果表明 GPUs 可以在不改变任何代码的情况下,将总体查询性能提高近 2 倍。

图 2 :总体性能结果。
图 3 :当前 Azure Synapse 产品。

 

Tags