用 GPU 加速十亿向量相似性搜索

基于 GPU 的功能， Facebook AI Research 的一个团队开发了一种更快、更有效的 AI 运行相似性搜索的方法。这个 study ，发表于 IEEE 大数据交易 ，创建了一种深度学习算法，能够处理和比较来自媒体的高维数据，速度明显更快，同时与以前的技术一样精确。

在一个数据供应量不断增长的世界中，这项工作有望减轻处理大型库所需的计算能力和时间。

“搜索和索引[高维数据]最直接的技术是蛮力比较，你需要对照数据库中的其他图像检查[每个图像]。这对于包含数十亿载体的集合来说是不切实际的，”研究科莱德和 Facebook 的研究工程师杰夫·约翰逊在一份新闻稿中说。

包含数百万像素和数据点的每幅图像和视频都会产生数十亿个矢量。这些大量的数据对于分析、检测、索引和比较向量非常有价值。计算大型库与依赖于多个超级计算机组件的传统 CPU 算法的相似性也存在问题，从而降低了总体计算时间。

研究人员只使用了四个 GPU 和 CUDA ，设计了一个多 GPU 到宿主和肛门的算法分析库图像数据点。该方法还压缩数据，使其更容易，从而更快地进行分析。

新算法在 35 分钟内处理了 9500 多万张高维图像。 10 亿个向量的图形计算起来不到 12 小时。根据该研究中的一项比较测试，使用 128 台 CPU 服务器集群处理同一数据库需要 108 . 7 小时，约长 8 . 5 倍。

约翰逊说：“通过将计算完全放在 GPU 上，我们可以利用加速器上更快的内存，而不是处理 CPU 服务器上较慢的内存，甚至传统超级计算机集群中较慢的机器对机器网络互连。”。

研究人员表示，这些方法已经应用于各种各样的任务，包括翻译的语言处理搜索。被称为 Facebook AI 相似性搜索库的方法是开源用于实现、测试和比较。

Tags