新的机器学习模型挖掘了卫星数据解决问题的潜力

加州大学伯克利分校的一组科学家进行的新研究使全球数据贫乏的地区有能力分析数据丰富的卫星图像。发表在自然传播上的研究介绍了一种机器学习模型，资源受限的组织和研究人员可以利用该模型提取区域社会经济和环境信息。能够远程评估当地资源有助于指导有效的干预措施并使全球社区受益。

“我们发现，包括我们在内的许多研究人员都放弃了这一有价值的数据源，因为建立计算机视觉管道将原始像素值转化为有用信息的复杂性和前期成本。我们认为 MIG 有一种方法可以使这些信息更容易获取，同时保持最先进方法提供的预测技能。因此，我们开始构建一种实现这一目标的方法，”该研究的合著者伊恩·博利格（ Ian Bolliger ）说，他在加州大学伯克利分校攻读能源与资源博士学位时参与了这项研究。

在任何时候，数百颗图像采集卫星环绕地球运行，每天向数据库发送大量信息。这些数据对全球挑战（包括健康、经济和环境条件）有着宝贵的洞察力，甚至还提供了对数据贫乏和偏远地区的观察。

将卫星图像与机器学习（ SIML ）相结合已成为将这些原始数据流转化为可用信息的有效工具。研究人员已将 SIML 应用于广泛的研究，从计算贫困率到水的供应，再到教育普及。然而，大多数 SIML 项目捕捉的是一个狭隘主题的信息，创建的数据适合于特定的研究和位置。

研究人员试图创建一个可访问的系统，能够分析和组织来自多个来源的卫星图像，同时降低计算需求。他们创建的工具，称为使用卫星图像和厨房水槽的多任务观测（ MOSAIKS ），通过使用相对简单和更有效的无监督机器学习算法来实现这一点。

“我们设计 MOSAIKS 时考虑到单个卫星图像同时包含许多不同预测变量（如森林覆盖率或人口密度）的信息。我们选择使用图像的无监督嵌入来创建每个图像的统计摘要。特征化步骤的无监督性质使得管道的学习和预测步骤非常快，而如何从图像计算这些特征的细节非常适合卫星图像数据，”合著者、博士 Esther Rolf 说。伯克利大学计算机科学系学生。

为了开发模型，研究人员在 AWS 上使用 CUDA – 加速 NVIDIA V100 Tensor Core GPU。公共可用的CodeOcean胶囊使用 NVIDIA GPU ，它提供代码、计算和存储，供任何人交互运行。