人工智能/深度学习

会见研究人员: Antti Honkela ,应用机器学习来保存私有数据

“会见研究人员”是一个系列,我们聚焦学术界的研究人员,他们使用 NVIDIA 技术加速他们的工作。

本月,我们在芬兰赫尔辛基大学的计算机科学系副教授聚光灯 安蒂·昂凯拉。

Honkela 是芬兰人工智能中心( FCAI )隐私保护和安全人工智能研究项目的协调教授。此外,他还担任芬兰卫生和社会数据许可管理局 Findata 指导小组的隐私和匿名专家,并就卫生数据隐私相关立法向芬兰议会发表了专家声明。

图 1 。 高斯过程学习中的噪声感知差异私有贝叶斯学习 (蓝色曲线,蓝色阴影区域表示后验置信区域)的图示,用于从最近预打印的 1024 个噪声观测值中近似基础函数(黑色曲线)。不同的面板显示了结果如何变得更准确,并且在隐私级别降低(增加)的情况下,置信区域相应缩小ε ) .

你的研究重点是什么?

我的团队主要致力于在差异隐私下开发机器学习和概率推理方法。这有力地保证了结果不会被用来侵犯数据主体的隐私。我还指导两个学生应用概率模型分析遗传数据。

是什么促使你从事这个研究领域?

我对数学和计算机感兴趣有一段时间了。在大学一年之后,我有机会成为 Harri Valpola 博士的研究助理,他现在是奇特 AI 的首席执行官和联合创始人。就在这段时间里,我迷上了贝叶斯机器学习。

生物信息学是在我拿到博士学位后出现的,当时我正努力为我的机器学习工作找到一个应用程序,而这在当时并不明显。多亏有机会参加一个神经突研讨会,我认识了埃里克·乔尔斯内斯教授;他告诉我,我一直在开发的 MIG ht 模型中,有一些非常适合模拟基因调控。

在从事生物信息学的几年之后,我又回到了机器学习领域,从事差异隐私的研究。这是一个极好的机会,可以将我的研究、我对数字人权的长期兴趣和我扎实的数学理论背景联系起来,帮助解决我认为将成为机器学习促进健康的一个重要瓶颈的问题。

告诉我们一些你目前的研究项目。

我小组的一个主要项目是由 Antti Koskela 博士领导的关于使用 numerical methods 来精确解释不同隐私的工作。当数据主体的数据被使用时,差异隐私允许导出所谓的数据主体隐私损失的上限。然而,每增加一次对数据的访问,损失就会增加,而且很容易得出总损失的非常宽松的上界。尽管如此,这些都提供了一个非常悲观的看法,实际的隐私损失。推导复杂算法的精确界,例如用微分私有随机梯度下降法训练神经网络,一直是一个主要的挑战,但我们的工作提供了一个有效的数值解和可证明的误差界。

另一个主要的举措是为 微分私有概率规划 开发工具,它允许用户指定概率模型的结构。同时,系统将自动导出从数据中学习模型的算法。这样的模型允许 更有效地创建敏感数据集的匿名双胞胎 通过简单地结合先前的知识。这项工作基于与阿尔托大学, Samuel Kaski 教授和小组的研究人员有着非常密切的合作,并由 Joonas Jälkö 和 卢卡斯·普雷迪格领导。

你的研究解决了哪些问题或挑战?

我们希望开发一些技术,允许将敏感的个人数据(如健康数据)用于精准医疗等领域,同时保证数据主体的隐私得到维护。我相信这些对于以社会可持续的方式在医疗保健领域实现理想的人工智能革命至关重要。

你最自豪的技术突破是什么?

从我们最近的工作中,我感到兴奋的噪音感知差异私人贝叶斯推断,我们最近开发的 广义线性模型,如 logistic 回归 (由 Tejas Kulkarni 博士领导的阿尔托大学)以及 高斯过程 。这些方法完美地结合了两种重要的技术:用于强隐私保护的差分隐私和用于量化预测和推断的不确定性的贝叶斯推理。这是一个完美的组合,因为差异隐私需要注入更多的随机性来保证隐私,通过这些方法,我们可以量化随机性对最终结果的影响。

再往回看,真正技术性的东西是使用 变分推理中的自然梯度 ,它可以真正加快学习速度,并导致了后来在 随机变分推理贝叶斯深度学习 方面的重大突破。

一个小而重要的技术突破,使 few major papers 成为可能,但没有成为头条新闻,是一种通过使用所谓误差函数差异的数值稳定评估来表示计算的方法。这些在高斯分布的运算中出现,最近甚至在一些微分隐私工作中出现。我原来的 MATLAB 代码现在已经移植到许多其他语言。

你是如何利用 NVIDIA 技术进行研究的?

GPU 使训练大型机器学习模型的速度大大加快,我们在小组中广泛使用 NVIDIA V100A100 GPU 。我真希望这样的工具能在我 21 世纪初攻读博士学位的时候用几周的时间来训练神经网络。

差异隐私下的训练模型在这里引起了一些问题,因为它需要访问标准深度学习框架不能有效支持的每个示例的梯度。我真的很高兴我们与赫尔辛基的 NVIDIA 人工智能技术中心进行了伟大的合作,他们帮助我们在 NVIDIA GPU 上制作了 差异私有概率编程代码运行非常快

你的下一步研究是什么?

目前我有两大目标:开发新的方法,让机器学习和贝叶斯推理在不同的隐私下做得更好,并将这些方法带到开源工具中,与用户现有的工作流程很好地集成并高效地运行。

对新的研究人员有什么建议,特别是对那些受到你工作启发和激励的人?

持久的科学贡献源于坚实的基础上的严谨工作。有很多组件会诱惑你尝试一些快速的破解来获得快速的结果,但是这些很少会带来持久的结果。在隐私等领域尤其如此,在这些领域,严格的数学隐私证明是必不可少的,而看似微小的细节可能会破坏一些其他有吸引力的方法组合的证明。

要了解更多关于 Antti Honkela 和他的团队正在做的工作,请访问他的 学术界网页

 

Tags