数据科学

数据科学家和人工智能从业者的数据故事最佳实践

用数据讲故事是人工智能和数据专业人员的一项关键软技能。为了确保利益相关者了解数据科学团队工作的技术要求、价值和影响,数据科学家、数据工程师和机器学习( ML )工程师有必要进行有效沟通。

这篇文章提供了一个框架和技巧,您可以采用这些框架和技巧将数据故事的关键元素融入到您的下一个演示、演讲或提案中。它旨在实现以下目标:

  • 在数据科学和机器学习的背景下介绍故事
  • 强调数据科学从业者有效讲故事的好处
  • 提供如何培养数据故事讲述技能的技巧

什么是用数据讲故事

数据故事讲述是将上下文信息添加到关键数据和见解中的能力,以帮助项目干系人开发观点和实现。数据科学家和人工智能从业者必须有效传达数据驱动行动或推理的影响。

数据和机器学习从业者可以使用数据故事来更有效地与客户、项目干系人、团队成员和其他业务实体沟通。令人信服的叙述可以帮助你的观众理解复杂的概念,并有助于赢得新项目。

数据故事案例研究

本节探讨数据驱动故事的关键结构组件。

文章 非洲100年后的样子 利用数据和可视化,从拉各斯、达喀尔和开罗等非洲主要城市的角度讲述了非洲正在发生的变革。

本文的战略组成介绍了问题、背景和解决方案。这种方法为任何数据驱动的叙事提供了坚实的基础。文章还包括事实、轶事、数据以及图表。总之,这些都产生了一个自由流动、结构良好、引人入胜、信息丰富的主题描述。

本文的开头部分描述了背景和要点:“非洲能否将其巨大的人口增长转化为经济发展和生活质量的提高?”

关键日期、数字和第一人称陈述等信息创造了一幅真实的画面,使读者对主题有了充分的理解。使用图表和图表显示数据,可以可视化非洲主要城市的变化。具体数据点包括人口增长、教育率和预期寿命。来自重点城市公民的个人经历和第一手资料提供了额外的背景。

数据科学中讲故事的有效框架

本节探讨数据科学领域的故事讲述应该如何结构化和呈现。目标是为您的下一次演示、文章或视频向利益相关者提供一个易于遵循的框架。

讲故事的成功秘诀可以归纳为三个独立的部分: 背景、争议和解决方案 (图 1 )。这些组件可以与其他方法相结合,用数据讲述一个引人注目的故事。

  • 背景:为你的叙述奠定基础并提供一些背景
  • 争议:讨论与上下文相关的问题
  • 解决方案:解释并讨论结束或缓解已确定问题的解决方案
Graphic showing the components of storytelling: context, dispute, and solution.
图 1.讲故事的组成部分

上下文

在讲故事中,上下文包括提供信息以加强、支持和揭示从数据样本中提取的关键发现。在没有上下文的情况下,整理的数据只是信息的字母数字表示的集合,仅此一项无法提供对问题或主题的任何可操作的见解。将数据与加强上下文和其他支持元素一起呈现可以帮助理解并帮助受众得出有意义的结论。

讲故事时,可以使用许多不同的方法来创建上下文。数据中的上下文是通过利用诸如演员、轶事、可视化、数据标签、图表等增强材料的集合而产生的。

举个例子,考虑下面的句子:

“ 2021 ,英国售出 20 万辆插入式电动汽车,同比增长约 140% 。”

添加上下文信息和支持轶事可以增加相关性,如以下段落所示:

“詹姆斯对电动汽车的兴趣是由他在收音机上无意中听到的一段关于气候变化的对话引发的。他做了一些研究,发现大众 ID.3 对他来说是一个不错的选择。詹姆斯决定购买这辆车,到 2021 中,他是众多改用电动汽车的英国居民之一。 2021 电动汽车的销量是他们的两倍多 2020 年,由于公众对气候变化及其影响的认识不断提高。”

图表和图表也很重要。它们可视化数据以帮助理解并提供额外支持(图 2 )。

Bar chart showing the sales volume of plug-in electric vehicles in selected European countries in 2021, as an example of data visualization.
图 2.条形图是数据可视化的一个示例,有助于在数据故事讲述中提供上下文

争端

在数据故事的背景下,争议是一个问题、冲突、争论、辩论或问题。为了推动引入新工具或采用新方法的影响,它有助于提及关键争议。

以下是有助于驱动初始电动汽车数据点的争议示例:

“英国是用于能源和发电的化石燃料的净进口国。化石燃料为我们的运输、电气和技术服务,甚至严重依赖化石燃料能源输出的国内项目提供动力。问题是英国决心在 2050 年前大幅减少对化石燃料的依赖。因此,问题是英国如何减少化石燃料消耗,转而使用低碳能源。此外,化石燃料是气候变化和极端天气的重要因素。”

解决方案

将故事讲述与数据联系起来时要考虑的第三个也是最后一个因素是解决方案。解决方案可以有多种形式,例如重新配置现有系统、实施新的方法,或者了解教育材料以及如何最好地使用它们。

建议的解决方案应该是直接的、显而易见的和令人难忘的。如果提议的解决方案模棱两可,利益相关者将提出更多问题。另一方面,直接解决方案允许采取行动并形成未来步骤。

以下是建议的解决方案示例:

“意识是英国制定到 2050 年减少化石燃料依赖的国家目标的第一步。为了接触到更多像詹姆斯这样的人,我们建议扩大 WWF 碳足迹应用程序的规模,以包括人工智能支持的功能,从而实现基于历史数据和预测能源需求的家庭能耗预测等服务。这项扩大规模的计划将需要 1 亿英镑的资金,并将在项目批准后一年向公众交付。”

建议的解决方案包含对故事的引用,以便于记忆。它还包括有关项目成本和时间表的信息,以表明它是直接的。

示例大纲

使用下面的示例大纲作为下一个数据故事讲述项目的参考。

打开部分

  • 从关键数据点或数据集摘要的事实陈述开始,强调争议的影响、缺乏解决方案或可能的解决方案的影响。例如,“ 2021 ,英国售出 305300 辆插入式电动汽车,同比增长约 140% 。”
  • 通过包括几个段落介绍、解释和扩展上下文,扩展开头部分。

中间部分

  • 介绍、解释并扩展争议。
  • 包括轶事、事实、数字、图表和图表,以将争议的背景化并提出问题。
  • 介绍、解释和扩展与解决方案有关的争议。
  • 包括轶事、事实、数字、图表和图表,以说明建议的解决方案的影响和价值。

关闭部分

  • 总结你的要点。展示解决方案将带来的好处,以及没有解决方案的不良后果。
  • 将行动呼吁作为下一步,用数据封装故事的预期结果。
Complete diagram of the components, elements, and considerations for storytelling.
图 3.有效数据故事的关键组成部分和附带属性

总结

公司和组织每天都在变得更加数据驱动。因此,各级人工智能和数据专业人员需要发展数据故事讲述技能,以弥合与技术、数据集和技术相关的理解差距。这篇文章中的信息将为您奠定坚实的基础,从中开始构建您的数据故事讲述技能。

 

Tags