数据科学

数据科学家和机器学习实践者的重要技能

编者按:如果你有兴趣分享你的数据科学和人工智能专业知识,你可以申请为我们的 博客 写作。

数据科学作为一门学科和专业,要求从业者具备各种技能,从沟通、领导等软技能到演绎推理、算法思维、编程等硬技能。但是有一个关键的技能应该由数据科学家掌握,不管他们的经验如何,那就是.

即使是从事量子计算或医疗研究等技术领域的数据科学家也需要写作。培养强大的写作能力需要时间,而数据科学家面临的挑战是 MIG ht 阻止他们轻松表达自己的想法。这就是为什么本文包含了各种写作策略,并解释了它们如何有益于数据科学和 Machine Learning 专业人士。

1 .短文

让我们从我们遇到的最典型的易理解的写作风格开始。以简短的形式写作通常不费吹灰之力,也不会占用太多时间。 Twitter 、 LinkedIn 、 Facebook 、 Quora 和 StackOverflow 上的机器学习和数据科学内容都属于这一类。

Image with a laptop and mobile phone
图1:Austin Distel Unsplash 上的照片

长格式内容,如书籍、文章和散文,通常是 ML 领域最有价值的材料。所有这些都需要时间来写、读和分析。另一方面,社交媒体平台上的短格式内容可以提供信息,同时比长格式内容花费更少的精力和时间。

目前,我们有幸见证人工智能先驱和著名机器学习实践者之间的对话和想法,而无需等待他们撰写和发表研究论文或论文。在社交媒体平台上撰写简短的帖子可以深入了解不易口头表达的观点和观点,您的声音可以参与其中并分享观点。

对于那些想尝试通过社交媒体帖子与其他 ML 专家联系的人,我建议跟随一些发布关于机器学习和数据科学的真实和相关信息的人。花些时间阅读讨论的基调和帖子上的文章,如果你有什么有价值的东西要贡献,就大声说出来。

首先,这里列出了发布 AI 相关内容的个人列表(以及其他有趣的内容): Andrew Ng Geoffrey Hinton Allie, K Miller Andrej Karpathy Jeremy Howard Francois Chollet Aurélien Geron Lex Fridman 。还有很多人需要关注,但这些人的内容应该会让你忙碌一段时间。

问答平台

提问/回答作为一种写作形式,具有最低的进入门槛,并且不会占用太多时间,这取决于你回答建议问题的能力。

考虑到你的职业,我相信你一定听说过 StackOverflow ,这是互联网上最受工程师欢迎的资源。当涉及到关于 StackOverflow 的问题时,事情并没有那么简单;需要明确和透明。正确地编写查询是 StackOverflow 的一个重要组成部分,因此他们已经发布了一份关于该主题的全面指南。

这一部分的要点是:询问和回答有关 StackOverflow 的问题有助于您在提出问题时变得简洁明了,在回答问题时也能变得彻底。

2 .电子邮件和信息

Image of laptop and mobile phone
图2: Maxim IlyahovUnsplash 上的照片

编写电子邮件和消息并不是机器学习的特例,但从事编写有效消息艺术的数据科学家和机器学习实践者往往会在公司和团队中蓬勃发展,原因显而易见,其中一些原因是能够贡献、建立网络和完成任务。

撰写好的信息和电子邮件可以让你获得一个新的角色,获得项目资助或进入学术机构。 Purvanshi Mehta 写了一篇文章,探讨了在 LinkedIn 上发送冷消息的个人建立网络的有效方法。 Purvanshi 的文章是关于可采用的冷消息传递礼仪的逐步说明。

3 .博客和文章

许多专家认为,博客和文章在机器学习社区中具有独特的作用。文章是专业人士如何掌握软件发布的最新信息、学习新方法和交流想法。

技术性和非技术性 ML 文章是您将遇到的两种最常见的文章。技术文章由描述性文本和描述特定功能实现的代码片段或 GIST 组成。非技术性文章包括更多的描述性语言和图片,以说明想法和概念。

4 .时事通讯

Developer seating on a table and working.
图3:cottonbroPexels 拍摄的照片

启动和维护通讯 或许不适合数据科学家,但这种写作方式已证明为那些愿意投入工作的人提供了专业和社会优势。

时事通讯是DS/ML专业人士提高 AI 行业知名度和影响力的关键战略举措。时事通讯的写作风格没有定义,所以你可以随意选择。你需要开始一份正式的、冗长的、严肃的时事通讯,或者一份简短的、内容丰富的、有趣的时事通讯。

从中吸取的教训是,制作一份时事通讯可以帮助你在你的领域、业务或组织中发展个人品牌。那些喜欢你的人将继续消费和推广你的材料。

有一千个理由让你今天不应该开始一份时事通讯,但是为了给 Spark 一些灵感,下面是一些你可以根据时事通讯的想法,我还包括了一些你应该订阅的 AI 时事通讯。

与人工智能相关的时事通讯想法:

  • 要观看的 AI / ML 视频集合,每个视频上都有您的输入。
  • 要阅读的 AI / ML 文章的集合。
  • 求职者 MIG 不感兴趣的您所在地区的职位公告。
  • 对人工智能的更实际应用感兴趣的 ML 从业者的最新相关人工智能新闻。

记住,时事通讯的频率、长度和内容都是由您定义的。如果你觉得没有太多的时间,你可以开始每月一次的时事通讯,或者每天一次的时事通讯来像机器一样大量地制作内容。

机器学习和数据科学通讯订阅:

5 .文档

Developer coding, with code displayed on a monitor.
图4:SigmundUnsplash 上的照片。

技术和非技术文档是软件工程职业中的一项常见活动。数据科学家也不例外,解释软件代码或单个功能的文档是推荐的,并被认为是最佳实践。

项目何时成功?一些或许认为,当您的模型在测试数据集上达到可接受的精度时?

经验丰富的数据科学家理解,项目成功受许多变量的影响,包括软件可维护性、寿命和知识转移。软件文档是一项可以改善项目前景的任务,它超出了单个团队成员的能力,更不用说,它提供了一个额外的软件质量和可维护性层。

数据科学家应该意识到文档的一个主要优点是,它可以减少新项目成员或新手数据分析师对源代码的查询。关于源代码的大多数问题都与文件位置、编码标准和最佳实践有关。这些数据都可以记录一次并被许多人引用。

以下是一些您可以记录项目的想法

  • 代码文档:为了保证应用程序之间的一致性,标准化实现样式和格式至关重要。这种一致性使得新开发人员更容易过渡到代码库,因为编码标准是通过代码文档给出的。
  • 研究和分析:鉴于软件产品特性的重要性,成功的开发总是依赖于彻底的研究和分析。任何一位在项目开始时就参与过项目的 ML 专家都会处理涉众提出的过多的特性请求。记录有关特性请求的信息可以使项目中涉及的其他各方更直接地了解所提议特性的需求和有用性。它还强制特征请求者进行更好的研究和分析。
  • 数据库配置/应用程序信息:记录特定于应用程序的信息,例如配置参数和环境变量,对于任何软件团队来说都是至关重要的,尤其是当您转到新的工作或公司时。
  • How-tos :安装软件库和软件包可能很困难,但事实是,对于不同的操作系统甚至版本,可能有不同的安装过程。在官方图书馆文档中发现缺少的依赖项和安装程序时必须经历的怪癖并不少见。
  • API 文档:当团队开发内部和外部 API (应用程序编程接口)时,他们应该记录这些 API 所需的方法、函数和数据资源的组件。没有什么比使用非文档化的 API 更烦人的了;整个过程变成了一个猜测游戏,您将花时间研究未记录 API 的参数、内部工作和输出。在使用您提供的技术资源时,通过创建流畅的体验,为您的团队和客户节省时间。

毫无疑问,广泛的资源允许组织进行多种类型的文档编制,有些组织甚至雇佣技术作者。尽管这些都是可行的选择,但对于那些希望认真对待软件完整性的机器学习专家来说,练习记录程序和开发的软件是至关重要的,这样可以促进他们能够提供全面解释的想法。

谷歌在“ ho怎么编写好的软件文档w to write good software documentation ”上的快速搜索提供了 良好资源 ,它们在文档中共享相同的消息和最佳实践。

6 .研究论文

Student studying in a library.
图5:Pexels Ron Lach 的照片。

2020 年,我在 how to read research papers 上发表了一篇文章,这篇文章大受欢迎。在使用 ML 算法和模型时,我们必须优化阅读这些论文的方式,就像经验丰富的机器学习专家所做的那样。

写机器学习研究论文是硬币的另一面。我从未写过研究论文,也不打算现在就开始。然而,一些机器学习专业非常关注写作和出版研究。作为职业成功的衡量标准,研究机构和公司使用个人或团体发表的论文数量。

写研究论文是一门艺术;研究人员和科学家必须考虑数据的结构和内容,以确保信息、突破或想法得到有效传递。我们中的大多数人可能不会很快写研究论文,但采用写好研究论文的做法是有价值的。例如,有一个摘要,介绍和结论是一个写作结构转移到其他作品。

继续读一些研究论文;注意作者使用的视觉图像的语言、结构和用途。尝试并采纳你在下一篇文章中确定的任何良好实践。

7 .书籍和电子书

A shelve of books.
图 6 : Unsplash 上 Nick Fewings 的照片。

毫无疑问, ML / DS 书籍是关于机器学习理论和实践专业知识的最权威的文本。我并不是建议所有的数据科学家和 ML 工程师都应该写一本书。但请容忍我。

我翻阅了书架上几位用 AI / ML 写书的作者,他们在各自领域都有丰富的经验。

写关于机器学习的非小说、技术书籍是非常困难的。它需要高水平的理论和实践行业知识,只有完全沉浸在学习、研究和实施中才能实现。要培养数百名 ML 工程师和数据科学家,您的声誉必须建立在坚实的学术、商业或研究证书基础上。更不用说,作家在创作好的作品时需要创造力。更具体地说,他们必须掌握在书中传达复杂主题的艺术。

我的观点是,要创造一本永恒的机器学习书籍,你必须走专业化的道路。这听起来并不诱人,但我想让你考虑一个事实,即设定一个长期的写作目标将推动你深入研究机器智能或选择领域,这将增强你对 AI 的一般理解。

面向数据科学家和机器学习实践者的书籍:

你会发现,前面列出的大多数作者在文章中列出的大多数不是所有形式的文章,不管他们的专业领域为何,所以我认为机器学习实践者和数据科学家需要掌握的一项重要技能。

结论

每当我被问到什么样的生活决定给我带来了最大的好处,无论是社会上的、学术上的还是职业上的,我通常会用我的写作决定来回答。

在这篇文章中,您已经看到了数据科学家和机器学习专家如果定期编写人工智能相关材料可能获得的一些优势。本节集中介绍了本文中列出的所有好处,以确保这些好处都能发挥作用。

  • ML 专业人员使用写作以简单的方式交流复杂的主题。通过阅读 Andrej Karpathy 写得很好的 blog pos t ,我对卷积神经网络的实际应用有了更大的了解。
  • 不同类型的写作可以帮助你提高创造力和批判性思维。我最近阅读了 AI 2041 by Kai-Fu Lee and Chen Qiufan ,其中作者通过写得很好的虚构故事和对人工智能技术的透彻解释来研究人工智能技术及其对人类生活的影响。两位作家都写了很多年,还写过其他的书。可以合理地得出结论,他们的写作能力使作者能够表达涉及 AI 技术的未来情况,并通过基于当前 AI 发展的批判性和逻辑性预测,探索 AI 集成的未知社会影响。
  • 以讲故事的形式写作给了项目生命。讲好故事,写好故事。向客户、投资者或项目经理等利益相关者复述机器学习项目,与讲故事的艺术相结合,会带来积极和令人兴奋的转变。一位数据科学家向利益相关者解释了为什么联邦医院应利用最新的癌症检测深度学习模型,当与患者早期诊断的故事结合时,该模型变得更具影响力和相关性。
  • 在机器学习社区中,写作是一种成功的知识转移方法。在 DS / ML 世界中,您将获得的大多数信息都是通过书面内容获得的。文章、论文和研究论文都是多年知识的宝库,组织成简洁的章节,有清晰的解释和易于理解的格式。写作是浓缩多年知识和经验的有效途径。

你知道吗,我们敬仰和学习的人工智能先驱和专家也会定期发表文章?在此 article 中,我编制了一份人工智能领域的个人短名单,并提供了他们的工作样本,强调了他们工作的价值和后果。

谢谢你的阅读。

 

Tags