超过 55% 的全球人口使用社交媒体,只需单击一下即可轻松分享在线内容。在与他人联系并消费娱乐内容的同时,你也可以发现构成现实生活威胁的有害叙事。
这就是为什么 Pendulum 的工程副总裁 Ammar Haris 希望他的公司的人工智能能够帮助客户更深入地了解在线生成的关于他们的有害内容。这些谎言经常像一场快速蔓延的野火一样在社交媒体平台上的视频、音频和文本中传播。
就像野火一样,及早发现有害的网络叙事可能是扑灭任何破坏性影响的关键。
钟摆是 NVIDIA Inception program ,通过提供接触尖端技术和 NVIDIA 专家的机会,帮助创业公司发展。
演讲 AI 和 NLP 促进社会福祉
早在 2021 , Sam Clark 和 Mark Listes 创建了 Pendulum ,目的是帮助客户识别有害内容。业务合作伙伴知道,他们的平台可以应用 speech AI 和自然语言处理( NLP )来帮助保护在线声誉,甚至帮助员工实时安全。
在接下来的一年里,工程团队开发了一系列人工智能系统,以检测和表征困扰全球社会福祉的有害谎言。
今天,尽管需要处理大量数据,但 Pendulum 的平台正在使以前无法发现的叙事最终变得可访问。 Pendulum 的工程师熟悉寻找媒体宝库的挑战。
哈里斯解释道:“ YouTube 、 BitChute 、 Rumble 和 TikTok 上的视频,更不用说播客中的音频了,很难搜索,甚至很难放到上下文中。这就是为什么经常只以其他人的方式搜索元数据,而不是实际的原始内容。”。
AI 引擎发现真实的谎言
处理数据环境发生了什么变化?通过使用加速语音 AI 和 NLP , Pendulum 的 Intelligence Explorer 和 Narrative Engine 现在可以在一大堆庞大的媒体语料库中进行智能、深入的搜索,以找到最重要的信息(有害的叙事)。
事实上,你很可能已经熟悉许多网络上的大规模谎言,以及它们如何在网络上变异。例如,到目前为止, Pendulum 的引擎已将重点放在以下方面:
- 关于名人的虚假信息
- 对公司员工的身体威胁
- 供应链延误的阴谋
- 新冠肺炎疫苗虚假信息
- 关于乌克兰战争的谣言
- 最近试图在 2022 年国际足联世界杯上造成伤害
图 1 显示, Pendulum 确定了 3360 个视频,占 3800 万次浏览量,可能支持新冠病毒疫苗改变 DNA 的错误说法。其中,平台上仍有 1600 个视频可用,截至本文撰写之日,浏览量为 1600 万。虚假陈述是一段时间内的圆圈,其大小与观看次数相对应。
叙事引擎如何在线检测这些叙事并生成警报? Pendulum 开发了一种自动方法来发现和分类 YouTube 频道,能够每天转录数万个视频,主要通过分析 automatic speech recognition (ASR) 转录的文本。
该引擎对文本进行梳理,以对话、演讲、播客和谈话曲目的形式搜索数十亿项支持数据,基本上独立于媒体类型或社交媒体平台。然后对感兴趣的内容进行标记,以提醒客户发现任何风险或趋势。
解决方案背后的技术
ASR 处理的速度可能会成为问题,除非基于 GPU 的实现能够处理吞吐量。 NVIDIA Riva Enterprise 对 Pendulum 有意义,结果证明是一个很好的解决方案。
哈里斯说:“这些记录比我们评估的其他云服务更准确,同时实现了更高的吞吐量和更低的成本。”。
有了 Riva 的 Helm 图表,工程团队在设置过程中不必处理太多开销。他们能够很快推出加速版的引擎。 Riva 允许在本地或云中自行托管 ASR 服务,并通过 Helm 图表配置进行优化。
Pendulum 目前在 Amazon Web Services ( AWS )上的 NVIDIA 驱动的 GPU 实例上运行 Riva 企业服务,以扩展可以快速转录和处理的音频和视频内容的数量。
ASR 步骤完成后, Pendulum 的叙事引擎将 Riva 中的更多 AI 资源应用于新转录的文本或其他地方收集的文本。例如, ASR 过程的原始输出通常是一长串未大写的单词。这几乎不是你认为可以巧妙地运用到可操作的情报报告中的那种数据。
考虑到输出, Pendulum 接下来应用 Riva 的标点符号和大写 AI 模型将杂乱的单词流转换为句子。输出包含大写的专有名词、正确放置的逗号和终止句点或问号(视情况而定)。
参考图 1 中的示例,在 Pendulum 的叙事发现方法中,专有的 NLP 子系统进一步处理文本。例如,该引擎将 1400 万个视频的文本字幕拆分为 2.05 亿 snippets (长度约为 100 tokens 的文本片段)。结果被进一步过滤为包含一个或多个 COVID 锚定词的视频,包括“疫苗”和“ DNA ”等词的形式。这个过程产生了一组 9200 个视频和 15689 个片段。
最后, Pendulum 应用了一种专有的混合零镜头学习算法,检测精度为 0.74 ,召回率为 0.83 。在这种情况下, 74% 的预测支持叙事 id 的片段确实支持叙事,而 83% 的支持叙事的片段是通过这种方法识别的。这是一个令人印象深刻的结果。
为了跟上业务增长的需求, Pendulum 团队现在在 AWS 上部署了多节点 GPU 集群,以满足吞吐量和延迟要求。在那之后,除了强大的硬件之外,还需要什么才能实现这些具有挑战性的需求?
GPU 服务器上的 NVIDIA Triton Inference Server 软件处理针对摆锤各种 AI 模型的多个请求。 Triton 推理服务器支持逻辑上链接在一起的模型,以在 GPU 中完全处理,从而避免 GPU 到 CPU 内存复制的缓慢陷阱。
未来的现实世界挑战
Pendulum 平台的功能将进一步扩展到社交媒体品牌,开发者将在目前可用的 YouTube 、 Rumble 、 BitChute 、 Tik Tok 和播客之外增加支持。
尽管如此,该公司的领导层不能仅仅通过其引擎的应用来判断真相。事实上,避免这种复杂的情况已经让摆锤打开了更大的光圈,迎接了新的挑战。
举个例子,我们都知道视频不仅仅是口头表达,还有更多的意义,尤其是伴随着情感意象和令人回味的音乐配乐。即使在这样的视频中根本没有演讲,它仍然可以为叙事做出贡献。
(想想几年前 ISIS 的招募视频:许多视频几乎没有演讲,但确实有激动人心的场景和音乐,旨在与特定观众建立联系。)
毕竟,在没有语音的地方, ASR 没有什么可以转录的,而且叙事仍然没有被发现。
Pendulum 的技术团队正致力于处理视频广告等干扰因素,视频广告在播放过程中会弹出语音,可能会混淆正在形成的叙事。哈里斯解释道,“有一个银行视频广告是我团队存在的祸根,扰乱了转录过程。还有工作要做。”
立即开始使用语音 AI
您也可以尝试 NVIDIA Riva ,看看在构建应用程序时,它在转录准确性、速度和易用性方面的表现如何。以下是一些帮助您入门的资源:
- 了解有关 speech recognition 和如何启动 using it today 的更多信息。
- 在这本免费电子书 Introduction to Speech AI 中详细了解语音 AI 的发展前景。
- 学习如何通过免费电子书 End-to-End Speech AI Pipelines 将 TTS 技能添加到您的应用程序中来实现自然发音。
参加自主进度的深度学习培训中心课程 Get Started with Highly Accurate Custom ASR for Speech AI ,学习如何定制语音识别管道。