对话式人工智能

借助 Gipi、 NVIDIA TensortRT-LLM 和 AI 基础模型实现个性化学习

超过 1.2 亿人 正在积极学习新语言,而 5 亿学习者 正在数字学习平台(如 Duolingo)上学习。与此同时,全球很大一部分人口,包括 73% 的 Gen-Z 人群,你会体验到不幸福,经常被社交媒体所影响。

这突出了一种独特的二分法:人们渴望个性化的学习体验,但往往缺乏工具来浏览充斥着我们日常生活的平台对个人健康的影响。

AI 聊天机器人的兴起:改变教育和互动方式 

AI 聊天机器人越来越多地用于应对这些挑战,提供独特的个性、个性化的健康签到、多语种功能以及即时反馈的指导功能。

包括 Gipi 在内的一些模型旨在记住用户对话、从用户兴趣中学习,并就重要主题进行对话,包括语言学习、口语练习、数学、科学和其他领域的个性化帮助。

Gipi 还主动与用户联系,要求他们签到,并从他们中断的位置继续对话。例如,当用户提到即将到来的工作面试时,Gipi 鼓励并在随后签入以获取更新 (图 1)。

Screenshot where the user tells Gipi, 'I'm having an interview tomorrow at noon with the new job that I told you about.' Gipi responds, 'That's fantastic news, Emily! I'm so excited for you. How are you feeling about the interview? Is there anything specific you'd like to talk about or prepare for? I'm here to help in any way I can. Good luck, and remember, you've got this!' The conversation continues with Gipi checking in on the user, 'Hey Emily! How did your job interview go? Any news?' The user replies, 'I would love to share some good news!' indicating an ongoing supportive dialogue.
图 1.Gipi 应用中有关采访的对话文本

Gipi 的智能机制 

Gipi 的智能架构涉及一系列技术和流程。本节介绍使 Gipi 能够理解用户并与用户交互的关键组件:

  • 语音转文本
  • 提示创建和管理
  • 让 Gipi 更智能
  • 文本转语音
Diagram shows three main steps: 1) Speech-to-text conversion of the user's audio input, 2) processing by the LLM, and 3) text-to-speech generation of Gipi's response, with arrows indicating the flow between the user, Gipi, and the processes involved.
图 2、 Gipi 数据流

语音转文本 

Gipi 的语音转文本技术依赖于基于 Whisper 的自定义模型,并且模型大小已经过优化,可提高效率、降低延迟并提高 GPU 显存占用率。

最初,该模型使用标准的 Whisper 数据集,该数据集由容易出错的公共视频组成。为了缓解这些异常情况,Gipi 现在在更可靠的独特数据集上训练模型,从而实现更高效的语音到文本转换,并捕获用户群的各种语言细微差别。

超过一半的 Gipi 用户积极使用语音聊天功能,这证明了早期对强大的语音转文本功能的投资。

提示创建和管理 

Gipi 的成熟个性和定制响应依赖于用户偏好和提示历史记录。我们的历史记录管理系统可个性化每次交互;Gipi 会记住每一位用户。

我们通过总结过去的交互并将其反馈到系统来改善 Gipi 的内存保留。更重要的是,我们不断提取用户的个人属性,并将其集成到对话提示中。此过程使 Gipi 能够记住和引用每个重要细节,确保个性化的持续对话。

我们使用 LangChain 来简化提示创建,这使我们能够有效地组织和管理不同类型的提示,例如系统相关或对话式提示。这有助于我们保持提示清晰且适合其特定用途。LangChain 还有助于我们的提示适应不同的语言模型,使系统模型独立且更加通用。此外,它还有助于管理短期记忆,使 Gipi 能够回忆起之前在早期对话中讨论过的内容。

让 Gipi 更智能 

Gipi 的 LLM 是其智能的核心。虽然我们最初依赖于专有模型,但后来我们转向 NVIDIA TensorRT 进行后端优化,以提高 LLM 推理速度。

最初,我们使用 Llama 2 4 位模型在 NVIDIA A6000 Ada GPU 上,具有 4096 个输入令牌和 512 个输出令牌,我们看到每个请求的响应时间为 35 – 40 秒。但在集成 NVIDIA TensorRT-LLM 后,我们已将这一时间大幅缩短至 3 – 4 秒,实现了 10 – 12 倍的速度提升。此框架擅长快速高效地处理基于文本的语言模型。

为了补充这些功能,我们正在努力将 Mistral 7B 型号集成到我们的系统中,它之所以被选中是因为它在总结文本、翻译语言、编码辅助、情感分析等任务中具有通用性,从而进一步增强了研究和教育工具。

GIF shows a chat where the user asks what to buy for a barbecue with friends. Gipi suggests essentials such as burgers, hot dogs, condiments, refreshing drinks, sides like potato salad and coleslaw, and sweet treats for dessert.
图 3.关于使用 Gipi 的 BBQ 的对话

我们为 Gipi 开发了一个长期记忆系统,使其能够在每个会话中回顾过去的交互,以增强个性化。该系统与 Gipi 的定制响应机制集成,旨在提供更具吸引力的用户体验。

文本转语音 

在文本转语音领域,我们使用 NVIDIA NeMo 文本转语音框架 以确保 Gipi 不仅理解您,而且还能以自然的声音作出反应。

最近,我们通过开发创建自定义语音的能力来扩展产品的功能。Gipi 可以根据用户提交的语音音频片段生成全新的语音,从而提供更大程度的个性化。

最新模型使用 GPT2 主干和用于扬声器调节的感知器模型,这提高了 Gipi 捕获扬声器特征并确保输出一致的能力。我们还集成了用于音频信号计算的 HifiGAN,显著降低了推理延迟。

总结 

随着 AI 融入到日常工作中,它提高了效率并扩大了我们对信息的获取范围。Gipi 使用先进的 AI 来支持语言学习和技能开发,提供帮助用户增强能力的工具。

我们设想先进的 AI 工具像智能手机一样易于访问和普及,为用户提供智能的自适应支持。Gipi 旨在促进成长和学习,为您追求知识和自我完善提供支持。

要了解 Gipi 如何增强您的互动和学习体验,请从 Google Play 应用商店, Apple 应用商店 或访问 Gipi 官方网站

有关大型语言模型(LLM)在企业应用中的更多信息,请参阅 面向企业解决方案的大型语言模型入门。在 NVIDIA TensorRT 论坛 中,您可以找到更多相关讨论。

 

 

Tags