Dify智能体图文并茂的知识库问答助手

Dify智能体图文并茂的知识库问答助手

图片[1]-Dify智能体图文并茂的知识库问答助手-AI应用集
图片[2]-Dify智能体图文并茂的知识库问答助手-AI应用集

🎨 图文并茂的知识库问答助手

该工作流是一个创新的**富媒体检索增强生成(RAG)**应用。它的核心功能是,不仅能从私有知识库中检索文本信息来回答用户问题,还能智能识别并提取知识内容中包含的图片链接,然后通过 HTTP 请求将图片获取并与文字一同展示给用户,从而实现一种图文并茂、生动直观的交互体验。

检索知识并生成结构化答复

当用户提出问题(例如:“给我推荐一个适合5岁孩子的亲子游戏”)后,工作流首先会执行标准的 RAG 流程:

  1. 知识检索与重排:“知识检索”节点会根据用户的问题,在配置好的知识库中搜索最相关的内容。这些内容被设定为同时包含游戏介绍文本和对应的图片 URL。该节点同样使用了重排模型来优化检索结果的相关性。
  2. LLM 生成 JSON:检索到的高质量内容会作为上下文,被送入一个扮演“亲子运动游戏创意专家”的大语言模型(LLM)。此处的关键指令是,LLM 必须将生成的游戏介绍,严格按照指定的 JSON 格式输出,明确分离出文本内容(content)和图片链接(imageUrl)。

解析答复并判断有无图片

LLM 生成的 JSON 文本,会被一个“参数提取器”节点接收并解析。该节点会尝试提取 content 和 imageUrl 两个字段的值。随后,一个“条件分支”节点会立刻判断 imageUrl 字段是否为空,以此决定后续的操作路径。

分支一:无图片,纯文本回复

如果 LLM 生成的答复中不包含 imageUrl(即该字段为空),工作流会进入此分支。它会直接将提取出的 content 文本内容通过“直接回复”节点展示给用户,完成一次纯文本的问答。

分支二:有图片,图文并茂回复

如果 imageUrl 字段存在值,工作流则会进入更为复杂的富媒体处理分支:

  1. 获取图片:“HTTP 请求”节点会获取到 imageUrl 的值,并向这个链接地址发起一次 GET 请求,从而抓取到该 URL 对应的图片文件。
  2. 合并展示:最后的“直接回复”节点会将两部分内容进行组合:一是“参数提取器”解析出的 content 文本,二是“HTTP 请求”节点抓取到的图片文件。最终,用户会看到一段游戏介绍文字,下方紧跟着一张生动的游戏示意图。

主要特点

  • 富媒体 RAG 应用:在传统 RAG 的基础上实现了升级,能够处理和展示非结构化数据中的图片链接,为用户提供超越纯文本的、更具吸引力的视觉化回答。
  • LLM 作为结构化数据转换器:巧妙地利用 LLM 的指令遵循能力,将非结构化的知识库原文,转化为统一、规整的 JSON 格式,为后续的程序化处理和逻辑判断奠定了基础。
  • 动态内容获取与条件逻辑:通过“条件分支”和“HTTP 请求”节点的组合,实现了动态判断和按需获取外部资源(图片)的自动化流程,是 Dify 强大流程编排能力的体现。
  • 显著提升用户体验:图文结合的回答方式,尤其在介绍产品、演示步骤或解释复杂概念时,远比纯文字更加直观和易于理解,能够有效提升用户的满意度和互动意愿。

重要提示

此工作流的正常运行,要求知识库中的文档内容必须包含可公开访问的、直接指向图片文件的有效 URL。如果 URL 失效或无法访问,图片将无法显示。

非常适合用于构建电商导购、产品说明、在线教育、旅游推荐等需要大量视觉元素辅助说明的智能客服或问答机器人场景。

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容