![图片[1]-Dify智能体Jina Reader + Jinja 网页内容抓取与总结器-AI应用集](https://aiseek.oss-cn-shanghai.aliyuncs.com/2025/10/截屏2025-10-04-17.04.56-1024x582.png)
![图片[2]-Dify智能体Jina Reader + Jinja 网页内容抓取与总结器-AI应用集](https://aiseek.oss-cn-shanghai.aliyuncs.com/2025/10/截屏2025-10-04-17.05.35-1024x384.png)
🤖 Jina Reader + Jinja 网页内容抓取与总结器
该工作流是一个高效的自动化“网络研究助理”。它的核心功能是:根据用户提出的一个问题,自动上网搜索,然后逐一访问搜索到的网页,利用AI大模型阅读并提炼每个页面的核心内容,最后将所有结果汇总成一个清晰、结构化的Markdown表格,方便用户快速浏览和对比信息。
第一阶段:提出问题与信息检索
- 用户输入 (Start): 工作流从一个名为“諮詢”的输入框开始,用户在此输入自己想要研究的问题或关键词。
- 网络搜索 (TavilySearch): 接收到用户的问题后,系统会自动调用 Tavily 搜索引擎进行网络搜索,并设置为获取最多10个相关的搜索结果。
第二阶段:链接处理与循环准备
- 提取URL (Code): 一个Python代码节点会处理搜索结果,通过正则表达式精确地从文本中提取出所有的网址(URL),并将它们整理成一个列表。
- 启动循环 (Iteration): 该工作流的关键节点。它会接收上一步生成的URL列表,并对列表中的每一个URL,按顺序执行一遍内置的子流程。
第三阶段:读取、总结与合并(循环内部)
- 读取网页 (JinaReader): 在每次循环中,Jina Reader 工具会负责访问当前的URL,并抓取该网页的全文内容。
- AI总结 (LLM): 抓取到的网页全文会被发送给 gpt-4o 大语言模型。模型会根据“Summarize the following text.”的指令,对文章进行阅读理解并生成一段精炼的摘要。
- 组合数据 (Template Transform): 为了方便后续处理,该节点会将当前的“URL”和AI生成的“摘要”组合成一个字符串,并用特殊的分隔符
\SP
隔开。
第四阶段:数据清洗与表格呈现
- 数据清洗与重组 (Code): 当所有URL都处理完毕后,另一个Python代码节点会负责进行数据清洗。它会将之前合并的字符串拆分回独立的URL和摘要,并去除摘要中的多余换行符,最后将它们构造成一个标准化的数据结构(对象列表)。
- 生成Markdown表格 (Template Transform): 这是最后一步呈现。该节点使用 Jinja 模板语言,将上一步清洗好的数据动态渲染成一个美观的Markdown表格。表格包含“URL”和“Summary”两列,清晰地展示了每个链接及其对应的内容摘要。
- 输出结果 (End): 最终,这个格式化好的Markdown表格会作为工作流的最终结果呈现给用户。
主要特点
- 全自动化研究流程: 实现了从“提出问题”到“搜索”、“阅读”、“总结”再到“格式化报告”的全链路自动化,极大提升了信息获取效率。
- 批量处理能力: 通过迭代循环(Iteration)节点,能够高效地处理多个网页源,适合进行广泛的资料收集与分析。
- 结构化输出: 最终结果以清晰的表格形式呈现,一目了然,便于用户快速对比和筛选重要信息。
- 强大的工具整合: 完美地将搜索引擎(Tavily)、网页阅读器(Jina Reader)、大语言模型(LLM)以及自定义代码和模板(Jinja)无缝地串联在一起。
重要提示
该工作流的正常运行依赖于平台内置的 Tavily 和 Jina Reader 工具的可用性,以及对 OpenAI (gpt-4o) 等大语言模型的API配置。它非常适合用于需要快速对多个网络信息源进行初步研究和筛选的场景,例如市场调研、竞品分析、文献综述等。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容