Dify智能体36氪热榜新闻自动抓取与排版器工作流

Dify智能体36氪热榜新闻自动抓取与排版器工作流

图片[1]-Dify智能体36氪热榜新闻自动抓取与排版器工作流-AI应用集
图片[2]-Dify智能体36氪热榜新闻自动抓取与排版器工作流-AI应用集

📰 36氪热榜新闻自动抓取与排版器

该工作流是一个全自动的新闻聚合与内容处理管道。它的核心功能是,自动获取知名科技媒体“36氪”的实时热榜新闻,然后逐一访问这些新闻链接,智能抓取每篇文章的纯净正文,并将其统一格式化,最终汇总成一份排版优美、易于阅读的新闻简报。

获取热榜文章列表

工作流由“开始”节点自动触发,无需用户输入。

  • 调用热榜 API:第一个“HTTP 请求”节点会访问一个公开的第三方 API (api.vvhan.com),该 API 专门用于聚合各大网站的热榜。本次调用指定了获取 36氪 的热榜列表,返回一个包含多篇文章标题和 URL 的原始 JSON 数据。

筛选与解析文章链接

获取到原始的热榜数据后,工作流利用 AI 进行初步处理:

  • LLM 筛选与格式化:一个大语言模型(LLM)节点接收原始 JSON 数据,并根据指令,仅提取热榜前几名(此工作流中设定为1条)的文章,将它们的标题(title)和链接(url)整理成一个结构清晰、标准化的 JSON 数组格式。
  • 代码节点转换:为了让后续的节点能正确地处理这个数组,一个“代码”节点会将 LLM 输出的文本格式的 JSON 数组,转换为 Dify 工作流内部可识别的 Array[object] 数据类型。

迭代抓取并格式化全文(核心流程)

这是工作流的核心。一个“迭代”节点会接收上一步生成的文章数组,并对其中的每一篇文章,逐一执行以下一套完整的自动化处理流程:

  1. 智能内容抓取:在循环内部,一个“HTTP 请求”节点会调用 Jina Reader API (r.jina.ai)。这是一个强大的网页正文提取服务,它能接收原始的文章 URL,并智能地返回一个去除了广告、导航栏、评论区等所有无关元素的“纯净版”文章正文。
  2. LLM 内容排版:抓取到的纯净正文,会被送入另一个 LLM。这个 LLM 扮演“编辑”的角色,根据预设的模板,将文本内容整理成“新闻标题 + 分隔线 + 新闻日期 + 新闻内容”的统一、美观的格式。

汇总并最终呈现

在“迭代”节点完成了对所有指定文章的处理后:

  • 模板拼接:一个“模板转换”节点会将迭代过程中生成的多篇已格式化的文章,用分隔线 (==============) 连接起来,合并成一个单一的、完整的长文本。
  • 最终输出:最后,“结束”节点会将这份汇总后的新闻文稿,作为最终结果进行输出。

主要特点

  • 第三方 API 联动:巧妙地整合了两个完全不同的外部 API 服务——一个用于获取新闻列表,另一个用于抓取网页正文,展示了 Dify 强大的外部服务编排能力。
  • 智能网页抓取:通过利用 Jina Reader API,极大地简化了传统网页爬虫的复杂性,能够稳定、高效地从各种网页结构中提取核心内容。
  • 迭代处理与汇总:清晰地演示了“获取列表 -> 循环处理 -> 汇总结果”这一经典的数据处理模式,适用于各类需要批量处理信息的场景。
  • 双 LLM 协同工作:在流程中使用了两个 LLM,一个负责前期的数据清洗与筛选,另一个负责后期的内容格式化与排版,体现了在复杂任务中对 AI 能力的精细化分工。

重要提示

此工作流的稳定运行依赖于两个外部第三方 API (api.vvhan.com 和 r.jina.ai) 的可用性。如果这些外部服务出现变更或中断,可能会影响工作流的正常执行。

非常适合用于构建自动化新闻简报、舆情监控、内容聚合机器人等应用。它为如何实现“获取一批链接,然后逐一访问并处理其内容”的需求,提供了一个极佳的实现范本。

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容