![图片[1]-Dify智能体36氪热榜新闻自动抓取与排版器工作流-AI应用集](https://aiseek.oss-cn-shanghai.aliyuncs.com/2025/10/截屏2025-10-04-16.03.42-1024x579.png)
![图片[2]-Dify智能体36氪热榜新闻自动抓取与排版器工作流-AI应用集](https://aiseek.oss-cn-shanghai.aliyuncs.com/2025/10/截屏2025-10-04-15.58.08-1024x388.png)
📰 36氪热榜新闻自动抓取与排版器
该工作流是一个全自动的新闻聚合与内容处理管道。它的核心功能是,自动获取知名科技媒体“36氪”的实时热榜新闻,然后逐一访问这些新闻链接,智能抓取每篇文章的纯净正文,并将其统一格式化,最终汇总成一份排版优美、易于阅读的新闻简报。
获取热榜文章列表
工作流由“开始”节点自动触发,无需用户输入。
- 调用热榜 API:第一个“HTTP 请求”节点会访问一个公开的第三方 API (
api.vvhan.com
),该 API 专门用于聚合各大网站的热榜。本次调用指定了获取 36氪 的热榜列表,返回一个包含多篇文章标题和 URL 的原始 JSON 数据。
筛选与解析文章链接
获取到原始的热榜数据后,工作流利用 AI 进行初步处理:
- LLM 筛选与格式化:一个大语言模型(LLM)节点接收原始 JSON 数据,并根据指令,仅提取热榜前几名(此工作流中设定为1条)的文章,将它们的标题(title)和链接(url)整理成一个结构清晰、标准化的 JSON 数组格式。
- 代码节点转换:为了让后续的节点能正确地处理这个数组,一个“代码”节点会将 LLM 输出的文本格式的 JSON 数组,转换为 Dify 工作流内部可识别的
Array[object]
数据类型。
迭代抓取并格式化全文(核心流程)
这是工作流的核心。一个“迭代”节点会接收上一步生成的文章数组,并对其中的每一篇文章,逐一执行以下一套完整的自动化处理流程:
- 智能内容抓取:在循环内部,一个“HTTP 请求”节点会调用 Jina Reader API (
r.jina.ai
)。这是一个强大的网页正文提取服务,它能接收原始的文章 URL,并智能地返回一个去除了广告、导航栏、评论区等所有无关元素的“纯净版”文章正文。 - LLM 内容排版:抓取到的纯净正文,会被送入另一个 LLM。这个 LLM 扮演“编辑”的角色,根据预设的模板,将文本内容整理成“新闻标题 + 分隔线 + 新闻日期 + 新闻内容”的统一、美观的格式。
汇总并最终呈现
在“迭代”节点完成了对所有指定文章的处理后:
- 模板拼接:一个“模板转换”节点会将迭代过程中生成的多篇已格式化的文章,用分隔线 (
==============
) 连接起来,合并成一个单一的、完整的长文本。 - 最终输出:最后,“结束”节点会将这份汇总后的新闻文稿,作为最终结果进行输出。
主要特点
- 第三方 API 联动:巧妙地整合了两个完全不同的外部 API 服务——一个用于获取新闻列表,另一个用于抓取网页正文,展示了 Dify 强大的外部服务编排能力。
- 智能网页抓取:通过利用 Jina Reader API,极大地简化了传统网页爬虫的复杂性,能够稳定、高效地从各种网页结构中提取核心内容。
- 迭代处理与汇总:清晰地演示了“获取列表 -> 循环处理 -> 汇总结果”这一经典的数据处理模式,适用于各类需要批量处理信息的场景。
- 双 LLM 协同工作:在流程中使用了两个 LLM,一个负责前期的数据清洗与筛选,另一个负责后期的内容格式化与排版,体现了在复杂任务中对 AI 能力的精细化分工。
重要提示
此工作流的稳定运行依赖于两个外部第三方 API (api.vvhan.com
和 r.jina.ai
) 的可用性。如果这些外部服务出现变更或中断,可能会影响工作流的正常执行。
非常适合用于构建自动化新闻简报、舆情监控、内容聚合机器人等应用。它为如何实现“获取一批链接,然后逐一访问并处理其内容”的需求,提供了一个极佳的实现范本。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容