Dify智能体36氪热榜新闻自动抓取与排版器工作流-AI应用集

Dify智能体36氪热榜新闻自动抓取与排版器工作流

Dify智能体36氪热榜新闻自动抓取与排版器工作流

0405

1个月前更新

图片[1]-Dify智能体36氪热榜新闻自动抓取与排版器工作流-AI应用集

图片[2]-Dify智能体36氪热榜新闻自动抓取与排版器工作流-AI应用集

📰 36氪热榜新闻自动抓取与排版器

该工作流是一个全自动的新闻聚合与内容处理管道。它的核心功能是，自动获取知名科技媒体“36氪”的实时热榜新闻，然后逐一访问这些新闻链接，智能抓取每篇文章的纯净正文，并将其统一格式化，最终汇总成一份排版优美、易于阅读的新闻简报。

获取热榜文章列表

工作流由“开始”节点自动触发，无需用户输入。

调用热榜 API：第一个“HTTP 请求”节点会访问一个公开的第三方 API (api.vvhan.com)，该 API 专门用于聚合各大网站的热榜。本次调用指定了获取 36氪的热榜列表，返回一个包含多篇文章标题和 URL 的原始 JSON 数据。

筛选与解析文章链接

获取到原始的热榜数据后，工作流利用 AI 进行初步处理：

LLM 筛选与格式化：一个大语言模型（LLM）节点接收原始 JSON 数据，并根据指令，仅提取热榜前几名（此工作流中设定为1条）的文章，将它们的标题（title）和链接（url）整理成一个结构清晰、标准化的 JSON 数组格式。
代码节点转换：为了让后续的节点能正确地处理这个数组，一个“代码”节点会将 LLM 输出的文本格式的 JSON 数组，转换为 Dify 工作流内部可识别的 Array[object] 数据类型。

迭代抓取并格式化全文（核心流程）

这是工作流的核心。一个“迭代”节点会接收上一步生成的文章数组，并对其中的每一篇文章，逐一执行以下一套完整的自动化处理流程：

智能内容抓取：在循环内部，一个“HTTP 请求”节点会调用 Jina Reader API (r.jina.ai)。这是一个强大的网页正文提取服务，它能接收原始的文章 URL，并智能地返回一个去除了广告、导航栏、评论区等所有无关元素的“纯净版”文章正文。
LLM 内容排版：抓取到的纯净正文，会被送入另一个 LLM。这个 LLM 扮演“编辑”的角色，根据预设的模板，将文本内容整理成“新闻标题 + 分隔线 + 新闻日期 + 新闻内容”的统一、美观的格式。

汇总并最终呈现

在“迭代”节点完成了对所有指定文章的处理后：

模板拼接：一个“模板转换”节点会将迭代过程中生成的多篇已格式化的文章，用分隔线 (==============) 连接起来，合并成一个单一的、完整的长文本。
最终输出：最后，“结束”节点会将这份汇总后的新闻文稿，作为最终结果进行输出。

主要特点

第三方 API 联动：巧妙地整合了两个完全不同的外部 API 服务——一个用于获取新闻列表，另一个用于抓取网页正文，展示了 Dify 强大的外部服务编排能力。
智能网页抓取：通过利用 Jina Reader API，极大地简化了传统网页爬虫的复杂性，能够稳定、高效地从各种网页结构中提取核心内容。
迭代处理与汇总：清晰地演示了“获取列表 -> 循环处理 -> 汇总结果”这一经典的数据处理模式，适用于各类需要批量处理信息的场景。
双 LLM 协同工作：在流程中使用了两个 LLM，一个负责前期的数据清洗与筛选，另一个负责后期的内容格式化与排版，体现了在复杂任务中对 AI 能力的精细化分工。

重要提示

此工作流的稳定运行依赖于两个外部第三方 API (api.vvhan.com 和 r.jina.ai) 的可用性。如果这些外部服务出现变更或中断，可能会影响工作流的正常执行。

非常适合用于构建自动化新闻简报、舆情监控、内容聚合机器人等应用。它为如何实现“获取一批链接，然后逐一访问并处理其内容”的需求，提供了一个极佳的实现范本。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

AI工作流 Dify 智能体Agent

喜欢就支持一下吧

相关推荐

评论抢沙发

请登录后发表评论

暂无评论内容