Dify智能体网页内容自动解析入库机器人-AI应用集

该工作流是一条自动化的数据采集与处理流水线。它能接收用户输入的任意网页链接，通过多重步骤智能地抓取、清洗和提纯网页的核心内容，并最终将干净的文本通过 API 调用，自动添加为一个新的文档存入 Dify 平台内一个预设好的知识库中。

输入目标网页链接
- 用户在工作流开始时，仅需提供一个想要归档的网页 URL（url）。
智能抓取核心内容
- JinaReader 工具节点会首先访问用户提供的 URL。
- 它的任务是智能地识别并抓取网页的正文部分，自动过滤掉页面上的广告、导航栏、页脚等无关的“噪音”信息，输出相对干净的核心内容。
AI 深度清洗与提纯
- 上一步抓取到的内容会被送入一个大语言模型（LLM）进行二次处理。
- 这个 AI 的任务是进行深度清洗：它会进一步移除文本中可能残留的推广信息、图片描述、多余的链接和所有的换行符，目标是提炼出最纯粹、最有价值的文本信息，并确保全部为中文。
- 最后的代码节点会再次清理可能遗漏的换行符，确保文本的纯净度。
存入 Dify 知识库
- 这是工作流的最后一步，也是最关键的一步。一个 HTTP 请求节点会被触发。
- 它会将经过层层提纯后的最终文本内容，打包成一个 JSON 数据包。
- 接着，它会调用 Dify 自身的 API 接口（.../datasets/{知识库ID}/document/create_by_text），将这段文本作为一个新的文档，添加到 ID 为 2aae0d12-... 的指定知识库中，并设置为“高质量”索引模式。