Dify智能体AI 监督微调（SFT）数据集自动生成流水线-AI应用集

好的，这个工作流是面向 AI 开发者的一个非常强大和专业的工具，其核心目标是“让 AI 教会 AI”。

这是根据 生成SFT微调数据集.yml 文件，为您整理的介绍：

⚙️ AI 监督微调（SFT）数据集自动生成流水线

该工作流是一条为大语言模型（LLM）微调而设计的、全自动的监督微调（Supervised Fine-Tuning, SFT）数据集生产线。用户只需上传一份包含特定知识的原始文件（如 PDF、TXT 等），该工作流即可自动地将其加工成一份高质量的、符合标准格式的“指令-回答”式 JSON 数据集，可直接用于模型的微调训练。

文档解析与预清洗
- 用户在工作流开始时，上传一份包含源知识的任意格式文件（inputFile）。
- “文档提取”节点首先会将文件内容转换为纯文本，随后一个“数据预清洗”代码节点会进行初步处理，移除所有不可见字符、HTML 标签并规范化空格，确保输入给 AI 的文本是干净的。
AI 分析并生成多角度问题
- 清洗后的文本会被交给第一个扮演“中文问题分析师”的 AI 模型。
- 这个 AI 的任务是深入理解文本内容，并从多个不同的角度对文本提出一系列有深度的问题。这些问题将构成 SFT 数据集中的“指令”（instruction）部分。
- 生成的问题会以 JSON 格式输出，并由代码节点进行解析和分组。
迭代生成问答对
- 这是工作流的核心循环。上一步生成的所有问题组会被送入一个“迭代”节点中，进行并行的、逐组的处理。
- 在每一次循环中，一个扮演“专家学者”的 AI 模型会接收到原始的知识文本和当前循环中的一组问题。
- 这个“专家”AI 的任务是仅根据原始文本的内容，对这些问题一一做出详尽且准确的回答，并严格按照 SFT 数据集的标准格式 [{"instruction": "问题", "input": "", "output": "回答"}] 进行输出。
格式化与合并数据集
- 当所有的问题组都完成了问答生成后，“合并输出”代码节点会收集迭代过程中产生的所有 JSON 格式的问答对。
- 它会将这些零散的问答对合并成一个单一、完整的大型 JSON 数组，并进行格式化美化，使其成为一份可以直接用于模型微调训练的标准数据集。
- 最终，这份完整的数据集将作为最终结果呈现给用户。

主要特点

自动化数据集创建：将原来需要耗费大量人力进行标注的 SFT 数据集制作过程完全自动化，极大地提升了模型迭代的效率。
“AI 提问-AI 回答”范式：通过让一个 AI 扮演“提问者”，另一个 AI 基于原始材料扮演“回答者”，巧妙地构建了高质量的指令跟随数据。
多角度问题生成：通过引导 AI 从不同角度提问，能够更全面地挖掘原始文档中的知识点，增加了生成数据集的丰富性和多样性。
迭代与并行处理：利用迭代节点，可以高效地、并行地处理大量由 AI 生成的问答任务，非常适合处理长文档和生成大规模数据集。
严格的输出格式：整个工作流的最终目标非常明确，即输出一份严格遵循 SFT 格式（instruction-output对）的 JSON 文件，方便开发者无缝对接到自己的训练流程中。

非常适合需要基于自有文档（如产品手册、专业论文、法律条文、企业知识库等）对大语言模型进行领域知识增强和微调的 AI 开发者及 MLOps 工程师。

文章版权归作者所有，未经允许请勿转载。

THE END