![图片[1]-Dify智能体AI 监督微调(SFT)数据集自动生成流水线-AI应用集](https://aiseek.oss-cn-shanghai.aliyuncs.com/2025/10/截屏2025-10-04-11.54.24-1024x576.png)
好的,这个工作流是面向 AI 开发者的一个非常强大和专业的工具,其核心目标是“让 AI 教会 AI”。
这是根据 生成SFT微调数据集.yml
文件,为您整理的介绍:
⚙️ AI 监督微调(SFT)数据集自动生成流水线
该工作流是一条为大语言模型(LLM)微调而设计的、全自动的监督微调(Supervised Fine-Tuning, SFT)数据集生产线。用户只需上传一份包含特定知识的原始文件(如 PDF、TXT 等),该工作流即可自动地将其加工成一份高质量的、符合标准格式的“指令-回答”式 JSON 数据集,可直接用于模型的微调训练。
- 文档解析与预清洗
- 用户在工作流开始时,上传一份包含源知识的任意格式文件(
inputFile
)。 - “文档提取”节点首先会将文件内容转换为纯文本,随后一个“数据预清洗”代码节点会进行初步处理,移除所有不可见字符、HTML 标签并规范化空格,确保输入给 AI 的文本是干净的。
- 用户在工作流开始时,上传一份包含源知识的任意格式文件(
- AI 分析并生成多角度问题
- 清洗后的文本会被交给第一个扮演“中文问题分析师”的 AI 模型。
- 这个 AI 的任务是深入理解文本内容,并从多个不同的角度对文本提出一系列有深度的问题。这些问题将构成 SFT 数据集中的“指令”(
instruction
)部分。 - 生成的问题会以 JSON 格式输出,并由代码节点进行解析和分组。
- 迭代生成问答对
- 这是工作流的核心循环。上一步生成的所有问题组会被送入一个“迭代”节点中,进行并行的、逐组的处理。
- 在每一次循环中,一个扮演“专家学者”的 AI 模型会接收到原始的知识文本和当前循环中的一组问题。
- 这个“专家”AI 的任务是仅根据原始文本的内容,对这些问题一一做出详尽且准确的回答,并严格按照 SFT 数据集的标准格式
[{"instruction": "问题", "input": "", "output": "回答"}]
进行输出。
- 格式化与合并数据集
- 当所有的问题组都完成了问答生成后,“合并输出”代码节点会收集迭代过程中产生的所有 JSON 格式的问答对。
- 它会将这些零散的问答对合并成一个单一、完整的大型 JSON 数组,并进行格式化美化,使其成为一份可以直接用于模型微调训练的标准数据集。
- 最终,这份完整的数据集将作为最终结果呈现给用户。
主要特点
- 自动化数据集创建:将原来需要耗费大量人力进行标注的 SFT 数据集制作过程完全自动化,极大地提升了模型迭代的效率。
- “AI 提问-AI 回答”范式:通过让一个 AI 扮演“提问者”,另一个 AI 基于原始材料扮演“回答者”,巧妙地构建了高质量的指令跟随数据。
- 多角度问题生成:通过引导 AI 从不同角度提问,能够更全面地挖掘原始文档中的知识点,增加了生成数据集的丰富性和多样性。
- 迭代与并行处理:利用迭代节点,可以高效地、并行地处理大量由 AI 生成的问答任务,非常适合处理长文档和生成大规模数据集。
- 严格的输出格式:整个工作流的最终目标非常明确,即输出一份严格遵循 SFT 格式(
instruction-output
对)的 JSON 文件,方便开发者无缝对接到自己的训练流程中。
非常适合需要基于自有文档(如产品手册、专业论文、法律条文、企业知识库等)对大语言模型进行领域知识增强和微调的 AI 开发者及 MLOps 工程师。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容