Dify智能体AI 监督微调(SFT)数据集自动生成流水线

Dify智能体AI 监督微调(SFT)数据集自动生成流水线

图片[1]-Dify智能体AI 监督微调(SFT)数据集自动生成流水线-AI应用集

好的,这个工作流是面向 AI 开发者的一个非常强大和专业的工具,其核心目标是“让 AI 教会 AI”。

这是根据 生成SFT微调数据集.yml 文件,为您整理的介绍:


⚙️ AI 监督微调(SFT)数据集自动生成流水线

该工作流是一条为大语言模型(LLM)微调而设计的、全自动的监督微调(Supervised Fine-Tuning, SFT)数据集生产线。用户只需上传一份包含特定知识的原始文件(如 PDF、TXT 等),该工作流即可自动地将其加工成一份高质量的、符合标准格式的“指令-回答”式 JSON 数据集,可直接用于模型的微调训练。

  1. 文档解析与预清洗
    • 用户在工作流开始时,上传一份包含源知识的任意格式文件inputFile)。
    • “文档提取”节点首先会将文件内容转换为纯文本,随后一个“数据预清洗”代码节点会进行初步处理,移除所有不可见字符、HTML 标签并规范化空格,确保输入给 AI 的文本是干净的。
  2. AI 分析并生成多角度问题
    • 清洗后的文本会被交给第一个扮演“中文问题分析师”的 AI 模型。
    • 这个 AI 的任务是深入理解文本内容,并从多个不同的角度对文本提出一系列有深度的问题。这些问题将构成 SFT 数据集中的“指令”(instruction)部分。
    • 生成的问题会以 JSON 格式输出,并由代码节点进行解析和分组。
  3. 迭代生成问答对
    • 这是工作流的核心循环。上一步生成的所有问题组会被送入一个“迭代”节点中,进行并行的、逐组的处理。
    • 在每一次循环中,一个扮演“专家学者”的 AI 模型会接收到原始的知识文本当前循环中的一组问题
    • 这个“专家”AI 的任务是仅根据原始文本的内容,对这些问题一一做出详尽且准确的回答,并严格按照 SFT 数据集的标准格式 [{"instruction": "问题", "input": "", "output": "回答"}] 进行输出。
  4. 格式化与合并数据集
    • 当所有的问题组都完成了问答生成后,“合并输出”代码节点会收集迭代过程中产生的所有 JSON 格式的问答对。
    • 它会将这些零散的问答对合并成一个单一、完整的大型 JSON 数组,并进行格式化美化,使其成为一份可以直接用于模型微调训练的标准数据集。
    • 最终,这份完整的数据集将作为最终结果呈现给用户。

主要特点

  • 自动化数据集创建:将原来需要耗费大量人力进行标注的 SFT 数据集制作过程完全自动化,极大地提升了模型迭代的效率。
  • “AI 提问-AI 回答”范式:通过让一个 AI 扮演“提问者”,另一个 AI 基于原始材料扮演“回答者”,巧妙地构建了高质量的指令跟随数据。
  • 多角度问题生成:通过引导 AI 从不同角度提问,能够更全面地挖掘原始文档中的知识点,增加了生成数据集的丰富性和多样性。
  • 迭代与并行处理:利用迭代节点,可以高效地、并行地处理大量由 AI 生成的问答任务,非常适合处理长文档和生成大规模数据集。
  • 严格的输出格式:整个工作流的最终目标非常明确,即输出一份严格遵循 SFT 格式(instruction-output对)的 JSON 文件,方便开发者无缝对接到自己的训练流程中。

非常适合需要基于自有文档(如产品手册、专业论文、法律条文、企业知识库等)对大语言模型进行领域知识增强和微调的 AI 开发者及 MLOps 工程师。

© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容