Dify智能体智谱文生视频+TTS语音播报

Dify智能体智谱文生视频+TTS语音播报

图片[1]-Dify智能体智谱文生视频+TTS语音播报-AI应用集
图片[2]-Dify智能体智谱文生视频+TTS语音播报-AI应用集

🤖 智谱文生视频+TTS语音播报

该工作流是一个全自动的多媒体内容生成工具,其核心功能是将用户输入的一句简单想法,通过大语言模型(LLM)的智能编排,转化为一段包含动态画面和同步语音解说的完整视频内容。它整合了文本扩写、视频生成、文本摘要和语音合成四大模块,实现了从概念到成品的“一键式”自动化处理。

输入简短提示词

用户只需在工作流开始时,输入一个核心创意或描述性短句。

  • prompt:想要生成视频内容的核心主题,例如“一个小男孩在球场上踢足球”。

AI 扩写视频脚本

工作流的第一步并非直接生成视频,而是将用户输入的简单提示词交由一个作为“提示词专家”的大语言模型(LLM)。 该模型会将简单的概念,扩充和渲染成一段包含丰富场景、动作和细节描写的详细脚本,为后续生成高质量视频奠定基础。

调用 API 生成视频

经过扩写的详细脚本,将通过一个 HTTP 请求节点,被发送至智谱文生视频服务的后端 API 接口。 该接口会根据详细的文本描述,渲染并生成一段动态视频。工作流在接收到返回的视频文件地址后,会将其处理成一个可直接播放的视频播放器。

生成并合成语音播报

在生成视频的同时,工作流会并行地将扩写后的详细脚本送入另一个作为“总结专家”的大语言模型。 该模型会提炼脚本的核心内容,形成一段精炼、流畅的解说词。随后,这段解说词会通过另一个 HTTP 请求被发送至 TTS(文本转语音)服务接口,生成配套的音频。

主要特点

  • 双分支并行处理:视频生成和音频生成两条任务线并行处理,互不干扰,提升了整体内容的生成效率。
  • AI 智能再创作:工作流并非简单地传递用户输入,而是利用 LLM 对内容进行二次创作(一次扩写用于视频,一次总结用于音频),极大地丰富了最终输出的质量和细节。
  • 模块化服务集成:清晰地将提示词处理、视频生成、语音合成等功能解耦为独立的节点,展示了 Dify 作为业务流程编排器的强大能力,便于后续替换或升级任何一个服务模块。
  • 二级请求模式:清晰地展示了“先用文本生成内容,再获取内容地址并呈现”这一 API 交互中的经典模式。

重要提示

此工作流需要使用者预先在本地或服务器上部署并运行“智谱文生视频”和“TTS”两个后端 API 服务,并确保工作流中的 HTTP 节点地址(http://127.0.0.1:8080/...)配置正确,才能正常工作。

非常适合需要将文字内容快速、批量地转化为带解说的短视频的内容创作者、社交媒体运营者或希望实现自动化内容生产流程的开发者。

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容