Dify智能体智谱文生视频+TTS语音播报-AI应用集

Dify智能体智谱文生视频+TTS语音播报

Dify智能体智谱文生视频+TTS语音播报

0497

1个月前更新

图片[1]-Dify智能体智谱文生视频+TTS语音播报-AI应用集

图片[2]-Dify智能体智谱文生视频+TTS语音播报-AI应用集

🤖 智谱文生视频+TTS语音播报

该工作流是一个全自动的多媒体内容生成工具，其核心功能是将用户输入的一句简单想法，通过大语言模型（LLM）的智能编排，转化为一段包含动态画面和同步语音解说的完整视频内容。它整合了文本扩写、视频生成、文本摘要和语音合成四大模块，实现了从概念到成品的“一键式”自动化处理。

输入简短提示词

用户只需在工作流开始时，输入一个核心创意或描述性短句。

prompt：想要生成视频内容的核心主题，例如“一个小男孩在球场上踢足球”。

AI 扩写视频脚本

工作流的第一步并非直接生成视频，而是将用户输入的简单提示词交由一个作为“提示词专家”的大语言模型（LLM）。该模型会将简单的概念，扩充和渲染成一段包含丰富场景、动作和细节描写的详细脚本，为后续生成高质量视频奠定基础。

调用 API 生成视频

经过扩写的详细脚本，将通过一个 HTTP 请求节点，被发送至智谱文生视频服务的后端 API 接口。该接口会根据详细的文本描述，渲染并生成一段动态视频。工作流在接收到返回的视频文件地址后，会将其处理成一个可直接播放的视频播放器。

生成并合成语音播报

在生成视频的同时，工作流会并行地将扩写后的详细脚本送入另一个作为“总结专家”的大语言模型。该模型会提炼脚本的核心内容，形成一段精炼、流畅的解说词。随后，这段解说词会通过另一个 HTTP 请求被发送至 TTS（文本转语音）服务接口，生成配套的音频。

主要特点

双分支并行处理：视频生成和音频生成两条任务线并行处理，互不干扰，提升了整体内容的生成效率。
AI 智能再创作：工作流并非简单地传递用户输入，而是利用 LLM 对内容进行二次创作（一次扩写用于视频，一次总结用于音频），极大地丰富了最终输出的质量和细节。
模块化服务集成：清晰地将提示词处理、视频生成、语音合成等功能解耦为独立的节点，展示了 Dify 作为业务流程编排器的强大能力，便于后续替换或升级任何一个服务模块。
二级请求模式：清晰地展示了“先用文本生成内容，再获取内容地址并呈现”这一 API 交互中的经典模式。

重要提示

此工作流需要使用者预先在本地或服务器上部署并运行“智谱文生视频”和“TTS”两个后端 API 服务，并确保工作流中的 HTTP 节点地址（http://127.0.0.1:8080/...）配置正确，才能正常工作。

非常适合需要将文字内容快速、批量地转化为带解说的短视频的内容创作者、社交媒体运营者或希望实现自动化内容生产流程的开发者。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

AI工作流 Dify 智能体Agent

喜欢就支持一下吧

相关推荐

评论抢沙发

请登录后发表评论

暂无评论内容