![图片[1]-n8n智能体分析图像、视频、文档和音频ai工作流-AI应用集](https://aiseek.oss-cn-shanghai.aliyuncs.com/2025/10/截屏2025-10-02-13.31.52-1024x574.png)
![图片[2]-n8n智能体分析图像、视频、文档和音频ai工作流-AI应用集](https://aiseek.oss-cn-shanghai.aliyuncs.com/2025/10/截屏2025-10-02-13.31.21-1024x563.png)
📁 使用专门的工具分析上传的图像、视频、音频和文档——由轻量级的纯语言代理提供支持。
🧭 它的作用
此工作流程支持使用连接到纯文本 LLM 代理的Google Gemini 工具进行多模态文件分析。用户可以通过聊天界面上传图片、视频、音频文件或文档。该工作流程将:
- 将每个文件上传到 Google Gemini 并获取可访问的 URL。
- 根据文件和用户消息动态生成上下文提示。
- 允许代理根据需要调用特定媒体类型的 Gemini 工具。
- 根据分析返回简洁、有用的答复。
🚀 用例
- 客户支持:让用户上传截图、文档或录音并获得有用的见解或摘要。
- 多媒体 QA:审查视觉、音频或视频内容的正确性或合规性。
- 教育代理:即时解释 PDF、图表或录音中的内容。
- 低成本多模式助手:无需依赖大型视觉语言模型即可实现多模式功能。
🎯 为什么这个架构很重要
与端到端多模态 LLM(如 Gemini 1.5 或 GPT-4o)不同,此模板:
- 使用纯文本 LLM(通过 Groq 的 Qwen 32B)进行推理。
- 将媒体分析委托给专门的 Gemini 工具。
✅ 优点
特征 | 益处 |
---|---|
🧩 模块化 | LLM + 工具是解耦的;可以独立更新它们 |
💸 成本效益 | 无需为完整的多模式模型付费;仅在需要时使用工具 |
🔧 基于工具的推理 | Agent 按需调用工具,就像 OpenAI 的 Toolformer 设置一样 |
⚡ 快速 | Groq LLM 提供超快响应和低延迟 |
📚 记忆 | 包括多轮聊天的上下文缓冲区(15 条消息) |
🧪 工作原理
🔹 通过聊天输入
- 用户通过提交消息和(可选)文件
chatTrigger
。
🔹 文件处理
- 如果没有文件:提示将直接传递给代理。
- 如果包含文件:
- 文件被拆分,上传到 Gemini(以获取公共 URL)。
- 元数据(名称、类型、URL)被收集并嵌入到提示中。
🔹 快速施工
chatInput
动态生成一个新的:User message Media: [array of file data]
🔹 代理推理
- 接收
Langchain Agent
:- 丰富的提示
- 文件 URL
- 记忆上下文(15圈)
- 可使用 4 种 Gemini 工具:
IMG
:分析图像VIDEO
:分析视频AUDIO
:分析音频DOCUMENT
:分析文档
代理自主决定是否以及如何使用工具,然后以简洁的输出做出响应。
🧱 节点和服务
类别 | 节点/工具 | 目的 |
---|---|---|
聊天输入 | chatTrigger | 具有文件支持的用户界面 |
文件处理 | splitOut ,splitInBatches | 处理每个上传的文件 |
上传 | googleGemini | 将每个文件上传到 Gemini,获取 URL |
元数据 | set ,aggregate | 构建结构化文件信息 |
人工智能代理 | Langchain Agent | 接收上下文+文件数据 |
工具 | googleGeminiTool | 使用 Gemini 分析媒体 |
法学硕士 | lmChatGroq (Qwen 32B) | 文本推理,高速 |
记忆 | memoryBufferWindow | 维护会话上下文 |
⚙️ 设置说明
1.🔑 所需凭证
- Groq API 密钥(适用于 Qwen 32B 型号)
- Google Gemini API 密钥(Palm/Gemini 1.5 工具)
2. 🧩 需要设置的节点
- 替换现有凭证:
Upload a file
- 每个
GeminiTool
(图片、视频、音频、文档) lmChatGroq
3.⚠️ 文件大小和格式注意事项
- 一些 Gemini 工具有文件大小或格式限制。
- 如果需要,您可以在上传之前添加验证节点。
🛠️ 可选改进
- 添加日志记录和错误处理(例如,上传失败)。
- 添加 MIME 类型过滤以明确选择正确的工具。
- 扩展至包括 OCR 或转录服务预分析。
- 与 Slack、Telegram 或 WhatsApp 集成以进行聊天。
🧪 示例用例
“Hola, ¿qué dice este PDF?”
上传文档 → 代理将其路由到 Gemini DOCUMENT 工具 → 接收提取的内容 → LLM 用西班牙语进行总结。
🧰 标签
multimodal, agent, langchain, groq, gemini, image analysis, audio analysis, document parsing, video analysis, file uploader, chat assistant, LLM tools, memory, AI tools
📂 文件
- 此模板可在 n8n 中直接使用。
- 无需外部 webhook 或集成。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容