n8n智能体分析图像、视频、文档和音频ai工作流

n8n智能体分析图像、视频、文档和音频ai工作流

图片[1]-n8n智能体分析图像、视频、文档和音频ai工作流-AI应用集
图片[2]-n8n智能体分析图像、视频、文档和音频ai工作流-AI应用集

📁 使用专门的工具分析上传的图像、视频、音频和文档——由轻量级的纯语言代理提供支持。


🧭 它的作用

此工作流程支持使用连接到纯文本 LLM 代理的Google Gemini 工具进行多模态文件分析。用户可以通过聊天界面上传图片、视频、音频文件或文档。该工作流程将:

  • 将每个文件上传到 Google Gemini 并获取可访问的 URL。
  • 根据文件和用户消息动态生成上下文提示。
  • 允许代理根据需要调用特定媒体类型的 Gemini 工具。
  • 根据分析返回简洁、有用的答复。

🚀 用例

  • 客户支持:让用户上传截图、文档或录音并获得有用的见解或摘要。
  • 多媒体 QA:审查视觉、音频或视频内容的正确性或合规性。
  • 教育代理:即时解释 PDF、图表或录音中的内容。
  • 低成本多模式助手:无需依赖大型视觉语言模型即可实现多模式功能。

🎯 为什么这个架构很重要

与端到端多模态 LLM(如 Gemini 1.5 或 GPT-4o)不同,此模板:

  • 使用纯文本 LLM(通过 Groq 的 Qwen 32B)进行推理。
  • 将媒体分析委托给专门的 Gemini 工具

✅ 优点

特征益处
🧩 模块化LLM + 工具是解耦的;可以独立更新它们
💸 成本效益无需为完整的多模式模型付费;仅在需要时使用工具
🔧 基于工具的推理Agent 按需调用工具,就像 OpenAI 的 Toolformer 设置一样
⚡ 快速Groq LLM 提供超快响应和低延迟
📚 记忆包括多轮聊天的上下文缓冲区(15 条消息)

🧪 工作原理

🔹 通过聊天输入

  • 用户通过提交消息和(可选)文件chatTrigger

🔹 文件处理

  • 如果没有文件:提示将直接传递给代理。
  • 如果包含文件:
    • 文件被拆分,上传到 Gemini(以获取公共 URL)。
    • 元数据(名称、类型、URL)被收集并嵌入到提示中。

🔹 快速施工

  • chatInput动态生成一个新的:User message Media: [array of file data]

🔹 代理推理

  • 接收Langchain Agent
    • 丰富的提示
    • 文件 URL
    • 记忆上下文(15圈)
    • 可使用 4 种 Gemini 工具:
      • IMG:分析图像
      • VIDEO:分析视频
      • AUDIO:分析音频
      • DOCUMENT:分析文档

代理自主决定是否以及如何使用工具,然后以简洁的输出做出响应。


🧱 节点和服务

类别节点/工具目的
聊天输入chatTrigger具有文件支持的用户界面
文件处理splitOutsplitInBatches处理每个上传的文件
上传googleGemini将每个文件上传到 Gemini,获取 URL
元数据setaggregate构建结构化文件信息
人工智能代理Langchain Agent接收上下文+文件数据
工具googleGeminiTool使用 Gemini 分析媒体
法学硕士lmChatGroq(Qwen 32B)文本推理,高速
记忆memoryBufferWindow维护会话上下文

⚙️ 设置说明

1.🔑 所需凭证

  • Groq API 密钥(适用于 Qwen 32B 型号)
  • Google Gemini API 密钥(Palm/Gemini 1.5 工具)

2. 🧩 需要设置的节点

  • 替换现有凭证:
    • Upload a file
    • 每个GeminiTool(图片、视频、音频、文档)
    • lmChatGroq

3.⚠️ 文件大小和格式注意事项

  • 一些 Gemini 工具有文件大小或格式限制。
  • 如果需要,您可以在上传之前添加验证节点。

🛠️ 可选改进

  • 添加日志记录和错误处理(例如,上传失败)。
  • 添加 MIME 类型过滤以明确选择正确的工具。
  • 扩展至包括 OCR 或转录服务预分析。
  • 与 Slack、Telegram 或 WhatsApp 集成以进行聊天。

🧪 示例用例

“Hola, ¿qué dice este PDF?”

上传文档 → 代理将其路由到 Gemini DOCUMENT 工具 → 接收提取的内容 → LLM 用西班牙语进行总结。


🧰 标签

multimodal, agent, langchain, groq, gemini, image analysis, audio analysis, document parsing, video analysis, file uploader, chat assistant, LLM tools, memory, AI tools

📂 文件

  • 此模板可在 n8n 中直接使用。
  • 无需外部 webhook 或集成。
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容