n8n智能体分析图像、视频、文档和音频ai工作流-AI应用集

📁 使用专门的工具分析上传的图像、视频、音频和文档——由轻量级的纯语言代理提供支持。

🧭 它的作用

此工作流程支持使用连接到纯文本 LLM 代理的Google Gemini 工具进行多模态文件分析。用户可以通过聊天界面上传图片、视频、音频文件或文档。该工作流程将：

将每个文件上传到 Google Gemini 并获取可访问的 URL。
根据文件和用户消息动态生成上下文提示。
允许代理根据需要调用特定媒体类型的 Gemini 工具。
根据分析返回简洁、有用的答复。

🚀 用例

客户支持：让用户上传截图、文档或录音并获得有用的见解或摘要。
多媒体 QA：审查视觉、音频或视频内容的正确性或合规性。
教育代理：即时解释 PDF、图表或录音中的内容。
低成本多模式助手：无需依赖大型视觉语言模型即可实现多模式功能。

🎯 为什么这个架构很重要

与端到端多模态 LLM（如 Gemini 1.5 或 GPT-4o）不同，此模板：

使用纯文本 LLM（通过 Groq 的 Qwen 32B）进行推理。
将媒体分析委托给专门的 Gemini 工具。

✅ 优点

特征	益处
🧩 模块化	LLM + 工具是解耦的；可以独立更新它们
💸 成本效益	无需为完整的多模式模型付费；仅在需要时使用工具
🔧 基于工具的推理	Agent 按需调用工具，就像 OpenAI 的 Toolformer 设置一样
⚡ 快速	Groq LLM 提供超快响应和低延迟
📚 记忆	包括多轮聊天的上下文缓冲区（15 条消息）

🧪 工作原理

🔹 通过聊天输入

用户通过提交消息和（可选）文件chatTrigger。

🔹 文件处理

如果没有文件：提示将直接传递给代理。
如果包含文件：
- 文件被拆分，上传到 Gemini（以获取公共 URL）。
- 元数据（名称、类型、URL）被收集并嵌入到提示中。

🔹 快速施工

chatInput动态生成一个新的：User message Media: [array of file data]

🔹 代理推理

接收Langchain Agent：
- 丰富的提示
- 文件 URL
- 记忆上下文（15圈）
- 可使用 4 种 Gemini 工具：
  - IMG：分析图像
  - VIDEO：分析视频
  - AUDIO：分析音频
  - DOCUMENT：分析文档

代理自主决定是否以及如何使用工具，然后以简洁的输出做出响应。

🧱 节点和服务

类别	节点/工具	目的
聊天输入	`chatTrigger`	具有文件支持的用户界面
文件处理	`splitOut`，`splitInBatches`	处理每个上传的文件
上传	`googleGemini`	将每个文件上传到 Gemini，获取 URL
元数据	`set`，`aggregate`	构建结构化文件信息
人工智能代理	`Langchain Agent`	接收上下文+文件数据
工具	`googleGeminiTool`	使用 Gemini 分析媒体
法学硕士	`lmChatGroq`（Qwen 32B）	文本推理，高速
记忆	`memoryBufferWindow`	维护会话上下文

⚙️ 设置说明

1.🔑 所需凭证

Groq API 密钥（适用于 Qwen 32B 型号）
Google Gemini API 密钥（Palm/Gemini 1.5 工具）

2. 🧩 需要设置的节点

替换现有凭证：
- Upload a file
- 每个GeminiTool（图片、视频、音频、文档）
- lmChatGroq

3.⚠️ 文件大小和格式注意事项

一些 Gemini 工具有文件大小或格式限制。
如果需要，您可以在上传之前添加验证节点。

🛠️ 可选改进

添加日志记录和错误处理（例如，上传失败）。
添加 MIME 类型过滤以明确选择正确的工具。
扩展至包括 OCR 或转录服务预分析。
与 Slack、Telegram 或 WhatsApp 集成以进行聊天。

🧪 示例用例

“Hola, ¿qué dice este PDF?”

上传文档 → 代理将其路由到 Gemini DOCUMENT 工具 → 接收提取的内容 → LLM 用西班牙语进行总结。

🧰 标签

multimodal, agent, langchain, groq, gemini, image analysis, audio analysis, document parsing, video analysis, file uploader, chat assistant, LLM tools, memory, AI tools