LLM tool emulator | Middleware 中间件 | 产品经理学Langchian

内容纲要

概述

在前面的章节中，我们讨论了如何在工具调用失败时自动重试。现在我们要关注开发阶段的一个实际问题：在开发和测试阶段，某些工具可能不可用，或者调用成本很高，或者调用有风险，这时候怎么测试AI智能体的功能？

比如，在开发阶段，支付API还没有配置好，或者不想在测试时真的发送邮件、真的调用数据库。如果只能使用真实工具，开发效率会很受影响。

LLM tool emulator中间件就是为了解决这个问题而设计的。它可以在测试和开发阶段，使用LLM生成工具执行结果，替代真实工具调用，避免执行真实工具带来的成本、依赖和风险。这样，开发者就可以在没有真实工具的情况下，快速测试AI智能体的行为和工作流。

使用场景

测试AI智能体行为

在不执行真实工具的情况下，测试AI智能体的决策逻辑、工具选择、错误处理等行为。这样可以确保测试的快速性和可重复性，不受外部服务影响。

开发阶段工具不可用

外部工具（如第三方API、数据库）在开发环境中不可用或配置复杂时，使用模拟器可以快速开发AI智能体功能。开发者不需要等待所有工具都配置好才能开始开发。

降低开发成本

某些工具调用成本较高（如调用付费API、执行数据库写入），使用模拟器可以避免开发阶段的成本消耗。特别是需要大量测试的场景，成本节省更明显。

原型化工作流

在实现实际工具前，使用模拟器快速原型化AI智能体工作流，验证整体设计是否合理。这样可以在早期阶段发现设计问题。

核心功能需求

工具模拟机制

工具模拟器的核心是使用LLM生成符合工具预期的模拟响应。

模拟流程

拦截工具调用：在工具调用执行前，拦截工具调用请求
提取工具信息：从工具调用请求中提取工具名称、参数、描述等信息
LLM生成响应：使用LLM根据工具信息生成符合工具预期的模拟响应
返回模拟结果：将生成的响应作为工具执行结果返回，AI智能体继续执行

模拟准确性

响应格式：模拟响应应符合真实工具的输出格式，避免AI智能体因格式不匹配而失败
响应内容：模拟响应应合理、符合工具语义，便于AI智能体正确理解和处理
边界情况：模拟器应能处理各种参数组合，包括边界情况和异常参数

选择性模拟

不是所有工具都需要模拟，我们需要能够精确控制哪些工具模拟，哪些工具真实执行。

全工具模拟

适用场景：开发阶段快速测试，所有工具都不可用
配置方式：不指定tools参数，默认模拟所有工具

选择性模拟

适用场景：部分工具可用，部分工具不可用
配置方式：指定tools列表，只模拟列表中的工具
优点：可以混合使用模拟工具和真实工具

工具列表配置

工具名称：可以通过工具名称（字符串）指定
工具实例：也可以通过工具实例对象指定
灵活性：支持灵活的配置方式

产品建议：建议在开发环境使用模拟器，测试/生产环境使用真实工具。需要在PRD中明确环境配置。

模型选择

模拟器可以使用不同的模型生成模拟响应。

轻量模型优先

建议：使用轻量级模型（如GPT-4o-mini）生成模拟响应，降低成本
适用场景：大多数开发测试场景

主模型

使用场景：如果未指定模型，使用AI智能体的主模型
优点：不需要额外配置
缺点：可能增加成本

产品建议：建议在PRD中明确使用轻量模型进行模拟，降低开发成本。

PRD需求描述

功能需求

FR-1: 工具调用拦截

描述：能够拦截工具调用请求，阻止真实工具执行
拦截时机：在工具调用执行前拦截
优先级：P0（核心功能）

FR-2: LLM生成模拟响应

描述：使用LLM根据工具信息生成符合工具预期的模拟响应
响应质量：响应应符合真实工具的输出格式和语义
优先级：P0（核心功能）

FR-3: 选择性模拟

描述：可以指定哪些工具模拟，哪些工具真实执行
配置方式：支持工具名称列表或工具实例列表
优先级：P0（核心功能）

FR-4: 模拟结果标记

描述：模拟结果应明确标记为"模拟"，避免与真实结果混淆
标记方式：在响应中添加标记（如<code>[SIMULATED]</code>）
优先级：P1

非功能需求

NFR-1: 性能要求

延迟影响：模拟器会增加延迟（LLM生成响应），需要在PRD中明确是否可接受
成本控制：使用轻量模型，控制模拟成本

NFR-2: 环境区分

环境标识：在日志和监控中明确标识当前环境（开发/测试/生产）
配置验证：在AI智能体启动时验证配置，确保生产环境不包含模拟器
告警机制：若在生产环境检测到模拟器，应触发告警并阻止启动

NFR-3: 日志记录

模拟日志：记录所有模拟调用，包括工具名称、参数、生成的响应等
便于分析：日志应便于后续分析和调试

产品设计要点

模拟范围控制

开发环境：

可以使用模拟器快速测试，所有工具都不可用也没关系
提高开发效率

测试环境：

部分使用模拟器（如外部API），部分使用真实工具（如本地文件）
验证整体流程

生产环境：

必须禁用：生产环境必须禁用模拟器，确保使用真实工具
安全检查：在启动时验证配置，防止误用

产品建议：在PRD中明确各环境的配置策略，并建立安全检查机制。

模拟准确性要求

响应格式：

模拟响应应符合真实工具的输出格式
避免AI智能体因格式不匹配而失败

响应内容：

模拟响应应合理、符合工具语义
便于AI智能体正确理解和处理

边界情况：

模拟器应能处理各种参数组合
包括边界情况和异常参数

产品建议：在PRD中明确模拟响应的质量要求，确保模拟器不会影响AI智能体的正确性。

成本与性能权衡

模型选择：

建议使用轻量级模型，降低成本
开发阶段成本应该可控

延迟影响：

模拟器会增加延迟（LLM生成响应）
需要在PRD中明确是否可接受

成本对比：

评估模拟器的成本是否低于真实工具调用的成本
确保开发阶段成本可控

产品建议：在PRD中明确成本和性能的要求，根据实际场景权衡。

使用建议

什么时候应该使用

开发阶段：工具不可用或配置复杂，需要快速开发
测试阶段：需要快速测试AI智能体行为，不受外部服务影响
成本控制：真实工具调用成本高，开发阶段需要控制成本

配置建议

环境区分：开发环境使用模拟器，生产环境必须禁用
模型选择：使用轻量模型，降低成本
选择性模拟：只模拟不可用的工具，其他工具真实执行

注意事项

生产环境禁用：生产环境必须禁用模拟器，确保使用真实工具
模拟标记：模拟结果应明确标记，避免混淆
准确性验证：需要验证模拟响应的准确性，确保不影响AI智能体正确性

与其他中间件的配合

工具模拟器可以与其他中间件配合使用：

与ToolRetryMiddleware配合：模拟器失败时，可以重试生成模拟响应
与ToolCallLimitMiddleware配合：模拟调用计入工具调用限制，避免无限模拟
执行顺序：模拟器应在工具调用执行前拦截，确保真实工具不会被调用

后续优化方向

响应模板：为常见工具提供响应模板，提高模拟准确性
智能生成：基于工具描述和历史数据，更智能地生成模拟响应
边界情况覆盖：自动生成各种边界情况的模拟响应，提高测试覆盖率
成本优化：进一步优化模拟成本，比如使用更轻量的模型或缓存机制

概述

使用场景

测试AI智能体行为

开发阶段工具不可用

降低开发成本

原型化工作流

核心功能需求

工具模拟机制

模拟流程

模拟准确性

选择性模拟

全工具模拟

选择性模拟

工具列表配置

模型选择

轻量模型优先

主模型

PRD需求描述

功能需求

FR-1: 工具调用拦截

FR-2: LLM生成模拟响应

FR-3: 选择性模拟

FR-4: 模拟结果标记

非功能需求

NFR-1: 性能要求

NFR-2: 环境区分

NFR-3: 日志记录

产品设计要点

模拟范围控制

模拟准确性要求

成本与性能权衡

使用建议

什么时候应该使用

配置建议

注意事项

与其他中间件的配合

后续优化方向

相关文章