文件搜索 | Middleware 中间件 | 产品经理学Langchian | 第20篇

内容纲要

概述

在前面的章节中，我们讨论了如何通过Shell工具让AI智能体执行系统命令。现在我们要关注一个更专门但同样重要的功能：在代码库中查找文件和搜索内容。

对于开发者来说，在大型代码库中查找特定文件或代码模式是日常操作。如果AI智能体也能做到这些，就能帮助开发者更快地探索代码、查找问题、理解代码结构。

File search中间件就是为了提供这种能力而设计的。它为AI智能体提供Glob和Grep两种文件搜索工具，支持按文件名模式查找文件和按内容正则表达式搜索，适用于代码探索、文件发现、内容分析等场景。

使用场景

代码探索与分析

在大型代码库中探索代码结构，查找特定文件或代码模式。AI智能体可以帮助开发者快速定位相关代码。

按名称模式查找文件

使用Glob模式（如<code>**/*.py</code>、<code>src/**/*.ts</code>）快速查找匹配的文件。这对于在大型项目中查找特定类型的文件很有用。

使用正则表达式搜索代码内容

使用Grep工具在文件中搜索特定内容模式（如函数定义、错误处理、TODO注释）。这对于代码分析和问题排查很有帮助。

大型代码库中的文件发现

在包含大量文件的代码库中，快速定位相关文件。AI智能体可以像开发者一样快速浏览代码库。

核心功能需求

Glob工具（文件模式匹配）

Glob工具用于快速文件模式匹配，支持Glob模式语法。

支持的模式

<code>**/*.py</code>：递归查找所有Python文件
<code>src/**/*.ts</code>：在src目录下递归查找所有TypeScript文件
<code>*.md</code>：查找当前目录下的所有Markdown文件
<code>test/**/test_*.py</code>：查找test目录下所有以<code>test_</code>开头的Python文件

返回结果

文件路径列表：返回匹配的文件路径列表
按修改时间排序：结果按文件修改时间排序
便于使用：AI智能体可以直接使用这些文件路径进行后续操作

Grep工具（内容搜索）

Grep工具用于使用正则表达式在文件内容中搜索。

搜索特性

完整正则表达式支持：支持完整的正则表达式语法
文件模式过滤：通过<code>include</code>参数按文件模式过滤（如只搜索<code>*.py</code>文件）
多种输出模式：
- <code>files_with_matches</code>：仅返回文件列表
- <code>content</code>：返回匹配内容
- <code>count</code>：返回匹配数量

搜索能力

跨文件搜索：可以在多个文件中搜索
模式匹配：支持复杂的正则表达式模式
灵活输出：根据需求选择不同的输出模式

搜索性能优化

文件搜索可能涉及大量文件，需要优化性能。

ripgrep后端

高性能：使用ripgrep命令行工具，性能极佳
大型文件支持：支持搜索大型文件
正则表达式强大：功能强大的正则表达式支持
要求：需要系统安装ripgrep

Python正则表达式后端

无额外依赖：使用Python的<code>re</code>模块，无需额外依赖
跨平台兼容：在所有平台上都能使用
性能较慢：性能较慢，不适合大型文件
回退方案：如果ripgrep不可用，自动回退到此方案

产品建议：建议在PRD中要求使用ripgrep，提供更好的性能。如果ripgrep不可用，可以回退到Python正则表达式。

安全与限制

文件搜索需要访问文件系统，必须设置安全限制。

根目录限制

root_path参数：必须设置为隔离的工作目录
路径验证：确保AI智能体只能访问root_path下的文件
安全要求：不能访问系统关键目录（如<code>/etc</code>、<code>/usr</code>、<code>/home</code>）

文件大小限制

max_file_size_mb参数：设置搜索的最大文件大小（MB）
性能考虑：超过限制的文件会被跳过，避免性能问题
建议值：根据系统资源设置，如10-50MB

敏感文件排除

排除规则：排除敏感文件（如<code>.env</code>、<code>*.key</code>、<code>*.pem</code>）
安全要求：避免搜索包含敏感信息的文件
可配置：支持配置排除列表

PRD需求描述

功能需求

FR-1: Glob文件搜索

描述：支持使用Glob模式查找匹配的文件
模式支持：支持完整的Glob模式语法
返回结果：返回匹配的文件路径列表，按修改时间排序
优先级：P0（核心功能）

FR-2: Grep内容搜索

描述：支持使用正则表达式在文件内容中搜索
搜索特性：支持完整正则表达式、文件模式过滤、多种输出模式
优先级：P0（核心功能）

FR-3: 搜索性能优化

描述：支持ripgrep后端，提供高性能搜索
回退机制：如果ripgrep不可用，自动回退到Python正则表达式
优先级：P1

FR-4: 安全与限制

描述：支持根目录限制、文件大小限制、敏感文件排除
安全要求：确保AI智能体只能访问指定目录，不能访问系统关键目录
优先级：P0（核心功能）

非功能需求

NFR-1: 性能要求

搜索性能：使用ripgrep时，搜索性能应该足够快，不影响用户体验
大型代码库：应该能够在大型代码库（如10万+文件）中进行搜索
延迟控制：搜索操作不应显著增加响应时间

NFR-2: 安全要求

路径限制：必须限制搜索范围，不能访问系统关键目录
权限控制：确保AI智能体只能访问有权限的文件
敏感文件保护：排除敏感文件，避免泄露敏感信息

NFR-3: 监控与日志

搜索日志：记录搜索操作，包括搜索模式、匹配文件数量等
性能监控：监控搜索操作的性能，确保在可接受范围内

产品设计要点

根目录限制设计

root_path设置：

路径验证：

需要验证所有路径都在root_path下
防止路径遍历攻击（如<code>../../../etc/passwd</code>）

符号链接处理：

需要处理符号链接的安全策略
避免通过符号链接访问系统关键文件

产品建议：在PRD中明确路径验证机制和符号链接处理策略。

文件大小限制设计

max_file_size_mb设置：

根据系统资源设置，如10-50MB
避免搜索过大文件导致性能问题

大文件处理：

超过限制的文件会被跳过
需要在日志中记录，便于后续分析

性能权衡：

文件大小限制与搜索覆盖率之间的权衡
需要在PRD中明确权衡策略

产品建议：建议在PRD中明确文件大小限制和性能要求。

搜索范围控制

文件类型过滤：

通过<code>include</code>参数限制搜索的文件类型
避免搜索不相关文件

目录排除：

排除特定目录（如<code>node_modules</code>、<code>.git</code>）
减少搜索范围，提高性能

搜索深度限制：

限制递归搜索的深度
避免搜索过深导致性能问题

产品建议：建议在PRD中明确搜索范围控制策略，提高搜索效率。

使用建议

什么时候应该使用

代码探索：需要在大型代码库中探索代码结构
文件发现：需要快速查找特定类型的文件
内容搜索：需要在代码中搜索特定模式

配置建议

根目录限制：设置为隔离的工作目录，确保安全
文件大小限制：根据系统资源设置合理的限制
使用ripgrep：如果可能，使用ripgrep后端，提供更好的性能

注意事项

安全限制：必须设置根目录限制，防止访问系统关键目录
性能考虑：大型代码库搜索可能需要较长时间，需要优化性能
敏感文件：排除敏感文件，避免泄露敏感信息

与其他中间件的配合

文件搜索可以与其他中间件配合使用：

与ShellToolMiddleware配合：使用Shell命令进行文件操作，使用File Search进行文件发现
与ContextEditingMiddleware配合：搜索结果的输出可能很大，需要清理以控制上下文长度
与PIIMiddleware配合：搜索到的文件内容可能包含敏感信息，需要脱敏处理

后续优化方向

智能搜索：基于代码语义，更智能地搜索相关代码
搜索结果排序：根据相关性排序搜索结果，提供更有用的结果
增量搜索：支持增量搜索，只搜索新增或修改的文件
搜索缓存：缓存搜索结果，提高重复搜索的性能

概述