AI 时代的 PRD 该怎么写？ - PMSOLO-PM的坚持成长之路

内容纲要

写了好几年 PRD，最近突然有点迷——以前那套写法，放到 AI 类产品上感觉哪里不对劲，但又说不清楚问题在哪。

后来慢慢想明白了：传统 PRD 是在对一个确定性系统下指令，AI/Agent 类产品是在给一个概率性系统划边界。这是两件完全不同的事。

传统 PRD 在 AI 产品上会出什么问题

传统 PRD 的核心逻辑是"描述清楚功能长什么样"。用户点击这个按钮，会发生这件事，状态从 A 变成 B，完成。

但 AI 产品没有这种确定性。你无法说"用户提交研报，AI 输出正确摘要"——因为"正确"是个概率，不是开关。你也没法只写"生成摘要功能"，因为你还需要说清楚：生成的摘要里出现了捏造的数字怎么办？解析失败了跳到哪里？用户不满意能改吗？

这些问题，传统 PRD 的格式里没有对应的位置。

AI 类 PRD 多出来的四个核心模块

我总结下来，AI/Agent 类产品的 PRD 比传统 PRD 至少多四块内容：

① Agent 的角色定义：这个 Agent 在整个流程里干什么、不干什么。边界要写清楚，"不干什么"往往比"干什么"更重要。

② 人机分工与介入点：哪些步骤 Agent 自主跑，哪些需要用户确认，出错了人从哪里接管。这个用流程图表达最直观。

③ 多维验收标准：不能只写"功能上线"，要写模型性能指标（准确率、幻觉率、延迟）、业务指标（完成率、留存）、体验指标（用户修正率、重试率）。

④ 容错与降级策略：AI 必然会犯错，这不是 bug 而是系统特性。PRD 里要提前说好：什么情况触发降级、降级到哪一层（AI → 规则 → 人工）、用户侧怎么感知。

其他的，比如数据来源、合规要求、成本红线，也比传统产品更需要明确写出来。

一个真实的模版：研报智能摘要 Agent

光说原则没用，直接看一份具体的怎么写。

场景背景：投研用户每天要读 20-50 份研报，想做一个 Agent 帮他们自动提炼关键结论。

1. 背景与目标

投研用户信息处理压力大，每份研报平均花 15 分钟，每天要消耗 3-8 小时在阅读上。

目标：通过 Agent 把单篇研报的处理时间压缩到 3 分钟以内，不损失关键信息（核心结论、目标价、评级变化、主要风险）。

成功标准：目标用户中 40% 次日留存；用户主动修正摘要的比例低于 15%。

2. 用户与场景

主要用户：买方投研（基金经理/研究员），日均阅读量 20 份以上。

核心场景：上传 PDF → 获取结构化摘要 → 决定是否精读原文。

本期不做：跨研报比较、历史评级追踪、主动推送。

3. Agent 角色定义

Agent 负责	Agent 不负责
提取：核心结论、目标价/评级、风险提示	判断研报结论是否正确
输出固定格式的结构化摘要	跨文档关联分析
标注不确定内容	给出投资建议

4. 人机分工流程

用户上传 PDF
    ↓
[Agent] 解析文档结构，识别研报类型
    ↓
[Agent] 提取关键字段，生成结构化摘要（自动执行，无需用户确认）
    ↓
[置信度判断]
    ├── 正常：直接展示摘要
    ├── 低置信：展示摘要 + 标注&quot;⚠️ 以下内容不确定，建议核对原文&quot;
    └── 无法解析：提示&quot;该文档格式暂不支持，请上传文字版 PDF&quot;
    ↓
用户查看摘要 → 可点击&quot;查看原文对应段落&quot;（溯源验证）

5. 输出格式规范（也是 Prompt 的核心约束）

摘要必须包含以下字段，缺失项标注"未提及"：

公司/标的
评级（维持/上调/下调/首次覆盖）
目标价（若有区间，取中值）
核心逻辑（3 条以内，每条不超过 30 字）
主要风险（2 条以内）
数据截止时间

禁止：补充原文未提及的信息、生成带有投资建议性质的语言。

6. 验收标准

维度	指标	达标线
模型性能	关键字段提取准确率	≥ 90%（人工抽样 50 份验证）
模型性能	幻觉率（编造数字/结论）	≤ 2%
体验	平均处理时长	≤ 30 秒/篇
体验	用户修正率	≤ 15%
业务	次日留存	目标用户 ≥ 40%

7. 容错与降级策略

失败情形	处理方式
扫描版 PDF（无文字层）	提示不支持，引导上传文字版；后续 roadmap 加 OCR
关键字段置信度低	输出摘要 + ⚠️ 标注，不隐藏结果
模型响应超时（>60s）	允许用户离开后通知；超时失败则提示重试
非研报文档	提示"当前文档可能不是研报，摘要效果可能不准确"

8. 数据与合规

研报内容处理完即丢弃，不持久化存储（版权合规）。
不将用户上传内容用于模型训练。
摘要结果界面注明"AI 生成，以原文为准"。

9. 上线后的监控计划

每周抽样 30 份，人工验证准确率。
监控用户的"修正"行为——哪些字段被改得最多 = 模型的弱点，优先迭代。
收集点踩 + 原因标签，反哺 Prompt 优化。

写这份 PRD 的核心逻辑

你会发现这份 PRD 里没有出现"用 GPT-4o"、"chunk size 512"、"用 LangGraph 框架"这类字眼——那些是技术的事。但"幻觉率 ≤ 2%"和"禁止补充原文未提及的信息"，本质上也是在约束技术实现，只是用的是产品语言。

产品写目标、边界、标准、容错规则。技术写实现细节。分工清楚，PRD 就不会变成伪技术方案，也不会变成空洞的功能描述。

这个分寸感，是 AI 时代写 PRD 最难拿捏的地方，也是最值钱的地方。

「AI 时代产品经理转型」系列第二篇。下一篇聊技术安全感的问题——为什么学了 LangGraph 之后还是觉得懵？