🎓 第 11 课进阶测试迭代质量
提示词测试与迭代
建立提示词测试体系:测试用例设计、评估标准、持续迭代方法
提示词测试与迭代
写提示词像软件开发——好的提示词是"测"出来的,不是"写"出来的。建立测试体系,让你的提示词稳定、可靠、持续进化。
为什么要测试提示词?
场景1:你写了一个觉得很好的提示词,但用了3天后发现,有时输出质量很好,有时很差——你不确定什么时候好、什么时候差。
场景2:你改了提示词的一个地方,以为改进了,但发现另一个地方反而变差了——你不知道改动的真实影响是什么。
场景3:团队里有5个人在用同一个提示词模板,每个人得到的结果都不一样——你不知道是人的问题还是提示词的问题。
测试的目的:把"凭感觉"变成"有数据",让提示词的质量可控、可衡量、可复现。
测试用例设计
设计原则 %%CB0%%
测试用例集示例 %%CB1%%
评估标准
输出质量的五个维度
| 维度 | 评估问题 | 评分(1-5) |
|---|---|---|
| 准确性 | 输出包含事实性错误吗? | |
| 完整性 | 要求的要素都包含了吗? | |
| 相关性 | 输出紧扣主题了吗? | |
| 格式 | 格式符合要求吗? | |
| 风格 | 语气、难度、风格符合要求吗? |
评分方法 %%CB0%%
迭代流程
测试驱动的迭代 %%CB0%%
迭代日志 %%CB1%%
提示词的"回归测试"
当你优化提示词时,要确保:
新的修改不会让原本表现好的场景变差
回归测试 = 每次修改后,把所有历史测试用例跑一遍
如果老用例的分数下降 → 你的修改有副作用 → 回滚或调整
下一步
掌握了测试与迭代之后,接下来学习高级提示词技巧——掌握进阶玩法,让你的提示词脱颖而出。