🎓 第 11进阶测试迭代质量

提示词测试与迭代

建立提示词测试体系:测试用例设计、评估标准、持续迭代方法

提示词测试与迭代

写提示词像软件开发——好的提示词是"测"出来的,不是"写"出来的。建立测试体系,让你的提示词稳定、可靠、持续进化。


为什么要测试提示词?

场景1:你写了一个觉得很好的提示词,但用了3天后发现,有时输出质量很好,有时很差——你不确定什么时候好、什么时候差。

场景2:你改了提示词的一个地方,以为改进了,但发现另一个地方反而变差了——你不知道改动的真实影响是什么。

场景3:团队里有5个人在用同一个提示词模板,每个人得到的结果都不一样——你不知道是人的问题还是提示词的问题。

测试的目的:把"凭感觉"变成"有数据",让提示词的质量可控、可衡量、可复现。

测试用例设计

设计原则 %%CB0%%

测试用例集示例 %%CB1%%


评估标准

输出质量的五个维度

维度评估问题评分(1-5)
准确性输出包含事实性错误吗?
完整性要求的要素都包含了吗?
相关性输出紧扣主题了吗?
格式格式符合要求吗?
风格语气、难度、风格符合要求吗?

评分方法 %%CB0%%


迭代流程

测试驱动的迭代 %%CB0%%

迭代日志 %%CB1%%


提示词的"回归测试"

当你优化提示词时,要确保:
新的修改不会让原本表现好的场景变差

回归测试 = 每次修改后,把所有历史测试用例跑一遍
如果老用例的分数下降 → 你的修改有副作用 → 回滚或调整

下一步

掌握了测试与迭代之后,接下来学习高级提示词技巧——掌握进阶玩法,让你的提示词脱颖而出。