一旦你有了满意的提示模板,就可以开始测试它了。然后(如果需要)你可以根据 Claude 在测试中的表现来改进您的提示。
最好使用代表你将要求 Claude 处理的真实数据的输入集来测试你的提示。请务必包含 Claude 可能遇到的任何困难输入或边缘情况。
使用这些输入测试您的提示可以近似 Claude “在现场”的表现。它还可以帮助您了解 Claude 在哪里遇到困难。
在开发提示模板时,最好获得你愿意阅读的尽可能多的输入;我们建议至少 20 个或更多,具体取决于任务。
当提出测试输入时,我们建议使用单独的“提示开发数据”和“测试数据”集。两个(或更多)组应该代表真实的输入。
使用你的提示开发数据来评估 Claude 在开发提示时执行任务的情况。重复您的提示,直到 Claude 对这些数据始终表现良好。
然后,为了确保你不会过度拟合提示开发数据,你可以提示 Claude 使用尚未遇到的测试数据完成任务。
如果你想要更多输入数据但还没有很多,可以提示 Claude 的单独实例生成额外的输入文本供您测试!如果你解释什么是好的输入数据,然后给出一些例子,你通常可以从 Claude 那里得到更多这样的例子。
完善提示可能很像进行一系列实验。您运行测试,解释结果,然后根据结果调整变量(你的提示或输入)。
当 Claude 测试失败时,尝试找出失败的原因(让 Claude 在标签中输出其想法是研究 Claude 逻辑的好方法;在我们的给 Claude 思考空间的提示中了解更多信息)。调整你的提示以解决该故障点。
• 通过将类似的示例和规范输出添加到提示中,向 Claude 展示如何在提示 本身中正确处理示例。
当 Claude 在新提示下的一种输入类型上始终表现良好时,请尝试使用另一种输入类型。确保尝试边缘情况。
在提示中添加规则和示例,直到你在代表性输入集上获得良好的性能。我们建议还执行“保留测试”。
你可以使用 Claude 来“自我评估”它之前给出的答案。
• 如果你认为模型可能犯了错误,请让模型检查其工作
• 根据你的指示,将响应分类为好或坏,或者说出它更喜欢两个初始响应中的哪一个以及原因(例如,以便你可以决定使用哪一个)
在下面的示例中,我们要求 Claude 找出给定文本中的任何语法错误。
当要求 Claude 在文本中查找某些内容时,最好通过描述如果没有任何内容与提示中的描述匹配的情况来“给出答案”。这可以帮助防止它为了给出答案而编造一些东西。