为什么 dspy 通常浪费你的时间(以及它不浪费时间的情况) 问题:"我应该使用 dspy 来优化提示吗?它似乎是改善我的 rag 系统的完美工具。" 答案:dspy 非常适合非常具体、定义明确的任务。但对于大多数 rag 系统来说,它只是分散了注意力,无法真正推动进展。 现实是:dspy 在你有一个清晰的分类任务和可测量的准确性时效果最佳。想象一下 35 类分类,你可以在单一指标上进行爬坡。但大多数 rag 问题并不是这样的。 当我构建一个从转录中提取销售洞察的系统时,我没有一个数据集来说明“这里是所有的销售洞察”。真正的工作是提取所有内容,手动标记一些示例,并建立对用户实际需求的直觉。 你的产品不仅仅是一个提示 - 它包括你如何收集反馈、在用户界面中设定期望、处理数据提取以及在上下文中表示块。如果你花时间观察模型如何出错以及用户在询问什么,你将会在整体上更好地改进产品。 dspy 发光的唯一地方:llm-as-judge 场景。如果你有一个你非常关心的语气或事实评估,自己标记 100 个示例是有意义的,然后使用提示优化工具创建一个与你的评分一致的评判者。 但对于大多数 rag 系统?你最好在构建对特定用例的直觉时手动调整提示。这种直觉将指导你在整个系统架构中做出更好的决策。