01 这是什么?
Promptfoo 与 DeepEval 是面向 prompt、智能体与 RAG 流水线的开源评估流水线。它们支持确定性评估与 LLM-as-judge,能像普通测试套件一样运行于 CI,并产出结构化报告,让回归问题在代码合入之前即可见。
面向 prompt、智能体与 RAG 流水线、对 CI 友好的评估流水线。
Promptfoo 与 DeepEval 是面向 prompt、智能体与 RAG 流水线的开源评估流水线。它们支持确定性评估与 LLM-as-judge,能像普通测试套件一样运行于 CI,并产出结构化报告,让回归问题在代码合入之前即可见。
我为贵司智能体与 RAG 流水线设计评估流水线,接入 CI,为业务领域定义自定义评估器,并设置阻断不良变更进入生产的回归关卡。