返回咨询服务
prompt 与智能体评估 由 Open ecosystem

Promptfoo & DeepEval

面向 prompt、智能体与 RAG 流水线、对 CI 友好的评估流水线。

01 这是什么?

Promptfoo 与 DeepEval 是面向 prompt、智能体与 RAG 流水线的开源评估流水线。它们支持确定性评估与 LLM-as-judge,能像普通测试套件一样运行于 CI,并产出结构化报告,让回归问题在代码合入之前即可见。

02 为什么要采用?

  • 像测试套件一样运行,原生贴合 CI/CD
  • 内置评估器:事实性、安全、时延、成本
  • 可选用任意模型作为 LLM-as-judge
  • 在 prompt、模型与配置之间并排比较
  • 开源,可自托管,无供应商锁定

03 我如何提供帮助

我为贵司智能体与 RAG 流水线设计评估流水线,接入 CI,为业务领域定义自定义评估器,并设置阻断不良变更进入生产的回归关卡。

04 预期交付物

  • 面向 prompt、智能体与 RAG 的评估流水线
  • 带回归关卡的 CI 集成
  • 业务领域的自定义评估器
  • 报告仪表盘与评审节奏
  • 团队赋能与运营模式
准备开始落地? 首次范围沟通,通常 30 分钟,无须承诺。
contact@jeremycanale.com