快速开始
这个工具用于检查各类模型 API 或中转接口的接入质量。只要接口兼容 /v1/chat/completions 格式,就可以测试连通性、基础能力、格式服从、长上下文、输出稳定性,以及响应 model 字段是否和请求模型接近。
推荐流程:先用「单次跑测」确认接口能正常工作,再用「官方对比」把待测接口和可信接口放在一起比较。工具输出的是风险信号和证据链,不是官方认证结论。
开始之前
- 准备 Base URL,例如
https://api.example.com/v1 或平台提供的 /v1 地址。Base URL 默认隐藏,可点击小眼睛临时查看。
- 准备 API Key,建议只使用试用 Key、临时测试 Key 或限额子账号 Key。
- 准备 模型 ID,例如
qwen-max、deepseek-chat、glm-4.5、claude-xxx。
- 不要在公开电脑、直播画面、录屏素材里暴露正式生产 Key 或企业主账号 Key。
单次跑测
- 在左侧填写 Base URL、API Key、模型 ID,也可以把连接信息粘贴到「智能粘贴」后点「一键识别」。
- 选择探针类别:「验收」用于完整检查,「补测」用于快速复核重点能力。
- 选择题库模式:「标准」便于横向复盘;「随机」会抽取变体题,降低固定题被针对性适配的风险。
- 点击「一键跑测」后,题库模式和探针类别会自动锁定,跑完或取消前不能切换,避免结果和页面状态错位。
- 点击任意探针,可以查看提示词、模型回答和评估明细。评估明细会自动换行,长内容不会撑破页面。
功能页说明
| 标签页 | 用途 | 适合场景 |
| 单次跑测 | 一键跑完整套探针 | 第一次接入、快速验收、随机复测 |
| 官方对比 | A/B 两个接口并行跑同一批题 | 对比中转节点、可信节点或不同供应商 |
| 历史记录 | 保存并比较历次结果 | 追踪模型质量变化、节点波动和版本变化 |
探针在测什么
| 层级 | 重点 | 异常含义 |
| 基础层 | 最小返回、JSON、中文筛选、精确命中 | 接入点、格式控制或基础理解可能有问题 |
| 能力层 | 代码追踪、逻辑、概率、规则遵循、幻觉边界 | 推理、事实边界或系统规则处理不稳 |
| 对抗层 | 抗干扰、Prompt 注入、跨步一致性 | 安全边界或多步任务可靠性不足 |
| 耐久层 | 长输出、长上下文、多步推理链 | 长任务容易截断、重复、漏读或算错 |
| 进阶层 | 多轮回忆、工具规划、复杂业务推理 | 真实业务场景下可能丢上下文或结构不稳 |
| 行为侧写 | 安全边界、格式服从、短答长度、结构化倾向 | 仅用于观察回答习惯,不作为原厂/非原厂判断依据 |
看懂结果
- 综合评分:基于已完成探针计算,分数越高代表本轮接入质量越稳定。
- 接入质量诊断:整理本轮证据,包括 response.model、题库表现、长上下文、输出稳定性和行为侧写。
- response.model:如果响应模型名和请求模型差异明显,需要优先复核供应商路由、别名映射或模型降级策略。
- 行为侧写:只展示回答风格特征,不直接输出“像某模型”,也不单独判断是否原厂。
注意:本工具给出的是风险信号,不是最终裁决。要确认是否存在路由替换、能力缩水或上下文裁剪,建议使用「官方对比」和真实业务任务一起判断。
怎么用随机题库
- 标准模式:题面固定,适合横向对比不同供应商、不同 Key、不同节点。
- 随机模式:系统会从同类题里抽一套,并记录本轮种子和题目 ID,适合防止固定题被硬编码适配。
- 换一套题:只在随机模式下可用。跑测开始后会锁定,避免中途切题造成报告错位。
常见错误
| 日志 | 含义 | 处理方式 |
HTTP 401 | Key 无效 | 检查 API Key 是否填错或过期 |
HTTP 403 / 渠道已禁用 | 当前 Key 或模型渠道无权限 | 更换模型、Key,或联系供应商开启渠道 |
temperature deprecated | 该模型不接受 temperature 参数 | 工具会自动跳过该参数重试 |
Failed to fetch | 网络、CORS 或 URL 不可达 | 优先尝试 HTTPS 地址,确认 Base URL 可访问 |
finish_reason=length | 输出被截断 | 复核 max_tokens、模型输出上限或中转限制 |
| 超时 | 模型或节点响应太慢 | 重跑、换节点,或降低并发/等待高峰期过去 |
官方对比
官方对比适合把待测接口和可信接口放在一起比较。相比“凭印象判断模型风格”,同题 A/B 对比更可靠。分差较大时,应优先查看具体失败题、响应 model 和运行日志。
导出报告
跑测完成后点击顶部「导出报告」,会生成 Markdown 报告,包含探针明细、响应 model、分数、接入质量诊断和每个检查项,可用于存档或发给供应商排查。
隐私与数据
- API Key 和 Base URL 永不外发。它们只用于直接请求你填写的接口,仅保存在本机浏览器(localStorage),不会上传到任何服务器。
- 模型回答原文、探针 prompt、长上下文密钥答案都不上报。这些内容只在你本地浏览器内参与判分和展示。
- 默认不开启任何统计。只有当部署方在页面里显式配置
window.DABOWAN_ANALYTICS 时才会上报,且上报内容经过白名单脱敏,仅含:探针类别、题库模式、题目数量、完成进度、是否成功、脱敏后的模型家族前缀等非敏感元数据。
- 历史记录同样只存在本机浏览器,清空后不可恢复。
建议仍只使用试用 Key、临时测试 Key 或限额子账号 Key,并避免在公开录屏中暴露正式生产 Key。
更新日志版本规则
更新日志使用 月份.小版本 规则,例如 5.7 表示 5 月第 7 个小版本。列表按小版本从新到旧排序。