达播玩-专业模型接口测试工具

标签页	用途	适合场景
单次跑测	一键跑完整套探针	第一次接入、快速验收、随机复测
官方对比	A/B 两个接口并行跑同一批题	对比中转节点、可信节点或不同供应商
历史记录	保存并比较历次结果	追踪模型质量变化、节点波动和版本变化

层级	重点	异常含义
基础层	最小返回、JSON、中文筛选、精确命中	接入点、格式控制或基础理解可能有问题
能力层	代码追踪、逻辑、概率、规则遵循、幻觉边界	推理、事实边界或系统规则处理不稳
对抗层	抗干扰、Prompt 注入、跨步一致性	安全边界或多步任务可靠性不足
耐久层	长输出、长上下文、多步推理链	长任务容易截断、重复、漏读或算错
进阶层	多轮回忆、工具规划、复杂业务推理	真实业务场景下可能丢上下文或结构不稳
行为侧写	安全边界、格式服从、短答长度、结构化倾向	仅用于观察回答习惯，不作为原厂/非原厂判断依据

日志	含义	处理方式
`HTTP 401`	Key 无效	检查 API Key 是否填错或过期
`HTTP 403` / 渠道已禁用	当前 Key 或模型渠道无权限	更换模型、Key，或联系供应商开启渠道
`temperature deprecated`	该模型不接受 temperature 参数	工具会自动跳过该参数重试
`Failed to fetch`	网络、CORS 或 URL 不可达	优先尝试 HTTPS 地址，确认 Base URL 可访问
`finish_reason=length`	输出被截断	复核 max_tokens、模型输出上限或中转限制
超时	模型或节点响应太慢	重跑、换节点，或降低并发/等待高峰期过去

测试配置 0 / 17

免责声明：本页面仅用于模型接入连通性与基础能力测试，不构成任何官方认证、性能承诺或采购建议。

您已知悉：仅使用可随时作废的试用 Key / 测试 Key，勿填写生产环境 Key、正式计费 Key、企业主账号 Key 或任何高权限密钥。使用本工具即视为您已知悉并自行承担测试行为、配额消耗、接口费用与数据安全风险。

Base URL

API Key（仅限测试 Key）

模型 ID

探针类别

题库模式

标准模式便于横向对比；随机模式可降低题型被针对性适配的风险。

建议：使用单独申请的试用 Key、限制额度的测试 Key，或临时子账号 Key。不要复用线上业务 Key。

探针

基础能力对抗耐久进阶

选择探针

未评估

探针 Prompt

模型返回 content

评估明细

联系与关注扫码查看对应渠道

验收结论

完成进度0 / 17

—

综合评分

—

风险等级

model 字段比对未知

请求模型—

响应 model—

一致性—

等待评估

完成至少 6 道探针后生成结论。

诊断分析

完成至少 6 道探针后生成诊断分析。

决策建议

通过0%

复核0%

失败0%

Markdown 报告

A 端：待测节点

填写要验证的中转站或目标 endpoint。

Base URL

API Key

模型 ID

B 端：对比基线

填写可信接口作为官方对比基线。

Base URL

API Key

模型 ID

对照结果

未运行

等待运行

完成双端跑测后生成差异分析。

—

A 端综合分

—

B 端综合分

逐题对照

尚无数据

历史记录列表

每次单次跑测自动存档。选两个快照可对比能力变化趋势。

尚无历史记录

趋势对比

选 2 个快照

点击左侧两个快照进行对比