Turn 0/0
0% 就绪
欢迎来到长文验证工具

在右侧面板选择预设角色,配置参数后开始测试

⚡ 模型对比
自由聊天

选择 1-3 个模型,发送消息查看多模型并行输出对比。

思考:
暂无历史对话

运行你的第一次测试吧!

🧪 统一测试中心

统一入口管理批量测试、模型对比和 Prompt A/B,对底层执行链路零重写。

高级设置
当前运行配置
快捷操作
打分配置
默认深度:high
已保存默认:qwen3.6-plus / 思考 high / 并发 2 / 重试 3 次
测试配置来源
💬 多轮对话输入(每行一轮)
每行代表一轮用户输入,上传Excel时此处会被Excel中的turns覆盖
模型与执行策略
默认跟随顶部主模型,也可在这里单独指定批量执行模型。
建议 3–8;模型配额充足时可开到 20+;实际并发仍受后端并发上限影响。
0 表示全跑;填 20 就只执行前 20 个角色-用户会话组,不按 Excel 行裁切。
只从已分组的角色-用户会话里挑这些角色执行,例如:简川,博深。
开启后先按指定角色筛选,再从命中的会话组里随机抽样;会话组数=抽样数量,0 表示随机顺序跑全部命中组。
0 表示该组全轮次;填 5 就表示每个角色-用户会话只跑前 5 轮。
开启演练模式(仅测试通信,不落盘 Excel)
批量阶段自动 AI 评分(默认关闭,避免触发限流;可跑完后补评分)
📋
等待配置
上传 Excel 配置或同步当前对话配置后,此处显示配置概览与测试结果
测试配置
模板参考: Excel配置模板 (与批量测试通用:支持完整角色变量 + 用户输入列,按 nickname+relationship 自动合并多轮)
💬 多轮对话输入(每行一轮)
所有对比模型将使用相同的多轮用户输入
对比模型与执行策略
选择 2 个及以上模型,每个模型使用各自下拉框里的思考设置。
开启演练模式
⚖️
等待配置
同步当前对话配置并选择对比模型后,此处显示配置信息与对比结果
Prompt A/B 默认复用当前右侧参数配置。实时模式适合逐句追问,批量模式适合多角色或多轮回归测试。
推荐锁定同一模型,仅比较提示词差异。解锁后才允许做“模型 + 提示词”联合实验。
🔵 控制组 (基线)
🟢 实验组 (改进)
默认跟随控制组模型。

📖 提示词版本管理

查看、预览、下载、编辑并管理主提示词、摘要提示词、打分提示词版本