体验中心 - 长文多轮验证工具

Turn 0/0

0% 就绪

欢迎来到长文验证工具

在右侧面板选择预设角色，配置参数后开始测试

⊕联网 🧠 ⭐自动AI打分

⚡ 模型对比

自由聊天

选择 1-3 个模型，发送消息查看多模型并行输出对比。

思考:

暂无历史对话

运行你的第一次测试吧！

显示已归档

评分筛选:

可多选历史记录进行批量导出、批量重打分或生成评分摘要；其中 2-3 条结构一致的记录仍可直接生成历史对比报告。

	时间	提示词	角色	模型	轮次	总分	状态	操作

🧪 统一测试中心

统一入口管理批量测试、模型对比和 Prompt A/B，对底层执行链路零重写。

高级设置

当前运行配置

快捷操作

打分配置

打分模型

思考深度

默认深度：high

打分并发 2

失败自动重试

已保存默认：qwen3.6-plus / 思考 high / 并发 2 / 重试 3 次

测试配置来源

模板参考: Excel配置模板 | 已有打分模板

💬 多轮对话输入（每行一轮）

每行代表一轮用户输入，上传Excel时此处会被Excel中的turns覆盖

模型与执行策略

批量主模型默认跟随顶部主模型，也可在这里单独指定批量执行模型。

批量并发建议 3–8；模型配额充足时可开到 20+；实际并发仍受后端并发上限影响。

会话组数 0 表示全跑；填 20 就只执行前 20 个角色-用户会话组，不按 Excel 行裁切。

指定角色只从已分组的角色-用户会话里挑这些角色执行，例如：简川，博深。

随机抽样

开启后先按指定角色筛选，再从命中的会话组里随机抽样；会话组数=抽样数量，0 表示随机顺序跑全部命中组。

每组轮数 0 表示该组全轮次；填 5 就表示每个角色-用户会话只跑前 5 轮。

安全落盘

开启演练模式（仅测试通信，不落盘 Excel）

自动评分

批量阶段自动 AI 评分（默认关闭，避免触发限流；可跑完后补评分）

📋

等待配置

上传 Excel 配置或同步当前对话配置后，此处显示配置概览与测试结果

测试配置

模板参考: Excel配置模板（与批量测试通用：支持完整角色变量 + 用户输入列，按 nickname+relationship 自动合并多轮）

💬 多轮对话输入（每行一轮）

所有对比模型将使用相同的多轮用户输入

对比模型与执行策略

对比维度选择 2 个及以上模型，每个模型使用各自下拉框里的思考设置。

选择对比模型（可多选）

安全落盘

开启演练模式

⚖️

等待配置

同步当前对话配置并选择对比模型后，此处显示配置信息与对比结果

Prompt A/B 默认复用当前右侧参数配置。实时模式适合逐句追问，批量模式适合多角色或多轮回归测试。

推荐锁定同一模型，仅比较提示词差异。解锁后才允许做“模型 + 提示词”联合实验。

🔵 控制组 (基线)

模型

提示词版本

🟢 实验组 (改进)

模型

默认跟随控制组模型。

提示词版本

剧情推进输入

测试配置

模板参考: Excel配置模板（与模型对比通用：支持完整角色变量 + 用户输入列，按 nickname+relationship 自动合并多轮）

💬 多轮对话输入（每行一轮）

单角色模式下会使用这里的 turns；上传 Excel 后优先使用 Excel 内自带 turns。

批量执行策略

角色并发每个角色固定占 2 个分支位。填 3 表示同时跑 3 个角色，共 6 个 A/B 分支。

安全落盘

开启演练模式

🧪

等待配置

同步当前对话配置或上传 Excel 后，此处显示 Prompt A/B 批量测试进度与结果

📖 提示词版本管理

查看、预览、下载、编辑并管理主提示词、摘要提示词、打分提示词版本

📥 导入日志

📂

拖拽 .md/.json/.xlsx/.jsonl 日志文件到此处，或点击浏览上传

用例列表

	用例 ID/名称	角色名	人设类型	历史轮数	更新时间	操作
暂无数据，请先导入日志

1. 提示词 A/B 版本配置

Prompt A (基准版本)

Prompt B (对比版本)

2. 模型与运行配置

生成模型 (默认 DeepSeek V4 Flash)

打分模型 (默认 Qwen 3.7 Max)

缓存策略

每样本重复次数

3. 短文确定性校验规则

最小字数

最大字数

叙事人称模式

Emoji 表情限制

自定义全局禁词 (逗号分隔)

批量任务监控闲置

Prompt A 进度 0 / 0

Prompt B 进度 0 / 0

已耗时: 0s 预计剩余: --

📋 实时日志流

无活动任务日志

A/B 对比报告

AI 评分维度雷达图

维度得分详情

评分维度	A 均分	B 均分	差值

🚨 确定性校验违规汇总

用例 ID	版本	字数	人称	禁词	重复率	违规片段定位

🔍 逐样本对比视图

1. 选择候选模型

2. 运行环境配置

每用例轮次

重复次数

最高并发数

启动打分 (耗时更长)

💻 系统内存检测: 检测中...

双模式桥接验证

源会话: - | 模式: - → - | 目标模型: -

源会话历史 (最近 20 轮)

请先选择或新建切换会话

切换摘要 (互动要点)

摘要生成状态等待中

生成的摘要内容

切换后首轮输出 & 打分

AI 首轮回复 L0 正常

批量运行测试: 就绪

🧪 统一测试中心

📖 提示词版本管理

A/B 对比报告

新建切换验证会话

保存测试集