评测规则

📋 评测目的更新：2026-04-12

本评测系统用于评估对方 AI 系统的语音交互能力，包括：

唤醒响应能力（对 wake_word 的响应）
语义理解能力（对 test_sentence 的理解）
任务执行能力（是否能正确处理并回复）
多语言支持能力（使用 language 指定的语言进行测试）

⚠️ 注意：

评测对象是对方 AI 系统，不是测试人的读音。系统会播报唤醒词和测试句，然后聆听并评估对方 AI 的回复内容。

🔄 评测流程更新：2026-04-12

AI 评测工作流程

1

从评测数据库加载所有评测项

2

播报 wake_word 唤醒词，唤醒对方 AI 系统

3

使用 language 指定的语言播报 test_sentence 测试句

4

聆听对方 AI 的回复，最长等待 30 秒（显示倒计时）

5

将对方 AI 的回复内容记录到 external_reply 字段

6

根据回复质量进行评分（0~10 分），记录到 score 字段

7

说明评分理由，记录到 reason 字段

8

自动进入下一条评测，直到所有评测项完成

📊 评分规则更新：2026-04-12

评分基于对方 AI 回复的理解程度和执行质量：

分数范围	等级	评判标准
8.0 ~ 10.0	优秀	能够正确理解，而且执行的非常完善
7.0 ~ 7.9	良好	能够正确理解，也能正确执行
6.0 ~ 6.9	及格	能够正确理解你的话语，但不能正确处理与执行
0 ~ 5.9	不及格	不能正确理解你的话语

🔍 评分维度更新：2026-04-12

维度	检查项	说明
唤醒响应	是否对 wake_word 有响应	对方 AI 是否在唤醒后进入可交互状态
语义理解	回复是否包含测试句关键词	通过关键词匹配判断是否理解测试内容
任务执行	回复是否完整、有针对性	针对问句是否有回答，针对指令是否有执行反馈
回复质量	回复长度和内容丰富度	优秀回复通常较长且内容详细

⏱️ 超时处理更新：2026-04-12

• 每条评测项的回复等待时间最长为 30 秒

• 等待期间显示倒计时进度条

• 超时未检测到回复时，自动记录：

score: 0 | reason: "超时，对方 AI 未在规定时间内回复"

• 超时后自动进入下一条评测

🗄️ 数据库字段说明更新：2026-04-12

字段名	类型	说明
`id`	INTEGER	评测项唯一标识
`wake_word`	TEXT	唤醒词，用于唤醒对方 AI 系统
`test_sentence`	TEXT	测试句子，用于评测对方 AI 的理解能力
`language`	TEXT	语言类型（如：普通话、四川话、英语等），播报测试句时使用
`external_reply`	TEXT	对方 AI 的回复内容（评测时自动记录）
`score`	REAL	评分（0~10 分，评测时自动计算）
`reason`	TEXT	评分理由（评测时自动填写）
`created_at`	DATETIME	评测项创建时间

💾 数据导出更新：2026-04-12

评测完成后，系统会自动导出更新后的数据库文件，包含所有评测结果。

下载的文件名为：大模型评测_已更新.db

请将下载的文件替换服务器上的 /web/database/大模型评测.db 以保存评测结果。

📊 评测统计：

评测完成时会显示：总评测数、优秀/良好/及格/不及格数量、平均分

📋 评测目的 更新：2026-04-12

🔄 评测流程 更新：2026-04-12

AI 评测工作流程

📊 评分规则 更新：2026-04-12

🔍 评分维度 更新：2026-04-12

⏱️ 超时处理 更新：2026-04-12

🗄️ 数据库字段说明 更新：2026-04-12

💾 数据导出 更新：2026-04-12

📋 评测目的更新：2026-04-12

🔄 评测流程更新：2026-04-12

📊 评分规则更新：2026-04-12

🔍 评分维度更新：2026-04-12

⏱️ 超时处理更新：2026-04-12

🗄️ 数据库字段说明更新：2026-04-12

💾 数据导出更新：2026-04-12