评测规则

返回首页
📅 页面更新时间:
最后更新:2026-04-12 10:21

📋 评测目的 更新:2026-04-12

本评测系统用于评估对方 AI 系统的语音交互能力,包括:

  • 唤醒响应能力(对 wake_word 的响应)
  • 语义理解能力(对 test_sentence 的理解)
  • 任务执行能力(是否能正确处理并回复)
  • 多语言支持能力(使用 language 指定的语言进行测试)
⚠️ 注意:

评测对象是对方 AI 系统,不是测试人的读音。系统会播报唤醒词和测试句,然后聆听并评估对方 AI 的回复内容。

🔄 评测流程 更新:2026-04-12

AI 评测工作流程

1
从评测数据库加载所有评测项
2
播报 wake_word 唤醒词,唤醒对方 AI 系统
3
使用 language 指定的语言播报 test_sentence 测试句
4
聆听对方 AI 的回复,最长等待 30 秒(显示倒计时)
5
将对方 AI 的回复内容记录到 external_reply 字段
6
根据回复质量进行评分(0~10 分),记录到 score 字段
7
说明评分理由,记录到 reason 字段
8
自动进入下一条评测,直到所有评测项完成

📊 评分规则 更新:2026-04-12

评分基于对方 AI 回复的理解程度执行质量

分数范围 等级 评判标准
8.0 ~ 10.0 优秀 能够正确理解,而且执行的非常完善
7.0 ~ 7.9 良好 能够正确理解,也能正确执行
6.0 ~ 6.9 及格 能够正确理解你的话语,但不能正确处理与执行
0 ~ 5.9 不及格 不能正确理解你的话语

🔍 评分维度 更新:2026-04-12

维度 检查项 说明
唤醒响应 是否对 wake_word 有响应 对方 AI 是否在唤醒后进入可交互状态
语义理解 回复是否包含测试句关键词 通过关键词匹配判断是否理解测试内容
任务执行 回复是否完整、有针对性 针对问句是否有回答,针对指令是否有执行反馈
回复质量 回复长度和内容丰富度 优秀回复通常较长且内容详细

⏱️ 超时处理 更新:2026-04-12

• 每条评测项的回复等待时间最长为 30 秒

• 等待期间显示倒计时进度条

• 超时未检测到回复时,自动记录:

score: 0 | reason: "超时,对方 AI 未在规定时间内回复"

• 超时后自动进入下一条评测

🗄️ 数据库字段说明 更新:2026-04-12

字段名 类型 说明
id INTEGER 评测项唯一标识
wake_word TEXT 唤醒词,用于唤醒对方 AI 系统
test_sentence TEXT 测试句子,用于评测对方 AI 的理解能力
language TEXT 语言类型(如:普通话、四川话、英语等),播报测试句时使用
external_reply TEXT 对方 AI 的回复内容(评测时自动记录)
score REAL 评分(0~10 分,评测时自动计算)
reason TEXT 评分理由(评测时自动填写)
created_at DATETIME 评测项创建时间

💾 数据导出 更新:2026-04-12

评测完成后,系统会自动导出更新后的数据库文件,包含所有评测结果。

下载的文件名为:大模型评测_已更新.db

请将下载的文件替换服务器上的 /web/database/大模型评测.db 以保存评测结果。

📊 评测统计:

评测完成时会显示:总评测数、优秀/良好/及格/不及格数量、平均分