本评测系统用于评估对方 AI 系统的语音交互能力,包括:
评测对象是对方 AI 系统,不是测试人的读音。系统会播报唤醒词和测试句,然后聆听并评估对方 AI 的回复内容。
wake_word 唤醒词,唤醒对方 AI 系统language 指定的语言播报 test_sentence 测试句external_reply 字段score 字段reason 字段评分基于对方 AI 回复的理解程度和执行质量:
| 分数范围 | 等级 | 评判标准 |
|---|---|---|
| 8.0 ~ 10.0 | 优秀 | 能够正确理解,而且执行的非常完善 |
| 7.0 ~ 7.9 | 良好 | 能够正确理解,也能正确执行 |
| 6.0 ~ 6.9 | 及格 | 能够正确理解你的话语,但不能正确处理与执行 |
| 0 ~ 5.9 | 不及格 | 不能正确理解你的话语 |
| 维度 | 检查项 | 说明 |
|---|---|---|
| 唤醒响应 | 是否对 wake_word 有响应 | 对方 AI 是否在唤醒后进入可交互状态 |
| 语义理解 | 回复是否包含测试句关键词 | 通过关键词匹配判断是否理解测试内容 |
| 任务执行 | 回复是否完整、有针对性 | 针对问句是否有回答,针对指令是否有执行反馈 |
| 回复质量 | 回复长度和内容丰富度 | 优秀回复通常较长且内容详细 |
• 每条评测项的回复等待时间最长为 30 秒
• 等待期间显示倒计时进度条
• 超时未检测到回复时,自动记录:
• 超时后自动进入下一条评测
| 字段名 | 类型 | 说明 |
|---|---|---|
id |
INTEGER | 评测项唯一标识 |
wake_word |
TEXT | 唤醒词,用于唤醒对方 AI 系统 |
test_sentence |
TEXT | 测试句子,用于评测对方 AI 的理解能力 |
language |
TEXT | 语言类型(如:普通话、四川话、英语等),播报测试句时使用 |
external_reply |
TEXT | 对方 AI 的回复内容(评测时自动记录) |
score |
REAL | 评分(0~10 分,评测时自动计算) |
reason |
TEXT | 评分理由(评测时自动填写) |
created_at |
DATETIME | 评测项创建时间 |
评测完成后,系统会自动导出更新后的数据库文件,包含所有评测结果。
下载的文件名为:大模型评测_已更新.db
请将下载的文件替换服务器上的 /web/database/大模型评测.db 以保存评测结果。
评测完成时会显示:总评测数、优秀/良好/及格/不及格数量、平均分