测试领域任务型对话系统的方法和装置的制造方法

文档序号:9865684阅读:399来源:国知局
测试领域任务型对话系统的方法和装置的制造方法
【技术领域】
[0001] 本申请设及计算机技术领域,具体设及互联网技术领域,尤其设及测试领域任务 型对话系统的方法和装置。
【背景技术】
[0002] 在现有技术中,真实用户在进行人机对话时,主观性较强,对于领域任务型对话系 统的询问存在不同的查询习惯,因此需要领域任务型对话系统具有较高的语义理解能力。 为了保证领域任务型对话系统能够准确识别用户语义,需要对对话系统进行测试。
[0003] 目前用于测试人机对话系统的技术,通常使用关键词作为查询语句来测试人机对 话系统的响应。
[0004] 然而,目前运种通过关键词查询人机对话系统的响应的测试方式,无法模拟用户 答复方式的多样性,因而向开发人员推送的测试结果未能反应出人机对话系统的一些关键 测试指标,较为片面并且缺乏针对性。

【发明内容】

[0005] 本申请的目的在于提出一种改进的测试领域任务型对话系统的方法和装置,来解 决W上【背景技术】部分提到的技术问题。
[0006] 第一方面,本申请提供了一种测试领域任务型对话系统的方法,所述方法包括:获 取领域任务型对话系统输出的询问信息;在预先构建的任务数据库中获取单条任务信息, 其中,所述任务数据库包括多条任务信息,每一条任务信息包括多组键值对,每组键值对包 括关键词及关联所述关键词的实例;向所述领域任务型对话系统提交由所述单条任务信息 中的键值对生成的答复信息;根据领域任务型对话系统输出的询问信息W及依据所述任务 数据库提交的答复信息,生成对所述领域任务型对话系统的测试数据。
[0007] 在一些实施例中,所述向所述领域任务型对话系统提交由所述单条任务信息中的 键值对生成的答复信息包括:向所述领域任务型对话系统提交符合预设用户类型的由所述 单条任务信息中的键值对生成的答复信息,其中,所述预设用户类型至少包括W下一项或 多项:系统引导类型、核对查询类型和随机查询类型。
[000引在一些实施例中,所述向所述领域任务型对话系统提交符合预设用户类型的由所 述单条任务信息中的键值对生成的答复信息至少包括W下一项或多项:若所述预设用户类 型包括系统引导类型,向所述领域任务型对话系统提交基于从所述单条任务信息中获取的 关键词与所述询问信息的关键词相同的键值对生成的答复信息;若所述预设用户类型包括 核对查询类型,核对所述询问信息的关键词是否符合上一次提交的答复信息的关键词,若 符合,则向所述领域任务型对话系统提交基于从所述单条任务信息中获取的关键词与所述 询问信息的关键词相同的键值对生成的答复信息,若不符合,则向所述领域任务型对话系 统提交基于上一次答复信息的键值对生成的答复信息;若所述预设用户类型包括随机查询 类型,向所述领域任务型对话系统提交基于从所述单条任务信息中随机获取的键值对生成 的答复信息。
[0009] 在一些实施例中,所述向所述领域任务型对话系统提交符合预设用户类型的由所 述单条任务信息中的键值对生成的答复信息包括:向所述领域任务型对话系统提交符合所 述预设用户类型的由所述单条任务信息中的键值对套用预设的键值对的表达模板之一生 成的答复信息。
[0010] 在一些实施例中,所述根据领域任务型对话系统输出的询问信息W及依据所述任 务数据库提交的答复信息,生成对所述领域任务型对话系统的测试数据至少包括W下一项 或多项:将领域任务型对话系统输出的询问信息的数量及依据所述任务数据库提交的答复 信息的数量相加后除W所述任务数据库中包括的任务信息的数量,得到平均对话长度;将 依据所述任务数据库提交的答复信息及所答复的询问信息中已完成任务信息的数量除W 所述任务数据库中包括的任务信息的数量,得到对话完成率,其中,所述已完成任务信息为 基于每一组键值对已提交答复信息的任务信息;响应于所述询问信息的键值对与当前任务 信息中的键值对相同,确定关键词准确,将所述任务数据库中用于生成答复信息的关键词 准确的数量除W所述任务数据库中关键词用于生成答复信息的数量,得到关键词准确率; 遍历所述任务数据库中的关键词,将所述关键词准确率进行累加,得到对话系统准确率。
[0011] 在一些实施例中,所述领域任务型对话系统输出的询问信息的结构如下:
[0012]
[0013 ]其中,Μ表示所述领域任务型对话系统输出的询问信息的结构,Ask_key_s 1 ot表示 当前所述领域任务型对话系统的询问信息的关键词,η表示询问信息的关键词的数量,sj(l < j < η)表示询问信息中第j个关键词,Result_info;rmation表示当前所述领域任务型对话 系统基于预设的检索库检索到的关键词的实例,用一个2列的矩阵表示,所述矩阵的第一列 表示关键词,第二列表示关键词的实例值;
[0014] 所述领域任务型对话系统输出的询问信息所基于的任务信息的定义如下:
[0015] (one dialogue 1:ask)D=[si ·.. Sn]
[0016] 其中,(one dialogue化sk)D表示询问信息所基于的任务信息,η表示询问信息所 基于的任务信息的关键词的数量,sj(l < j < η)表示询问信息所基于的任务信息中第j个关 键词;
[0017] 所述任务数据库的定义如下:
[001 引
[0019] 其中,T为W矩阵的形式表示的任务数据库,矩阵的每一行定义一条任务信息,矩 阵中的元素是任务数据库中任务信息的关键词,即Su(l含i含m,l含j含η)表示任务数据库 中第i个任务信息的第j个关键词。
[0020] 在一些实施例中,所述将领域任务型对话系统输出的询问信息的数量及依据所述 任务数据库提交的答复信息的数量相加后除W所述任务数据库中包括的任务信息的数量, 得到平均对话长度包括:
[0021]
[0022] 其中,al为平均对话长度;qsds为领域任务型对话系统输出的询问信息的数量; qevai为依据所述任务数据库提交的答复信息的数量;m为W矩阵的形式表示的任务数据库T 的行数;
[0023] 所述将依据所述任务数据库提交的答复信息及所答复的询问信息中已完成任务 信息的数量除W所述任务数据库中包括的任务信息的数量,得到对话完成率包括:
[0024]
[0025] 其中,dfr为对话完成率;m为矩阵T的行数;df表示依据所述任务数据库T提交的答 复信息及所答复的询问信息中已完成任务信息的数量,当任务信息的每一组键值对均已提 交答复信息时,所述任务信息为已完成任务信息;
[0026] 所述将所述任务数据库中用于生成答复信息的关键词准确的数量除W所述任务 数据库中关键词用于生成答复信息的数量,得到关键词准确率包括:
[0027]
[002引其中,ks。表示关键词S的准确率;山表示W矩阵形式表示的任务数据库T中关键词 S用于准确生成答复信息的数量,在每次生成答复信息时,将所述结构化信息Μ中的Result, information与T的当前任务信息进行对比,若对比结果相同,则关键词S准确;ts表示在所 述任务数据库T中关键词S用于生成答复信息的总次数;
[0029] 所述遍历所述任务数据库中的关键词,将所述关键词准确率进行累加,得到对话 系统准确率包括:
[0030]
[0031] 其中,dar表示对话系统准确率;ksrs表示关键词S的准确率;Σ表示遍历所有的关 键词S,将所述ksrs进行累加。
[0032] 第二方面,本申请提供了一种测试领域任务型对话系统的装置,所述装置包括:询 问信息获取模块,用于获取领域任务型对话系统输出的询问信息;任务信息获取模块,用于 在预先构建的任务数据库中获取单条任务信息,其中,所述任务数据库包括多条任务信息, 每一条任务信息包括多组键值对,每组键值对包括关键词及关联所述关键词的实例;答复 信息提交模块,用于向所述领域任务型对话系统提交由所述单条任务信息中的键值对生成 的答复信息;测试数据生成模块,用于根据领域任务型对话系统输出的询问信息W及依据 所述任务数据库提交的答复信息,生成对所述领域任务型对话系统的测试数据。
[0033] 在一些实施例中,所述答复信息提交模块进一步用于:向所述领域任务型对话系 统提交符合预设用户类型的由所述单条任务信息中的键值对生成的答复信息,其中,所述 预设用户类型至少包括W下一项或多项:系统引导类型、核对查询类型和随机查询类型。
[0034] 在一些实施例中,所述答复信息提交模块至少包括W下一项或多项:系统引导提 交模块,用于若所述预设用户类型包括系统引导类型,向所述领域任务型对话系统提交基 于从所述单条任务信息中获取的关键词与所述询问信息的关键词相同的键值对生成的答 复信息;核对查询提交模块,用于若所述预设用户类型包括核对查询类型,核对所述询问信 息的关键词是否符合上一次提交的答复信息的关键词,若符合,则向所述领域任务型对话 系统提交基于从所述单条任务信息中获取的关键词与所述询问信息的关键词相同的键值 对生成的答复信息,若不符合,则向所述领域任务型对话系统提交基于上一次答复信息的 键值对生成的答复信息;随机查询提交模块,用于若所述预设用户类型包括随机查询类型, 向所述领域任务型对话系统提交基于从所述单条任务信息中随机获取的键值对生成的答 复倍息。
[0035] 在一些实施例中,所述答复信息提交模块进一步用于:向所述领域任务型对话系 统提交符合所述预设用户类型的由所述单条任务信息中的键值对套用预设的键值对的表 达模板之一生成的答复信息。
[0036] 在一些实施例中,所述测试数据生成模块至少包括W下一项或多项:平均对话长 度生成模块,用于将领域任务型对话系统输出的询问信息的数量及依据所述任务数据库提 交的答复信息的数量相加后除W所述任务数据库中包括的任务信息的数量,得到平均对话 长度;对话完成率生成模块,用于将依据所述任务数据库提交的答复信息及所答复的询问 信息中已完成任务信息的数量除W所述任务数据库中包括的任务信息的数量,得到对话完 成率,其中,所述已完成任务信息为基于每一组键值对已提交答复信息的任务信息;关键词 准确率生成模块,用于响应于生成答复信息的关键词与当前任务信息中的关键词相同,确 定关键词准确,将所
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1