答案抽取方法及装置的制造方法_3

文档序号:8223513阅读:来源:国知局
086] 下面详细介绍本实施例中的两个针对证据语料的评分机制及预置的四个针对候 选答案的评分机制。
[0087] 所述两个针对证据语料的评分机制,包括热词匹配评分机制和跳跃二元热词对评 分机制。
[0088] 热词匹配评分机制(ETM,Evidence Terms Match Scorer),ETM通过计算证据语料 与问句的表面文本相似度对证据语料进行评分,也就是说,在忽略语法、语序等句法结构信 息的条件下,通过比较证据语料中所包含的热词数量与问句中所包含的热词数量,以对证 据语料进行评分。
[0089] 每条证据语料包括标题部分(Title)和摘录内容部分(Snippet),则每条证据语 料的分值为Title的分值与Snippet的分值的总和,ETM可通过如下公式对证据语料进行 评分:
【主权项】
1. 一种答案抽取方法,其特征在于,所述方法应用于自动问答系统,包括: 将接收到的问句划分为多个分词,并在对每个分词的词性进行标注后生成分词序列; 基于所述分词序列获取检索关键词,调用用于执行检索操作的预置接口,并将所述检 索关键词提交给所述预置接口,W根据获得的检索结果生成包含候选答案的证据语料; 根据预设判断条件在检索关键词中获取热词并生成热词词表; 根据问句的内容识别所述证据语料中的命名实体,并生成由命名实体组成的候选答案 初始集; 根据命名实体的类型确定一种基于热词的预置组合评分机制并对候选答案初始集中 的每个命名实体分别进行评分,并将评分最高的命名实体作为正确答案返回,W完成针对 所述问句的答案抽取操作; 其中,所述基于热词的预置组合评分机制为将预置的两个针对证据语料的评分机制及 预置的四个针对候选答案的评分机制通过预设排列组合方式进行组合后形成的42种组合 评分机制。
2. 如权利要求1所述的方法,其特征在于,所述基于所述分词序列获取检索关键词,包 括: 判断分词序列中的分词的词性是否为预置关键词词性,若是,则该分词为捜索关键 词; 其中,所述预置关键词词性包括:名词、动词、代词、形容词。
3. 如权利要求2所述的方法,其特征在于,根据预设判断条件在检索关键词中获取热 词,包括: 判断检索关键词的词性是否为代词、检索关键词是否至少包含两个中文字符或检索关 键词在所述证据语料中的出现次数是否大于两次; 若是,则所述检索关键词为热词。
4. 如权利要求1所述的方法,其特征在于,所述预置的两个针对证据语料的评分机制, 包括: 通过比较证据语料中与问句中包含的热词的数量对证据语料进行评分的热词匹配评 分机制;及 通过计算证据语料中与问句中共同包含的跳跃二元热词对的数量对证据语料进行评 分的跳跃二元热词对评分机制,其中,所述跳跃二元热词对为一个热词序列中非直接相邻 的两个热词所形成的词对; 所述预置的四个针对候选答案的评分机制,包括: 通过命名实体在证据语料中的出现频次及根据命名实体出现的位置所对应的权重值 计算出命名实体的加权分值的热词词频评分机制; 通过计算基于热词对比问句中与证据语料中的语序相似度的细粒度文本对齐评分机 制; 通过计算命名实体与热词之间的距离而得到与热词距离最短的命名实体的第一热词 距离评分机制;及 通过计算热词与每个命名实体之间的距离并求和而得到命名实体与热词之间的距离 累积值的第二热词距离评分机制。
5. 如权利要求4所述的方法,其特征在于,将预置的两个针对证据语料的评分机制及 四个针对候选答案的评分机制通过预置排列组合方式进行组合后形成的42个评分机制, 包括: 将一个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选 答案的评分机制、=个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合 形成的28种评分机制;及 将两个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选 答案的评分机制、=个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合 形成的14种评分机制。
6. -种答案抽取装置,其特征在于,所述装置应用于自动问答系统,包括: 分词单元,用于将接收到的问句划分为多个分词,并在对每个分词的词性进行标注后 生成分词序列; 检索单元,用于基于所述分词序列获取检索关键词,调用用于执行检索操作的预置接 口,并将所述检索关键词提交给所述预置接口,W根据获得的检索结果生成包含候选答案 的证据语料; 热词获取单元,用于根据预设判断条件在检索关键词中获取热词,并生成热词词表; 命名实体识别单元,用于根据问句的内容识别所述证据语料中的命名实体,并生成由 命名实体组成的候选答案初始集; 评分单元,用于根据命名实体的类型确定一种基于热词的预置组合评分机制并对候 选答案初始集中的每个命名实体分别进行评分,并将评分最高的命名实体作为正确答案返 回,W完成针对所述问句的答案抽取操作; 其中,所述基于热词的预置组合评分机制为将预置的两个针对证据语料的评分机制及 预置的四个针对候选答案的评分机制通过预设排列组合方式进行组合后形成的42种组合 评分机制。
7. 如权利要求6所述的装置,其特征在于,所述检索单元,具体用于: 判断分词序列中的分词的词性是否为预置关键词词性,若是,则该分词为捜索关键 词; 其中,所述预置关键词词性包括:名词、动词、代词、形容词。
8. 如权利要求7所述的装置,其特征在于,所述热词获取单元,具体用于: 判断检索关键词的词性是否为代词、检索关键词是否至少包含两个中文字符或检索关 键词在所述证据语料中的出现次数是否大于两次; 若是,则所述检索关键词为热词。
9. 如权利要求6所述的装置,其特征在于,所述预置的两个针对证据语料的评分机制, 包括: 通过比较证据语料中与问句中包含的热词的数量对证据语料进行评分的热词匹配评 分机制;及 通过计算证据语料中与问句中共同包含的跳跃二元热词对的数量对证据语料进行评 分的跳跃二元热词对评分机制,其中,所述跳跃二元热词对为一个热词序列中非直接相邻 的两个热词所形成的词对; 所述预置的四个针对候选答案的评分机制,包括: 通过命名实体在证据语料中的出现频次及根据命名实体出现的位置所对应的权重值 计算出命名实体的加权分值的热词词频评分机制; 通过计算基于热词对比问句中与证据语料中的语序相似度的细粒度文本对齐评分机 制; 通过计算命名实体与热词之间的距离而得到与热词距离最短的命名实体的第一热词 距离评分机制;及 通过计算热词与每个命名实体之间的距离并求和而得到命名实体与热词之间的距离 累积值的第二热词距离评分机制。
10.如权利要求9所述的装置,其特征在于,将预置的两个针对证据语料的评分机制及 四个针对候选答案的评分机制通过预置排列组合方式进行组合后形成的42个评分机制, 包括: 将一个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选 答案的评分机制、=个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合 形成的28种评分机制;及 将两个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选 答案的评分机制、=个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合 形成的14种评分机制。
【专利摘要】本发明提供了一种答案抽取方法及装置,应用于自动问答系统,包括:将接收到的问句划分为多个分词,并对每个分词的词性进行标注后生成分词序列;基于分词序列获取检索关键词,调用用于执行检索操作的预置接口并将检索关键词提交给预置接口,以根据检索结果生成包含候选答案的证据语料;在检索关键词中获取热词并生成热词词表;根据问句的内容识别证据语料中的命名实体并生成候选答案初始集;根据命名实体的类型确定一种基于热词的预置组合评分机制并对候选答案初始集中的每个命名实体分别进行评分,并将评分最高的命名实体作为正确答案返回,以完成针对所述问句的答案抽取。该方法可提高答案抽取的准确率。
【IPC分类】G06F17-27, G06F17-30
【公开号】CN104536991
【申请号】CN201410757700
【发明人】乐娟
【申请人】乐娟, 北京戏曲艺术职业学院
【公开日】2015年4月22日
【申请日】2014年12月10日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1