答案抽取方法及装置的制造方法

文档序号:8223513阅读:211来源:国知局
答案抽取方法及装置的制造方法
【技术领域】
[0001] 本发明涉及人工智能领域,特别涉及一种答案抽取方法及装置。
【背景技术】
[0002] 随着互联网的发展与普及,网上的信息越来越丰富,人们可以通过搜索引擎(比 如google、百度等)找到想要的信息,比如可在搜索引擎的搜索框中输入与相关的关键词 并触发确定搜索的按钮,随后即会返回与关键词相关的网页。但搜索引擎会存在很多不足, 比如,可能用户的检索需求很复杂,很难用几个关键词的简单组合来表示,从而不能清楚表 达自己的检索需求,搜索引擎自然就无法找出令用户满意的答案,再比如,检索结果往往是 很多相关的网页、文档等,用户需要花费大量时间在这些网页、文档中查找自己需要的信 息。
[0003] 基于上述情况,贝丨」出现了自动问答系统,又称QA(Question Answering)系统,自动 问答系统可以说就是新一代的搜索引擎,用户不需要把自己的问题分解成关键字,可把整 个问题直接交给该系统,既能用自然语言句子提问,又能为用户直接返回答案,可更好地满 足用户的检索需求。
[0004] 在自动问答系统中,答案抽取是比较核心的部分,关系到整个系统的检索效率及 准确率。现有的答案抽取方法包括基于机器学习、基于模式匹配、基于句法解析等方法,但 上述现有方法存在以下问题:
[0005] 首先,忽视了问句经过切分后生成的检索词(也可称为问句术语)对抽取候选答 案的作用,问句术语在证据语料中的出现频次、其自身的长度以及其与候选答案之间的句 法关系等特征对判断候选答案有非常重要的作用,但上述方法未能根据问句术语的重要程 度对问句术语进行区别处理;
[0006] 其次,忽视了包含候选答案的证据语料对评估候选答案的作用;
[0007] 再次,都是基于某一单一特征或单一方法实现答案抽取,未能解决句法和词法多 样性带来的答案抽取难点。由于包含答案的证据语料存在结构多样、句法结构复杂等特点, 使得仅基于某一种特征如句法分析特征或某一种模型完成答案抽取的效果并不理想。
[0008] 因此,如何解决上述现有的答案抽取方法的问题,成为目前最需要解决的问题。

【发明内容】

[0009] 本发明提供了一种答案抽取方法及装置,可解决上述现有技术中的问题,可提高 答案抽取的准确率,进而提高自动问答系统提供答案的准确率。
[0010] 根据本发明的一方面,本发明提出了一种答案抽取方法,所述方法应用于自动问 答系统,包括:
[0011] 将接收到的问句划分为多个分词,并在对每个分词的词性进行标注后生成分词序 列;
[0012] 基于所述分词序列获取检索关键词,调用用于执行检索操作的预置接口,并将所 述检索关键词提交给所述预置接口,以根据获得的检索结果生成包含候选答案的证据语 料;
[0013] 根据预设判断条件在检索关键词中获取热词并生成热词词表;
[0014] 根据问句的内容识别所述证据语料中的命名实体,并生成由命名实体组成的候选 答案初始集;
[0015] 根据命名实体的类型确定一种基于热词的预置组合评分机制并对候选答案初始 集中的每个命名实体分别进行评分,并将评分最高的命名实体作为正确答案返回,以完成 针对所述问句的答案抽取操作;
[0016] 其中,所述基于热词的预置组合评分机制为将预置的两个针对证据语料的评分机 制及预置的四个针对候选答案的评分机制通过预设排列组合方式进行组合后形成的42种 组合评分机制。
[0017] 优选地,所述基于所述分词序列获取检索关键词,包括:
[0018] 判断分词序列中的分词的词性是否为预置关键词词性,若是,则该分词为搜索关 键词;
[0019] 其中,所述预置关键词词性包括:名词、动词、代词、形容词。
[0020] 优选地,根据预设判断条件在检索关键词中获取热词,包括:
[0021] 判断检索关键词的词性是否为代词、检索关键词是否至少包含两个中文字符或检 索关键词在所述证据语料中的出现次数是否大于两次;
[0022] 若是,则所述检索关键词为热词。
[0023] 优选地,所述预置的两个针对证据语料的评分机制,包括:
[0024] 通过比较证据语料中与问句中包含的热词的数量对证据语料进行评分的热词匹 配评分机制;及
[0025] 通过计算证据语料中与问句中共同包含的跳跃二元热词对的数量对证据语料进 行评分的跳跃二元热词对评分机制,其中,所述跳跃二元热词对为一个热词序列中非直接 相邻的两个热词所形成的词对;
[0026] 所述预置的四个针对候选答案的评分机制,包括:
[0027] 通过命名实体在证据语料中的出现频次及根据命名实体出现的位置所对应的权 重值计算出命名实体的加权分值的热词词频评分机制;
[0028] 通过计算基于热词对比问句中与证据语料中的语序相似度的细粒度文本对齐评 分机制;
[0029] 通过计算命名实体与热词之间的距离而得到与热词距离最短的命名实体的第一 热词距离评分机制;及
[0030] 通过计算热词与每个命名实体之间的距离并求和而得到命名实体与热词之间的 距离累积值的第二热词距离评分机制。
[0031] 优选地,将预置的两个针对证据语料的评分机制及四个针对候选答案的评分机制 通过预置排列组合方式进行组合后形成的42个评分机制,包括:
[0032] 将一个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对 候选答案的评分机制、三个针对候选答案的评分机制和四个针对候选答案的评分机制进行 组合形成的28种评分机制;及
[0033] 将两个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对 候选答案的评分机制、三个针对候选答案的评分机制和四个针对候选答案的评分机制进行 组合形成的14种评分机制。
[0034] 根据本发明的另一方面,本发明还提出答案抽取装置,所述装置应用于自动问答 系统,包括:
[0035] 分词单元,用于将接收到的问句划分为多个分词,并在对每个分词的词性进行标 注后生成分词序列;
[0036] 检索单元,用于基于所述分词序列获取检索关键词,调用用于执行检索操作的预 置接口,并将所述检索关键词提交给所述预置接口,以根据获得的检索结果生成包含候选 答案的证据语料;
[0037] 热词获取单元,用于根据预设判断条件在检索关键词中获取热词,并生成热词词 表;
[0038] 命名实体识别单元,用于根据问句的内容识别所述证据语料中的命名实体,并生 成由命名实体组成的候选答案初始集;
[0039] 评分单元,用于根据命名实体的类型确定一种基于热词的预置组合评分机制并对 候选答案初始集中的每个命名实体分别进行评分,并将评分最高的命名实体作为正确答案 返回,以完成针对所述问句的答案抽取操作;
[0040] 其中,所述基于热词的预置组合评分机制为将预置的两个针对证据语料的评分机 制及预置的四个针对候选答案的评分机制通过预设排列组合方式进行组合后形成的42种 组合评分机制。
[0041] 优选地,所述检索单元,具体用于:
[0042] 判断分词序列中的分词的词性是否为预置关键词词性,若是,则该分词为搜索关 键词;
[0043] 其中,所述预置关键词词性包括:名词、动词、代词、形容词。
[0044] 优选地,所述热词获取单元,具体用于:
[0045] 判断检索关键词的词性是否为代词、检索关键词是否至少包含两个中文字符或检 索关键词在所述证据语料中的出现次数是否大于两次;
[0046] 若是,则所述检索关键词为热词。
[0047] 优选地,所述预置的两个针对证据语料的评分机制,包括:
[0048] 通过比较证据语料中与问句中包含的热词的数量对证据语料进行评分的热词匹 配评分机制;及
[0049] 通过计算证据语料中与问句中共同包含的跳跃二元热词对的数量对证据语料进 行评分的跳跃二元热词对评分机制,其中,所述跳跃二元热词对为一个热词序列中非直接 相邻的两个热
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1