答案抽取方法及装置的制造方法_3

文档序号：8223513阅读：来源：国知局

086] 下面详细介绍本实施例中的两个针对证据语料的评分机制及预置的四个针对候选答案的评分机制。
[0087] 所述两个针对证据语料的评分机制，包括热词匹配评分机制和跳跃二元热词对评分机制。
[0088] 热词匹配评分机制（ETM，Evidence Terms Match Scorer)，ETM通过计算证据语料与问句的表面文本相似度对证据语料进行评分，也就是说，在忽略语法、语序等句法结构信息的条件下，通过比较证据语料中所包含的热词数量与问句中所包含的热词数量，以对证据语料进行评分。
[0089] 每条证据语料包括标题部分（Title)和摘录内容部分（Snippet)，则每条证据语料的分值为Title的分值与Snippet的分值的总和，ETM可通过如下公式对证据语料进行评分：
【主权项】
1. 一种答案抽取方法，其特征在于，所述方法应用于自动问答系统，包括：将接收到的问句划分为多个分词，并在对每个分词的词性进行标注后生成分词序列；基于所述分词序列获取检索关键词，调用用于执行检索操作的预置接口，并将所述检索关键词提交给所述预置接口，W根据获得的检索结果生成包含候选答案的证据语料；根据预设判断条件在检索关键词中获取热词并生成热词词表；根据问句的内容识别所述证据语料中的命名实体，并生成由命名实体组成的候选答案初始集；根据命名实体的类型确定一种基于热词的预置组合评分机制并对候选答案初始集中的每个命名实体分别进行评分，并将评分最高的命名实体作为正确答案返回，W完成针对所述问句的答案抽取操作；其中，所述基于热词的预置组合评分机制为将预置的两个针对证据语料的评分机制及预置的四个针对候选答案的评分机制通过预设排列组合方式进行组合后形成的42种组合评分机制。
2. 如权利要求1所述的方法，其特征在于，所述基于所述分词序列获取检索关键词，包括：判断分词序列中的分词的词性是否为预置关键词词性，若是，则该分词为捜索关键词；其中，所述预置关键词词性包括：名词、动词、代词、形容词。
3. 如权利要求2所述的方法，其特征在于，根据预设判断条件在检索关键词中获取热词，包括：判断检索关键词的词性是否为代词、检索关键词是否至少包含两个中文字符或检索关键词在所述证据语料中的出现次数是否大于两次；若是，则所述检索关键词为热词。
4. 如权利要求1所述的方法，其特征在于，所述预置的两个针对证据语料的评分机制，包括：通过比较证据语料中与问句中包含的热词的数量对证据语料进行评分的热词匹配评分机制；及通过计算证据语料中与问句中共同包含的跳跃二元热词对的数量对证据语料进行评分的跳跃二元热词对评分机制，其中，所述跳跃二元热词对为一个热词序列中非直接相邻的两个热词所形成的词对；所述预置的四个针对候选答案的评分机制，包括：通过命名实体在证据语料中的出现频次及根据命名实体出现的位置所对应的权重值计算出命名实体的加权分值的热词词频评分机制；通过计算基于热词对比问句中与证据语料中的语序相似度的细粒度文本对齐评分机制；通过计算命名实体与热词之间的距离而得到与热词距离最短的命名实体的第一热词距离评分机制；及通过计算热词与每个命名实体之间的距离并求和而得到命名实体与热词之间的距离累积值的第二热词距离评分机制。
5. 如权利要求4所述的方法，其特征在于，将预置的两个针对证据语料的评分机制及四个针对候选答案的评分机制通过预置排列组合方式进行组合后形成的42个评分机制，包括：将一个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选答案的评分机制、=个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合形成的28种评分机制；及将两个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选答案的评分机制、=个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合形成的14种评分机制。
6. -种答案抽取装置，其特征在于，所述装置应用于自动问答系统，包括：分词单元，用于将接收到的问句划分为多个分词，并在对每个分词的词性进行标注后生成分词序列；检索单元，用于基于所述分词序列获取检索关键词，调用用于执行检索操作的预置接口，并将所述检索关键词提交给所述预置接口，W根据获得的检索结果生成包含候选答案的证据语料；热词获取单元，用于根据预设判断条件在检索关键词中获取热词，并生成热词词表；命名实体识别单元，用于根据问句的内容识别所述证据语料中的命名实体，并生成由命名实体组成的候选答案初始集；评分单元，用于根据命名实体的类型确定一种基于热词的预置组合评分机制并对候选答案初始集中的每个命名实体分别进行评分，并将评分最高的命名实体作为正确答案返回，W完成针对所述问句的答案抽取操作；其中，所述基于热词的预置组合评分机制为将预置的两个针对证据语料的评分机制及预置的四个针对候选答案的评分机制通过预设排列组合方式进行组合后形成的42种组合评分机制。
7. 如权利要求6所述的装置，其特征在于，所述检索单元，具体用于：判断分词序列中的分词的词性是否为预置关键词词性，若是，则该分词为捜索关键词；其中，所述预置关键词词性包括：名词、动词、代词、形容词。
8. 如权利要求7所述的装置，其特征在于，所述热词获取单元，具体用于：判断检索关键词的词性是否为代词、检索关键词是否至少包含两个中文字符或检索关键词在所述证据语料中的出现次数是否大于两次；若是，则所述检索关键词为热词。
9. 如权利要求6所述的装置，其特征在于，所述预置的两个针对证据语料的评分机制，包括：通过比较证据语料中与问句中包含的热词的数量对证据语料进行评分的热词匹配评分机制；及通过计算证据语料中与问句中共同包含的跳跃二元热词对的数量对证据语料进行评分的跳跃二元热词对评分机制，其中，所述跳跃二元热词对为一个热词序列中非直接相邻的两个热词所形成的词对；所述预置的四个针对候选答案的评分机制，包括：通过命名实体在证据语料中的出现频次及根据命名实体出现的位置所对应的权重值计算出命名实体的加权分值的热词词频评分机制；通过计算基于热词对比问句中与证据语料中的语序相似度的细粒度文本对齐评分机制；通过计算命名实体与热词之间的距离而得到与热词距离最短的命名实体的第一热词距离评分机制；及通过计算热词与每个命名实体之间的距离并求和而得到命名实体与热词之间的距离累积值的第二热词距离评分机制。
10.如权利要求9所述的装置，其特征在于，将预置的两个针对证据语料的评分机制及四个针对候选答案的评分机制通过预置排列组合方式进行组合后形成的42个评分机制，包括：将一个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选答案的评分机制、=个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合形成的28种评分机制；及将两个针对证据语料的评分机制分别与一个针对候选答案的评分机制、两个针对候选答案的评分机制、=个针对候选答案的评分机制和四个针对候选答案的评分机制进行组合形成的14种评分机制。
【专利摘要】本发明提供了一种答案抽取方法及装置，应用于自动问答系统，包括：将接收到的问句划分为多个分词，并对每个分词的词性进行标注后生成分词序列；基于分词序列获取检索关键词，调用用于执行检索操作的预置接口并将检索关键词提交给预置接口，以根据检索结果生成包含候选答案的证据语料；在检索关键词中获取热词并生成热词词表；根据问句的内容识别证据语料中的命名实体并生成候选答案初始集；根据命名实体的类型确定一种基于热词的预置组合评分机制并对候选答案初始集中的每个命名实体分别进行评分，并将评分最高的命名实体作为正确答案返回，以完成针对所述问句的答案抽取。该方法可提高答案抽取的准确率。
【IPC分类】G06F17-27, G06F17-30
【公开号】CN104536991
【申请号】CN201410757700
【发明人】乐娟
【申请人】乐娟, 北京戏曲艺术职业学院
【公开日】2015年4月22日
【申请日】2014年12月10日

完整全部详细技术资料下载

当前第3页1 2 3