支持信息裂变查询方法及装置的制造方法

文档序号:10725081阅读:172来源:国知局
支持信息裂变查询方法及装置的制造方法
【专利摘要】本发明涉及一种支持信息裂变查询方法及装置,其中,所述方法包括根据预设语料中的句子所包含的词语的词性以及包含预设裂变词的句子确定裂变模式,并根据所述裂变模式的第一支持信息将裂变模式加入裂变模集合;从预设语料中提取包含所述裂变模式的句子,并获取该句子中裂变词的位置所对应的词语,并根据所述词语的第二支持信息将该词语加入到裂变词集合中;根据所述裂变词集合以及所述裂变模集合进行迭代裂变搜索,以根据最终得到的裂变词集合和最终得到的裂变模集合对待查询语句进行裂变处理,并根据处理结果获取查询结果。本发明提高了数据的离线挖掘效率,缩短了数据挖掘时间,进而提高了查询准确度和查询效率,提升了用户体验。
【专利说明】
支持信息裂变查询方法及装置
技术领域
[0001] 本发明涉及计算机技术领域,具体涉及一种支持信息裂变查询方法及装置。
【背景技术】
[0002] 网络、通讯及计算机技术的迅猛发展也极大程度地推动了人工智能技术的进步。 而随着文本情感分析以及自然语言处理技术的日益成熟,通过计算机应用智能分析研究大 数据已经成为互联网时代的一大需求和趋势。在此背景下,语音处理及数据挖掘也受到了 越来越多的关注。
[0003] 语音处理可识别出说话人所说的内容,并将其转化为文本数据,进而可以将这些 总量持续增长的数据持久保存下来,以为后续进行数据挖掘,进而进行数据查询提供基础。
[0004] 现有技术中,采用人工制定关键词及模式,通过模式匹配识别目标的数据挖掘方 法扩展性低,难以大规模应用;而根据关键词和句型结构制定模式,通过与模式计算相似度 识别目标的数据挖掘方法则需要大量标注数据,其效果很大程度上依赖样本的覆盖,前期 投入过大。

【发明内容】

[0005] 为消除现有数据查询中进行离线数据挖掘时存在的数据挖掘方法扩展性低、难以 大规模应用,以及依赖样本的覆盖程度高、前期投入过大的弊端,本发明提出如下技术方 案:
[0006] -种支持信息裂变查询方法,包括:
[0007] 根据预设语料中每个句子所包含的词语的词性以及包含预设裂变词的句子确定 所述包含预设裂变词的句子的裂变模式,并根据所述预设裂变词对所述裂变模式的第一支 持信息将所述裂变模式加入到裂变模集合中;
[0008] 从所述预设语料中提取包含所述裂变模集合中的任一裂变模式的句子,并获取该 句子中裂变词的位置所对应的词语,并根据所述裂变词的位置所对应的词语的所属裂变模 式对该词语的第二支持信息将该词语作为裂变词加入到裂变词集合中;
[0009] 根据所述裂变词集合以及所述裂变模集合进行迭代裂变搜索,以根据最终得到的 裂变词集合和最终得到的裂变模集合对待查询语句进行裂变处理,并根据处理结果获取查 询结果。
[0010] 可选地,所述根据预设语料中每个句子所包含的词语的词性以及包含预设裂变词 的句子确定所述包含预设裂变词的句子的裂变模式,并根据所述预设裂变词对所述裂变模 式的第一支持信息将所述裂变模式加入到裂变模集合中,包括:
[0011] 根据预设语料中的每个句子所包含的词语的词性生成所述每个句子的分词模式, 并提取所述预设语料中包含预设裂变词的句子,以根据所述预设裂变词将所述句子的分词 模式转换为裂变模式;
[0012] 计算所述裂变模式的第一置信度和所述预设裂变词到所述裂变模式的第一支持 度,以根据所述第一置信度和所述第一支持度将所述裂变模式加入到裂变模集合中。
[0013] 可选地,根据预设语料中的每个句子所包含的词语的词性生成所述每个句子的分 词模式,包括:
[0014] 通过分词程序对所述预设语料中的每个句子进行分词,并进行实体标注,以生成 每个句子的分词模式。
[0015] 可选地,所述从所述预设语料中提取包含所述裂变模集合中的裂变模式的句子, 并获取该句子中裂变词的位置所对应的词语,并根据该词语的所属裂变模式对该词语的第 二支持信息将该词语作为裂变词加入到裂变词集合中,包括:
[0016] 从所述预设语料中提取包含所述裂变模集合中的任一裂变模式的句子,并提取该 句子中裂变词位置所对应的词语;
[0017] 计算所述裂变词的位置所对应的词语的第二置信度和该词语的所属裂变模式到 该词语的第二支持度,以根据所述第二置信度和所述第二支持度将所述词语作为裂变词加 入到裂变词集合中。
[0018] 可选地,所述根据预设语料中每个句子所包含的词语的词性以及包含预设裂变词 的句子确定所述包含预设裂变词的句子的裂变模式,并根据所述预设裂变词对所述裂变模 式的第一支持信息将所述裂变模式加入到裂变模集合中之前,所述方法还包括:
[0019] 初始化所述裂变词集合,并向初始化后的所述裂变词集合中添加若干疑问句的裂 变词和词组作为预设裂变词;
[0020] 初始化所述裂变模集合,以将所述裂变模集合设置为空集合。
[0021] 可选地,所述根据所述裂变词集合以及所述裂变模集合进行迭代裂变搜索,以根 据最终得到的裂变词集合和最终得到的裂变模集合对待查询语句进行裂变处理,并根据处 理结果获取查询结果,包括:
[0022] 接收根据所述最终得到的裂变词集合和最终得到的裂变模集合进行人工标注的 问答目标,以根据所述问答目标获取查询结果。
[0023] 一种支持信息裂变查询装置,包括:
[0024] 裂变模集合确定单元,用于根据预设语料中每个句子所包含的词语的词性以及包 含预设裂变词的句子确定所述包含预设裂变词的句子的裂变模式,并根据所述预设裂变词 对所述裂变模式的第一支持信息将所述裂变模式加入到裂变模集合中;
[0025] 裂变词集合确定单元,用于从所述预设语料中提取包含所述裂变模集合中的任一 裂变模式的句子,并获取该句子中裂变词的位置所对应的词语,并根据所述裂变词的位置 所对应的词语的所属裂变模式对该词语的第二支持信息将该词语作为裂变词加入到裂变 词集合中;
[0026] 裂变查询单元,用于根据所述裂变词集合以及所述裂变模集合进行迭代裂变搜 索,以根据最终得到的裂变词集合和最终得到的裂变模集合对待查询语句进行裂变处理, 并根据处理结果获取查询结果。
[0027] 可选地,所述裂变模确定单元进一步用于根据预设语料中的每个句子所包含的词 语的词性生成所述每个句子的分词模式,并提取所述预设语料中包含预设裂变词的句子, 以根据所述预设裂变词将所述句子的分词模式转换为裂变模式;以及,
[0028] 用于计算所述裂变模式的第一置信度和所述预设裂变词到所述裂变模式的第一 支持度,以根据所述第一置信度和所述第一支持度将所述裂变模式加入到裂变模集合中。
[0029] 可选地,所述裂变词确定单元进一步用于从所述预设语料中提取包含所述裂变模 集合中的任一裂变模式的句子,并提取该句子中裂变词位置所对应的词语;以及,
[0030] 用于计算所述裂变词的位置所对应的词语的第二置信度和该词语的所属裂变模 式到该词语的第二支持度,以根据所述第二置信度和所述第二支持度将所述词语作为裂变 词加入到裂变词集合中。
[0031] 可选地,所述装置还包括:
[0032] 集合初始化单元,用于初始化所述裂变词集合,并向初始化后的所述裂变词集合 中添加若干疑问句的裂变词和词组作为预设裂变词;以及,
[0033] 用于初始化所述裂变模集合,以将所述裂变模集合设置为空集合。
[0034] 本发明的支持信息裂变查询方法及装置,基于支持信息以及迭代裂变搜索得到的 裂变词集合和裂变模集合,对用户输入的待查询语句进行裂变处理模式匹配并返回查询结 果,消除了现有数据查询中进行离线数据挖掘时存在的数据挖掘方法扩展性低、难以大规 模应用,以及依赖样本的覆盖程度高、前期投入过大的弊端,提高了数据的离线挖掘效率, 缩短了数据挖掘时间,进而提高了查询准确度和查询效率,提升了用户体验。
【附图说明】
[0035] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 这些附图获得其他的附图。
[0036] 图1为本发明一个实施例提供的支持信息裂变查询方法的流程示意图;
[0037] 图2为本发明另一个实施例提供的支持信息裂变查询方法的流程示意图;
[0038] 图3为本发明一个实施例提供的支持信息裂变查询装置的结构示意图;
[0039] 图4为本发明另一个实施例提供的支持信息裂变查询装置的结构示意图。
【具体实施方式】
[0040] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明 一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有 做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0041] 图1为本发明一个实施例提供的支持信息裂变查询方法的流程示意图;如图1所 示,该方法包括:
[0042] S1:根据预设语料以及预设裂变词确定所述预设裂变词对应的裂变模式,并根据 所述预设裂变词对所述裂变模式的第一支持信息将所述裂变模式加入到裂变模集合中;
[0043]具体来说,根据预设语料中每个句子所包含的词语的词性(如[人名]、[动词]、[代 词]等)以及包含预设裂变词的句子确定所述包含预设裂变词的句子的裂变模式(如[人名] + [裂变词]等),并根据所述预设裂变词对所述裂变模式的第一支持信息(包括支持度、置信 度、信息增益以及卡方等信息)将所述裂变模式加入到裂变模集合中;
[0044] S2:从所述预设语料中查找出匹配所述裂变模集合中的裂变模式的句子,并提取 所述句子中裂变词的位置所对应的词语,以根据所述词语的所属裂变模式对所述词语的第 二支持信息将所述词语加入到裂变词集合中;
[0045] 具体地,从所述预设语料中提取包含所述裂变模集合中的任一裂变模式的句子, 并获取该句子中裂变词的位置所对应的词语,并根据所述裂变词的位置所对应的词语的所 属裂变模式对该词语的第二支持信息(包括支持度、置信度、信息增益以及卡方等信息)将 该词语作为裂变词加入到裂变词集合中;
[0046] S3:根据所述裂变词集合以及所述裂变模集合通过迭代裂变搜索获取最终的裂变 词集合和最终的裂变模集合,并对待查询语句进行裂变处理,以获取查询结果;
[0047] 具体地,根据所述裂变词集合以及所述裂变模集合进行迭代裂变搜索(即重复步 骤S1~S2,直至所述裂变词集合以及所述裂变模集合收敛,即不再出现新的裂变词和裂变 模式),以根据最终得到的裂变词集合和最终得到的裂变模集合对待查询语句进行裂变处 理,并根据处理结果获取查询结果。
[0048] 本实施例的支持信息裂变查询方法,基于支持信息以及迭代裂变搜索得到的裂变 词集合和裂变模集合,对用户输入的待查询语句进行裂变处理模式匹配并返回查询结果, 消除了现有数据查询中进行离线数据挖掘时存在的数据挖掘方法扩展性低、难以大规模应 用,以及依赖样本的覆盖程度高、前期投入过大的弊端,提高了数据的离线挖掘效率,缩短 了数据挖掘时间,进而提高了查询准确度和查询效率,提升了用户体验。
[0049 ]进一步地,作为本实施例的优选,上述步骤S1可以包括:
[0050] S11:根据预设语料中的每个句子所包含的词语的词性生成所述每个句子的分词 模式,并提取所述预设语料中包含预设裂变词的句子,以根据所述预设裂变词将所述句子 的分词模式转换为裂变模式;
[0051] 其中,每个句子所包含的词语的词性包括名词、动词以及代词等等,在此基础上, 根据每个句子所包含的词语的词性而生成的分词模式例如为[人名]、[动词][代词]、[人 名][动词][代词]等等。
[0052] 具体来说,可通过分词程序(如hadoop的map/reduce调用分词程序)对所述预设语 料中的每个句子进行分词,并按照词性进行实体标注,以生成每个句子的分词模式,其中, 裂变词为用于将语句划分成裂变模式的关键词,例如"为什么"、"是什么"、"是谁"、"刘德 华"等[动词+代词]或[名词];所述的裂变模式为根据所述语句包含的所述关键词的词性以 及包含的其他词语的词性将所述语句进行划分所得的模式,例如对于语句"刘德华是谁"而 言,若其裂变词为"是谁",则其裂变模式可确定为"[人名]+ [裂变词]"。
[0053]具体地,例如在裂变词集合中加入的"是谁",并扫描上述语料中的包含"是谁"的 原句子,得到该原句子及其模式:
[0054] 刘德华是谁[人名][动词][代词][动词][代词]=[裂变词],以将得到的模式"[人 名][动词][代词]"加入裂变模集合中。
[0055] S12:计算所述裂变模式的第一置信度和所述预设裂变词到所述裂变模式的第一 支持度,以根据所述第一置信度和所述第一支持度将所述裂变模式加入到裂变模集合中。
[0056] 具体地,即将裂变模式的第一置信度和所述预设裂变词到所述裂变模式的第一支 持度分别与置信度阈值和支持度阈值进行比较,并在第一置信度与第一支持度均大于相应 的阈值的情况下,将该裂变模式加入到裂变模集合中。
[0057] 进一步地,作为本实施例的优选,上述步骤S2还可以包括:
[0058] S21:从所述预设语料中提取包含所述裂变模集合中的任一裂变模式的句子,并提 取该句子中裂变词位置所对应的词语;
[0059] 具体地,例如从预设语料中扫描出裂变模集合中的裂变模式"[人名][动词][代 词]"的句子:"梁朝伟在哪",由前所述,[动词][代词]=[裂变词],因此可提取出裂变词位 置上的新词"在哪"。
[0060] S22:计算所述裂变词的位置所对应的词语的第二置信度和该词语的所属裂变模 式到该词语的第二支持度,以根据所述第二置信度和所述第二支持度将所述词语作为裂变 词加入到裂变词集合中。
[0061] 具体地,即将裂变词的位置所对应的词语的第二置信度和该词语的所属裂变模式 到该词语的第二支持度分别与置信度阈值和支持度阈值进行比较,并在第二置信度与第二 支持度均大于相应的阈值的情况下,将该词语作为新的裂变词加入到裂变词集合中。
[0062] 图2为本发明另一个实施例提供的支持信息裂变查询方法的流程示意图;如图2所 示,在上一实施例的基础上,步骤S1中根据预设语料以及预设裂变词确定所述预设裂变词 对应的裂变模式,并根据所述预设裂变词对所述裂变模式的第一支持信息将所述裂变模式 加入到裂变模集合中之前,该方法还可以进一步包括:
[0063] S0:初始化所述裂变词集合,并向初始化后的所述裂变词集合中添加若干疑问句 的裂变词和词组作为预设裂变词;初始化所述裂变模集合,以将所述裂变模集合设置为空 集合。
[0064] 具体地,上述初始化裂变词集合,包括保留用于放置查询出的裂变词的裂变词集 合,并向初始化后的裂变词集合中添加若干疑问句的裂变词和词组作为预设裂变词,例如 [在哪]、[是谁]等等,以存储后续通过迭代处理所获取的裂变词。
[0065]而初始化所述裂变模集合,包括保留一个用于放置查询出的裂变模式的裂变模集 合,以存储后续通过迭代处理所获取的裂变模式。
[0066] 作为本实施例的优选,步骤S3中根据所述裂变词集合以及所述裂变模集合通过迭 代裂变搜索获取最终的裂变词集合和最终的裂变模集合,并对待查询语句进行裂变处理, 以获取查询结果,可以进一步包括:
[0067] 接收根据所述最终得到的裂变词集合和最终得到的裂变模集合进行人工标注的 问答目标,以根据所述问答目标获取查询结果。
[0068] 本实施例的支持信息裂变查询方法基于支持信息以及迭代搜索方式获得的裂变 词集合和裂变模集合,可以缩短数据处理时间,提高了数据挖掘与数据查询的效率。
[0069] 图3为本发明一个实施例提供的支持信息裂变查询装置的结构示意图;如图3所 示,该装置包括:
[0070] 裂变模集合确定单元10,用于根据预设语料以及预设裂变词确定所述预设裂变词 对应的裂变模式,并根据所述预设裂变词对所述裂变模式的第一支持信息将所述裂变模式 加入到裂变模集合中;
[0071] 具体地,裂变模集合确定单元10用于根据预设语料中每个句子所包含的词语的词 性(如[人名]、[动词]、[代词]等)以及包含预设裂变词的句子确定所述包含预设裂变词的 句子的裂变模式(如[人名]+[裂变词]等),并根据所述预设裂变词对所述裂变模式的第一 支持信息(包括支持度、置信度、信息增益以及卡方等信息)将所述裂变模式加入到裂变模 集合中;
[0072] 裂变词集合确定单元20,用于从所述预设语料中查找出匹配所述裂变模集合中的 裂变模式的句子,并提取所述句子中裂变词的位置所对应的词语,以根据所述词语的所属 裂变模式对所述词语的第二支持信息将所述词语加入到裂变词集合中;
[0073] 具体地,裂变词集合确定单元20用于从所述预设语料中提取包含所述裂变模集合 中的任一裂变模式的句子,并获取该句子中裂变词的位置所对应的词语,并根据所述裂变 词的位置所对应的词语的所属裂变模式对该词语的第二支持信息(包括支持度、置信度、信 息增益以及卡方等信息)将该词语作为裂变词加入到裂变词集合中;
[0074]裂变查询单元30,用于根据所述裂变词集合以及所述裂变模集合通过迭代裂变搜 索获取最终的裂变词集合和最终的裂变模集合,并对待查询语句进行裂变处理,以获取查 询结果;
[0075] 具体地,裂变查询单元30用于根据所述裂变词集合以及所述裂变模集合进行迭代 裂变搜索(即重复步骤S1~S2,直至所述裂变词集合以及所述裂变模集合收敛,即不再出现 新的裂变词和裂变模式),以根据最终得到的裂变词集合和最终得到的裂变模集合对待查 询语句进行裂变处理,并根据处理结果获取查询结果。
[0076] 本实施例所述的支持信息裂变查询装置可以用于执行上述方法实施例,其原理和 技术效果类似,此处不再赘述。
[0077] 进一步地,作为本实施例的优选,裂变模确定单元10可进一步用于根据预设语料 中的每个句子所包含的词语的词性生成所述每个句子的分词模式,并提取所述预设语料中 包含预设裂变词的句子,以根据所述预设裂变词将所述句子的分词模式转换为裂变模式;
[0078] 其中,每个句子所包含的词语的词性包括名词、动词以及代词等等,在此基础上, 根据每个句子所包含的词语的词性而生成的分词模式例如为[人名]、[动词][代词]、[人 名][动词][代词]等等。
[0079] 具体来说,可通过分词程序(如hadoop的map/reduce调用分词程序)对所述预设语 料中的每个句子进行分词,并按照词性进行实体标注,以生成每个句子的分词模式,其中, 裂变词为用于将语句划分成裂变模式的关键词,例如"为什么"、"是什么"、"是谁"、"刘德 华"等[动词+代词]或[名词];所述的裂变模式为根据所述语句包含的所述关键词的词性以 及包含的其他词语的词性将所述语句进行划分所得的模式,例如对于语句"刘德华是谁"而 言,若其裂变词为"是谁",则其裂变模式可确定为"[人名]+ [裂变词]"。
[0080] 具体地,例如在裂变词集合中加入的"是谁",并扫描上述语料中的包含"是谁"的 原句子,得到该原句子及其模式:
[0081] 刘德华是谁[人名][动词][代词][动词][代词]=[裂变词],以将得到的模式"[人 名][动词][代词]"加入裂变模集合中。
[0082] 在此基础上,裂变模确定单元10还可用于计算所述裂变模式的第一置信度和所述 预设裂变词到所述裂变模式的第一支持度,以根据所述第一置信度和所述第一支持度将所 述裂变模式加入到裂变模集合中。
[0083] 具体地,即将裂变模式的第一置信度和所述预设裂变词到所述裂变模式的第一支 持度分别与置信度阈值和支持度阈值进行比较,并在第一置信度与第一支持度均大于相应 的阈值的情况下,将该裂变模式加入到裂变模集合中。
[0084] 进一步地,作为本实施例的优选,裂变词确定单元20可进一步用于从所述预设语 料中提取包含所述裂变模集合中的任一裂变模式的句子,并提取该句子中裂变词位置所对 应的词语;
[0085] 具体地,例如从预设语料中扫描出裂变模集合中的裂变模式"[人名][动词][代 词]"的句子:"梁朝伟在哪",由前所述,[动词][代词]=[裂变词],因此可提取出裂变词位 置上的新词"在哪"。
[0086] 在此基础上,裂变词确定单元20还可用于计算所述裂变词的位置所对应的词语的 第二置信度和该词语的所属裂变模式到该词语的第二支持度,以根据所述第二置信度和所 述第二支持度将所述词语作为裂变词加入到裂变词集合中。
[0087] 具体地,即将裂变词的位置所对应的词语的第二置信度和该词语的所属裂变模式 到该词语的第二支持度分别与置信度阈值和支持度阈值进行比较,并在第二置信度与第二 支持度均大于相应的阈值的情况下,将该词语作为新的裂变词加入到裂变词集合中。
[0088] 图4为本发明另一个实施例提供的支持信息裂变查询装置的结构示意图;如图4所 示,在上一实施例的基础上,本实施例的装置还可以进一步包括:
[0089] 集合初始化单元40,用于初始化所述裂变词集合,并向初始化后的所述裂变词集 合中添加若干疑问句的裂变词和词组作为预设裂变词;初始化所述裂变模集合,以将所述 裂变模集合设置为空集合。
[0090] 具体地,上述初始化裂变词集合,包括保留用于放置查询出的裂变词的裂变词集 合,并向初始化后的裂变词集合中添加若干疑问句的裂变词和词组作为预设裂变词,例如 [在哪]、[是谁]等等,以存储后续通过迭代处理所获取的裂变词。
[0091] 而初始化所述裂变模集合,包括保留一个用于放置查询出的裂变模式的裂变模集 合,以存储后续通过迭代处理所获取的裂变模式。
[0092] 作为上述所有装置实施例的优选,裂变查询单元30可进一步用于:
[0093] 接收根据所述最终得到的裂变词集合和最终得到的裂变模集合进行人工标注的 问答目标,以根据所述问答目标获取查询结果。
[0094]下面以一具体的实施例来说明本发明,但不限定本发明的保护范围。本实施例的 支持信息裂变查询方法的步骤如下:
[0095] 1、预处理语料结果如下表一所示:
[0096] 表一语料预处理结果
[0098] 2、初始化裂变模集合为空,初始化裂变词集合为空;
[0099] 3、在裂变词集合中加入"是谁"(预设裂变词);
[0100] 4、扫描原句子中包含"是谁"的句子,得到原句子及其裂变模式,例如:
[0101] 刘德华是谁(原句子)[人名][动词][代词](裂变模式),其中,[动词][代词]=[裂 变词]。
[0102] 5、计算上述裂变模式的支持信息,并根据经验制定支持信息阈值,当支持度大于 该阈值时,将上述裂变模式加入到裂变模集合中;
[0103] 其中,支持信息包括支持度、置信度、信息增益、卡方等信息;以支持度和置信度为 例:
[0104] 假设裂变模式的置信度阈值为0.6、支持度阈值为0.6,则:
[0105][人名]和[动词][代词]置信度为:2/3 = 0.67;
[0106][人名]对[动词][代词]的支持度为:2/3 = 0 · 67;
[0107] 即均大于阈值,因此将裂变模式"[人名][动词][代词]"加入裂变模集合中。
[0108] 6、在原句子中扫描出[人名][动词][代词]模式的句子,例如:梁朝伟在哪。
[0109] 7、计算"在哪"的支持信息,并根据经验制定支持信息阈值,当支持度大于该阈值 时,将该裂变词加入到裂变词集合中;
[0110]其中,支持信息包括支持度、置信度、信息增益、卡方等信息;以支持度和置信度为 例:
[0111]假设裂变词的置信度阈值为〇. 3、支持度阈值为0.3,则:
[0112][人名]和"在哪"置信度为:1/3 = 0.33 [0113][人名]对"在哪"的支持度为:1/3 = 0.33
[0114] 即均大于阈值,因此将裂变词"在哪"加入裂变词集合中。
[0115] 8、结束,得到裂变词集合:是谁、在哪;
[0116]得到裂变模集合:[人名][动词][代词];
[0117] 9、标注:
[0118] [人名]+ "是谁"的目标是who;
[0119] [人名]+ "在哪"的目标是where;
[0120] 10、线上使用时,符合[人名]+ "是谁"模式的,问题目标为who,将返回该[人名]是 谁的答案。
[0121] 符合[人名]+ "在哪"模式的,问题目标为where,将返回该[人名]在什么地方的答 案。
[0122] 本发明的支持信息裂变查询方法及装置,基于支持信息以及迭代裂变搜索得到的 裂变词集合和裂变模集合,对用户输入的待查询语句进行裂变处理模式匹配并返回查询结 果,消除了现有数据查询中进行离线数据挖掘时存在的数据挖掘方法扩展性低、难以大规 模应用,以及依赖样本的覆盖程度高、前期投入过大的弊端,提高了数据的离线挖掘效率, 缩短了数据挖掘时间,进而提高了查询准确度和查询效率,提升了用户体验。
[0123] 以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例 对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施 例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替 换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
【主权项】
1. 一种支持信息裂变查询方法,其特征在于,包括: 根据预设语料以及预设裂变词确定所述预设裂变词对应的裂变模式,并根据所述预设 裂变词对所述裂变模式的第一支持信息将所述裂变模式加入到裂变模集合中; 从所述预设语料中查找出匹配所述裂变模集合中的裂变模式的句子,并提取所述句子 中裂变词的位置所对应的词语,以根据所述词语的所属裂变模式对所述词语的第二支持信 息将所述词语加入到裂变词集合中; 根据所述裂变词集合以及所述裂变模集合通过迭代裂变搜索获取最终的裂变词集合 和最终的裂变模集合,并对待查询语句进行裂变处理,以获取查询结果。2. 根据权利要求1所述的方法,其特征在于,所述根据预设语料以及预设裂变词确定所 述预设裂变词对应的裂变模式,并根据所述预设裂变词对所述裂变模式的第一支持信息将 所述裂变模式加入到裂变模集合中,包括: 根据预设语料中的每个句子所包含的词语的词性生成所述每个句子的分词模式,并提 取所述预设语料中包含预设裂变词的句子,以根据所述预设裂变词将所述句子的分词模式 转换为裂变模式; 计算所述裂变模式的第一置信度和所述预设裂变词到所述裂变模式的第一支持度,以 根据所述第一置信度和所述第一支持度将所述裂变模式加入到裂变模集合中。3. 根据权利要求2所述的方法,其特征在于,根据预设语料中的每个句子所包含的词语 的词性生成所述每个句子的分词模式,包括: 通过分词程序对所述预设语料中的每个句子进行分词,并进行实体标注,以生成每个 句子的分词模式。4. 根据权利要求2所述的方法,其特征在于,所述从所述预设语料中查找出匹配所述裂 变模集合中的裂变模式的句子,并提取所述句子中裂变词的位置所对应的词语,以根据所 述词语的所属裂变模式对所述词语的第二支持信息将所述词语加入到裂变词集合中,包 括: 从所述预设语料中提取包含所述裂变模集合中的任一裂变模式的句子,并提取该句子 中裂变词位置所对应的词语; 计算所述裂变词的位置所对应的词语的第二置信度和该词语的所属裂变模式到该词 语的第二支持度,以根据所述第二置信度和所述第二支持度将所述词语作为裂变词加入到 裂变词集合中。5. 根据权利要求1至4中任一项所述的方法,其特征在于,所述根据预设语料以及预设 裂变词确定所述预设裂变词对应的裂变模式,并根据所述预设裂变词对所述裂变模式的第 一支持信息将所述裂变模式加入到裂变模集合中之前,所述方法还包括: 初始化所述裂变词集合,并向初始化后的所述裂变词集合中添加若干疑问句的裂变词 和词组作为预设裂变词; 初始化所述裂变模集合,以将所述裂变模集合设置为空集合。6. 根据权利要求1至4中任一项所述的方法,其特征在于,所述根据所述裂变词集合以 及所述裂变模集合通过迭代裂变搜索获取最终的裂变词集合和最终的裂变模集合,并对待 查询语句进行裂变处理,以获取查询结果,包括: 接收根据所述最终得到的裂变词集合和最终得到的裂变模集合进行人工标注的问答 目标,以根据所述问答目标获取查询结果。7. -种支持信息裂变查询装置,其特征在于,包括: 裂变模集合确定单元,用于根据预设语料以及预设裂变词确定所述预设裂变词对应的 裂变模式,并根据所述预设裂变词对所述裂变模式的第一支持信息将所述裂变模式加入到 裂变模集合中; 裂变词集合确定单元,用于从所述预设语料中查找出匹配所述裂变模集合中的裂变模 式的句子,并提取所述句子中裂变词的位置所对应的词语,以根据所述词语的所属裂变模 式对所述词语的第二支持信息将所述词语加入到裂变词集合中; 裂变查询单元,用于根据所述裂变词集合以及所述裂变模集合通过迭代裂变搜索获取 最终的裂变词集合和最终的裂变模集合,并对待查询语句进行裂变处理,以获取查询结果。8. 根据权利要求7所述的装置,其特征在于,所述裂变模确定单元进一步用于根据预设 语料中的每个句子所包含的词语的词性生成所述每个句子的分词模式,并提取所述预设语 料中包含预设裂变词的句子,以根据所述预设裂变词将所述句子的分词模式转换为裂变模 式;以及, 用于计算所述裂变模式的第一置信度和所述预设裂变词到所述裂变模式的第一支持 度,以根据所述第一置信度和所述第一支持度将所述裂变模式加入到裂变模集合中。9. 根据权利要求8所述的装置,其特征在于,所述裂变词确定单元进一步用于从所述预 设语料中提取包含所述裂变模集合中的任一裂变模式的句子,并提取该句子中裂变词位置 所对应的词语;以及,用于计算所述裂变词的位置所对应的词语的第二置信度和该词语的 所属裂变模式到该词语的第二支持度,以根据所述第二置信度和所述第二支持度将所述词 语作为裂变词加入到裂变词集合中。10. 根据权利要求7至9任一项所述的装置,其特征在于,所述装置还包括: 集合初始化单元,用于初始化所述裂变词集合,并向初始化后的所述裂变词集合中添 加若干疑问句的裂变词和词组作为预设裂变词;以及, 用于初始化所述裂变模集合,以将所述裂变模集合设置为空集合。
【文档编号】G06F17/27GK106095956SQ201610425294
【公开日】2016年11月9日
【申请日】2016年6月15日
【发明人】郭祥, 郭瑞
【申请人】北京智能管家科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1