本发明涉及数据处理技术领域,尤其涉及一种基于迭代的同义词挖掘方法及装置。
背景技术:
随着科技的发展和社会的进步,手机、平板电脑、智能机器人等智能终端日益成为了人们学习和工作中不可缺少的工具。通过问答交互来查找想要的内容是智能终端的重要功能之一。
当用户在描述问题时,为了能够将与用户所输入(包括语音方式)query的同义词相匹配的结果也包含在交互反馈中召回,会用到基于同义词的搜请求(query)扩展,即在利用query进行搜索的同时也利用query的同义词进行搜索。为了在智能问答的交互中应用该技术,同义词的挖掘是非常重要的基础工作。
现有的同义词挖掘方式通过计算语料库中各词语之间的相关概率来进行同义词挖掘,但这种方式需要对语料库中的词语两两进行计算,效率很低。此外,基于模板的挖掘方式需要人工配置模板,挖掘的同义词准确率低;基于VSM(Vector Space Model,向量空间模型)的挖掘方式前期工作量大,且挖掘结果准确率低;基于语义向量的挖掘方式需要大量数据和人工经验。
技术实现要素:
针对现有基于模板、基于VSM或基于语义向量的同义词挖掘方法所存在的上述缺陷,本发明提出如下技术方案:
一种基于迭代的同义词挖掘方法,包括:
根据用户输入的用于获取答案的问题语料获取同义语对;其中,所述同义语对为具有相同语义的语句所构成的语句组合;
根据所述同义语对中词语的一一对应关系获取第一候选同义词组;
根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组;
根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果。
可选地,所述根据用户输入的用于获取答案的问题语料获取同义语对,包括:
将所述问题语料扩展成向量,并将具有相同维度的所述向量对应的问题语料确定为同义语对;其中,所述向量的维度为所述问题语料的答案。
可选地,所述将所述问题语料扩展成向量,包括:
根据单词-向量word2vec处理技术或hownet词汇知识库将所述问题语料扩展成向量。
可选地,所述根据用户输入的用于获取答案的问题语料获取同义语对,包括:
根据用户为获取更感兴趣的答案而连续输入的不同问题语料获取同义语对。
可选地,所述根据用户为获取更感兴趣的答案而连续输入的不同问题语料获取同义语对,包括:
根据所述不同问题语料的重叠字词所占比例、语法结构相似度和/或问题目标分类结果从所述不同问题语料中获取同义语对。
可选地,所述根据用户输入的用于获取答案的问题语料获取同义语对,包括:
对所述用户输入的用于获取答案的问题语料进行模式识别,以根据模式识别的结果将具有逻辑性的不同所述问题语料确定为同义语对。
可选地,所述对所述用户输入的用于获取答案的问题语料进行模式识别,还包括:
判断所述问题语料是否汇总于一个封闭集合。
可选地,所述根据所述第一候选同义词组和所述第二候选同义词组更新词典中同义词的对齐结果,包括:
将新产生的同义词对加入所述词典,并为所述同义句对中未对齐的词语构建对齐关系。
一种基于迭代的同义词挖掘装置,包括:
同义语对获取单元,用于根据用户输入的用于获取答案的问题语料获取同义语对;其中,所述同义语对为具有相同语义的语句所构成的语句组合;
第一词组获取单元,用于根据所述同义语对中词语的一一对应关系获取第一候选同义词组;
第二词组获取单元,用于根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组;
对齐结果更新单元,用于根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果。
可选地,所述同义语对获取单元进一步用于:
将所述问题语料扩展成向量,并将具有相同维度的所述向量对应的问题语料确定为同义语对;其中,所述向量的维度为所述问题语料的答案;或,
根据用户为获取更感兴趣的答案而连续输入的不同问题语料获取同义语对;或,
对所述用户输入的用于获取答案的问题语料进行模式识别,以根据模式识别的结果将具有逻辑性的不同所述问题语料确定为同义语对。
本发明的基于迭代的同义词挖掘方法及装置,根据用户输入问题语料获取同义语对,并根据所述同义语对中词语的一一对应关系获取第一候选同义词组,以根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组,进而根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果,不需要基于模板、VSM或语义向量对同义词语进行挖掘,可以有效增加同义词的挖掘数量,进而提升语义匹配的准确率和召回率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例的基于迭代的同义词挖掘方法的流程示意图;
图2为本发明一个实施例的基于迭代的同义词挖掘装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一个实施例的基于迭代的同义词挖掘方法的流程示意图;如图1所示,该方法包括:
S1:根据用户输入的用于获取答案的问题语料获取同义语对;其中,所述同义语对为具有相同语义的语句所构成的语句组合;
举例来说,例如用户输入的用于获取答案的问题语料为“北京出租车租赁”、“北京的士租赁”;
在此基础上,根据上述用户输入的问题语料获取具有相同语义的同义语对。
S2:根据所述同义语对中词语的一一对应关系获取第一候选同义词组;
具体地,通过将上述获取的同义语对进行最精确的一对一对齐,即将上述句对进行分词处理后,将句对中的原句和目标句进行对应,并将两侧分别剩余的一个未对齐的词语进行对齐。例如,将上述同义句对中的原句“北京出租车租赁”以及目标句“北京的士租赁”进行分词处理所得结果为“北京/出租车/租赁”、“北京/的士/租赁”;进而,将该原句和目标句进行对应,则两侧分别剩余的一个未对齐的词语为“出租车”和“的士”,将这两个词对齐(即构建对齐关系),以获取第一候选同义词组。
可以理解的是,若对同义词的质量要求较高,还可以根据同义词组的对齐频次或抽取上下文优化上述同义词组。
S3:根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组;
可以理解的是,根据上述步骤S2可以确定的第一候选同义词组为“出租车-的士”;
因而可根据上述第一候选同一词组从更多同义语对,如“北京出租车租赁”及“北京的士出租”中迭代抽取第二候选同义词组;即根据“出租车-的士”的对应关系对上述同义语对进行分词处理以对应,即可抽取到第二候选同义词组“租赁-出租”。
S4:根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果。
可以理解的是,在每执行一次上述步骤后,根据上述第一候选同义词组和第二候选同义词组的获取结果,对同义词词典中的对齐结果进行更新处理,并可以循环执行上述步骤S2至步骤S4多次,直至不再出现新的对齐结果。
本实施例的基于迭代的同义词挖掘方法,根据用户输入问题语料获取同义语对,并根据所述同义语对中词语的一一对应关系获取第一候选同义词组,以根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组,进而根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果,不需要基于模板、VSM或语义向量对同义词语进行挖掘,可以有效增加同义词的挖掘数量,进而提升语义匹配的准确率和召回率。
作为另一优选的实施例,步骤S1中根据用户输入的用于获取答案的问题语料获取同义语对,可进一步包括:
S11:将所述问题语料扩展成向量,并将具有相同维度的所述向量对应的问题语料确定为同义语对;其中,所述向量的维度为所述问题语料的答案;
进一步地,作为本实施例的优选,上述将所述问题语料扩展成向量具体可以包括:
根据单词-向量word2vec处理技术或hownet词汇知识库将所述问题语料扩展成向量。
作为另一实施例的优选,步骤S1中所述根据用户输入的用于获取答案的问题语料获取同义语对,包括:
S12:根据用户为获取更感兴趣的答案而连续输入的不同问题语料获取同义语对。
具体来说,若用户对获取到的搜索答案不敢兴趣(即不满意)时,通常会将搜索的问题语句按照语义进行变换(例如改变句型、概括语义等),因而可以将用户输入的原始问题语句与变换后的问题语句作为同义语对。
进一步地,作为本实施例的优选,上述根据用户为获取更感兴趣的答案而连续输入的不同问题语料获取同义语对,可以包括:
根据所述不同问题语料的重叠字词所占比例、语法结构相似度和/或问题目标分类结果从所述不同问题语料中获取同义语对。
例如根据用户连续输入的问题语句“刘德华的籍贯是哪里”、“刘德华的家乡是哪里”,可以计算出重叠字词“刘德华”、“的”、“是”、“哪里”;语法的结构相同(均为名称性物主代词+名词+动词+疑问性代词);问题的目标分类相同(均为地点类查询);可以根据上述内容中的任一项或多项的组合进一步筛选获取同义语对。
作为另一实施例的优选,步骤S1中所述根据用户输入的用于获取答案的问题语料获取同义语对,包括:
S13:对所述用户输入的用于获取答案的问题语料进行模式识别,以根据模式识别的结果将具有逻辑性的不同所述问题语料确定为同义语对。
进一步地,作为本实施例的优选,上述对所述用户输入的用于获取答案的问题语料进行模式识别,还可以包括:
判断所述问题语料是否汇总于一个封闭集合。
具体来说,在现实中的部分场景,用户搜索的不同问题之间是存在逻辑性的,并且这些问题可能汇总于一个封闭集合中(即对应于同一答案的问题数量是有限的)。通过这种特性,在有相同问题的序列中启发式的抽取不同问题,进而提取同义局对。
需要说明的是,上述的序列包括但不限于系统中存储的搜索日志文件,进而上述启发式的抽取不同问题可以基于历史统计结果、经验知识等进行。
进一步地,在上述各方法实施例的基础上,步骤S2中所述根据所述第一候选同义词组和所述第二候选同义词组更新词典中同义词的对齐结果,可以包括:
S21:将新产生的同义词对加入所述词典,并为所述同义句对中未对齐的词语构建对齐关系。
图2为本发明一个实施例的基于迭代的同义词挖掘装置的结构示意图;如图2所示,该装置包括同义语对获取单元10、第一词组获取单元20、第二词组获取单元30以及对齐结果更新单元40,其中:
同义语对获取单元10用于根据用户输入的用于获取答案的问题语料获取同义语对;其中,所述同义语对为具有相同语义的语句所构成的语句组合;
第一词组获取单元20用于根据所述同义语对中词语的一一对应关系获取第一候选同义词组;
第二词组获取单元30用于根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组;
对齐结果更新单元40用于根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果。
具体地,同义语对获取单元10根据用户输入的用于获取答案的问题语料获取同义语对;第一词组获取单元20根据所述同义语对中词语的一一对应关系获取第一候选同义词组;第二词组获取单元30根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组;对齐结果更新单元40根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果。
本实施例的基于迭代的同义词挖掘装置,根据用户输入问题语料获取同义语对,并根据所述同义语对中词语的一一对应关系获取第一候选同义词组,以根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组,进而根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果,不需要基于模板、VSM或语义向量对同义词语进行挖掘,可以有效增加同义词的挖掘数量,进而提升语义匹配的准确率和召回率。
进一步地,作为上述装置实施例的优选,同义语对获取单元10可用于:
将所述问题语料扩展成向量,并将具有相同维度的所述向量对应的问题语料确定为同义语对;其中,所述向量的维度为所述问题语料的答案;或,
根据用户为获取更感兴趣的答案而连续输入的不同问题语料获取同义语对;或,
对所述用户输入的用于获取答案的问题语料进行模式识别,以根据模式识别的结果将具有逻辑性的不同所述问题语料确定为同义语对。
本实施例所述的装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。