一种同义词语义映射关系确定方法及装置的制作方法

文档序号:6432891研发日期:2011年阅读:344来源:国知局
技术简介:
本专利针对传统同义词挖掘方法在文档资源中存在映射关系不准确、覆盖不足的问题,提出通过用户行为日志和文档内容分析获取同义词词对,结合上下文特征向量验证关系,确定双向/单向映射方向,并构建收敛性树结构,从而提升搜索结果的全面性与准确性。
关键词:同义词映射,文档分析,树结构
专利名称:一种同义词语义映射关系确定方法及装置的制作方法
一种同义词语义映射关系确定方法及装置技术领域
本申请涉及计算机应用技术领域,特别是涉及一种同义词语义映射关系确定方法及装置。
背景技术
随着搜索引擎的发展,传统的基于关键词匹配的策略已经无法满足用户的搜索需求,语义匹配策略已经广泛应用于现代搜索引擎中。同义词,是指词条名称不同但这些词条所指代的含义或某个义项所指代的含义相同的词条。作为一种语义匹配资源,同义词在现代搜索引擎中占据着重要的地位。例如,“北京大学”和“北大”构成同义词,则当用户以关键词“北京大学”进行搜索时,搜索引擎能够将包含“北大”相关内容的资源也作为搜索结果展现给用户。
同义词关系往往不仅限存在于两个词之间,例如“哈尔滨工程大学”、“哈尔滨工程学院”、“哈尔滨军工大学”、“哈尔滨船舶学院”、“哈工大”、“哈军工”、“哈船舶”......这些词彼此之间都可以构成同义词,对于这种情况,将这些具有同一词义的多个同义词称为一个同义词簇。
根据现有的同义词资源处理方法,是在已知的同义词对之间两两建立映射关系。 例如对于上述7个同义词,理论上应存在C〗=21组映射关系,然而在实际应用中,同义词资源需要从大量的语料资源中挖掘获得,很多同义词关系可能难以挖掘到,例如“哈尔滨军工大学-哈军工”是一组容易挖掘到的同义词关系,但是“哈尔滨船舶学院-哈军工”这样的关系可能很难被挖掘到,造成同义词簇内映射关系的缺失,进而影响搜索结果的全面性。
发明内容
为解决上述技术问题,本申请实施例提供一种同义词语义映射关系确定方法及装置,以提高同义词映射资源的完整性,技术方案如下
本申请提供一种同义词语义映射关系确定方法,包括
获取对文档资源进行挖掘得到的各组同义词词对;
对于每一组同义词词对,确定两个同义词的映射方向;
遍历所有同义词词对,根据所确定的映射方向,建立同义词映射关系树,其中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;
判断所述同义词映射关系树的收敛程度是否满足预设要求,如果是,则确定该同义词映射关系树收敛到的叶子节点,并确定该叶子节点与其他节点存在同义词映射关系。
在本申请的一种实现方式中,所述对文档资源进行挖掘得到同义词词对,包括
根据用户行为日志中,用户连续使用的搜索关键词,获得同义词词对。
在本申请的一种实现方式中,所述对文档资源进行挖掘得到同义词词对,包括
根据用户行为日志中,搜索请求与点击网页内容的对应关系,获得同义词词对。
在本申请的一种实现方式中,所述对文档资源进行挖掘得到同义词词对,包括
根据用户行为日志中,点击进入同一网页所对应的不同搜索请求,获得同义词词 对。
在本申请的一种实现方式中,所述对文档资源进行挖掘得到同义词词对,包括
利用预置的同义词模板与文档内容进行匹配,获得同义词词对。
在本申请的一种实现方式中,在获取同义词词对之后、确定同义词映射方向之前, 还包括
对所获取的同义词词对进行同义词关系验证。
在本申请的一种实现方式中,所述对同义词词对进行同义词关系验证,包括
分别利用两个同义词的上下文特征词构成特征向量,根据两个特征向量的相似度 验证同义词关系。
在本申请的一种实现方式中,所述确定两个同义词的映射方向,包括
对于双向可替换同义词,统计两个同义词在文档资源中的出现频率,将低频词到 高频词的方向确定为所述两个同义词的映射方向,所述双向可替换同义词为根据文档资 源能够挖掘出双向替换关系的同义词。
在本申请的一种实现方式中,所述确定两个同义词的映射方向,包括
对于单向可替换同义词,将同义词的替换方向确定为所述两个同义词的映射方 向;所述单向可替换同义词为根据文档资源仅能挖掘出单向替换关系的同义词。
在本申请的一种实现方式中,所述判断所述同义词映射关系树的收敛程度是否满 足预设要求,包括
判断所述所述同义词映射关系树是否收敛于相同的叶子节点,如果是,则确定该 同义词映射关系树收敛到该叶子节点,并确定该叶子节点与其他节点存在同义词映射关 系O
在本申请的一种实现方式中,所述判断所述同义词映射关系树的收敛程度是否满 足预设要求,包括
判断出现次数最多的叶子节点数目与叶子节点总数的比值是否大于预置的阈值; 如果是,则进一步对该叶子节点和其他叶子节点分别进行同义词关系验证,如果满足验证 条件,则确定该同义词映射关系树收敛到所述出现次数最多的叶子节点。
本申请还提供一种同义词语义映射关系确定装置,其特征在于,包括
同义词词对获取模块,用于获取对文档资源进行挖掘得到的各组同义词词对;
映射方向确定模块,用于对于每一组同义词词对,确定两个同义词的映射方向;
关系树构建模块,用于遍历所有同义词词对,根据所确定的映射方向,建立同义词 映射关系树,其中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;
映射关系确定模块,用于判断所述同义词映射关系树的收敛程度是否满足预设要 求,如果是,则确定该同义词映射关系树收敛到的叶子节点,并确定该叶子节点与其他节点 存在同义词映射关系。
在本申请的一种实现方式中,所述同义词词对获取模块,具体配置为
用于根据用户行为日志中,用户连续使用的搜索关键词,获得同义词词对。
在本申请的一种实现方式中,所述同义词词对获取模块,具体配置为
用于根据用户行为日志中,搜索请求与点击网页内容的对应关系,获得同义词词对。
在本申请的一种实现方式中,所述同义词词对获取模块,具体配置为
用于根据用户行为日志中,点击进入同一网页所对应的不同搜索请求,获得同义 词词对。
在本申请的一种实现方式中,所述同义词词对获取模块,具体配置为
用于利用预置的同义词模板与文档内容进行匹配,获得同义词词对。
在本申请的一种实现方式中,所述装置还包括
同义关系验证模块,用于在所述同义词词对获取模块获取同义词词对之后、所述 映射方向确定模块确定同义词映射方向之前,对所述同义词词对获取模块所获得的同义词 词对进行同义词关系验证。
在本申请的一种实现方式中,所述同义关系验证模块,具体配置为
用于分别利用两个同义词的上下文特征词构成特征向量,根据两个特征向量的相 似度验证同义词关系。
在本申请的一种实现方式中,所述映射方向确定模块,具体配置为
对于双向可替换同义词,统计两个同义词在文档资源中的出现频率,将低频词到 高频词的方向确定为所述两个同义词的映射方向,所述双向可替换同义词为根据文档资 源能够挖掘出双向替换关系的同义词。
在本申请的一种实现方式中,所述映射方向确定模块,具体配置为
对于单向可替换同义词,将同义词的替换方向确定为所述两个同义词的映射方 向;所述单向可替换同义词为根据文档资源仅能挖掘出单向替换关系的同义词。
在本申请的一种实现方式中,所述映射关系确定模块,具体配置为
用于判断所述所述同义词映射关系树是否收敛于相同的叶子节点,如果是,则确 定该同义词映射关系树收敛到该叶子节点。
在本申请的一种实现方式中,所述映射关系确定模块,具体配置为
用于判断出现次数最多的叶子节点数目与叶子节点总数的比值是否大于预置的 阈值;如果是,则进一步对该叶子节点和其他叶子节点分别进行同义词关系验证,如果满足 验证条件,则确定该同义词映射关系树收敛到所述出现次数最多的叶子节点。
本申请所提供的技术方案,根据同义词的映射方向建立同义词映射关系树,将多 组同义词词对以树形结构的方式组织起来,从而对同义词簇中潜在的映射关系进行挖掘。 应用本申请技术方案,可以从有限的文档资源中获取更多的同义词簇内映射关系,从而提 高利用同义词映射关系召回搜索结果的全面性。


为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他 的附图。
图1为本申请实施例同义词语义映射关系确定方法的第一种流程示意图2为本申请实施例同义词映射关系树的第一种示意图3为本申请实施例同义词语义映射关系确定方法的第二种流程示意图4为本申请实施例同义词映射关系树的第二种示意图5为本申请实施例同义词映射关系树的第三种示意图6为本申请实施例同义词语义映射关系确定装置的第一种结构示意图7为本申请实施例同义词语义映射关系确定装置的第二种结构示意图。
具体实施方式
首先对本申请所提供的一种同义词语义映射关系确定方法进行说明,该方法可以 包括以下步骤
获取对文档资源进行挖掘得到的各组同义词词对;
对于每一组同义词词对,确定两个同义词的映射方向;
遍历所有同义词词对,根据所确定的映射方向,建立同义词映射关系树,其中,每 组映射的起点和终点分别对应于树形结构的父节点和子节点;
判断所述同义词映射关系树的收敛程度是否满足预设要求,如果是,则确定该同 义词映射关系树收敛到的叶子节点,并确定该叶子节点与其他节点存在同义词映射关系。
本申请所提供的技术方案,根据同义词的映射方向建立同义词映射关系树,将多 组同义词词对以树形结构的方式组织起来,从而对同义词簇中潜在的映射关系进行挖掘。 应用本申请技术方案,可以从有限的文档资源中获取更多的同义词簇内映射关系,从而提 高利用同义词映射关系召回搜索结果的全面性。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实 施例中的附图,对本申请实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅 是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人 员所获得的所有其他实施例,都应当属于本申请保护的范围。
图1所示为本申请实施例一种同义词语义映射关系确定方法的流程图,包括以下 步骤
S101,获取对文档资源进行挖掘得到的各组同义词词对;
本申请所提供的技术方案,首先从现有的文档资源获取同义词词对资源。这里的 文档资源可以是网页上的内容,也可以是文本文件中的内容,也可以是用户的行为日志,等 等。通过对这些文档内容的挖掘,可以得到大量的同义词词对。
本申请实施例提供以下几种对文档内容进行挖掘,从而自动获得同义词词对的实 现方案
I)根据用户行为日志中,用户连续使用的搜索关键词,获得同义词词对。
一般来说,用户在搜索过程中,为了得到更多的搜索结果,可能会针对同一主题, 尝试使用不同形式的搜索关键词进行搜索,那么,在这些不同形式的搜索关键词中,就可能 存在同义词。用户的这种搜索行为记录在行为日志的表现为搜索间隔的时间较短,并且搜 索关键词的本身具有相同或相似的部分。例如,用户连续采用关键词“耐克运动鞋”与“NIKE 运动鞋”进行搜索,这种情况下就可以认为“NIKE”与“耐克”可以构成一组同义词。通过对 用户行为日志中这类数据进行挖掘,就可以得到大量的潜在的同义词词对。
2)根据用户行为日志中,搜索请求与点击网页内容的对应关系,获得同义词词对。
用户向系统提交一个搜索请求后,系统会将相应的搜索结果展现给用户,而用户对搜索结果的点击行为,则表示用户对搜索请求与搜索结果相关性的认可。此时可以认为用户的搜索请求与网页内容中存在着同义词。例如,用户使用关键词“北大医院”进行搜索, 并且进一步点击了主题为“北京大学医院”的网页,这种情况下就可以认为“北大医院”与 “北京大学医院”可以构成一组同义词。因此,在实际应用中,通过收集搜索请求与点击网页特定部分(例如标题部分)的内容,然后再进行词对齐处理,就可以得到潜在的同义词词对。
3)根据用户行为日志中,点击进入同一网页所对应的不同搜索请求,获得同义词词对。
对于一个网页而言,用户访问该网页可能是通过不同的途径。其中,在通过搜索访问到该网页的情况下,不同的用户可能是采用不同的搜索请求从而获得该网页链接并点击进入的。那么,这些不同的搜索请求中,也可能存在着同义词。
例如,对应百度百科“赛尔号”的网页,通过统计大量用户的行为日志,可以得到用户点击该网页所使用的高频率搜索关键词包括“赛尔号”、“塞尔号”、“塞亚号”等等,那么, 可以将使用频率超过一定阈值的这类搜索关键词都看作是潜在的同义词。
4)利用预置的同义词模板与文档内容进行匹配,获得同义词词对。
除了基于用户的行为进行同义词挖掘之外,还可以预先定义一些常用于表示同义词的模板,例如“A简称B”、“A全称是B”等等,然后分别利用这些模板与文档的内容进行匹配,从而获得同义词词对。
以上例举了几种根据已有的文档资源进行同义词挖掘的方案,当然,本领域技术人员还可以采用其他方式获得同义词词对,本申请对此并不需要进行限定。
在本申请的一种实施方式中,获得同义词词对之后,还可以进一步对同义词关系进行验证。其中,验证可以采用人工的方式,将明显不符合要求的词对排除。也可以通过对比两个词所在语言环境的相似程度,实现对同义词关系的自动验证。
在具体实施过程中,可以分别利用两个同义词的上下文特征词构成特征向量,然后利用余弦夹角公式计算两个向量的相似度,如果相似度大于预设的阈值,则验证通过。例如,在“耐克”上文出现的高频特征词包括{喜欢,购买,正品,网上},在下文出现的高频特征词包括{运动鞋,板鞋,篮球鞋,品牌,公司,专卖店},而“NIKE”所对应的上文和下文信息和“耐克”基本类似,因此可以认为“NIKE”和“耐克”的同义词关系验证通过。
除了对比上下文特征之外,本领域技术人员还可以采用其他的方式对同义词关系进行验证。例如,利用两个候选词进行搜索,通过对比搜索结果中特征词的相似度对同义词关系进彳了验证,等等。
S102,对于每一组同义词词对,确定两个同义词的映射方向;
本申请方案是以树形结构来表示多个同义词的关系,由于树是有方向性的,因此, 对于每一组同义词词对,需要首先确定两个同义词的在树形结构中的映射方向。
一般来说,从步骤SlOl所挖掘获得的同义词中,有多数是根据文档资源能够挖掘出双向替换关系的,这类同义词称为双向可替换同义词,例如“NIKE”和“耐克”。对于双向可替换同义词,首先统计这两个同义词在文档资源中的出现频率,然后将低频词到高频词的方向确定为两个同义词的映射方向。
如果在步骤SlOl中,根据文档资源仅能挖掘出单向替换关系,例如,采用“简称”、 “全称”这类模板挖掘出的同义词词对,并且该同义词词对没有对应的资源支持其反向替换关系,则将这类同义词称为单向可替换同义词。对于,单向可替换同义词,直接将同义词的替换方向确定为所述两个同义词的映射方向;例如,根据“北京大学医院简称北大医院”可确定“北京大学医院一北大医院”的替换关系,同时在文档资源里又没有其他信息可以支持反向的替换关系,因此,认为这两个词构成单向可替换同义词,并且将“北京大学医院一北大医院”确定为两个同义词的映射方向。
在实际应用中,有些同义词存在歧义替换,例如“山东大学”和“山西大学”都可以替换为“山大”,但是反过来,“山大”进行同义替换时就存在歧义,这类同义词会影响搜索结果的准确性。因此,在本申请的一种优选的实施方式中,还可以判断所挖掘的同义词是否存在歧义替换,即判断一个候选词是否存在多个可替换的同义词,如果是,则丢弃该同义词词对,不在后续生成同义词映射关系树的过程中使用。
S103,遍历所有同义词词对,根据所确定的映射方向,建立同义词映射关系树,其中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;
在本步骤中,对于已确定映射方向的多个同义词词对,按照同义词级联的方式,采用深度优先的遍历方法建立同义词映射关系树。具体方法是首先选取目前尚不属于同义词映射关系树的任意一组同义词词对,根据已确定的映射方向,将映射起点作为根节点,映射终点作为该根节点的子节点。如果根节点还存在其他同义词,并且根节点处于映射方向的起点位置,则继续建立其他分支。同理,如果子节点还存在其他同义词,并且该子节点处于映射方向的起点位置,则继续针对该子节点对树进行延伸......重复以上步骤,直到遍历所有的同义词词对。其中每组映射的起点和终点都分别对应于树形结构的父节点和子节点,最终形成一棵同义词语义映射关系树。
假设当前存在以下八组同义词词对(映射方向均为由前到后)
A-B, B-C, B-D, C-E, C-F, D-G, F-E, G-E,
首先选择A-B这一组,根据映射关系,将A作为根节点,B作为A的子节点。然后, 根据B-C,B-D又可以确定B和C、B和D的父子关系......以此类推,最终建成的同义词映射关系树如图2所示。
S104,判断所述同义词映射关系树是否收敛于相同的叶子节点,如果是,则确定该同义词映射关系树收敛到该叶子节点,并确定该叶子节点与其他节点存在同义词映射关系O
本步骤是判断在S103所建成的同义词映射关系树的叶子节点是否唯一,如果是, 则树收敛于唯一的叶子节点,此时可以确定该叶子节点与其他节点存在同义词映射关系。
以图2为例,同义词映射关系树共有3个叶子节点,并且都是E,因此该树收敛于叶子节点E,可以确定A-E,B-E, C-E, D-E, F-E, G-E存在同义词映射关系。并且可以进一步确定,该树所有的节点之间彼此都存在映射关系。可见,对于A E这7个同义词,理论上应存在C〗=21组映射关系,除去可以根据现有文本挖掘到的8组关系,应用本申请技术方案, 还可以进一步挖掘到其他隐含的同义词关系,例如A-C,A-E,A-D, B-E, B-F, B-G等。
应用上述方法,对于所有的同义词建成不同的树并判断收敛之后,对于每棵同义词映射关系树,可以保存每组“非叶子节点-叶子节点”的对应关系,然后通过去重处理,最终生成整个语义映射文件。例如,对于图2所示的同义词映射关系树,将保存“A-E,B-E, C-E,D-E,F-E,G-E ”这6组关系。可见,对于21组关系可以仅通过“A-E,B-E,C-E,D-E,F-E, G-E”这6组关系完备描述,也可以有效减小语义映射文件的体积。
对于所有出现A、B、C、D、F或G的网页,系统都可以对应建立E的语义索引。在搜 索时,假如用户以关键词A进行搜索,那么系统首先会根据A-E的关系,将搜索映射到E上, 然后进一步E的其他同义词关系,从而将所有包含A、B、C、D、E、F或G相关内容的资源都作 为搜索结果展现给用户,从而提高了搜索结果的全面性。
图3所示为本申请所提供的同义词语义映射关系确定方法的另一种流程示意图, 包括以下步骤
S201,获取对文档资源进行挖掘得到的各组同义词词对;
S202,对于每一组同义词词对,确定两个同义词的映射方向;
S203,遍历所有同义词词对,根据所确定的映射方向,建立同义词映射关系树,其 中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;
其中步骤S201-S203与步骤S101-S103类似,这里不再重复描述。
S204,判断所述同义词映射关系树是否收敛于相同的叶子节点,如果是,执行 S205,否则执行S206。
S205,确定该同义词映射关系树收敛到该叶子节点,并确定该叶子节点与其他节 点存在同义词映射关系。
S206,判断出现次数最多的叶子节点数目与叶子节点总数的比值是否大于预置的 阈值,如果是,执行207 ;
如图4所示,同义词映射关系树并没有收敛至相同的节点,此时如果判断出出现 次数最多的叶子节点所有叶子节点中占有一定的比例,则可以对不收敛的节点做进一步的 处理。如果没有达到要求的比例,可以放弃当前的同义词映射关系树。
假设预先设置的阈值为O. 7,如图3所示的同义词映射关系树共有4个叶子节点, 其中E出现的次数最多(3次),并且在所有节点中占的比例达到了 O. 75,满足了阈值要求, 因此可以进一步执行S207。
S207,对该叶子节点和其他叶子节点分别进行同义词关系验证。
如图3所示,对出现次数最多的叶子节点和其他叶子节点分别进行同义词关系验 证,如图3所示,出现次数最多的叶子节点为E,其他叶子节点为H。这里可以采用与步骤 SlOl中类似的同义词验证方式,如果满足验证条件,则进一步执行S208。
S208,确定该同义词映射关系树收敛到出现次数最多的叶子节点,并且确定该叶 子节点与其他节点存在同义词映射关系。
如果在S207中,出现次数最多的叶子节点和其他叶子节点之间均满足同义词验 证条件,此时可以确定该叶子节点与其他叶子节点存在同义词映射关系,并且确定该叶子 节点与其他非叶子节点存在同义词映射关系。如图4所示,如果叶子节点E和H满足同义词 验证条件,那么可以确定E和H存在同义词映射关系,此外还可以确定A-E,B-E, C-E, D-E, F-E, G-E存在同义词映射关系。可见,该方案实际是将满足一定条件的非收敛同义词映射 关系树也当作收敛树进行处理,并且确定非收敛叶子节点(例如H)与收敛叶子节点(例如 E)之间的同义词映射关系,以及确认敛叶子节点(例如E)与非叶子节点(A、B、C、D、E、F、G)的关系。
在本申请的另一种实现方式中,如果在步骤S206中,出现次数最多的叶子节点数 目没有在所有叶子节点中达到要求的比例,此时可以对叶子节点较为分散的子树向上回 溯,通常可以回溯I 2层,然后以回溯后的节点作为叶子节点,重新判断是否满足阈值,如 果满足,可以以回溯后树的形式进一步执行后续步骤,而在回溯过程中抛弃掉的节点可以 作为单独的同义词进行处理。
如图5左侧图所示,E出现的次数最多,并且在所有节点中占的比例达到了 O. 6,没 有满足阈值要求。于是对较为分散的叶子节点I和J进行回溯,变为如图5右侧图所示,此 时E所有节点中占的比例达到了 O. 75,满足了阈值要求,因此可以进一步执行后续步骤。而 H-1与H-J可以作为单独的同义词进行处理。
相应于上面的方法实施例,本申请还提供一种同义词语义映射关系确定装置,参 见图6所示,该装置可以包括
同义词词对获取模块610,用于获取对文档资源进行挖掘得到的各组同义词词 对;
映射方向确定模块620,用于对于每一组同义词词对,确定两个同义词的映射方 向;
关系树构建模块630,用于遍历所有同义词词对,根据所确定的映射方向,建立同 义词映射关系树,其中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;
映射关系确定模块640,用于判断所述同义词映射关系树的收敛程度是否满足预 设要求,如果是,则确定该同义词映射关系树收敛到的叶子节点,并确定该叶子节点与其他 节点存在同义词映射关系。
以下对本申请所提供的同义词语义映射关系确定装置的工作原理进行详细介 绍
同义词词对获取模块610首先从现有的文档资源获取同义词词对资源。这里的 文档资源可以是网页上的内容,也可以是文本文件中的内容,也可以是用户的行为日志,等 等。通过对这些文档内容的挖掘,可以得到大量的同义词词对。
在本申请的一种实施方式中,所述同义词词对获取模块610,可以具体配置为
用于根据用户行为日志中,用户连续使用的搜索关键词,获得同义词词对。
一般来说,用户在搜索过程中,为了得到更多的搜索结果,可能会针对同一主题, 尝试使用不同形式的搜索关键词进行搜索,那么,在这些不同形式的搜索关键词中,就可能 存在同义词。用户的这种搜索行为记录在行为日志的表现为搜索间隔的时间较短,并且搜 索关键词的本身具有相同或相似的部分。例如,用户连续采用关键词“耐克运动鞋”与“NIKE 运动鞋”进行搜索,这种情况下就可以认为“NIKE”与“耐克”可以构成一组同义词。通过对 用户行为日志中这类数据进行挖掘,就可以得到大量的潜在的同义词词对。
在本申请的一种实施方式中,所述同义词词对获取模块610,可以具体配置为
用于根据用户行为日志中,搜索请求与点击网页内容的对应关系,获得同义词词 对。
用户向系统提交一个搜索请求后,系统会将相应的搜索结果展现给用户,而用户 对搜索结果的点击行为,则表示用户对搜索请求与搜索结果相关性的认可。此时可以认为用户的搜索请求与网页内容中存在着同义词。例如,用户使用关键词“北大医院”进行搜索, 并且进一步点击了主题为“北京大学医院”的网页,这种情况下就可以认为“北大医院”与 “北京大学医院”可以构成一组同义词。因此,在实际应用中,通过收集搜索请求与点击网页特定部分(例如标题部分)的内容,然后再进行词对齐处理,就可以得到潜在的同义词词对。
在本申请的一种实施方式中,所述同义词词对获取模块610,可以具体配置为
用于根据用户行为日志中,点击进入同一网页所对应的不同搜索请求,获得同义词词对。
对于一个网页而言,用户访问该网页可能是通过不同的途径。其中,在通过搜索访问到该网页的情况下,不同的用户可能是采用不同的搜索请求从而获得该网页链接并点击进入的。那么,这些不同的搜索请求中,也可能存在着同义词。
例如,对应百度百科“赛尔号”的网页,通过统计大量用户的行为日志,可以得到用户点击该网页所使用的高频率搜索关键词包括“赛尔号”、“塞尔号”、“塞亚号”等等,那么, 可以将使用频率超过一定阈值的这类搜索关键词都看作是潜在的同义词。
在本申请的一种实施方式中,所述同义词词对获取模块610,可以具体配置为
用于利用预置的同义词模板与文档内容进行匹配,获得同义词词对。
除了基于用户的行为进行同义词挖掘之外,还可以预先定义一些常用于表示同义词的模板,例如“A简称B”、“A全称是B”等等,然后分别利用这些模板与文档的内容进行匹配,从而获得同义词词对。
参见图7所示,本申请所提供的同义词语义映射关系确定装置,还可以进一步包括
同义关系验证模块650,用于在所述同义词词对获取模块610获得同义词词对之后、所述映射方向确定模块620确定同义词映射方向之前,对所述同义词词对获取模块所获得的同义词词对进行同义词关系验证。
其中,所述同义关系验证模块650,可以具体配置为
用于分别利用两个同义词的上下文特征词构成特征向量,根据两个特征向量的相似度验证同义词关系。
在具体实施过程中可以分别利用两个同义词的上下文特征词构成特征向量,然后利用余弦夹角公式计算两个向量的相似度,如果相似度大于预设的阈值,则验证通过。例如,在“耐克”上文出现的高频特征词包括{喜欢,购买,正品,网上},在下文出现的高频特征词包括{运动鞋,板鞋,篮球鞋,品牌,公司,专卖店},而“NIKE”所对应的上文和下文信息和“耐克”基本类似,因此可以认为“NIKE”和“耐克”的同义词关系验证通过。
除了对比上下文特征之外,本领域技术人员还可以采用其他的方式对同义词关系进行验证。例如,利用两个候选词进行搜索,通过对比搜索结果中特征词的相似度对同义词关系进彳了验证,等等。
此外,同义关系验证模块650也可以采用其他的方式对同义词关系进行验证。例如,利用两个候选词进行搜索,通过对比搜索结果中特征词的相似度对同义词关系进行验证坐坐 T-1l -rf* -rf* ο
在同义词词对获取模块610得到同义词词对之后,对于每一组同义词词对,由映射方向确定模块620确定两个同义词的在树形结构中的映射方向。
在本申请的一种实施方式中,所述映射方向确定模块620,可以具体配置为
对于双向可替换同义词,统计两个同义词在文档资源中的出现频率,将低频词到 高频词的方向确定为所述两个同义词的映射方向,所述双向可替换同义词为根据文档资 源能够挖掘出双向替换关系的同义词。
一般来说,挖掘获得的同义词中,有多数是根据文档资源能够挖掘出双向替换关 系的,这类同义词称为双向可替换同义词,例如“NIKE”和“耐克”。对于双向可替换同义词, 映射方向确定模块620首先统计这两个同义词在文档资源中的出现频率,然后将低频词到 高频词的方向确定为两个同义词的映射方向。
在本申请的一种实施方式中,所述映射方向确定模块620,还可以具体配置为
对于单向可替换同义词,将同义词的替换方向确定为所述两个同义词的映射方 向;所述单向可替换同义词为根据文档资源仅能挖掘出单向替换关系的同义词。
根据文档资源仅能挖掘出单向替换关系,例如,采用“简称”、“全称”这类模板挖掘 出的同义词词对,并且该同义词词对没有对应的资源支持其反向替换关系,则将这类同义 词称为单向可替换同义词。对于,单向可替换同义词,直接将同义词的替换方向确定为所述 两个同义词的映射方向;例如,根据“北京大学医院简称北大医院”可确定“北京大学医院 —北大医院”的替换关系,同时在文档资源里又没有其他信息可以支持反向的替换关系,因 此,认为这两个词构成单向可替换同义词,并且将“北京大学医院一北大医院”确定为两个 同义词的映射方向。
在本申请的一种实施方式中,所述映射方向确定模块620,还可以进一步判断所挖 掘的同义词是否存在歧义替换,即判断一个候选词是否存在多个可替换的同义词,如果是, 则丢弃该同义词词对,不在后续生成同义词映射关系树的过程中使用。
关系树构建模块630,对于已确定映射方向的多个同义词词对,按照同义词级联的 方式,采用深度优先的遍历方法建立同义词映射关系树。具体方法是首先选取目前尚不属 于同义词映射关系树的任意一组同义词词对,根据已确定的映射方向,将映射起点作为根 节点,映射终点作为该根节点的子节点。如果根节点还存在其他同义词,并且根节点处于映 射方向的起点位置,则继续建立其他分支。同理,如果子节点还存在其他同义词,并且该子节点处于映射方向的起点位置,则继续针对该子节点对树进行延伸......重复以上步骤,直到遍历所有的同义词词对。其中每组映射的起点和终点都分别对应于树形结构的父节点 和子节点,最终形成一棵同义词语义映射关系树。
映射关系确定模块640,进一步用于判断所述同义词映射关系树的收敛程度是否 满足预设要求,如果是,则确定该同义词映射关系树收敛到的叶子节点,并确定该叶子节点 与其他节点存在同义词映射关系。
在本申请的一种实施方式中,所述映射关系确定模块640,可以具体配置为
用于判断所述所述同义词映射关系树是否收敛于相同的叶子节点,如果是,则确 定该同义词映射关系树收敛到该叶子节点。也就是说,判断所建成的同义词映射关系树的 叶子节点是否唯一,如果是,则树收敛于唯一的叶子节点,此时可以确定该叶子节点与其他 节点存在同义词映射关系。
在本申请的另一种实施方式中,所述映射关系确定模块640,还具体配置为
用于判断出现次数最多的叶子节点数目与叶子节点总数的比值是否大于预置的 阈值;如果是,则进一步对该叶子节点和其他叶子节点分别进行同义词关系验证,如果满足 验证条件,则确定该同义词映射关系树收敛到所述出现次数最多的叶子节点。
映射关系确定模块640如果判断出出现次数最多的叶子节点所有叶子节点中占 有一定的比例,如果没有达到要求的比例,可以放弃当前的同义词映射关系树。如果达到了 要求的比例,则进一步对出现次数最多的叶子节点和其他叶子节点分别进行同义词关系验 证,如果满足验证条件,则可以确定确定该同义词映射关系树收敛到出现次数最多的叶子 节点,并且确定该叶子节点与其他节点存在同义词映射关系。
在本申请的另一种实现方式中,如果出现次数最多的叶子节点数目没有在所有叶 子节点中达到要求的比例,映射关系确定模块还可以对叶子节点较为分散的子树向上回 溯,通常可以回溯I 2层,然后以回溯后的节点作为叶子节点,重新判断是否满足阈值,如 果满足,可以以回溯后树的形式进一步执行后续步骤,而在回溯过程中抛弃掉的节点可以 作为单独的同义词进行处理。
应用本申请所提供的同义词语义映射关系确定装置,根据同义词的映射方向建立 同义词映射关系树,将多组同义词词对以树形结构的方式组织起来,从而对同义词簇中潜 在的映射关系进行挖掘。可以从有限的文档资源中获取更多的同义词簇内映射关系,从而 提高利用同义词映射关系召回搜索结果的全面性。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本 申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可 借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质 上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品 可以存储在存储介质中,如R0M/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备 (可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些 部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部 分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或 系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法 实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为 分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或 者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根 据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术 人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序 模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组 件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由 通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以 位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅是本申请的具体实施方式
,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应 视为本申请的保护范围。
权利要求
1.一种同义词语义映射关系确定方法,其特征在于,包括获取对文档资源进行挖掘得到的各组同义词词对;对于每一组同义词词对,确定两个同义词的映射方向;遍历所有同义词词对,根据所确定的映射方向,建立同义词映射关系树,其中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;判断所述同义词映射关系树的收敛程度是否满足预设要求,如果是,则确定该同义词映射关系树收敛到的叶子节点,并确定该叶子节点与其他节点存在同义词映射关系。
2.根据权利要求1所述的方法,其特征在于,所述对文档资源进行挖掘得到同义词词对,包括根据用户行为日志中,用户连续使用的搜索关键词,获得同义词词对。
3.根据权利要求1所述的方法,其特征在于,所述对文档资源进行挖掘得到同义词词对,包括根据用户行为日志中,搜索请求与点击网页内容的对应关系,获得同义词词对。
4.根据权利要求1所述的方法,其特征在于,所述对文档资源进行挖掘得到同义词词对,包括根据用户行为日志中,点击进入同一网页所对应的不同搜索请求,获得同义词词对。
5.根据权利要求1所述的方法,其特征在于,所述对文档资源进行挖掘得到同义词词对,包括利用预置的同义词模板与文档内容进行匹配,获得同义词词对。
6.根据权利要求1至5任一项所述的方法,其特征在于,在获取同义词词对之后、确定同义词映射方向之前,还包括对所获取的同义词词对进行同义词关系验证。
7.根据权利要求6所述的方法,其特征在于,所述对同义词词对进行同义词关系验证,包括分别利用两个同义词的上下文特征词构成特征向量,根据两个特征向量的相似度验证同义词关系。
8.根据权利要求1所述的方法,其特征在于,所述确定两个同义词的映射方向,包括对于双向可替换同义词,统计两个同义词在文档资源中的出现频率,将低频词到高频词的方向确定为所述两个同义词的映射方向,所述双向可替换同义词为根据文档资源能够挖掘出双向替换关系的同义词。
9.根据权利要求1所述的方法,其特征在于,所述确定两个同义词的映射方向,包括对于单向可替换同义词,将同义词的替换方向确定为所述两个同义词的映射方向;所述单向可替换同义词为根据文档资源仅能挖掘出单向替换关系的同义词。
10.根据权利要求1所述的方法,其特征在于,所述判断所述同义词映射关系树的收敛程度是否满足预设要求,包括判断所述所述同义词映射关系树是否收敛于相同的叶子节点,如果是,则确定该同义词映射关系树收敛到该叶子节点。
11.根据权利要求1所述的方法,其特征在于,在所述同义词映射关系树不收敛于相同叶子节点的情况下,所述判断所述同义词映射关系树的收敛程度是否满足预设要求,包括判断出现次数最多的叶子节点数目与叶子节点总数的比值是否大于预置的阈值;如果是,则进一步对该叶子节点和其他叶子节点分别进行同义词关系验证,如果满足验证条件,则确定该同义词映射关系树收敛到所述出现次数最多的叶子节点。
12.一种同义词语义映射关系确定装置,其特征在于,包括同义词词对获取模块,用于获取对文档资源进行挖掘得到的各组同义词词对;映射方向确定模块,用于对于每一组同义词词对,确定两个同义词的映射方向;关系树构建模块,用于遍历所有同义词词对,根据所确定的映射方向,建立同义词映射关系树,其中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;映射关系确定模块,用于判断所述同义词映射关系树的收敛程度是否满足预设要求,如果是,则确定该同义词映射关系树收敛到的叶子节点,并确定该叶子节点与其他节点存在同义词映射关系。
13.根据权利要求12所述的装置,其特征在于,所述同义词词对获取模块,具体配置为用于根据用户行为日志中,用户连续使用的搜索关键词,获得同义词词对。
14.根据权利要求12所述的装置,其特征在于,所述同义词词对获取模块,具体配置为用于根据用户行为日志中,搜索请求与点击网页内容的对应关系,获得同义词词对。
15.根据权利要求12所述的装置,其特征在于,所述同义词词对获取模块,具体配置为用于根据用户行为日志中,点击进入同一网页所对应的不同搜索请求,获得同义词词对。
16.根据权利要求12所述的装置,其特征在于,所述同义词词对获取模块,具体配置为用于利用预置的同义词模板与文档内容进行匹配,获得同义词词对。
17.根据权利要求12至16任一项所述的装置,其特征在于,所述装置还包括同义关系验证模块,用于在所述同义词词对获取模块获取同义词词对之后、所述映射方向确定模块确定同义词映射方向之前,对所述同义词词对获取模块所获得的同义词词对进行同义词关系验证。
18.根据权利要求17所述的装置,其特征在于,所述同义关系验证模块,具体配置为用于分别利用两个同义词的上下文特征词构成特征向量,根据两个特征向量的相似度验证同义词关系。
19.根据权利要求12所述的装置,其特征在于,所述映射方向确定模块,具体配置为对于双向可替换同义词,统计两个同义词在文档资源中的出现频率,将低频词到高频词的方向确定为所述两个同义词的映射方向,所述双向可替换同义词为根据文档资源能够挖掘出双向替换关系的同义词。
20.根据权利要求12所述的装置,其特征在于,所述映射方向确定模块,具体配置为对于单向可替换同义词,将同义词的替换方向确定为所述两个同义词的映射方向;所述单向可替换同义词为根据文档资源仅能挖掘出单向替换关系的同义词。
21.根据权利要求12所述的装置,其特征在于,所述映射关系确定模块,具体配置为用于判断所述所述同义词映射关系树是否收敛于相同的叶子节点,如果是,则确定该同义词映射关系树收敛到该叶子节点。
22.根据权利要求12所述的装置,其特征在于,所述映射关系确定模块,具体配置为用于判断出现次数最多的叶子节点数目与叶子节点总数的比值是否大于预置的阈值;如果是,则进一步对该叶子节点和其他叶子节点分别进行同义词关系验证,如果满足验证条件,则确定该同义词映射关系树收敛到所述出现次数最多的叶子节点。
全文摘要
本申请公开了一种同义词语义映射关系确定方法及装置。一种同义词语义映射关系确定方法包括获取对文档资源进行挖掘得到的各组同义词词对;对于每一组同义词词对,确定两个同义词的映射方向;遍历所有同义词词对,根据所确定的映射方向,建立同义词映射关系树,其中,每组映射的起点和终点分别对应于树形结构的父节点和子节点;判断所述同义词映射关系树的收敛程度是否满足预设要求,如果是,则确定该同义词映射关系树收敛到的叶子节点,并确定该叶子节点与其他非叶子节点存在同义词映射关系。应用上述方案,可以从有限的文档资源中获取更多的同义词簇内映射关系,从而提高利用同义词映射关系召回搜索结果的全面性。
文档编号G06F17/30GK102999495SQ20111026678
公开日2013年3月27日 申请日期2011年9月9日 优先权日2011年9月9日
发明者方高林 申请人:北京百度网讯科技有限公司
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!