一种同义词的挖掘方法和装置的制作方法

文档序号:6423292阅读:299来源:国知局
专利名称:一种同义词的挖掘方法和装置的制作方法
一种同义词的挖掘方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种同义词的挖掘方法和装置。
背景技木当用户在使用搜索引擎进行搜索时,为了能够将与用户所输入query的同义词相匹配的网页也包含在捜索结果中召回,会用到基于同义词的搜索请求(query)扩展,即在利用query进行搜索的同时也利用query的同义词进行捜索。为了在搜索引擎中应用该技木,同义词的挖掘是非常重要的基础工作。现有的同义词挖掘方式通过计算语料库中各词语之间的相关概率来进行同义词 挖掘,但这种方式需要对语料库中的词语两两进行计算,效率很低。

发明内容有鉴于此,本发明提供了一种同义词的挖掘方法和装置,以便于提高同义词挖掘的效率。具体技术方案如下一种同义词的挖掘方法,该方法包括A、从搜索日志中,搜索请求query及其对应的搜索结果中被点击或浏览的网页标题,或者,被点击或浏览的网页标题对应的不同query,获取由短语对构成的同义词的候选资源;B、从候选资源的各短语对中抽取同义词对,其中抽取的同义词对在所属的短语对中具有相同的上下文。步骤A中所述候选资源的获取具体包括以下所列任一方式或任意方式的组合从搜索日志中获取query对应的搜索结果中被点击或浏览的网页标题,得到query与标题构成的短语对;从搜索日志中获取相同query对应的搜索结果中被点击或浏览的网页标题,得到标题与标题构成的短语对;以及,从搜索日志中获取被点击或浏览的相同网页标题对应的不同query,得到query与query构成的短语对。所述步骤B具体包括BI、对同义词的候选资源的各短语对进行相似性过滤,得到候选同义短语对;B2、从候选同义短语对中抽取同义词对,其中抽取的同义词对在所属的候选同义短语对中具有相同的上下文。具体地,所述步骤BI中将满足以下所列相似性过滤条件中的任一或任意组合的短语对过滤掉,得到候选同义短语对短语对在候选资源中出现的次数在设定次数阈值NI以下;短语对中短语之间的编辑距离在设定距离阈值L以下;
短语对中短语之间的字重合度小于预设的字重合度阈值;短语对中短语之间的词重合度小于预设的词重合度阈值;以及,短语对中短语之间的TF-IDF相似度小于预设的相似度阈值。短语对中短语之间的字重合度采用 公式C1(P1,P2) = C(°i(p(^ L1(丨2))计算,其
中,Cl (P1,P2)为短语对中短语Pl和短语P2之间的字重合度,Coml (Pl,P2)为Pl和P2间相同的字数目,LUX)为短语X包含的字数目;短语对中短语之间的词重合度采用公式C2(P1,P2) = ~ゴL20^P: L2(p2))'计算,
其中,C2 (PI, P2)为短语对中短语Pl和短语P2之间的词重合度,Com2 (PI, P2)为Pl和P2间相同的词数目,LUX)为短语X包含的词数目。具体地,短语对中短语之间的TF-IDF相似度的计算方法为对由短语Pl和短语P2构成的短语对,分别计算Pl中各词语的TF-IDF值构成Pl的特征向量以及P2中各词语的TF-IDF值构成P2的特征向量;计算Pl的特征向量和P2的特征向量的余弦距离作为Pl和P2的TF-IDF相似度。较优地,在所述步骤A和步骤B之间进一歩包括E、对候选资源的各短语对中来源于标题的短语进行预处理,以删除所述来源于标题的短语中的噪声数据;其中,所述预处理包括E1、基于预设的符号对所述来源于标题的短语进行分割;E2、将分割后得到的各部分中满足预设删除位置要求的部分删除;或者,如果所述短语对中的另ー个短语来源于query,则将步骤El分割后得到的各部分中,与所述来源于query的短语之间字重合度不满足预设字重合度要求的部分删除。更优地,在所述步骤BI和B2之间还包括将其中一个短语包含另ー个短语的全部内容的候选短语对删除。更进一歩地,在所述步骤B之后还包括C、将抽取出的同义词对进行整合,将同一个词语对应的所有同义词构成该词语对应的同义词集合。更进一歩地,在所述步骤C之后还包括D、对同义词集合进行噪声过滤,具体为将词语Wl对应的同义词集合中满足以下所列过滤条件中的任一或任意组合的词语w2从词语Wl对应的同义词集合中过滤掉词语《2与词语wl构成的同义词对在候选资源中出现的次数在预设的次数阈值N2以下;词语w2与词语wl构成的同义词对在所述词语wl对应的同义词集合中的相对词频在预设的相对词频阈值N3以下,其中,词语《2与词语wl构成的同义词对在所述词语wl对应的同义词集合中的相对词频的计算方式为词语《2与词语wl构成的同义词对在候选资源中出现的次数除以词语对应的同义词集合中各词语与词语分别构成的同义词对在候选资源中出现次数的最大值;词语w2对应的同义词集合与词语wl对应的同义词集合的重合度小于预设的重合度阈值Ol ;在捜索日志中,词语w2与词语wl在同一个query中共现的次数超过预设的次数阈值N4 ;以及,词语w2与词语wl对应同一语种的翻译词语重合度小于预设的重合度阈值02。一种同义词的挖掘装置,该装置包括候选资源获取单元和同义词抽取単元;所述候选资源获取単元,用于从搜索日志中,搜索请求query及其对应的搜索结果中被点击或浏览的网页标题,或者,被点击或浏览的网页标题对应的不同query,获取由短语对构成的同义词的候选资源;所述同义词抽取単元,用于从候选资源的各短语对中抽取同义词对,其中抽取的 同义词对在所属的短语对中具有相同的上下文。具体地,所述候选资源获取单元采用以下所列任一方式或任意方式的组合获取所述候选资源从搜索日志中获取query对应的搜索结果中被点击或浏览的网页标题,得到query与标题构成的短语对;从搜索日志中获取相同query对应的搜索结果中被点击或浏览的网页标题,得到标题与标题构成的短语对;以及,从搜索日志中获取被点击或浏览的相同网页标题对应的不同query,得到query与query构成的短语对。其中,所述同义词抽取単元具体包括相似性过滤子単元和同义词抽取子単元;所述相似性过滤子単元,用于对同义词的候选资源的各短语对进行相似性过滤,得到候选同义短语对;所述同义词抽取子単元,用于从候选同义短语对中抽取同义词对,其中抽取的同义词对在所属的候选同义短语对中具有相同的上下文。所述相似性过滤子単元具体将满足以下所列相似性过滤条件中的任一或任意组合的短语对过滤掉,得到候选同义短语对短语对在候选资源中出现的次数在设定次数阈值NI以下;短语对中短语之间的编辑距离在设定距离阈值L以下;短语对中短语之间的字重合度小于预设的字重合度阈值;短语对中短语之间的词重合度小于预设的词重合度阈值;以及,短语对中短语之间的TF-IDF相似度小于预设的相似度阈值。当所述相似性过滤条件包括短语对中短语之间的字重合度小于预设的字重合度阈值时,所述同义词抽取单元还包括字重合度计算子単元,用于采用公式C1(P1,P2) =L1(^>2))计算所述候
选资源的短语对中短语之间的字重合度,并将计算结果提供给所述相似性过滤子単元;其中,C1(P1,P2)为短语对中短语Pl和短语P2之间的字重合度,Coml (PI,P2)为Pl和P2间相同的字数目,LI⑴为短语X包含的字数目。当所述相似性过滤条件包括短语对中短语之间的词重合度小于预设的词重合度阈值时,所述同义词抽取单元还包括
词重合度计算子単元,用于采用公式C2(P1,P2)='计算所述
候选资源的短语对中短语之间的词重合度,并将计算结果提供给所述相似性过滤子単元;其中,C2(P1,P2)为短语对中短语Pl和短语P2之间的词重合度,Com2(Pl,P2)为Pl和P2间相同的词数目,LI⑴为短语X包含的词数目。当所述相似性过滤条件包括短语对中短语之间的TF-IDF相似度小于预设的相似度阈值时,所述同义词抽取单元还包括相似度确定子単元,用于在所述候选资源中,对短语Pl和短语P2构成的短语对分别计算Pl中各词语的TF-IDF值构成Pl的特征向量以及P2中各词语的TF-IDF值构成P2的特征向量,计算Pl的特征向量和P2的特征向量的余弦距离作为Pl和P2的TF-IDF相似度,并将计算结果提供给所述相似性过滤子単元。
较优地,该装置还包括预处理単元,用于对候选资源的各短语对中来源于标题的短语进行预处理,以删除所述来源于标题的短语中的噪声数据;其中所述预处理单元具体包括分割处理子単元和过滤处理子单元;所述分割处理子単元,用于基于预设的符号对所述来源于标题的短语进行分割;所述过滤处理子単元,用于将所述分割处理子単元分割后得到的各部分中满足预设删除位置要求的部分删除;或者,如果所述短语对中的另ー个短语来源于query,则将所述分割处理子単元分割后得到的各部分中,与所述来源于query的短语之间字重合度不满足于预设字重合度要求的部分删除;所述同义词抽取単元,用于从经所述预处理单元处理后的候选资源的各短语对中抽取同义词对。更优地,所述同义词抽取单元还包括无效短语对过滤子单元,用于在所述候选同义短语对中,将其中一个短语包含另ー个短语的全部内容的候选短语对删除;所述同义词抽取子单元从所述无效短语对过滤子单元处理后的候选同义短语对中抽取同义词对。更进一歩地,该装置还包括同义词整合単元,用于将所述同义词抽取单元抽取出的同义词进行整合,将同一个词语对应的所有同义词构成该词语对应的同义词集合。另外,该装置还可以包括噪声过滤单元,用于对所述同义词整合単元得到的同义词集合进行噪声过滤,具体为将词语Wl对应的同义词集合中满足以下所列过滤条件中的任一或任意组合的词语w2从词语wl对应的同义词集合中过滤掉词语《2与词语wl构成的同义词对在候选资源中出现的次数在预设的次数阈值N2以下;词语w2与词语wl构成的同义词对在所述词语wl对应的同义词集合中的相对词频在预设的相对词频阈值N3以下,其中,词语《2与词语wl构成的同义词对在所述词语wl对应的同义词集合中的相对词频的计算方式为词语《2与词语wl构成的同义词对在候选资源中出现的次数除以词语对应的同义词集合中各词语与词语分别构成的同义词对在候选资源中出现次数的最大值;词语w2对应的同义词集合与词语wl对应的同义词集合的重合度小于预设的重合度阈值01 ;
在捜索日志中,词语《2与词语wl在同一个query中共现的次数超过预设的次数阈值N4 ;以及,词语w2与词语wl对应同一语种的翻译词语重合度小于预设的重合度阈值02。由以上技术方案可以看出,本发明从搜索日志中,query及其对应的搜索结果中被点击或浏览的网页标题,或者,被点击或浏览的网页标题对应的不同query,获取由短语对构成的同义词的候选资源,并利用同义词对在所属的短语中具有相同的上下文这ー特点,从候选资源中抽取同义词对。本发明无需对网页中的词语两两计算相似度,显然大大提高了同义词挖掘的效率。


图I为本发明实施例一提供的方法流程图;图2为本发明实施例ニ提供的装置结构图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。实施例一、图I为本发明实施例一提供的方法流程图,该实施例所示的方法可以由搜索引擎所在的服务器端在后台离线执行,如图I所示,该方法可以包括以下步骤步骤101 :从搜索日志中,query及其对应的搜索结果中被点击或浏览的网页标题,或者,被点击或浏览的网页标题对应的不同query,获取同义词的候选资源。当用户输入query后,在搜索结果中发生了点击或浏览行为,通常这个query和被点击或浏览的网页标题间会具有语义上的关联甚至一致,同一 query对应的被点击或浏览的网页标题间也可能具有语义上的关联甚至一致。再者,不同用户输入不同的query,或者相同用户输入不同的query,但对于不同query的搜索结果中被点击或浏览的网页相同,则这些相同的网页对应的不同query间可能具有语义上的关联甚至一致。基于以上情况的考虑,可以将上述的这些可能具有语义上的关联甚至一致的短语(本实施例中所述的短语为广义的短语包含句子、词语等形式)获取出来,作为抽取同义词的候选资源。具体地,候选资源的获取可以包括以下三种方式任一或任意组合I)从搜索日志中获取query对应的搜索结果中被点击或浏览的网页标题,得到query与标题构成的短语对(即“query-title”对)作为同义词的候选资源。2)从搜索日志中获取相同query对应的搜索结果中被点击或浏览的网页标题,得到标题与标题构成的短语对(即“title-title”对)作为同义词的候选资源。3)从搜索日志中获取被点击或浏览的相同网页标题对应的不同query,得到query与query构成的短语对(即“query-query”对)作为同义词的候选资源。在得到上述各短语对(包括“query_title”对、“title-title”对或“query-query”对)后,可以将这些短语对作为同义词的候选资源存储为数据文件,供步骤102调用。步骤102 :对同义词的候选资源进行相似性过滤,得到候选同义短语对。由于在实际情况中,能会存在大量的无关点击、浏览或者网页标题不规范等原因,可能会导致步骤101获取的同义词的候选资源中,各短语对之间在语义上相去甚远。因此,在本步骤中可以对候选资源进行相似性过滤,将在语义上相去甚远的短语对过滤掉。在进行相似性过滤时,可以将满足以下过滤条件中的任一或任意组合的短语对从候选资源中过滤掉I)基于出现次数统计的过滤条件短语对在候选资源中共现的次数在设定次数阈值NI以下。即统计短语对在候选资源中共现的次数,将共现的次数在设定次数阈值NI以下的短语对从候选资源中过滤棹。如果短语对为“query-title”对,则统计该query对应的搜索结果中该title的 网页被点击或浏览的次数,即为该短语对在候选资源中共现的次数。如果短语对为“title-title”对,则统计这两个title的网页作为同一 query对应的搜索结果中被点击或浏览的次数,即为该短语对在候选资源中共现的次数。如果短语对为“query-query”对,则统计这两个query对应同一个被点击或浏览网页的次数,即为该短语对在候选资源中共现的次数。2)基于编辑距离的过滤条件短语对中短语之间的编辑距离在设定距离阈值L以下。计算短语对中短语之间的编辑距离,将编辑距离在设定距离阈值L以下的短语对从候选资源中过滤掉。其中,短语之间的编辑距离可以采用莱文斯坦算法(LD, LevenshteinDistance)算法计算。在本实施例中,LD算法衡量的是短语对之间从ー个短语转换为另ー个短语所需要的最小词语操作数包括増加、删除或修改词语的次数。比如,短语对由短语Pl和短语P2构成,Pl的词语构成为al、a2和a3,P2的词语构成为bl、b2和b3,则短语Pl和短语P2之间的编辑距离LD(Pl,P2)可以采用以下的迭代方式计算LD(P I ,P2)=LD(ala2a3 ,blb2b3)=
Jmin(LD(ala2a3, bib2) +1, LD(ala2,blb2b3) +1,LD(ala2,blb2)),a3 = b3LD算法为已有成熟技木,在此不再详细描述。3)基于字重合度的过滤条件短语对中短语之间的字重合度小于预设的字重合度阈值。计算短语对中短语之间的字重合度,将字重合度小于预设的字重合度阈值的短语对从候选资源中过滤棹。其中,短语之间的字重合度指的是两个短语间相同的字数目与两个短语中字长度中较大值的比值。比如,短语对由短语Pl和短语P2构成,Pl和P2之间的字重合度Cl (Pl,P2)为
C1(P1,P2)、ニ1^,ニ)),(2)其中,Coml (Pl,P2)为Pl和P2间相同的字数目,LI (X)为短语X包含的字数目。
4)基于词重合度的过滤条件短语对中短语之间的词重合度小于预设的词重合度阈值。计算短语对中短语之间的词重合度,将词重合度小于预设的词重合度阈值的短语对从候选资源中过滤棹。其中,短语之间的词重合度指的是两个短语间相同的词数目与两个短语中词数目中较大值的比值。比如,短语对由短语Pl和短语P2构成,Pl和P2之间的词重合度C2 (Pl,P2)为
C2(P1,P2) = ^^l|W’⑶其中,Com2(Pl,P2)为Pl和P2间相同的词数目,L2 (X)为短语X包含的词数目。5)基于词频-倒文档率(TF-IDF)相似度的过滤条件短语对中短语之间的TF-IDF相似度小于预设的相似度阈值。计算短语对中两短语的各词语TF-IDF值分别作 为两短语的特征向量,然后计算两特征向量的余弦距离作为两短语的TF-IDF相似度,将TF-IDF相似度小于预设的相似度阈值的短语对从候选资源中过滤棹。其中,短语P中词语Wi的TF-IDF值T (Wi)可以采用如下公式计算
T(w,) = tf(wt) * log(—— + a),(4)
C(W1)tf(w,)为词语Wi在短语P中出现的次数除以短语P包含的词语数目,N为候选资源中所有短语的数目,C(Wi)为Wi在所有短语中出现的次数,a为预设的參数。上述过滤条件中涉及到的阈值可以根据对同义词质量的需求进行设置和调整。上述五种过滤条件可以以任意组合的形式使用,例如,当同时采用以上五种过滤条件时,可以同时满足以上五种过滤条件的短语对从候选资源中过滤棹。另外,在标题中可能会含有大量的噪声数据,例如标题“冬天穿鞋要注意什么_百度知道”中的“_百度知道”就是噪声数据。为了避免噪声数据对步骤102中过滤处理以及后续同义词抽取所帯来的影响,较优地,在执行步骤102之前可以首先对短语对中来源于标题的短语进行预处理,删除短语中的噪声数据。具体地,上述预处理可以包括基于预设的符号对来源于标题的短语进行分割,将分割后得到的各部分中,满足预设删除位置要求的部分删除。例如当存在预设符号“
时,将分段后在“以后位置的部分删除,对于“冬天穿鞋要注意什么_百度知道”的短语,将以后位置的部分删除,得到“冬天穿鞋要注意什么”。如果短语对为“query-title”对,则基于预设的符号对来源于标题的短语进行分割后,可以将分割后得到的各部分中与query之间字重合度不满足预设字重合度要求的部分删除。例如,“小孩嗓子疼怎么办”和“小孩喉咙疼怎么办_百度知道”的短语对,来源于标题的短语“小孩喉咙疼怎么办_百度知道”进行分割后,“百度知道”显然与“小孩嗓子疼怎么办”的字重合度很低,将其删除,仅保留“小孩喉咙疼怎么办”。需要说明的是,本步骤102并不是本发明的必要步骤,也可以将候选资源的各短语对都作为候选同义短语对,直接对候选资源的各短语对执行步骤103,即抽取同义词对。步骤103 :从候选同义短语对中抽取同义词对,其中抽取的同义词对在所属的候选同义短语对中的上下文相同。在确定出候选同义短语对后,需要对候选同义短语对中的同义词进行准确地抽取。基于搜索引擎的特点,候选同义短语对中大部分的词语是一祥的,同义词出现的上下文也是ー样的。例如“小孩喉咙疼怎么办”与“小孩嗓子疼怎么办”这样的候选同义短语对,同义词对“喉咙”和“嗓子”具有相同的上下文,即前面都是“小孩”,后面都是“疼”。利用这一特点便可以抽取出同义 词对。另外,在执行步骤103之前,当步骤102确定的候选同义短语对中其中一个短语包含另ー个短语的全部内容,则该候选同义短语对无法用于同义词的抽取,将这种情况的候选同义短语对删除。步骤104 :将抽取出的同义词对进行整合构成各词语的同义词集合。在抽取的同义词对中,可能会在多个同义词对中具有相同的同义词,也就是说,一个词语可能会抽取出多个同义词,将同一个词语对应的所有同义词构成该词语对应的同义词集合。例如,抽取出的同义词对中包括“&1-&2”、“&1-&3”、“&1-&4”,“&2-&4”进行整合后,可以得到al对应的同义词集合为{a2,a3,a4},a2对应的同义词集合为{al,a4},a4对应的同义词集合为{al,a2}。步骤105 :将各同义词集合进行噪声过滤。本步骤中进行的噪声过滤可以采用以下方式过滤条件中的任一或任意组合I)基于同义词的绝对词频的过滤条件对应同义词对在候选资源中出现的次数在预设的次数阈值N2以下。即统计词语w的同义词集合中各词语与w分别构成的同义词对在候选资源中出现的次数,将对应同义词对的出现次数在N2以下的词语从词语w的同义词集合中删除。2)基于同义词的相对词频的过滤条件对应同义词对在同义词集合中的相对词频在预设的相对词频阈值N3以下。一个词语可能会对应多个同义词,如果在词语w对应的同义词集合中,某个词语a与词语w构成的同义词对的绝对词频相比较其他词语与词语w构成的同义词对的绝对词频低很多,则这个词语a就不太可能是词语w的同义词。词语a与词语w构成的同义词对的相对词频可以为词语a与词语w构成的同义词对在候选资源中出现的次数除以该同义词集合中各词语与词语w分别构成的同义词对在候选资源中出现次数的最大值。例如,在词语w的同义词集合中存在词语al、a2、a3,假设a3与w构成的同义词对在候选资源中出现的次数最大,即为Num3,al与w构成的同义词对以及a2与w构成的同义词对在候选资源中出现的次数分别为Numl和Num2。al对应同义词对在同义词集合中的相对词频为Numl/Num3,a2对应同义词在同义词集合中的相对词频为Num2/Num3,a3对应同义词在同义词集合中的相对词频为I。如果Numl/Num3的值在预设的相对词频阈值N3以下,则将al从w对应的同义词集合中删除。3)基于同义词的重合度的过滤条件两词语对应的同义词集合的重合度小于预设的重合度阈值01。如果词语wl对应的同义词集合为{&1,&2,&3},词语《2对应的同义词集合为出1沘2,ゎ3},如果《1和《2是同义词,则{al,a2,a3}和{bl,b2,b3}的重合度也会较高。基于该道理对词语w对应的同义词集合进行过滤时,可以确定同义词集合中各词语对应的同义词集合,分别与词语W对应的同义词集合计算重合度,对应重合度低于预设的重合度阈值的词语从同义词集合中过滤棹。4)基于同义词的上下文共现的过滤条件两词语在同一个query中共现的次数超过预设的次数阈值N4。如果两个词语wl和《2是同义词,则wl和《2通常是不会共现于同ー个query中的,也就是说,用户在输入query时,通常不会同时输入互为同义词的两个词。因此,可以统计词语w对应的同义词集合中各词语与w共现于同一个query中的次数,如果次数超过设定的次数阈值N4,则将对应词语从词语w对 应的同义词集合中过滤棹。5)基于双语翻译语料的过滤条件两词语对应同一语种的翻译词语重合度小于预设的重合度阈值02。如果词语wl和w2是同义词,那么wl和w2对应的同一语种的翻译词语通常具有较高的重合度,例如,对于“著名”和“闻名”来说,“著名”对应的英文的翻译词语为 “famous”、“well-known'“celebrated” 和 “renowned”,“闻名”对应的英文的翻译词语为“throat'“famous”和“renowned”,可见两者对应的翻译词语具有很高的重合度。反之,可以确定词语w对应的同义词集合中各词语与词语w对应同一语种的翻译词语的重合度,如果重合度很低,则将对应词语从词语w对应的同义词集合中过滤棹。本步骤中的五种过滤条件可以择ー使用,也可以以任意组合的形式使用。例如,当选择以上五种过滤条件组合使用时,将同时满足以上五种过滤条件的词语从同义词集合中过滤棹。通过上述过滤条件组合方式以及过滤条件中阈值的设置,能够灵活控制挖掘出的同义词的质量。至此实施例一所示的流程结束。利用实施例一提供的方法能够挖掘出词语的同义词集合,并存储在数据库中。在数据库中的数据存储格式实例可以如表I所示。表I
权利要求
1.一种同义词的挖掘方法,其特征在于,该方法包括 A、从搜索日志中,搜索请求query及其对应的搜索结果中被点击或浏览的网页标题,或者,被点击或浏览的网页标题对应的不同query,获取由短语对构成的同义词的候选资源; B、从候选资源的各短语对中抽取同义词对,其中抽取的同义词对在所属的短语对中具有相同的上下文。
2.根据权利要求I所述的方法,其特征在干,步骤A中所述候选资源的获取具体包括以下所列任一方式或任意方式的组合 从搜索日志中获取query对应的搜索结果中被点击或浏览的网页标题,得到query与 标题构成的短语对; 从搜索日志中获取相同query对应的搜索结果中被点击或浏览的网页标题,得到标题与标题构成的短语对;以及, 从搜索日志中获取被点击或浏览的相同网页标题对应的不同query,得到query与query构成的短语对。
3.根据权利要求I或2所述的方法,其特征在于,所述步骤B具体包括 BI、对同义词的候选资源的各短语对进行相似性过滤,得到候选同义短语对; B2、从候选同义短语对中抽取同义词对,其中抽取的同义词对在所属的候选同义短语对中具有相同的上下文。
4.根据权利要求3所述的方法,其特征在于,所述步骤BI中将满足以下所列相似性过滤条件中的任一或任意组合的短语对过滤掉,得到候选同义短语对 短语对在候选资源中出现的次数在设定次数阈值NI以下; 短语对中短语之间的编辑距离在设定距离阈值L以下; 短语对中短语之间的字重合度小于预设的字重合度阈值; 短语对中短语之间的词重合度小于预设的词重合度阈值;以及, 短语对中短语之间的词频TF-倒文档率IDF相似度小于预设的相似度阈值。
5.根据权利要求4所述的方法,其特征在于,短语对中短语之间的字重合度采用公式
6.根据权利要求4所述的方法,其特征在干,短语对中短语之间的TF-IDF相似度的计算方法为 对由短语Pl和短语P2构成的短语对,分别计算Pl中各词语的TF-IDF值构成Pl的特征向量以及P2中各词语的TF-IDF值构成P2的特征向量; 计算Pl的特征向量和P2的特征向量的余弦距离作为Pl和P2的TF-IDF相似度。
7.根据权利要求I或2所述的方法,其特征在于,在所述步骤A和步骤B之间进一歩包括 E、对候选资源的各短语对中来源于标题的短语进行预处理,以删除所述来源于标题的短语中的噪声数据; 其中,所述预处理包括 E1、基于预设的符号对所述来源于标题的短语进行分割; E2、将分割后得到的各部分中满足预设删除位置要求的部分删除;或者,如果所述短语对中的另ー个短语来源于query,则将步骤El分割后得到的各部分中,与所述来源于query的短语之间字重合度不满足预设字重合度要求的部分删除。
8.根据权利要求3所述的方法,其特征在于,在所述步骤BI和B2之间还包括 将其中一个短语包含另ー个短语的全部内容的候选短语对删除。
9.根据权利要求I或2所述的方法,其特征在于,在所述步骤B之后还包括 C、将抽取出的同义词对进行整合,将同一个词语对应的所有同义词构成该词语对应的同义词集合。
10.根据权利要求9所述的方法,其特征在于,在所述步骤C之后还包括 D、对同义词集合进行噪声过滤,具体为将词语wl对应的同义词集合中满足以下所列过滤条件中的任一或任意组合的词语w2从词语wl对应的同义词集合中过滤掉 词语《2与词语wl构成的同义词对在候选资源中出现的次数在预设的次数阈值N2以下; 词语《2与词语wl构成的同义词对在所述词语wl对应的同义词集合中的相对词频在预设的相对词频阈值N3以下,其中,词语《2与词语wl构成的同义词对在所述词语wl对应的同义词集合中的相对词频的计算方式为词语《2与词语wl构成的同义词对在候选资源中出现的次数除以词语对应的同义词集合中各词语与词语分别构成的同义词对在候选资源中出现次数的最大值; 词语《2对应的同义词集合与词语wl对应的同义词集合的重合度小于预设的重合度阈值Ol ; 在捜索日志中,词语w2与词语wl在同一个query中共现的次数超过预设的次数阈值N4 ;以及, 词语《2与词语wl对应同一语种的翻译词语重合度小于预设的重合度阈值02。
11.一种同义词的挖掘装置,其特征在于,该装置包括候选资源获取单元和同义词抽取单元; 所述候选资源获取単元,用于从搜索日志中,搜索请求query及其对应的捜索结果中被点击或浏览的网页标题,或者,被点击或浏览的网页标题对应的不同query,获取由短语对构成的同义词的候选资源; 所述同义词抽取単元,用于从候选资源的各短语对中抽取同义词对,其中抽取的同义词对在所属的短语对中具有相同的上下文。
12.根据权利要求11所述的装置,其特征在于,所述候选资源获取单元采用以下所列任一方式或任意方式的组合获取所述候选资源 从搜索日志中获取query对应的搜索结果中被点击或浏览的网页标题,得到query与标题构成的短语对;从搜索日志中获取相同query对应的搜索结果中被点击或浏览的网页标题,得到标题与标题构成的短语对;以及, 从搜索日志中获取被点击或浏览的相同网页标题对应的不同query,得到query与query构成的短语对。
13.根据权利要求11或12所述的装置,其特征在于,所述同义词抽取単元具体包括相似性过滤子単元和同义词抽取子単元; 所述相似性过滤子単元,用于对同义词的候选资源的各短语对进行相似性过滤,得到候选同义短语对; 所述同义词抽取子単元,用于从候选同义短语对中抽取同义词对,其中抽取的同义词对在所属的候选同义短语对中具有相同的上下文。
14.根据权利要求13所述的装置,其特征在于,所述相似性过滤子単元具体将满足以下所列相似性过滤条件中的任一或任意组合的短语对过滤掉,得到候选同义短语对 短语对在候选资源中出现的次数在设定次数阈值NI以下; 短语对中短语之间的编辑距离在设定距离阈值L以下; 短语对中短语之间的字重合度小于预设的字重合度阈值; 短语对中短语之间的词重合度小于预设的词重合度阈值;以及, 短语对中短语之间的TF-IDF相似度小于预设的相似度阈值。
15.根据权利要求14所述的装置,其特征在干,当所述相似性过滤条件包括短语对中短语之间的字重合度小于预设的字重合度阈值时,所述同义词抽取单元还包括 字重合度计算子単元,用于采用公式
16.根据权利要求14所述的装置,其特征在干,当所述相似性过滤条件包括短语对中短语之间的词重合度小于预设的词重合度阈值时,所述同义词抽取单元还包括 i司重合度计算子単元,用于采用公式
17.根据权利要求14所述的装置,其特征在于,当所述相似性过滤条件包括短语对中短语之间的TF-IDF相似度小于预设的相似度阈值时,所述同义词抽取单元还包括 相似度确定子単元,用于在所述候选资源中,对短语Pl和短语P2构成的短语对分别计算Pl中各词语的TF-IDF值构成Pl的特征向量以及P2中各词语的TF-IDF值构成P2的特征向量,计算Pl的特征向量和P2的特征向量的余弦距离作为Pl和P2的TF-IDF相似度,并将计算结果提供给所述相似性过滤子単元。
18.根据权利要求11或12所述的装置,其特征在于,该装置还包括预处理単元,用于对候选资源的各短语对中来源于标题的短语进行预处理,以删除所述来源于标题的短语中的噪声数据; 其中所述预处理单元具体包括分割处理子単元和过滤处理子单元; 所述分割处理子単元,用于基于预设的符号对所述来源于标题的短语进行分割; 所述过滤处理子単元,用于将所述分割处理子単元分割后得到的各部分中满足预设删除位置要求的部分删除;或者,如果所述短语对中的另ー个短语来源于query,则将所述分割处理子単元分割后得到的各部分中,与所述来源于query的短语之间字重合度不满足于预设字重合度要求的部分删除; 所述同义词抽取単元,用于从经所述预处理单元处理后的候选资源的各短语对中抽取同义词对。
19.根据权利要求13所述的装置,其特征在于,所述同义词抽取单元还包括无效短语对过滤子単元,用于在所述候选同义短语对中,将其中一个短语包含另ー个短语的全部内容的候选短语对删除; 所述同义词抽取子单元从所述无效短语对过滤子单元处理后的候选同义短语对中抽取同义词对。
20.根据权利要求11或12所述的装置,其特征在于,该装置还包括同义词整合単元,用于将所述同义词抽取单元抽取出的同义词进行整合,将同一个词语对应的所有同义词构成该词语对应的同义词集合。
21.根据权利要求20所述的装置,其特征在于,该装置还包括噪声过滤单元,用于对所述同义词整合単元得到的同义词集合进行噪声过滤,具体为将词语wl对应的同义词集合中满足以下所列过滤条件中的任一或任意组合的词语w2从词语wl对应的同义词集合中过滤掉 词语《2与词语wl构成的同义词对在候选资源中出现的次数在预设的次数阈值N2以下; 词语《2与词语wl构成的同义词对在所述词语wl对应的同义词集合中的相对词频在预设的相对词频阈值N3以下,其中,词语《2与词语wl构成的同义词对在所述词语wl对应的同义词集合中的相对词频的计算方式为词语《2与词语wl构成的同义词对在候选资源中出现的次数除以词语对应的同义词集合中各词语与词语分别构成的同义词对在候选资源中出现次数的最大值; 词语《2对应的同义词集合与词语wl对应的同义词集合的重合度小于预设的重合度阈值Ol ; 在捜索日志中,词语w2与词语wl在同一个query中共现的次数超过预设的次数阈值N4 ;以及, 词语《2与词语wl对应同一语种的翻译词语重合度小于预设的重合度阈值02。
全文摘要
本发明提供了一种同义词的挖掘方法和装置,其中方法包括从搜索日志中,搜索请求(query)及其对应的搜索结果中被点击或浏览的网页标题,或者,被点击或浏览的网页标题对应的不同query,获取由短语对构成的同义词的候选资源;从候选资源的各短语对中抽取同义词对,其中抽取的同义词对在所属的短语对中具有相同的上下文。通过本发明能够提高同义词挖掘的效率和准确性,也使挖掘出的同义词更符合搜索引擎的语言特点。
文档编号G06F17/30GK102760134SQ20111010897
公开日2012年10月31日 申请日期2011年4月28日 优先权日2011年4月28日
发明者呼大为, 徐文智, 赵世奇 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1