一种挖掘同义属性词的方法和装置的制作方法

文档序号:6348404阅读:188来源:国知局
专利名称:一种挖掘同义属性词的方法和装置的制作方法
一种挖掘同义属性词的方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种挖掘同义属性词的方法和装置。
背景技术
随着网络技术的不断发展,搜索引擎已经成为人们获取信息的重要途径,用户通过在搜索引擎中输入搜索词(query),获取搜索引擎针对该query返回的搜索结果。为了有针对性地向用户返回搜索结果,需要对query进行需求分析,其中实体属性是分析用户需求的基础,同时也使实现结构化搜索(垂直搜索)的基础。即从query中分析出实体词和属性词,例如对于“刘德华身高是多少”的query,分析出其实体词为“刘德华”,属性词为“身高”,这样就能够通过结构化搜索返回用户想知道的刘德华身高的具体信息。在实体属性的识别过程中,实体词和属性词分别通过预设的实体词词典和属性词词典进行匹配识别,然而,通常实体词的表述比较唯一和固定,而属性词则可能存在不同的表述形式,通常属性词词典中包含的是标准化的表述形式,对于其他的同义属性词则通过人工的方式添加或者结合同义词词库添加,人工添加的方式耗费人力资源、效率较低且召回率较低;结合同义词词典 的方式,同样存在召回率较低的问题,例如,对于某些同义词词典中所没有的口语化的表述“有多高”、“个头”等同义属性词都无法召回。

发明内容本发明提供了一种挖掘同义属性词的方法和装置,以便于节约人力资源、提高效率和召回率。具体技术方案如下:—种挖掘同义属性词的方法,该方法包括:S1、获取 query 集合;S2、基于已有的实体词词典和属性词词典对query集合中的各query进行结构化解析,抽取出标准query,未抽取出标准query的query作为非标准query,所述标准query由实体词和属性词的组合构成;S3、针对每一个标准query分别执行步骤S31至步骤S32:S31、计算各非标准query与当前标准query的点击相似度,确定点击相似度满足预设相似度要求且与当前标准query具有相同实体词的非标准query ;S32、将所述步骤S31确定的非标准query中去除与当前标准query相同的实体词后,对剩余的词语进行过滤处理得到候选同义属性词;S33、基于候选同义属性词与当前标准query中属性词的共现频度占比、点击相似度以及字面相似度中的至少一种,对各候选同义属性词进行打分,获取打分值满足预设分值要求的候选同义属性词作为当前标注query中属性词的同义属性词。根据本发明一优选实施例,该方法还包括:确定所述query集合中各query的点击向量,所述query的点击向量由query对应的被点击url以及各被点击url的点击权重构成;所述步骤S31中计算非标准query与当前标准query的点击相似度为:计算非标准query的点击向量与当前标准query的点击向量的余弦相似度。根据本发明一优选实施例,queryi的点击向量中Urlj的点击权重Wij为:
权利要求
1.一种挖掘同义属性词的方法,其特征在于,该方法包括: 51、获取query集合; 52、基于已有的实体词词典和属性词词典对query集合中的各query进行结构化解析,抽取出标准query,未抽取出标准query的query作为非标准query,所述标准query由实体词和属性词的组合构成; 53、针对每一个标准query分别执行步骤S31至步骤S32: 531、计算各非标准query与当前标准query的点击相似度,确定点击相似度满足预设相似度要求且与当前标准query具有相同实体词的非标准query ; 532、将所述步骤S31确定的非标准query中去除与当前标准query相同的实体词后,对剩余的词语进行过滤处理得到候选同义属性词; 533、基于候选同义属性词与当前标准query中属性词的共现频度占比、点击相似度以及字面相似度中的至少一种,对各候选同义属性词进行打分,获取打分值满足预设分值要求的候选同义属性词作为当前标注query中属性词的同义属性词。
2.根据权利要求1所 述的方法,其特征在于,该方法还包括:确定所述query集合中各query的点击向量,所述query的点击向量由query对应的被点击urI以及各被点击urI的点击权重构成; 所述步骤S31中计算非标准query与当前标准query的点击相似度为:计算非标准query的点击向量与当前标准query的点击向量的余弦相似度。
3.根据权利要求2所述的方法,其特征在于,queryi的点击向量中的点击权重Wij为:
4.根据权利要求2或3所述的方法,其特征在于,所述步骤S2之前还包括:对所述query集合进行剪枝处理得到有效query,其中所述剪枝处理采用以下剪枝策略中的至少一种: 剪枝策略1:过滤掉搜索次数低于预设搜索次数阈值的query ; 剪枝策略2:过滤掉对应url的点击总次数低于预设点击次数阈值的query ;以及, 剪枝策略3:将各query的点击向量中,点击权重低于预设权重阈值的url及对应点击权重过滤掉; 在所述步骤S2中对各有效query进行结构化解析,抽取出标准query,未抽取出标准query的有效query作为非标准query。
5.根据权利要求1所述的方法,其特征在于,在所述步骤S2中对query进行结构化解析具体为: 判断query中是否同时具有实体词词典中的实体词以及属性词词典中的属性词,如果是,则抽取出该query中具有实体词和属性词构成标准query ;否则该query为非标准queryο
6.根据权利要求1所述的方法,其特征在于,所述步骤S32中的过滤处理包括以下过滤处理中的至少一种: 过滤掉停用词; 过滤掉带有数字类信息的词语;以及, 过滤掉表意求取资源的词语。
7.根据权利要求1所述的方法,其特征在于,所述步骤S33中,候选同义属性词与当前标准query中属性词的共现频度占比为co_tf与ttf的比值; 其中所述co_tf为候选同义属性词与当前标准query中属性词在大规模语料中的共现次数,所述ttf为各候选同义属性词与当前标准query中属性词在大规模语料中的共现次数之和。
8.根据权利要求1所述的方法,其特征在于,所述步骤S33中,候选同义属性词与当前标准query中属性词的点击相似度为:当前标准query与包含该候选同义属性词的所有非标准query的点击相似度的平均值。
9.根据权利要求1所述的方法,其特征在于,所述步骤S33中,候选同义属性词与当前标准query中属性词的字面相似度为:该候选同义属性词和当前标准query中具有相同字的数目与该候选同义属性词和当前标准query具有的所有字的数目的比值。
10.根据权利要求7所述的方法,其特征在于,在所述步骤S33之前还包括: 判断当前标准query的属性词对应的所有候选同义属性词的co_tf之和与ttf之和的比例是否小于 预设的比例阈值,如果是,则不执行所述步骤S33;否则,继续执行所述步骤S33 ;或者, 判断标准query的属性词的ttf是否大于预设的ttf阈值,如果是,则不执行所述步骤S33 ;否则继续执行所述步骤S33。
11.一种挖掘同义属性词的装置,其特征在于,该装置包括: 数据获取单元,用于获取query集合; 结构化解析单元,用于基于已有的实体词词典和属性词词典对query集合中的各query进行结构化解析,抽取出标准query,未抽取出标准query的query作为非标准query,所述标准query由实体词和属性词的组合构成; 数据抽取单元,用于分别将各标准query作为当前标准query执行:计算各非标准query与当前标准query的点击相似度,确定点击相似度满足预设相似度要求且与当前标准query具有相同实体词的非标准query ; 候选词抽取单元,用于将所述数据抽取单元确定的非标准query中去除与当前标准query相同的实体词后,对剩余的词语进行过滤处理得到候选同义属性词; 同义词抽取单元,用于基于候选同义属性词与当前标准query中属性词的共现频度占t匕、点击相似度以及字面相似度中的至少一种,对各候选同义属性词进行打分,获取打分值满足预设分值要求的候选同义属性词作为当前标注query中属性词的同义属性词。
12.根据权利要求11所述的装置,其特征在于,该装置还包括: 向量确定单元,用于确定所述query集合中各query的点击向量并提供给所述数据抽取单元,所述query的点击向量由query对应的被点击url以及各被点击url的点击权重构成; 所述数据抽取单元在计算非标准query与当前标准query的点击相似度时,计算非标准query的点击向量与当前标准query的点击向量的余弦相似度。
13.根据权利要求12所述的装置,其特征在于,query,的点击向量中的点击权重Wij 为:
14.根据权利要求12或13所述的装置,其特征在于,该装置还包括: 剪枝处理单元,用于对所述query集合进行剪枝处理得到有效query,并将有效query提供给所述结构化解析单元,其中所述剪枝处理采用以下剪枝策略中的至少一种: 剪枝策略1:过滤掉搜索次数低于预设搜索次数阈值的query ; 剪枝策略2:过滤掉对应url的点击总次数低于预设点击次数阈值的query ;以及, 剪枝策略3:将各query的点击向量中,点击权重低于预设权重阈值的url及对应点击权重过滤掉; 所述结构化解析单元对各有效query进行结构化解析,抽取出标准query,未抽取出标准query的有效query作为非标准query。
15.根据权利要求11所述`的装置,其特征在于,所述结构化解析单元对query进行结构化解析时,具体判断query中是否同时具有实体词词典中的实体词以及属性词词典中的属性词,如果是,则抽取出该query中具有实体词和属性词构成标准query ;否则该query为非标准query。
16.根据权利要求11所述的装置,其特征在于,所述候选词抽取单元执行以下过滤处理中的至少一种: 过滤掉停用词; 过滤掉带有数字类信息的词语;以及, 过滤掉表意求取资源的词语。
17.根据权利要求11所述的装置,其特征在于,该装置还包括: 第一计算单元,用于计算co_tf与ttf的比值,将该比值确定为候选同义属性词与当前标准query中属性词的共现频度占比; 其中所述co_tf为候选同义属性词与当前标准query中属性词在大规模语料中的共现次数,所述ttf为各候选同义属性词与当前标准query中属性词在大规模语料中的共现次数之和。
18.根据权利要求11所述的装置,其特征在于,该装置还包括: 第二计算单元,用于计算当前标准query与包含该候选同义属性词的所有非标准query的点击相似度的平均值,将该平均值确定为候选同义属性词与当前标准query中属性词的点击相似度。
19.根据权利要求11所述的装置,其特征在于,该装置还包括: 第三计算单元,用于计算候选同义属性词和当前标准query中具有相同字的数目与该候选同义属性词和当前标准query具有的所有字的数目的比值,将该比值确定为该候选同义属性词与当前标准query中属性词的字面相似度。
20.根据权利要求17所述的装置,其特征在于,该装置还包括第一判断单元和第二判断单元中的至少一种; 所述第一判断单元,用于判断当前标准query的属性词对应的所有候选同义属性词的co_tf之和与ttf之和的比例是否小于预设的比例阈值,如果是,禁止所述同义词抽取单元对当前标准query执行操作;否则,触发所述同义词抽取单元对当前标准query执行操作;所述第二判断单元,用于判断标准query的属性词的ttf是否大于预设的ttf阈值,如果是,禁止所述同义词抽取单元对当前标准query执行操作;否则,触发所述同义词抽取单元对当前标准query执 行操作。
全文摘要
本发明提供了一种挖掘同义属性词的方法和装置,其中方法包括基于已有的实体词词典和属性词词典对query集合中的各query进行结构化解析,抽取出标准query,标准query由实体词和属性词的组合构成;针对每一个标准query分别计算各非标准query与当前标准query的点击相似度,确定点击相似度满足预设相似度要求且与当前标准query具有相同实体词的非标准query;将确定的非标准query中去除与当前标准query相同的实体词后,得到候选同义属性词;对各候选同义属性词进行打分,基于打分值确定当前标注query中属性词的同义属性词。本发明能够节约人力资源、提高效率和召回率。
文档编号G06F17/27GK103106189SQ201110358740
公开日2013年5月15日 申请日期2011年11月11日 优先权日2011年11月11日
发明者陈庆轩, 李皛皛 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1