一种提取页面主题的方法和装置的制作方法

文档序号:6655096阅读:172来源:国知局
专利名称:一种提取页面主题的方法和装置的制作方法
一种提取页面主题的方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种提取页面主题的方法和装置。
背景技术
无论是页面搜索中的排序、页面主题词的确定或者其他方面都会涉及到页面主题的获取,例如,在页面搜索的排序中,会将页面主题与query之间相关度越高的排在越前面,页面主题词通常从页面主题中提取,等等。目前,通常简单地将页面的整个标题段落(title)作为页面主题。但是页面的title中可能存在多个段落,有些段落是页面主题不相关的内容,会造成页面主题的偏移。应用在页面搜索的排序中可能不能够准确地满足用户需求,应用在页面主题词的确定中可 能造成确定的页面主题词不能够准确地体现页面主题。

发明内容本发明提供了一种提取页面主题的方法和装置,以便于减小提取的页面主题与实际页面主题的偏差。具体技术方案如下一种提取页面主题的方法,该方法包括A、获取页面中表达页面主题的候选段落;B、如果存在可再分段的候选段落,则对可再分段的候选段落进行分段处理;否则执行步骤C ;C、分别计算步骤B之后得到的各段落的置信度;D、将置信度满足预设的置信度要求的段落作为页面主题段落。上述步骤A中获取的所述候选段落包括以下所列的至少一个标签为title的页面标题段落、标签为realtitle的页面标题行、标签为mypos的导航段落以及标签为preanchor的前链。具体地,步骤B中,如果存在包含预设类型的符号的候选段落,则确定该候选段落可再分段,并以所述预设类型的符号为分隔符对可再分段的候选段落进行分段处理。其中,所述预设类型的符号包括标点符号、空格、下划线、斜线或者括号。另外,所述步骤C具体包括Cl、对所述步骤B之后得到的各段落进行分词处理;C2、按照公式Dij = a *SU+@ *PU,计算分词处理后得到各词语的置信度,其中,Dij为第i个段落分词处理后得到的第j个词语的置信度,Sij为第i个段落分词处理后得到的第j个词语在所述各段落中出现的总频次,Pu为第i个段落分词处理后得到的第j个词语在所述页面中出现的频次,a和P为预设的加权系数;C3、利用各段落中包含的各词语的置信度,分别得到所述各段落的置信度。在所述步骤C3中,第i个段落的置信度01可以为
权利要求
1.一种提取页面主题的方法,其特征在于,该方法包括 A、获取页面中表达页面主题的候选段落; B、如果存在可再分段的候选段落,则对可再分段的候选段落进行分段处理;否则执行步骤C ; C、分别计算步骤B之后得到的各段落的置信度; D、将置信度满足预设的置信度要求的段落作为页面主题段落。
2.根据权利要求I所述的方法,其特征在于,所述步骤A中获取的所述候选段落包括以下所列的至少一个 标签为title的页面标题段落、标签为realtitle的页面标题行、标签为mypos的导航段落以及标签为preanchor的前链。
3.根据权利要求I所述的方法,其特征在于,所述步骤B中,如果存在包含预设类型的符号的候选段落,则确定该候选段落可再分段,并以所述预设类型的符号为分隔符对可再分段的候选段落进行分段处理。
4.根据权利要求3所述的方法,其特征在于,所述预设类型的符号包括标点符号、空格、下划线、斜线或者括号。
5.根据权利要求I所述的方法,其特征在于,所述步骤C具体包括 Cl、对所述步骤B之后得到的各段落进行分词处理; C2、按照公式Dij = a,计算分词处理后得到各词语的置信度,其中,Dij为第i个段落分词处理后得到的第j个词语的置信度,Sij为第i个段落分词处理后得到的第j个词语在所述各段落中出现的总频次,Pu为第i个段落分词处理后得到的第j个词语在所述页面中出现的频次,a和0为预设的加权系数; C3、利用各段落中包含的各词语的置信度,分别得到所述各段落的置信度。
6.根据权利要求5所述的方法,其特征在于,在所述步骤C3中,第i个段落的置信度Di 可以为n _N为第i个段落分词处理后得到的词语数目。
7.根据权利要求I所述的方法,其特征在于,在所述步骤C或者所述步骤D之前,还包括 根据预设的站点词典,将所述各段落中出现所述站点词典中内容占段落长度的比例达到预设的比例阈值的段落过滤掉。
8.根据权利要求I所述的方法,其特征在于,步骤D中所述置信度要求包括段落的置信度达到预设的置信度阈值;或者, 段落的置信度排在所述各段落中的前N个;或者, 段落的置信度达到预设的置信度阈值且排在所述各段落中的前N个;其中N为预设的正整数。
9.根据权利要求I至8任一权项所述的方法,其特征在于,该方法还包括分别对所述页面主题段落执行以下步骤 E、对所述页面主题段落进行分词处理; F、对分词处理后得到的各词语进行词性标注;G、对分词处理后得到的各词语执行以下过滤操作中的至少一个 将预设的停用词表所包含的词语从分词处理后得到的各词语中过滤掉; 将非独立表意的词语从分词处理后得到的各词语中过滤掉; 如果分词处理后得到的各词语中存在互为上下位关系的词语,则将上位的词语从分词处理后得到的各词语中过滤掉;以及, 将页面类型属性词从分词处理后得到的各词语中过滤掉; H、将分词处理后得到的各词语执行步骤G之后余下的词语确定为所述页面的主题词。
10.根据权利要求9所述的方法,其特征在于,所述将页面类型属性词从分词处理后得到的各词语中过滤掉包括 如果所述页面是预设的页面类型,则将所述页面的类型属性词从分词处理后得到的各词语中过滤掉;其中所述预设的页面类型包括视频类型、小说类型、音频类型、游戏类型或者论坛类型。
11.一种提取页面主题的装置,其特征在于,该装置包括段落获取单元、分段处理单元、置信度计算单元和主题段落确定单元; 所述段落获取单元,用于获取页面中表达页面主题的候选段落并提供给所述分段处理单元; 所述分段处理单元,用于将不可再分段的候选段落发送给所述置信度计算单元,对可再分段的候选段落进行分段处理后发送给所述置信度计算单元; 所述置信度计算单元,用于计算所述分段处理单元发送来的各段落的置信度; 所述主题段落确定单元,用于根据所述置信度计算单元的计算结果,将置信度满足预设的置信度要求的段落作为页面主题段落。
12.根据权利要求11所述的装置,其特征在于,所述段落获取单元获取的所述候选段落包括以下所列的至少一个 标签为title的页面标题段落、标签为realtitle的页面标题行、标签为mypos的导航段落以及标签为preanchor的前链。
13.根据权利要求11所述的装置,其特征在于,所述分段处理单元如果确定存在包含预设类型的符号的候选段落,则确定该候选段落可再分段,并以预设类型的符号为分隔符对可再分段的候选段落进行分段处理。
14.根据权利要求13所述的装置,其特征在于,所述预设类型的符号包括标点符号、空格、下划线、斜线或者括号。
15.根据权利要求11所述的装置,其特征在于,所述置信度计算单元具体包括第一分词子单元、第一计算子单元和第二计算子单元; 所述第一分词子单元,用于对所述分段处理单元发送来的各段落进行分词处理; 所述第一计算子单元,用于按照公SDu = a*Su+P*Pu,计算所述第一分词子单元分词处理后得到各词语的置信度,其中,Dij为第i个段落分词处理后得到的第j个词语的置信度,Su为第i个段落分词处理后得到的第j个词语在所述各段落中出现的总频次,Pij为第i个段落分词处理后得到的第j个词语在页面中出现的频次,a和P为预设的加权系数; 所述第二计算子单元,用于利用各段落中包含的各词语的置信度,分别得到所述各段落的置信度。
16.根据权利要求15所述的装置,其特征在于,所述第二计算子单元按照
17.根据权利要求11所述的装置,其特征在于,该装置还包括第一过滤单元,用于根据预设的站点词典,将所述分段处理单元发送的各段落中出现所述站点词典中内容占段落长度的比例达到预设的比例阈值的段落过滤掉。
18.根据权利要求11所述的装置,其特征在于,所述置信度要求包括段落的置信度达到预设的置信度阈值;或者, 段落的置信度排在所述各段落中的前N个;或者, 段落的置信度达到预设的置信度阈值且排在所述各段落中的前N个;其中N为预设的正整数。
19.根据权利要求11至18任一权项所述的装置,其特征在于,该装置还包括主题词提取单元; 所述主题词提取单元具体包括第二分词子单元、词性标注子单元、过滤子单元和主题词确定子单元; 所述第二分词子单元,用于对所述页面主题段落进行分词处理; 所述词性标注子单元,用于对分词处理后得到的各词语进行词性标注后发送给所述过滤子单元; 所述过滤子单元,用于对分词处理后得到的各词语执行以下过滤操作中的至少一个 将预设的停用词表所包含的词语从分词处理后得到的各词语中过滤掉; 将非独立表意的词语从分词处理后得到的各词语中过滤掉; 如果分词处理后得到的各词语中存在互为上下位关系的词语,则将上位的词语从分词处理后得到的各词语中过滤掉;以及, 将页面类型属性词从分词处理后得到的各词语中过滤掉; 所述主题词确定子单元,用于将所述过滤子单元过滤处理后余下的词语确定为所述页面的主题词。
20.根据权利要求19所述的装置,其特征在于,所述过滤子单元如果确定所述页面是预设的页面类型,则将所述页面的类型属性词从分词处理后得到的各词语中过滤掉;其中所述预设的页面类型包括视频类型、小说类型、音频类型、游戏类型或者论坛类型。
全文摘要
本发明提供了一种提取页面主题的方法和装置,其中方法包括A、获取页面中表达页面主题的候选段落;B、如果存在可再分段的候选段落,则对可再分段的候选段落进行分段处理;否则执行步骤C;C、分别计算步骤B之后得到的各段落的置信度;D、将置信度满足预设的置信度要求的段落作为页面主题段落。通过本发明能够更加准确地确定页面主题段落,减小提取的页面主题与实际页面主题的偏差。
文档编号G06F17/30GK102737017SQ20111008085
公开日2012年10月17日 申请日期2011年3月31日 优先权日2011年3月31日
发明者刘海浪 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1