基于用户访问内容的实时个性化信息采集方法_3

文档序号:9417391阅读:来源:国知局
096] 5.进行种子链接优先级设定和主题分类,将用户访问的种子链接的优先级设定 为P(P1),将其他爬取到的有效子链接的优先级设定为零。然后对当前种子链接进行主题 分类,利用当前链接主题分类库对种子链接进行匹配,如果存在则将爬取到的有效子链接 加入到当前分类库中,并跳转到步骤1。如果不存在,则根据当前链接主题分类库中的所有 URL利用上述方法进行深度爬取,直到爬取的有效子链接数量达到阈值(2)时停止并存储 至当前分类库,最后为当前种子链接建立新的链接主题分类库,执行步骤6。
[0097] 6.提取当前链接主题分类库中所有的URL,将其与当前种子页面的主题相关性 sim(a,α ;)、链接优先级P(Pi),作为参数带入到改进的PageRank公式当中,计算每一个 URL的重要性。改进的PageRank公式为:
[0098]
[0099] 其中,PR(P1)表示当前页面的PageRank值;η为连接到当前页面的链接总数; PR(Pj)表示连接到当前页面的网页6的PageRank值;C(P )表示页面Pj的出站链接总数; d为阻尼系数,一般设定为0. 85。
[0100] 7.根据链接重要性对链接主题分类库中的所有URL排序,并进行对应网页内容下 载,最后按类别保存至Web页面库。
[0101] 上述虽然结合附图对本发明的【具体实施方式】进行了描述,但并非对本发明保护范 围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不 需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
【主权项】
1. 一种基于用户访问内容的实时个性化信息采集方法,其特征是,包括如下步骤: 步骤(1):通过实时分析用户网络请求获取当前种子页面,并提取网页的结构化信息; 步骤(2):根据网页的结构化信息从多角度提取主题关键词;组成主题关键词词条; 步骤(3):提取当前种子页面的子链接的锚文本,依据主题关键词词条对锚文本进行 分词,并依据分词后的结果建立向量空间模型,根据向量空间模型利用余弦定理计算子链 接与当前种子页面的主题相关性;并把主题相关性大于设定阈值的子链接判定为有效子链 接; 步骤(4):建立链接主题分类库,进行种子链接优先级设定和当前种子链接主题分类; 步骤(5):计算链接主题分类库中所有子链接的重要性,并依据重要性对子链接进行 排序,并进行排序后所有子链接所对应的页面信息的下载和数据存储。2. 如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法,其特征 是,所述步骤(2):对步骤(1)的网页的结构化信息进行分词操作,获得所有候选关键词,从 统计分析、结构分析和语言分析三个方面分别计算每个候选关键词的权值,并选取权值最 大的设定数量的词作为主题关键词;将选取出来的主题关键词组成主题关键词词条,将选 取出来的主题关键词相对应的权值组成特征向量。3. 如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法,其特征 是, 所述步骤(4):进行种子链接优先级设定,并利用当前链接主题分类库对当前种子链 接进行匹配, 如果种子链接属于当前链接主题分类库,则将步骤(3)提取的有效子链接存入当前链 接主题分类库并跳转执行步骤(1); 如果种子链接不属于当前链接主题分类库,则根据种子链接建立新的链接主题分类 库,并执行步骤(5)。4. 如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法,其特征 是, 所述步骤(5):根据步骤(3)的子链接与当前种子页面的主题相关性和步骤(4)的当 前种子链接优先级,计算当前链接主题分类库中所有子链接的重要性,根据重要性对链接 主题分类库中的所有URL进行排序,并进行排序后相应页面信息的下载和数据存储。5. 如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法,其特征 是, 所述步骤(2)的步骤为: 步骤(2-1):对标题、简介和正文进行分词操作,去除干扰词汇,最终获得所有候选关 键词; 步骤(2-2):统计所有候选关键词的属性信息,并将所有候选关键词的属性信息存储; 所述属性信息包括:包括词频、词位置、词跨度、词长和词性; 步骤(2-3):从统计分析、结构分析和语言分析三个方面分别计算每个候选关键词的 权重参数,根据每个候选关键词的权重参数,确定每个候选关键词的权值Score (X1),并选 取权值最大的设定数量的词作为主题关键词,将选取出来的主题关键词组成主题关键词词 条,将选取出来的主题关键词相对应的权值组成特征向量。6. 如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法,其特征 是, 所述步骤(3)的向量空间模型是由一个特征向量组和两个对应的特征向量组成:所述 特征向量组就是步骤(2)计算获得的种子页面的主题关键词;所述两个对应的特征向量分 别是:(1)种子页面内容与主题关键词对应的权值组成的特征向量,(2)子链接的锚文本内 容与主题关键词对应的权值组成的特征向量。7. 如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法,其特征 是, 所述步骤(3)的步骤为: 步骤(3-1):爬取当前种子页面中的所有子链接,提取每个子链接的锚文本,过滤掉 指向图片、视频和门户网站的子链接,判断剩余子链接是否被爬取过,如果是则返回步骤 (3-1),如果否则进入步骤(3-2); 步骤(3-2):将主题关键词词条作为词库对锚文本进行分词,根据锚文本分词后的词 对应的词频获取相应锚文本的特征向量,使每个子链接的锚文本的特征向量与主题关键词 的特征向量组成向量空间模型VSM,vector space model ; 步骤(3-3):利用余弦定理计算子链接与当前种子页面的主题相关性sim(a,Ci1),判 断主题相关性是否大于第一设定阈值,如果大于,就把主题相关性大于设定阈值的子链接 判定为有效子链接,否则返回步骤(3-1); 步骤(3-4):继续判断有效子连接的数量是否达到第二设定阈值,如果达到就结束,如 果未达到,就返回步骤(3-1)。8. 如权利要求7所述的一种基于用户访问内容的实时个性化信息采集方法,其特征 是, 所述步骤(3-3)中余弦定理公式为:其中,a、a 别为当前种子页面和子链接的特征向量,w k、Wik分别为当前种子页面和 子链接的第k个特征向量值。9. 如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法,其特征 是, 所述步骤(5)的步骤为: 步骤(5-1):根据当前链接主题分类库中的所有URL进行深度爬取,直到爬取的有效子 链接数量达到设定阈值时停止并进行存储; 步骤(5-2):将当前链接主题分类库中每一个URL与种子页面的主题相关性 sim( a,a ;)、链接优先级P(Pi),作为参数带入到改进的PageRank公式当中计算链接重要 性; 步骤(5-3):根据重要性对链接主题分类库中的所有URL进行排序,并进行相应页面信 息的下载和数据库存储。10.如权利要求9所述的一种基于用户访问内容的实时个性化信息采集方法,其特征 是, 所述步骤(5-2)中改进的PageRank公式为:其中,PR(P1)表示当前页面的PageRank值;n为连接到当前页面的链接总数;PR(P j)表 示连接到当前页面的网页匕的PageRank值;C(P ,)表示页面P,的出站链接总数;d为阻尼 系数;P(P1)为用户访问的当前种子链接的优先级。
【专利摘要】本发明公开了一种基于用户访问内容的实时个性化信息采集方法,步骤如下:通过实时分析用户网络请求获取当前种子页面,并提取网页的结构化信息;根据网页的结构化信息从多角度提取主题关键词;组成主题关键词词条;提取当前种子页面的子链接的锚文本,依据主题关键词词条对锚文本进行分词,并依据分词后的结果建立向量空间模型,根据向量空间模型利用余弦定理计算子链接与当前种子页面的主题相关性;并把主题相关性大于设定阈值的子链接判定为有效子链接;建立链接主题分类库,进行种子链接优先级设定和当前种子链接主题分类;计算链接主题分类库中所有子链接的重要性,并依据重要性对子链接进行排序,并进行排序后相应页面信息的下载和数据存储。
【IPC分类】G06F17/30
【公开号】CN105138558
【申请号】CN201510435878
【发明人】曹叶文, 王鹏达
【申请人】山东大学
【公开日】2015年12月9日
【申请日】2015年7月22日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1