基于用户访问内容的实时个性化信息采集方法

文档序号:9417391阅读:303来源:国知局
基于用户访问内容的实时个性化信息采集方法
【技术领域】
[0001] 本发明涉及一种基于用户访问内容的实时个性化信息采集方法。
【背景技术】
[0002] 随着家庭环境中智能手机、平板电脑等终端产品的增加,各种多媒体数据的丰富, 用户已逐渐建立起对智能终端设备的使用习惯。然而随着终端产品的增加,网络信息的增 长也极为迅速,海量的信息可以为用户提供丰富信息资源的同时,也对用户如何快速从信 息海洋中获取所需信息提出了挑战。根据用户访问内容进行的实时个性化信息采集成为大 数据背景下一个重要课题,对后续的数据分析和挖掘具有至关重要的推动意义。
[0003] 现今常用的根据主题定向抓取网页资源的技术为聚焦爬虫技术,通用聚焦爬虫的 目标是根据事先选定的主题来人工设定主题关键字和种子链接,从而尽可能多地采集相关 页面,这会消耗非常多的系统资源、网络带宽,处理速度慢。并且现今的聚焦爬虫技术主要 采用基于内容评价的主题爬行策略,忽略了链接信息的作用,预测链接价值的能力较差。

【发明内容】

[0004] 本发明的目的就是为了解决上述问题,提供一种基于用户访问内容的实时个性化 信息采集方法,它通过分析用户网络请求实时获取用户访问链接,结合内容评价和链接结 构准确快速爬取与主题相关的有效子链接,并建立链接主题分类库对采集的链接进行主题 分类、重要性排序和内容存储。
[0005] 为了实现上述目的,本发明采用如下技术方案:
[0006] -种基于用户访问内容的实时个性化信息采集方法,包括如下步骤:
[0007] 步骤(1):通过实时分析用户网络请求获取当前种子页面,并提取网页的结构化 信息;
[0008] 步骤(2):根据网页的结构化信息从多角度提取主题关键词;组成主题关键词词 条;
[0009] 步骤(3):提取当前种子页面的子链接的锚文本,依据主题关键词词条对锚文本 进行分词,并依据分词后的结果建立向量空间模型,根据向量空间模型利用余弦定理计算 子链接与当前种子页面的主题相关性;并把主题相关性大于设定阈值的子链接判定为有效 子链接;
[0010] 步骤(4):建立链接主题分类库,进行种子链接优先级设定和当前种子链接主题 分类;
[0011] 步骤(5):计算链接主题分类库中所有子链接的重要性,并依据重要性对子链接 进行排序,并进行排序后所有子链接所对应的页面信息的下载和数据存储。
[0012] 所述步骤(1):实时获取用户网络请求,并从所述网络请求中提取统一资源定位 符URL (Uniform Resource Locator,是互联网标准资源的地址),根据URL下载对应网页作 为当前种子页面,并提取网页的结构化信息;
[0013] 所述步骤(2):对步骤(1)的网页的结构化信息进行分词操作,获得所有候选关键 词,从统计分析、结构分析和语言分析三个方面分别计算每个候选关键词的权值,并选取权 值最大的设定数量的词作为主题关键词;将选取出来的主题关键词组成主题关键词词条, 将选取出来的主题关键词相对应的权值组成特征向量;
[0014] 所述步骤⑶:爬取种子页面中所有子链接,提取每个子链接的锚文本,将步骤 (2)的主题关键词词条作为词库对锚文本进行分词,根据锚文本分词后的词对应的词频获 取相应子链接的特征向量,组成向量空间模型,根据向量空间模型利用余弦定理计算子链 接与当前种子页面的主题相关性;并把主题相关性大于设定阈值的子链接判定为有效子链 接;
[0015] 所述步骤(4):建立链接主题分类库,进行种子链接优先级设定和当前种子链接 主题分类:
[0016] 进行种子链接优先级设定,并利用当前链接主题分类库对当前种子链接进行匹 配,
[0017] 如果种子链接属于当前链接主题分类库,则将步骤(3)提取的有效子链接存入当 前链接主题分类库并跳转执行步骤(1);
[0018] 如果种子链接不属于当前链接主题分类库,则根据种子链接建立新的链接主题分 类库,并执行步骤(5);
[0019] 所述步骤(5):根据步骤(3)的子链接与当前种子页面的主题相关性和步骤(4) 的当前种子链接优先级,计算当前链接主题分类库中所有子链接的重要性,根据重要性对 链接主题分类库中的所有URL进行排序,并进行排序后相应页面信息的下载和数据存储。
[0020] 所述步骤⑴的网页的结构化信息包括:网页的标题、简介和正文。
[0021] 所述步骤(2)的步骤为:
[0022] 步骤(2-1):对标题、简介和正文进行分词操作,去除干扰词汇,最终获得所有候 选关键词;
[0023] 步骤(2-2):统计所有候选关键词的属性信息,并将所有候选关键词的属性信息 存储;所述属性信息包括:包括词频、词位置、词跨度、词长和词性;
[0024] 步骤(2-3):从统计分析、结构分析和语言分析三个方面分别计算每个候选关键 词的权重参数,根据每个候选关键词的权重参数,确定每个候选关键词的权值Score (X1), 并选取权值最大的设定数量的词作为主题关键词,将选取出来的主题关键词组成主题关键 词词条,将选取出来的主题关键词相对应的权值组成特征向量。
[0025] 所述步骤(2-1)中干扰词汇包括停用词、合并数字和人名;
[0026] 所述步骤(2-2)的所有候选关键词的属性信息存储到哈希表wordMap中,其中key 为候选关键词,value为自定义的词信息结构对象,存储每个候选关键词的属性信息。
[0027] 所述步骤(2-3)中,从统计分析方面计算每个候选关键词的权重参数:
[0028] 利用词频加权函数Tf (X1)计算当前种子页面中候选关键词X1的词频权重T f (X1);
[0029] 计算公式为:
[0030]
LlN 丄UOldSOOS A I ^ ?V <
[0031] 其中Ii1是候选关键词出现的次数,而分母
是所有k个候选关键词的出现次数 之和。
[0032] 所述步骤(2-3)中,从结构分析方面计算每个候选关键词的权重参数:
[0033] a利用词位置加权函数计算候选关键词Xi的词位置权重Loc (X ;);
[0034] 计算公式为:
[0035] Loc (Xi) = tloc;
[0036] t。。是词位置加权函数Loc (X ;) = t。。的一个系数,表示词语出现的位置。
[0037] b利用词跨度加权函数计算候选关键词X1的词跨度权重Spa(X J ;
[0038] 计算公式为:
[0039]
[0040] 其中,I1表示词语出现的段落数量,L表示段落总数。
[0041] 所述步骤(2-3)中,从语言分析方面计算每个候选关键词的权重参数:
[0042] c利用词长加权函数计算候选关键词的词长权重Len(X1);
[0043] 计算公式为:
[0044]
[0045] 其中,Ien (Xi)表示候选关键词Xi的实际词长,分母Max(len(X丨),Ien(X2),…,Ien(X k)) 表示k个候选关键词中词长最长的长度;len (Xk)表示第k个候选关键词中词长的长度。
[0046] d利用词性加权函数计算候选关键词的词性权重Pos (Xi);
[0047] 计算公式为:
[0048] Pos(X1) = tpos;
[0049] 其中,tp。^词性加权函数Pos(x J = tpcis的一个系数,表示词性。
[0050] 所述步骤(2-3)中,根据每个候选关键词的权重参数,确定每个候选关键词的权 值Score (Xi)的计算公式为:
[0051] Score (Xi) = Tf (Xi) X (1+Loc (Xi) +Spa (Xi) +Len (Xi) +Pos (Xi)) 〇
[0052] 选取权值最大的设定数量的词作为主题关键词,将选取出来的主题关键词组成主 题关键词词条β = (XdX2,...,Xn),将选取出来的主题关键词相对应的权值组成特征向量 a = (Wl,W2,…,Wn)。Xr^示所有的主题关键词,w η表示所有对应
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1