基于用户访问内容的实时个性化信息采集方法

文档序号：9417391阅读：303来源：国知局

基于用户访问内容的实时个性化信息采集方法
【技术领域】
[0001] 本发明涉及一种基于用户访问内容的实时个性化信息采集方法。
【背景技术】
[0002] 随着家庭环境中智能手机、平板电脑等终端产品的增加，各种多媒体数据的丰富，用户已逐渐建立起对智能终端设备的使用习惯。然而随着终端产品的增加，网络信息的增长也极为迅速，海量的信息可以为用户提供丰富信息资源的同时，也对用户如何快速从信息海洋中获取所需信息提出了挑战。根据用户访问内容进行的实时个性化信息采集成为大数据背景下一个重要课题，对后续的数据分析和挖掘具有至关重要的推动意义。
[0003] 现今常用的根据主题定向抓取网页资源的技术为聚焦爬虫技术，通用聚焦爬虫的目标是根据事先选定的主题来人工设定主题关键字和种子链接，从而尽可能多地采集相关页面，这会消耗非常多的系统资源、网络带宽，处理速度慢。并且现今的聚焦爬虫技术主要采用基于内容评价的主题爬行策略，忽略了链接信息的作用，预测链接价值的能力较差。

【发明内容】

[0004] 本发明的目的就是为了解决上述问题，提供一种基于用户访问内容的实时个性化信息采集方法，它通过分析用户网络请求实时获取用户访问链接，结合内容评价和链接结构准确快速爬取与主题相关的有效子链接，并建立链接主题分类库对采集的链接进行主题分类、重要性排序和内容存储。
[0005] 为了实现上述目的，本发明采用如下技术方案：
[0006] -种基于用户访问内容的实时个性化信息采集方法，包括如下步骤：
[0007] 步骤（1):通过实时分析用户网络请求获取当前种子页面，并提取网页的结构化信息；
[0008] 步骤（2):根据网页的结构化信息从多角度提取主题关键词；组成主题关键词词条；
[0009] 步骤（3):提取当前种子页面的子链接的锚文本，依据主题关键词词条对锚文本进行分词，并依据分词后的结果建立向量空间模型，根据向量空间模型利用余弦定理计算子链接与当前种子页面的主题相关性；并把主题相关性大于设定阈值的子链接判定为有效子链接；
[0010] 步骤（4):建立链接主题分类库，进行种子链接优先级设定和当前种子链接主题分类；
[0011] 步骤（5):计算链接主题分类库中所有子链接的重要性，并依据重要性对子链接进行排序，并进行排序后所有子链接所对应的页面信息的下载和数据存储。
[0012] 所述步骤（1):实时获取用户网络请求，并从所述网络请求中提取统一资源定位符URL (Uniform Resource Locator，是互联网标准资源的地址），根据URL下载对应网页作为当前种子页面，并提取网页的结构化信息；
[0013] 所述步骤（2):对步骤（1)的网页的结构化信息进行分词操作，获得所有候选关键词，从统计分析、结构分析和语言分析三个方面分别计算每个候选关键词的权值，并选取权值最大的设定数量的词作为主题关键词；将选取出来的主题关键词组成主题关键词词条，将选取出来的主题关键词相对应的权值组成特征向量；
[0014] 所述步骤⑶：爬取种子页面中所有子链接，提取每个子链接的锚文本，将步骤 (2)的主题关键词词条作为词库对锚文本进行分词，根据锚文本分词后的词对应的词频获取相应子链接的特征向量，组成向量空间模型，根据向量空间模型利用余弦定理计算子链接与当前种子页面的主题相关性；并把主题相关性大于设定阈值的子链接判定为有效子链接；
[0015] 所述步骤（4):建立链接主题分类库，进行种子链接优先级设定和当前种子链接主题分类：
[0016] 进行种子链接优先级设定，并利用当前链接主题分类库对当前种子链接进行匹配，
[0017] 如果种子链接属于当前链接主题分类库，则将步骤（3)提取的有效子链接存入当前链接主题分类库并跳转执行步骤（1);
[0018] 如果种子链接不属于当前链接主题分类库，则根据种子链接建立新的链接主题分类库，并执行步骤（5);
[0019] 所述步骤（5):根据步骤（3)的子链接与当前种子页面的主题相关性和步骤（4) 的当前种子链接优先级，计算当前链接主题分类库中所有子链接的重要性，根据重要性对链接主题分类库中的所有URL进行排序，并进行排序后相应页面信息的下载和数据存储。
[0020] 所述步骤⑴的网页的结构化信息包括：网页的标题、简介和正文。
[0021] 所述步骤（2)的步骤为：
[0022] 步骤（2-1):对标题、简介和正文进行分词操作，去除干扰词汇，最终获得所有候选关键词；
[0023] 步骤（2-2):统计所有候选关键词的属性信息，并将所有候选关键词的属性信息存储；所述属性信息包括：包括词频、词位置、词跨度、词长和词性；
[0024] 步骤（2-3):从统计分析、结构分析和语言分析三个方面分别计算每个候选关键词的权重参数，根据每个候选关键词的权重参数，确定每个候选关键词的权值Score (X1)，并选取权值最大的设定数量的词作为主题关键词，将选取出来的主题关键词组成主题关键词词条，将选取出来的主题关键词相对应的权值组成特征向量。
[0025] 所述步骤（2-1)中干扰词汇包括停用词、合并数字和人名；
[0026] 所述步骤（2-2)的所有候选关键词的属性信息存储到哈希表wordMap中，其中key 为候选关键词，value为自定义的词信息结构对象，存储每个候选关键词的属性信息。
[0027] 所述步骤（2-3)中，从统计分析方面计算每个候选关键词的权重参数：
[0028] 利用词频加权函数Tf (X1)计算当前种子页面中候选关键词X1的词频权重T f (X1);
[0029] 计算公式为：
[0030]
LlN 丄UOldSOOS A I ^ ?V <
[0031] 其中Ii1是候选关键词出现的次数，而分母
是所有k个候选关键词的出现次数之和。
[0032] 所述步骤（2-3)中，从结构分析方面计算每个候选关键词的权重参数：
[0033] a利用词位置加权函数计算候选关键词Xi的词位置权重Loc (X ;);
[0034] 计算公式为：
[0035] Loc (Xi) = tloc;
[0036] t。。是词位置加权函数Loc (X ;) = t。。的一个系数，表示词语出现的位置。
[0037] b利用词跨度加权函数计算候选关键词X1的词跨度权重Spa(X J ;
[0038] 计算公式为：
[0039]
[0040] 其中，I1表示词语出现的段落数量，L表示段落总数。
[0041] 所述步骤（2-3)中，从语言分析方面计算每个候选关键词的权重参数：
[0042] c利用词长加权函数计算候选关键词的词长权重Len(X1);
[0043] 计算公式为：
[0044]
[0045] 其中，Ien (Xi)表示候选关键词Xi的实际词长，分母Max(len(X丨)，Ien(X2)，…，Ien(X k)) 表示k个候选关键词中词长最长的长度；len (Xk)表示第k个候选关键词中词长的长度。
[0046] d利用词性加权函数计算候选关键词的词性权重Pos (Xi);
[0047] 计算公式为：
[0048] Pos(X1) = tpos;
[0049] 其中，tp。^词性加权函数Pos(x J = tpcis的一个系数，表示词性。
[0050] 所述步骤（2-3)中，根据每个候选关键词的权重参数，确定每个候选关键词的权值Score (Xi)的计算公式为：
[0051] Score (Xi) = Tf (Xi) X (1+Loc (Xi) +Spa (Xi) +Len (Xi) +Pos (Xi)) 〇
[0052] 选取权值最大的设定数量的词作为主题关键词，将选取出来的主题关键词组成主题关键词词条β = (XdX2,...，Xn)，将选取出来的主题关键词相对应的权值组成特征向量 a = (Wl，W2,…，Wn)。Xr^示所有的主题关键词，w η表示所有对应

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹叶文;王鹏达;
技术所有人：山东大学;
我是此专利的发明人

上一篇：用于管理用户日程表的方法和使用该方法的设备的制造方法
上一篇：一种音乐随机播放方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。