一种面向大规模信息的用户分类方法

文档序号:6627725阅读:534来源:国知局
一种面向大规模信息的用户分类方法
【专利摘要】本发明涉及信息处理领域,具体涉及一种面向大规模信息的用户分类方法。包括如下步骤:(1)首先对页面进行预处理;(2)面对杂乱无章的页面对其进行特征表示;再根据页面特征多反映出来的页面特征反映出来的内容得到页面的向量表示;(3)最后将页面集合划分成若干子集并在各子集上运行分类超平面算法得到相应的决策函数fi(x);最后通过非线性函数将上述决策函数fi(x)集成,得到最终的决策函数f(x),进而实现用户分类。本方法不仅解决了大规模用户分类问题,还保证分类过程中用户信息安全。上述优势使得本发明所提供的方法非常适合在互联网环境下对海量用户信息分类,也适用于其他海量数据分类问题。
【专利说明】一种面向大规模信息的用户分类方法

【技术领域】
[0001] 本发明涉及信息处理领域,具体涉及一种面向大规模信息的用户分类方法。

【背景技术】
[0002] 搜索引擎是查找信息的主要工具,但其查询返回结果相关率并不理想.为了进一 步提高信息服务的质量和用户满意度,开发性能更加优越的个性搜索引擎成了当务之急。 个性化搜索引擎通过收集和分析用户的浏览信息来获取用户的行为和兴趣, 从而达到返回用户个性化搜索结果的目的.所谓个性化是指通过分析用户输入的检索 要求、用户浏览的页面以及用户的使用日志等获取满足用户个性化需求信息。目前,个性化 搜索引擎大多是针对用户检索要求"被动地"提供信息服务.未来信息服务发展方向是信 息主动推送,传统的个性化搜索引擎关注的是用户的差异性,而信息主动推送更强调用户 兴趣的相关性。
[0003] 支持向量机(Support Vector Machine , SVM)是当前广泛使用的分类方法之一, 但在网络环境下,其面临两大问题:(1)规模数据分类问题;(2)隐私泄露问题。


【发明内容】

[0004] 本发明旨在提供一种能够有效防止隐私泄露的信息分类方法。
[0005] -种面向大规模信息的用户分类方法,包括如下步骤: 步骤1 :首先对页面进行预处理; 步骤2 :面对杂乱无章的页面对其进行特征表示;再根据页面特征多反映出来的页面 特征反映出来的内容得到页面的向量表示; 步骤3 :;最后将页面集合划分成若干子集并在各子集上运行分类超平面算法得到相 应的决策函数fi(x);最后通过非线性函数将上述决策函数fi(x)集成,得到最终的决策函 数f(x),进而实现用户分类。
[0006] 优选地,所述步骤1中的预处理为页面清洗。
[0007] 优选地,所述步骤2中页面表示方法为VSM,还可采用布尔逻辑模型或者概率模 型。
[0008] 优选地,所述步骤2页面特征词提取方法为: 步骤1 :将页面转化成文本并保留重要标记信息; 步骤2 :对文本文件切词处理; 步骤3 :去掉与页面内容无关的虚词; 步骤4 :去掉低频词; 步骤5 :剩下的词作为特征词,并保留其出现频率。
[0009] 更优选地,所述步骤2页面特征词权值计算方法如下: 步骤1 :根据特征词ti在页面中出现的位置和次数f i计算其频率: //=/,X & (?=1,2 .….房];式中,Si为特征词ti对应页面标记的权系数; 步骤2 :由于页面长短不一,对上式实现规范化处理。
[0010] 或者优选地,所述步骤3所述的分类超平面的非线性集成分类方法计算公式为: .V )= Spil ( r f .1. - Λ. / .t -A ) = spi I: W' J -I# ),其中
[0011] 本发明的技术效果在于: 本文提出面向大规模数据的用户分类方法,该方法不仅解决了大规模用户分类问题, 还保证分类过程中用户信息安全。上述优势使得本发明所提供的方法非常适合在互联网环 境下对海量用户信息分类,也适用于其他海量数据分类问题。

【专利附图】

【附图说明】
[0012] 图1为本发明面向大规模信息的用户分类方法的流程图。

【具体实施方式】
[0013] 一种面向大规模信息的用户分类方法,包括如下步骤: 步骤1 :首先对页面进行页面清洗;即清除掉一些与研究无关的文件,如图片文件及脚 本程序等; 步骤2 :面对杂乱无章的页面对其进行特征表示;再根据页面特征多反映出来的页面 特征反映出来的内容得到页面的向量表示;页面表示方法为VSM ; 其中,页面特征词提取方法为: 步骤1 :将页面转化成文本并保留重要标记信息; 步骤2 :对文本文件切词处理; 步骤3 :去掉与页面内容无关的虚词; 步骤4 :去掉低频词; 步骤5 :剩下的词作为特征词,并保留其出现频率。
[0014] 页面特征词权值计算方法如下: 步骤1 :根据特征词ti在页面中出现的位置和次数f i计算其频率: f: = /; · Λ < .二…·Λ;);式中,Si为特征词ti对应页面标记的权系数; 步骤2 :由于页面长短不一,对上式实现规范化处理。
[0015] 步骤3:;最后将页面集合划分成若干子集并在各子集上运行分类超平面算法得 到相应的决策函数fi(x);最后通过非线性函数将上述决策函数fi(x)集成,得到最终的决 策函数f(x),进而实现用户分类。
[0016] 或者优选地,所述步骤3所述的分类超平面的非线性集成分类方法计算公式为: X sgri ( / :r - κ, .1·/ a· -b =邛|| ( W -Ιι 1,其中,I
【权利要求】
1. 一种面向大规模信息的用户分类方法,其特征在于:包括如下步骤: 步骤1 :首先对页面进行预处理; 步骤2 :面对杂乱无章的页面对其进行特征表示;再根据页面特征多反映出来的页面 特征反映出来的内容得到页面的向量表示; 步骤3 :;最后将页面集合划分成若干子集并在各子集上运行分类超平面算法得到相 应的决策函数fi(x);最后通过非线性函数将上述决策函数fi(x)集成,得到最终的决策函 数f(x),进而实现用户分类。
2. -种面向大规模信息的用户分类方法,其特征在于:所述步骤1中的预处理为页面 清洗。
3. -种面向大规模信息的用户分类方法,其特征在于:所述步骤2中页面表示方法为 VSM,还可采用布尔逻辑模型或者概率模型。
4. 一种面向大规模信息的用户分类方法,其特征在于:所述步骤2页面特征词提取方 法为: 步骤1 :将页面转化成文本并保留重要标记信息; 步骤2 :对文本文件切词处理; 步骤3 :去掉与页面内容无关的虚词; 步骤4 :去掉低频词; 步骤5 :剩下的词作为特征词,并保留其出现频率。
5. -种面向大规模信息的用户分类方法,其特征在于:所述步骤2页面特征词权值计 算方法如下: 步骤1 :根据特征词t在页面中出现的位置和次数fi计算其频率: ?/=1.二…;式中,Si为特征词&对应页面标记的权系数; 步骤2 :由于页面长短不一,对上式实现规范化处理。
6. -种面向大规模信息的用户分类方法,其特征在于:所述 步骤3所述的分类超平面的非线性集成分类方法计算公式为:
【文档编号】G06F17/30GK104239534SQ201410485250
【公开日】2014年12月24日 申请日期:2014年9月22日 优先权日:2014年9月22日
【发明者】王耀斌 申请人:陕西高新实业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1