一种互联网信息筛选系统及方法

文档序号:9396932阅读:1424来源:国知局
一种互联网信息筛选系统及方法
【技术领域】
[0001] 本发明涉及计算机网络技术领域,特别涉及一种互联网信息筛选系统及方法。
【背景技术】
[0002] 随着时代的发展,网络上的信息呈现爆炸式的增长,门户网站的新闻媒体已经不 再是互联网内容的主要来源,各种社交平台,微博,微信,朋友圈论坛等每天都会产生海量 的信息。在大量的信息中及时、有效的提取出有价值的热点网络事件信息,将热点网络事件 经过编辑、加工成具备营销特质的自有信息,通过自己的网络渠道快速发布出去,增加客户 粘性和营销成功率。如何及时发布有价值的事件营销信息,对事件信息时效性的要求也越 来越高,在将最具价值的事件信息叠加营销属性后及时的展现给用户也成为了电商的必然 要求,如何快速的筛选热点事件文档也成为了电商网站亟待解决的问题。事件信息文档的 筛选问题本质上可以归结为文档的二类分类问题,但同传统的文档分类相比而言又有着明 显的差异性。一是文档类间界限的不明确性,即分类的标准是由人为确定的所谓热点事件 价值决定;二是随着信息产业的发展,尤其是Internet的爆炸式增长,需要分析的热点事 件数据呈现海量性特点。

【发明内容】

[0003] 本发明所要解决的技术问题是针对现有技术的不足,提供一种互联网信息筛选系 统及方法。
[0004] 本发明解决上述技术问题的技术方案如下:
[0005] -种互联网信息筛选系统,包括通信单元、预处理单元、权重计算单元、策略单元、 阈值筛选单元和执行单元;
[0006] 所述通信单元,其用于收集互联网的文档组成文档库,并将文档库内的文档信息 传给预处理单元;还用于收集互联网的待分类文档,并将待分类文档信息传给分类器单 元;
[0007] 所述预处理单元,其用于将文档库内的文档进行归类,分词去噪和频数统计;所述 将文档进行归类是指将文档按文档编号、文档内容和文档属性分别归类,所述将文档进行 分词去噪是指对已归类文档进行分词去噪,得到的词条作为value输出,把词条所属的文 档属性对作为key输出;所述对文档进行频数统计是指将具有相同文档属性的value合并, 并统计属于同种文档属性的value队列中不同value的频数;
[0008] 所述权重计算单元,其用于对预处理后的文档进行权重计算,具体为计算出每个 文档中每个词的权重,取权重最大的前K个词作为此文档的特征词,并合并所有文档的特 征词,组成特征词空间,将得到的文档权重结果映射到特征词空间上,得出各类文档的类中 心向量;
[0009] 所述分类器单元,其用于对待分类文档进行频数统计,得出针对每一文档的词条 频数的统计结果,算出每一文档在特征词空间上的权值,利用权重计算单元算出的文档库 内的文档的类中心向量,按照反馈机制进行分类,将文档号作为value输出,文档所属类别 作为key输出,得到待分类文档与文档库内的文档的相似度结果;
[0010] 所述策略单元,其用于设置筛选待分类文档与文档库内的文档的相似度的阈值;
[0011] 所述阈值筛选单元,其用于按照策略单元设置的阈值在在待分类文档中进行筛 选,得到目标文档。
[0012] 本发明的有益效果是:网站服务器在收集新闻类微信、网站微博发布的事件文档 信息后,突破在大规模热点事件信息数据集上筛选运行时的性能限制,解决了针对特定类 别而进行的海量热点事件信息文档的分类筛选问题,提高了处理速度,能在保证准确度的 情况下大大提高系统的执行速度和效率。满足了电商营销对热点事件时效性的要求,能及 时的从大规模的热点事件信息数据中筛选出有价值的信息并予以发布,促进电商网站营销 及时性、多样性的拓展,提高网站交易量和收入。
[0013] 进一步的,本发明的系统还包括执行单元,其用于将促销商品内容加载在阈值筛 选单元筛选后的目标文档中,并把加载后的文档数据信息传给通信单元。
[0014] 进一步的,所述权重计算单元采用的是改进TFIDF = TFxlog (m = (m+k)xN)算法, 其中TF表示某一特征项的词频,m表示该特征项的领域内文档频率,k表示该特征项的非领 域内文档频率,N表示全部文档数。
[0015] 进一步的,所述的分类器的采用的反馈机制,指的是以待分类文档与文档库内的 文档的类中心向量的距离为依据,在分类过程中更新类中心向量;所述的更新类中心向量 依据的是公式Ci= a · c i+b ^wi,其中ci为第i类的类中心向量,wi是第i类的文档向量, a、b为反馈系数,且a+b = 1。
[0016] -种互联网信息筛选方法,包括以下步骤:
[0017] (1)收集互联网的文档组成文档库;
[0018] (2)将文档库内的文档进行归类,分词去噪和频数统计;所述将文档进行归类是 指将文档按文档编号、文档内容和文档属性分别归类,所述将文档进行分词去噪是指对已 归类文档进行分词去噪,得到的词条作为value输出,把词条所属的文档属性对作为key输 出;所述对文档进行频数统计是指将具有相同文档属性的value合并,并统计属于同种文 档属性的value队列中不同value的频数;
[0019] (3)对预处理后的文档进行权重计算,具体为计算出每个文档中每个词的权重,取 权重最大的前K个词作为此文档的特征词,并合并所有文档的特征词,组成特征词空间,将 得到的文档权重结果映射到特征词空间上,得各类文档的类中心向量;
[0020] (4)收集互联网的待分类文档,对待分类文档进行频数统计,得出针对每一文档的 词条频数的统计结果,算出每一文档在特征词空间V上的权值,将特征词空间V内的待分类 文档向量VD解析为文档号ID,文档的特征向量wD= (wl,w2, 然后利用步骤(3)中 的文档库内的文档的类中心向量,按照反馈机制进行分类,将文档号作为value输出,文档 所属类别作为key输出,得到待分类文档与文档库内的文档的相似度结果。
[0021] (6)设置筛选待分类文档与文档库内的文档的相似度的阈值;
[0022] (7)按照设置的阈值在待分类文档中进行筛选,得到目标文档。
[0023] 进一步的,还包括将促销商品内容加载在阈值筛选单元筛选后的目标文档中,并 把加载后的文档数据信息发送到互联网的步骤。
[0024] 进一步的,所述步骤(3)中的权重计算采用的是改进TF-IDF算法,公式为:
[0025] TF-IDF = TFxlog (m = (m+k)xN)
[0026] 其中TF表示某一特征项的词频,m表示该特征项的领域内文档频率,k表示该特征 项的非领域内文档频率,N表示全部文档数。
[0027] 进一步的,所述的步骤(4)中的反馈机制,指的是以待分类文档与文档库内的文 档的类中心向量的距离为依据,在分类过程中更新类中心向量;所述的更新类中心向量依 据的是公式Ci= a *c i+b ^wi,其中ci为第i类的类中心向量,wi是第i类的文档向量,a、 b为反馈系数,且a+b = 1。
[0028] 进一步的,所述步骤(4)中的频数统计采用的是基于MapReduce的Rocchio算法。
【附图说明】
[0029] 图1为本发明系统示意图;
[0030] 图2为本发明的方法流程图。
【具体实施方式】
[0031] 以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并 非用于限定本发明的范围。
[0032] 如图1所示,一种互联网信息筛选系统,包括通信单元、预处理单元、权重计算单 元、策略单元、阈值筛选单元和执行单元;
[0033] 所述通信单元,其用于收集互联网的文档组成文档库,并将文档库内的文档信息 传给预处理单元;还用于收集互联网的待分类文档,并将待分类文档信息传给分类器单 元;
[0034] 所述预处理单元,其用于将文档库内的文档进行归类,分词去噪和频数统计;所述 将文档进行归类是指将文档按文档编号、文档内容和文档属性分别归类,所述将文档进行 分词去噪是指对已归类文档进行分词去噪,得到的词条作为value输出,把词条所属的文 档属性对作为key输出;所述对文档进行频数统计是指将具有相同文档属性的value合并, 并统计属于同种文档属性的value队列中不同value的频数;
[0035] 所述权重计算单元,其用于对预处理后的文档进行权重计算,具体为计算出每个 文档中每个词的权重,取权重最大的前K个词作为此文档的特征词,并合并所有文档的特 征词,组成特征词空间,将得到的文档权重结果映射到特征词空间上,最后得出各类文档的 类中心向量;
[0036]
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1