舆情数据存储方法和装置的制造方法_2

文档序号:8258553阅读:来源:国知局
抽样词数为n,抽样词长度w,每个抽样文字块长度为k,可每隔s 个字符从抽样文字块中抽取一个特征字符,即间隔步长为s,其中,
[0039]s= (k_n*w) /(n- 1)。
[0040]每间隔s个字符,从第x个抽样文字块Cx中抽取长度w的特征字符,记从全部的N个抽样文字块中抽取的特征字符的集合为S,
[0041] S={Ci〇?k+Ci(k+s)?(2k+s) +…+Ci[(n-l)k+(n-l)s]?[油+(n-l)s]} + {C2〇?k+C2(k+s)?(2k+s)+…+c2[(rf k+(n-l)s]?[nk+(n-l)s]j_+... + |c。?k+c(k+s)?(2k+s)+...+c[(n-l)k+(n-l)s]?[nk+(n-l)s]|
[0042]其中Cxa~b表示从第x个抽样文字块中的第a个字符到第b个字符。
[0043] 利用MurmurHash算法对上述集合S中的字符进行计算获得舆情数据的哈希值,该 算法的伪代码为:
[0044]
【主权项】
1. 一种舆情数据存储方法,其特征在于,包括: 接收舆情数据; 利用哈希值算法对所述舆情数据进行计算,获得所述舆情数据的哈希值; 根据所述舆情数据的哈希值和预先利用所述哈希值算法计算获得的历史舆情数据的 哈希值,从所述舆情数据中筛选出与所述历史舆情数据不重复的目标舆情数据;所述历史 舆情数据是已存储在数据库中的舆情数据; 将所述目标舆情数据存储在所述数据库中。
2. 根据权利要求1所述的舆情数据存储方法,其特征在于,所述根据所述舆情数据的 哈希值和预先利用所述哈希值算法计算获得的历史舆情数据的哈希值,从所述舆情数据中 筛选出与所述历史舆情数据不重复的目标舆情数据,包括: 将所述舆情数据的哈希值与所述历史舆情数据的哈希值相比较,获得所述舆情数据中 哈希值与所述历史舆情数据的哈希值不同的目标舆情数据。
3. 根据权利要求1所述的舆情数据存储方法,其特征在于,所述数据库包括内存数据 库和磁盘数据库;所述内存数据库用于存储已存储时长不大于预设时长的历史舆情数据; 所述磁盘数据库用于存储已存储时长大于所述预设时长的历史舆情数据。
4. 根据权利要求3所述的舆情数据存储方法,其特征在于,所述将所述目标舆情数据 存储在所述数据库中包括: 将所述目标舆情数据存储在所述数据库的内存数据库中。
5. 根据权利要求3所述的舆情数据存储方法,其特征在于,所述舆情数据包括发布时 间; 则所述根据所述舆情数据的哈希值和预先利用所述哈希值算法计算获得的历史舆情 数据的哈希值,从所述舆情数据中筛选出与所述历史舆情数据不重复的目标舆情数据,包 括: 根据所述舆情数据中的发布时间,将所述舆情数据划分为近期舆情数据和远期舆情数 据;所述近期舆情数据的发布时间与当前时间之间的差值不大于所述预设时长;所述远期 舆情数据的发布时间与所述当前时间之间的差值大于所述预设时长; 根据所述近期舆情数据的哈希值,从所述近期舆情数据中筛选出与所述内存数据库中 已存储的历史舆情数据不重复的第一样本舆情数据; 根据所述远期舆情数据的哈希值,从所述远期舆情数据中筛选出与所述磁盘数据库中 已存储的历史舆情数据不重复的第二样本舆情数据; 确定所述目标舆情数据为所述第一样本舆情数据和所述第二样本舆情数据。
6. 根据权利要求4所述的舆情数据存储方法,其特征在于,所述舆情数据还包括文章 标题和正文; 则所述利用哈希值算法对所述舆情数据进行计算,获得所述舆情数据的哈希值之前, 还包括: 将垃圾词库中存储的词汇与所述舆情数据中的文章标题和正文依次进行比对,确定所 述舆情数据中的文章标题和正文中不存在所述垃圾词库中存储的词汇。
7. -种舆情数据存储装置,其特征在于,包括: 接收模块,用于接收舆情数据; 计算模块,用于利用哈希值算法对所述舆情数据进行计算,获得所述舆情数据的哈希 值; 筛选模块,用于根据所述舆情数据的哈希值和预先利用所述哈希值算法计算获得的历 史舆情数据的哈希值,从所述舆情数据中筛选出与所述历史舆情数据不重复的目标舆情数 据;所述历史舆情数据是已存储在数据库中的舆情数据; 存储模块,用于将所述目标舆情数据存储在所述数据库中。
8. 根据权利要求7所述的舆情数据存储装置,其特征在于, 所述筛选模块具体用于将所述舆情数据的哈希值与所述历史舆情数据的哈希值相比 较,获得所述舆情数据中哈希值与所述历史舆情数据的哈希值不同的目标舆情数据。
9. 根据权利要求7所述的舆情数据存储装置,其特征在于,所述数据库包括内存数据 库和磁盘数据库;所述内存数据库用于存储已存储时长不大于预设时长的历史舆情数据; 所述磁盘数据库用于存储已存储时长大于所述预设时长的历史舆情数据。
10. 根据权利要求9所述的舆情数据存储装置,其特征在于,所述存储模块具体用于将 所述目标舆情数据存储在所述数据库的内存数据库中。
11. 根据权利要求9所述的舆情数据存储装置,其特征在于,所述舆情数据包括发布时 间; 则所述筛选模块,包括: 划分单元,用于根据所述舆情数据中的发布时间,将所述舆情数据划分为近期舆情数 据和远期舆情数据;所述近期舆情数据的发布时间与当前时间之间的差值不大于所述预设 时长;所述远期舆情数据的发布时间与所述当前时间之间的差值大于所述预设时长; 第一筛选单元,用于根据所述近期舆情数据的哈希值,从所述近期舆情数据中筛选出 与所述内存数据库中已存储的历史舆情数据不重复的第一样本舆情数据; 第二筛选单元,用于根据所述远期舆情数据的哈希值,从所述远期舆情数据中筛选出 与所述磁盘数据库中已存储的历史舆情数据不重复的第二样本舆情数据; 确定单元,用于确定所述目标舆情数据为所述第一样本舆情数据和所述第二样本舆情 数据。
12. 根据权利要求10所述的舆情数据存储装置,其特征在于,所述舆情数据还包括文 章标题和正文; 则所述舆情数据存储装置,还包括: 比对模块,用于将垃圾词库中存储的词汇与所述舆情数据中的文章标题和正文依次进 行比对,确定所述舆情数据中的文章标题和正文中不存在所述垃圾词库中存储的词汇。
【专利摘要】本发明提供一种舆情数据存储方法和装置,通过利用哈希值算法对接收到的舆情数据进行计算,获得舆情数据的哈希值,根据该舆情数据的哈希值和计算获得的历史舆情数据的哈希值,从舆情数据中筛选出与历史舆情数据不重复的目标舆情数据,从而仅对目标舆情数据进行存储,解决了现有技术中由于将相互重复的舆情数据均保存到数据库中所导致的存储空间利用率低的技术问题。
【IPC分类】G06F17-30
【公开号】CN104572679
【申请号】CN201310485075
【发明人】刘巨安, 王松, 梁汝峰, 杨建武
【申请人】北大方正集团有限公司, 北京大学, 北京北大方正电子有限公司
【公开日】2015年4月29日
【申请日】2013年10月16日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1