舆情数据存储方法和装置的制造方法

文档序号:8258553阅读:588来源:国知局
舆情数据存储方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术,尤其涉及一种舆情数据存储方法和装置。
【背景技术】
[0002] 随着互连网技术的不断发展,互联网逐渐成为信息传播的主要载体,进而衍生出 对以互连网为载体所发布的文字形式的Web信息进行采集,从而获得舆情数据的技术,以 对舆情数据进行分析处理进而保障互连网的信息安全。
[0003] 现有技术中,通过对Web信息进行采集后,利用上载系统将采集获得的包含文章 标题、正文、作者、发布时间、发布网站和网站的频道在内的舆情数据保存到数据库中,以进 行后续的分析处理。
[0004] 但由于以互连网为载体所传输的Web信息往往存在内容相互重复的情况,例如: 转发的博客与首次发表的博客内容相互重复,因而对内容相互重复的Web信息进行采集所 获得的舆情数据也会相互重复,现有技术会将相互重复的舆情数据均保存到数据库中,因 而占用了存储空间,存储空间的利用率较低。

【发明内容】

[0005] 本发明提供一种舆情数据存储方法和装置,用于解决存储空间的利用率较低的技 术问题。
[0006] 本发明的第一个方面是提供一种舆情数据存储方法,包括:
[0007] 接收舆情数据;
[0008] 利用哈希值算法对所述舆情数据进行计算,获得所述舆情数据的哈希值;
[0009] 根据所述舆情数据的哈希值和预先利用所述哈希值算法计算获得的历史舆情数 据的哈希值,从所述舆情数据中筛选出与所述历史舆情数据不重复的目标舆情数据;所述 历史舆情数据是已存储在数据库中的舆情数据;
[0010] 将所述目标舆情数据存储在所述数据库中。
[0011] 本发明的另一个方面是提供一种舆情数据存储装置,包括:
[0012] 接收模块,用于接收舆情数据;
[0013] 计算模块,用于利用哈希值算法对所述舆情数据进行计算,获得所述舆情数据的 哈希值;
[0014] 筛选模块,用于根据所述舆情数据的哈希值和预先利用所述哈希值算法计算获得 的历史舆情数据的哈希值,从所述舆情数据中筛选出与所述历史舆情数据不重复的目标舆 情数据;所述历史舆情数据是已存储在数据库中的舆情数据;
[0015] 存储模块,用于将所述目标舆情数据存储在所述数据库中。
[0016] 本发明提供的舆情数据存储方法和装置,通过利用哈希值算法对接收到的舆情数 据进行计算,获得舆情数据的哈希值,根据该舆情数据的哈希值和计算获得的历史舆情数 据的哈希值,从接收到的舆情数据中筛选出与历史舆情数据不重复的目标舆情数据,从而 仅对目标舆情数据进行存储,解决了现有技术中由于将相互重复的舆情数据均保存到数据 库中所导致的存储空间利用率低的技术问题。
【附图说明】
[0017] 图1为本发明一实施例提供的舆情数据存储方法的流程示意图;
[0018] 图2为本发明另一实施例提供的舆情数据存储方法的流程示意图;
[0019] 图3为本发明一实施例提供的舆情数据存储装置的结构示意图;
[0020] 图4为本发明另一实施例提供的舆情数据存储装置的结构示意图。
【具体实施方式】
[0021] 图1为本发明一实施例提供的舆情数据存储方法的流程示意图,本实施例所提供 的方法可由上载系统实施,如图1所示,包括:
[0022] 101、接收舆情数据。
[0023] 可选的,预先约定舆情数据的文件格式,从而对接收到的舆情数据进行解析,获得 网页信息列表形式的舆情数据。该舆情数据为至少一个,包括文章标题和正文。
[0024] 102、利用哈希值算法对所述舆情数据进行计算,获得舆情数据的哈希值。
[0025] 可选的,对舆情数据中的标题和正文进行过滤,从而过滤掉符号、人称代词和助词 等无用字符,获得过滤后的文章标题和正文,记为抽样样本;根据预设的抽样文字块长度即 每个抽样文字块所包含的字符数,将该抽样样本进行切分,获得多个抽样文字块;根据预设 的抽样词数和抽样词长度从每个抽样文字块中抽取符合该抽样词数个特征字符,每个特征 字符的长度符合抽样词长度。根据该特征字符,利用MurmurHash算法(哈希值算法的一种), 计算获得舆情数据的哈希值,以此作为该舆情数据的唯一标识。
[0026] 或者可选的,直接利用哈希值算法对所述舆情数据中的标题和正文进行计算,例 如采用CRC32算法、MD5算法、SHA-1算法和MurmurHash算法中的一种进行计算,获得舆情 数据的哈希值,以此作为该舆情数据的唯一标识。
[0027] 103、根据所述舆情数据的哈希值和计算获得的历史舆情数据的哈希值,从所述舆 情数据中筛选出与所述历史舆情数据不重复的目标舆情数据。
[0028] 其中,历史舆情数据是已存储在数据库中的舆情数据。历史舆情数据的哈希值是 预先采用上述哈希值算法进行计算获得的。
[0029] 104、将目标舆情数据存储在该数据库中。
[0030] 本实施例中,通过利用哈希值算法对接收到的舆情数据进行计算,获得舆情数据 的哈希值,根据该舆情数据的哈希值和计算获得的历史舆情数据的哈希值,从舆情数据中 筛选出与历史舆情数据不重复的目标舆情数据,从而仅对目标舆情数据进行存储,解决了 现有技术中由于将相互重复的舆情数据均保存到数据库中所导致的存储空间利用率低的 技术问题。
[0031] 图2为本发明另一实施例提供的舆情数据存储方法的流程示意图,本实施例所提 供的方法可由上载系统实施,如图2所示,包括:
[0032] 201、接收舆情数据。
[0033] 其中,舆情数据包括文章标题、正文、发布时间和链接地址。作为一种特殊情况,若 舆情数据中存在发布时间为空的情况,则将发布时间修改为当前时间。
[0034] 202、将垃圾词库中存储的词汇与舆情数据中的文章标题和正文依次进行比对,确 定舆情数据中的文章标题和正文中不存在垃圾词库中存储的词汇。
[0035] 可选的,对舆情数据中的标题和正文进行过滤,过滤掉匹配上垃圾词库中的至少 两个不同的垃圾词的舆情数据,将进行过滤后的舆情数据记为抽样样本。垃圾词库用于存 储广告词和淫秽词。
[0036] 203、利用哈希值算法对所述舆情数据进行计算,获得舆情数据的哈希值。
[0037] 可选的,过滤掉舆情数据中的符号、人称代词和助词等无用字符后,根据预设的抽 样文字块长度即每个抽样文字块所包含的字符数,将该抽样样本进行切分,获得多个抽样 文字块;根据预设的抽样词数和抽样词长度从每个抽样文字块中抽取符合该抽样词数个特 征字符,每个特征字符的长度符合抽样词长度。根据该特征字符,利用MurmurHash算法,计 算获得舆情数据的哈希值,以此作为该舆情数据的唯一标识。其中,抽样词数与抽样词长度 的乘积不大于抽样文字块长度。
[0038] 例如:记预设的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1