舆情数据存储方法和装置的制造方法

文档序号：8258553阅读：588来源：国知局

舆情数据存储方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术，尤其涉及一种舆情数据存储方法和装置。
【背景技术】
[0002] 随着互连网技术的不断发展，互联网逐渐成为信息传播的主要载体，进而衍生出对以互连网为载体所发布的文字形式的Web信息进行采集，从而获得舆情数据的技术，以对舆情数据进行分析处理进而保障互连网的信息安全。
[0003] 现有技术中，通过对Web信息进行采集后，利用上载系统将采集获得的包含文章标题、正文、作者、发布时间、发布网站和网站的频道在内的舆情数据保存到数据库中，以进行后续的分析处理。
[0004] 但由于以互连网为载体所传输的Web信息往往存在内容相互重复的情况，例如：转发的博客与首次发表的博客内容相互重复，因而对内容相互重复的Web信息进行采集所获得的舆情数据也会相互重复，现有技术会将相互重复的舆情数据均保存到数据库中，因而占用了存储空间，存储空间的利用率较低。

【发明内容】

[0005] 本发明提供一种舆情数据存储方法和装置，用于解决存储空间的利用率较低的技术问题。
[0006] 本发明的第一个方面是提供一种舆情数据存储方法，包括：
[0007] 接收舆情数据；
[0008] 利用哈希值算法对所述舆情数据进行计算，获得所述舆情数据的哈希值；
[0009] 根据所述舆情数据的哈希值和预先利用所述哈希值算法计算获得的历史舆情数据的哈希值，从所述舆情数据中筛选出与所述历史舆情数据不重复的目标舆情数据；所述历史舆情数据是已存储在数据库中的舆情数据；
[0010] 将所述目标舆情数据存储在所述数据库中。
[0011] 本发明的另一个方面是提供一种舆情数据存储装置，包括：
[0012] 接收模块，用于接收舆情数据；
[0013] 计算模块，用于利用哈希值算法对所述舆情数据进行计算，获得所述舆情数据的哈希值；
[0014] 筛选模块，用于根据所述舆情数据的哈希值和预先利用所述哈希值算法计算获得的历史舆情数据的哈希值，从所述舆情数据中筛选出与所述历史舆情数据不重复的目标舆情数据；所述历史舆情数据是已存储在数据库中的舆情数据；
[0015] 存储模块，用于将所述目标舆情数据存储在所述数据库中。
[0016] 本发明提供的舆情数据存储方法和装置，通过利用哈希值算法对接收到的舆情数据进行计算，获得舆情数据的哈希值，根据该舆情数据的哈希值和计算获得的历史舆情数据的哈希值，从接收到的舆情数据中筛选出与历史舆情数据不重复的目标舆情数据，从而仅对目标舆情数据进行存储，解决了现有技术中由于将相互重复的舆情数据均保存到数据库中所导致的存储空间利用率低的技术问题。
【附图说明】
[0017] 图1为本发明一实施例提供的舆情数据存储方法的流程示意图；
[0018] 图2为本发明另一实施例提供的舆情数据存储方法的流程示意图；
[0019] 图3为本发明一实施例提供的舆情数据存储装置的结构示意图；
[0020] 图4为本发明另一实施例提供的舆情数据存储装置的结构示意图。
【具体实施方式】
[0021] 图1为本发明一实施例提供的舆情数据存储方法的流程示意图，本实施例所提供的方法可由上载系统实施，如图1所示，包括：
[0022] 101、接收舆情数据。
[0023] 可选的，预先约定舆情数据的文件格式，从而对接收到的舆情数据进行解析，获得网页信息列表形式的舆情数据。该舆情数据为至少一个，包括文章标题和正文。
[0024] 102、利用哈希值算法对所述舆情数据进行计算，获得舆情数据的哈希值。
[0025] 可选的，对舆情数据中的标题和正文进行过滤，从而过滤掉符号、人称代词和助词等无用字符，获得过滤后的文章标题和正文，记为抽样样本；根据预设的抽样文字块长度即每个抽样文字块所包含的字符数，将该抽样样本进行切分，获得多个抽样文字块；根据预设的抽样词数和抽样词长度从每个抽样文字块中抽取符合该抽样词数个特征字符，每个特征字符的长度符合抽样词长度。根据该特征字符，利用MurmurHash算法(哈希值算法的一种)，计算获得舆情数据的哈希值，以此作为该舆情数据的唯一标识。
[0026] 或者可选的，直接利用哈希值算法对所述舆情数据中的标题和正文进行计算，例如采用CRC32算法、MD5算法、SHA-1算法和MurmurHash算法中的一种进行计算，获得舆情数据的哈希值，以此作为该舆情数据的唯一标识。
[0027] 103、根据所述舆情数据的哈希值和计算获得的历史舆情数据的哈希值，从所述舆情数据中筛选出与所述历史舆情数据不重复的目标舆情数据。
[0028] 其中，历史舆情数据是已存储在数据库中的舆情数据。历史舆情数据的哈希值是预先采用上述哈希值算法进行计算获得的。
[0029] 104、将目标舆情数据存储在该数据库中。
[0030] 本实施例中，通过利用哈希值算法对接收到的舆情数据进行计算，获得舆情数据的哈希值，根据该舆情数据的哈希值和计算获得的历史舆情数据的哈希值，从舆情数据中筛选出与历史舆情数据不重复的目标舆情数据，从而仅对目标舆情数据进行存储，解决了现有技术中由于将相互重复的舆情数据均保存到数据库中所导致的存储空间利用率低的技术问题。
[0031] 图2为本发明另一实施例提供的舆情数据存储方法的流程示意图，本实施例所提供的方法可由上载系统实施，如图2所示，包括：
[0032] 201、接收舆情数据。
[0033] 其中，舆情数据包括文章标题、正文、发布时间和链接地址。作为一种特殊情况，若舆情数据中存在发布时间为空的情况，则将发布时间修改为当前时间。
[0034] 202、将垃圾词库中存储的词汇与舆情数据中的文章标题和正文依次进行比对，确定舆情数据中的文章标题和正文中不存在垃圾词库中存储的词汇。
[0035] 可选的，对舆情数据中的标题和正文进行过滤，过滤掉匹配上垃圾词库中的至少两个不同的垃圾词的舆情数据，将进行过滤后的舆情数据记为抽样样本。垃圾词库用于存储广告词和淫秽词。
[0036] 203、利用哈希值算法对所述舆情数据进行计算，获得舆情数据的哈希值。
[0037] 可选的，过滤掉舆情数据中的符号、人称代词和助词等无用字符后，根据预设的抽样文字块长度即每个抽样文字块所包含的字符数，将该抽样样本进行切分，获得多个抽样文字块；根据预设的抽样词数和抽样词长度从每个抽样文字块中抽取符合该抽样词数个特征字符，每个特征字符的长度符合抽样词长度。根据该特征字符，利用MurmurHash算法，计算获得舆情数据的哈希值，以此作为该舆情数据的唯一标识。其中，抽样词数与抽样词长度的乘积不大于抽样文字块长度。
[0038] 例如：记预设的

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘巨安;王松;梁汝峰;杨建武;
技术所有人：北大方正集团有限公司;北京大学;北京北大方正电子有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。