一种基于大数据的信息分类存储系统的制作方法

文档序号:17430084发布日期:2019-04-17 03:22阅读:153来源:国知局
一种基于大数据的信息分类存储系统的制作方法

本发明涉及数据分类存储领域,具体涉及一种基于大数据的信息分类存储系统。



背景技术:

随着科技的发展,人们通过设备接收的信息由只有文字数据的短信,到现在包含多媒体数据的各类即时通讯软件,单个信息的数据量也逐渐增大,随着使用时间的增加,信息占用的存储空间也越来越大,其中有效的信息和垃圾信息混杂在一起,影响日常使用,因此在接收信息后,我们需要对信息进行分类,并根据分类,对不同的信息采取不同的存储策略,尽量存储更多的有效信息,把垃圾信息剔除掉,减少垃圾信息对我们的影响。

现有最常用的方法是用户手动在本地建立黑名单,对黑名单内的发件人进行屏蔽,但此方法操作繁琐,需要手动添加每个联系人,使用不方便,而且无法屏蔽黑名单以外的发件人,实际使用效果不理想。



技术实现要素:

为了解决上述的技术问题,本发明的目的在于提供一种基于大数据的信息分类存储系统。

本发明所要解决的技术问题为:

(1)如何提高本地存储空间的利用率;

(2)如何有效的筛选出垃圾信息。

本发明的目的可以通过以下技术方案实现:

一种基于大数据的信息分类存储系统,包括信息收发模块、信息分类模块、无线通信模块、信息存储模块和存储服务器,所述信息收发模块与信息分类模块电连接,信息分类模块连接与无线通信模块电连接,所述无线通信模块与存储服务器通信连接,无线通信模块与信息分类模块均与信息存储模块电连接;

所述信息收发模块用于接收和发送所有的信息,所述无线通信模块用于进行数据传输;

所述存储服务器用于存储基于大数据的垃圾信息对比库和用户上传的数据,所述垃圾信息对比库中包含发件人库和特征字库,存储服务器将用户上传的发件人数据与发件人库进行比对,并通过分词器与特征字库配合使用对文本数据进行特征字的提取,获取文本数据中的特征字的数量,所述特征字为垃圾信息中出现频率超过预设值a,且普通信息中出现频率低于预设值b的词组,其中a>b,若满足特征字数量超过预设值c或发件人数据与发件人库匹配中至少一种情况,则匹配结果提示为垃圾信息,若特征字数量低于预设值c且发件人数据与发件人库不匹配,则匹配结果提示为非垃圾信息,并将匹配结果发回信息分类模块;

所述信息存储模块根据信息分类模块的分类结果将接收到的信息进行分类存储,所述信息存储模块包括运算单元、通讯录单元,垃圾箱单元、中转单元和聊天记录单元,所述通讯录单元用于存储本地黑名单以及通讯录名单,所述垃圾箱单元用于存储已删除的信息,所述中转单元用于临时存储未知联系人信息,所述聊天记录单元用于存储普通信息和未知联系人信息;

所述信息分类模块对信息的分类过程如下:

s1、从接收到的信息中提取的发件人数据和文本数据,并通过无线通信模块将发件人数据和文本数据传输至存储服务器,并得到匹配结果,

s2、若匹配结果提示为垃圾信息,则标记为垃圾信息,若匹配结果提示为非垃圾信息,则将发件人数据与本地黑名单以及通讯录名单进行比对,若发件人数据与通讯录名单匹配,则标记为普通信息,若与本地黑名单匹配,则标记为垃圾信息,若发件人数据与本地黑名单以及通讯录名单均不匹配,则标记为未知联系人信息;

s3、读取普通信息的内容,将内容分为文本数据、图片数据、视频数据和其他文件;

所述信息存储模块对不同信息的存储过程如下:

ss1、将垃圾信息直接传输至垃圾箱单元,运算单元每隔一周清空一次垃圾箱单元内的信息;

ss2、运算单元将其他文件存储至聊天记录单元;

ss3、对于图片数据,运算单元为大于1mb的单个图片数据压缩另存为一个小于128kb的图片副本,并用图片副本替换普通信息中的原始图片数据,再将替换后的信息存储至聊天记录单元,同时将原始图片数据上传至存储服务器;

ss4、对于视频数据,运算单元从视频数据中截取出一段不超过5mb的gif文件,并用gif文件替换普通信息中的原始视频数据,再将替换后的信息存储至聊天记录单元,同时将原始视频数据上传至存储服务器;

ss5、将未知联系人信息存储至中转单元,当用户查看未知联系人信息时,记录查看时间,并获取发件人数据,当用户删除未知联系人信息时,记录删除时间,当用户回复未知联系人信息时,记录回复时间,若查看时间与删除时间间隔小于5min,并将发件人标记为备选黑名单,存储至通讯录单元,同一发件人被三次标记为备选黑名单后,将该发件人数据添加至本地黑名单中,在若用户一个月内与同一发件人的回复次数超过五次或总回复次数超过10次,则将该发件人标记为备选通讯录名单,并询问用户是否对该发件人添加备注,备注添加完成后,将该发件人数据添加至通讯录名单。

进一步的,所述存储服务器在存储图片数据和视频数据时,先获取图片和视频数据的参数设置信息,再通过相似图像识别技术和相似视频识别技术对所有用户上传的图片和视频中分析是否存在相同的文件,相同文件为内容相同,但分辨率不同的文件,存储服务器中存在相同图片和视频时,存储服务器将上传的文件与相同文件进行对比,存储服务器中只保留分辨率最高的文件和所有用户的参数设置信息,所有上传相同文件的用户均与保留文件建立映射。

进一步的,用户查看信息点击图片副本和gif文件后,向存储服务器发送指令,同时存储服务器根据参数设置信息将保留文件通过编辑软件进行编辑并另存为一个与上传时的文件相同的替换文件,存储服务器将替换文件发回信息存储模块,向用户展示;用户删除本地的图片副本图片、gif文件或信息时,运算单元向存储服务器发送指令,只删除用户与保留文件的映射,不删除保留文件,当保留文件不与任意一个用户存在映射时,删除保留文件。

进一步的,所述运算单元将本地黑名单发送至存储服务器进行备份,同时存储服务器对所有用户上传本地黑名单中的发件人数据进行统计,若同一发件人数据存在于超过n个用户的本地黑名单中,则将该发件人数据添加至发件人库,并从所有用户上传的发件人数据和文本数据中获取该发件人以往的文本数据,并通过分词器提取该发件人以往的文本数据中的词组,并计算所有词组出现在垃圾信息和非垃圾信息中的频率,选出垃圾信息中出现频率超过预设值a,且普通信息中出现频率低于预设值b的词组,作为更新数据与特征字库进行比较去重后添加至特征字库。

本发明的有益效果:

(1)依次通过云端的垃圾信息对比库、本地黑名单以及用户的操作记录,可对接收到的信息进行多次筛选,区分普通信息和垃圾信息,使用户远离垃圾信息的打扰,本地黑名单也可根据用户的操作习惯自动更新,进一步保障用户个性化的分类需求。

(2)普通信息在存储时只存储小体积的媒体文件,大体积的媒体文件被上传至存储服务器中,并在用户需要查看时再从服务器中下载,既提高了本地存储空间的利用率,也保证了用户查看信息时数据的完整性。

(3)存储服务器采用相同文件只保存最高分辨率的文件的存储策略,配合单文件对应多用户的存储方式映射方式,能够提升存储服务器的存储空间利用率,同时垃圾信息对比库可根据所有用户上传形成的大数据进行更新,不断增加数据量,提升识别准确度。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明的系统框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1所示,本实施例提供了一种基于大数据的信息分类存储系统,包括信息收发模块、信息分类模块、无线通信模块、信息存储模块和存储服务器,其中信息收发模块、信息分类模块、无线通信模块、信息存储模块均位于本地设备中,如手机,平板,电脑等,信息收发模块与信息分类模块电连接,信息分类模块连接与无线通信模块电连接,无线通信模块与存储服务器通信连接,无线通信模块与信息分类模块均与信息存储模块电连接。

信息收发模块用于接收和发送所有的信息,无线通信模块用于进行数据传输。

存储服务器用于存储基于大数据的垃圾信息对比库和用户上传的数据,垃圾信息对比库中包含发件人库和特征字库,发件人库和特征字库由服务器维护人员进行初始设置,存储服务器将用户上传的发件人数据与发件人库进行比对,并通过分词器与特征字库配合使用对文本数据进行特征字的提取,获取文本数据中的特征字的数量,特征字为垃圾信息中出现频率超过预设值a,且普通信息中出现频率低于预设值b的词组,其中a>b,如a=60%,b=20%,若满足特征字数量超过预设值c或发件人数据与发件人库匹配中至少一种情况,则匹配结果提示为垃圾信息,若特征字数量低于预设值c且发件人数据与发件人库不匹配,则匹配结果提示为非垃圾信息,并将匹配结果发回信息分类模块;如分词器对于信息的文件进行提取,且c=10,获得20个词组,与特征字库进行比对,发现存在5个词组与特征字库内的数据相匹配,同时发件人数据不存在于发件人库内,则判断此匹配结果为非垃圾信息。

信息存储模块根据信息分类模块的分类结果将接收到的信息进行分类存储,信息存储模块包括运算单元、通讯录单元,垃圾箱单元、中转单元和聊天记录单元,通讯录单元用于存储本地黑名单以及通讯录名单,垃圾箱单元用于存储已删除的信息,中转单元用于临时存储未知联系人信息,聊天记录单元用于存储普通信息和未知联系人信息;

信息分类模块对信息的分类过程如下:

s1、从接收到的信息中提取的发件人数据,如发件人的名称或号码,和文本数据,并通过无线通信模块将发件人数据和文本数据传输至存储服务器,用于构建大数据,并得到匹配结果。

s2、若匹配结果提示为垃圾信息,则标记为垃圾信息,若匹配结果提示为非垃圾信息,则将发件人数据与本地黑名单以及通讯录名单进行比对,若发件人数据与通讯录名单匹配,则标记为普通信息,若与本地黑名单匹配,则标记为垃圾信息,若发件人数据与本地黑名单以及通讯录名单均不匹配,则标记为未知联系人信息;

s3、读取普通信息的内容,将内容分为文本数据、图片数据、视频数据和其他文件;

信息存储模块对不同信息的存储过程如下:

ss1、将垃圾信息直接传输至垃圾箱单元,运算单元每隔一周清空一次垃圾箱单元内的信息;

ss2、运算单元将其他文件存储至聊天记录单元;

ss3、对于图片数据,运算单元为大于1mb的单个图片数据压缩另存为一个小于128kb的图片副本,并用图片副本替换普通信息中的原始图片数据,再将替换后的信息存储至聊天记录单元,同时将原始图片数据上传至存储服务器。

ss4、对于视频数据,运算单元从视频数据中截取出一段不超过5mb的gif文件,并用gif文件替换普通信息中的原始视频数据,再将替换后的信息存储至聊天记录单元,同时将原始视频数据上传至存储服务器;用压缩后的图片和gif文件代替占用空间大的原始文件,能够提升本地存储空间的使用效率,同时将原始文件存储至存储服务器内,需要时再进行下载查看。

ss5、将未知联系人信息存储至中转单元,当用户查看未知联系人信息时,记录查看时间,并获取发件人数据,当用户删除未知联系人信息时,记录删除时间,当用户回复未知联系人信息时,记录回复时间,若查看时间与删除时间间隔小于5min,并将发件人标记为备选黑名单,存储至通讯录单元,同一发件人被三次标记为备选黑名单后,将该发件人数据添加至本地黑名单中,在若用户一个月内与同一发件人的回复次数超过五次或总回复次数超过10次,则将该发件人标记为备选通讯录名单,并询问用户是否对该发件人添加备注,备注添加完成后,将该发件人数据添加至通讯录名单。根据用户的操作分析出发件人的类型,对未知联系人信息进进行二次分类。

存储服务器在存储图片数据和视频数据时,先获取图片和视频数据的参数设置信息,如图片的详细参数和视频数据的详细参数,再通过相似图像识别技术和相似视频识别技术对所有用户上传的图片和视频中分析是否存在相同的文件,相同文件为内容相同,但分辨率不同的文件,同一内容的文件存储多个分辨率的版本浪费了许多存储空间,需要对其进行优化,存储服务器中存在相同图片和视频时,存储服务器将上传的文件与相同文件进行对比,存储服务器中只保留分辨率最高的文件和所有用户的参数设置信息,所有上传相同文件的用户均与保留文件建立映射。只保留最高分辨率的文件,所有保存该文件的用户共用这一个文件,能够缩短上传时间,提高存储空间的利用率。

用户查看信息点击图片副本和gif文件后,表明用户需要查看图片和视频详细的内容,向存储服务器发送指令,同时存储服务器根据参数设置信息将保留文件通过编辑软件进行编辑并另存为一个与上传时的文件相同的替换文件,存储服务器将替换文件发回信息存储模块,向用户展示,如服务器内存有一个1080p的视频文件,而用户上传的是720p且内容相同的视频文件,为了还原用户上传的文件,需要对1080p的文件进行转化,可根据参数设置信息通过软件创建出一个新的720p的文件,完成转化后,将720p的文件传输给用户;用户删除本地的图片副本图片、gif文件或信息时,运算单元向存储服务器发送指令,只删除用户与保留文件的映射,不删除保留文件,不会影响别的用户使用,当保留文件不与任意一个用户存在映射时,删除保留文件,及时清理垃圾文件进一步提升存储空间利用率。

运算单元将本地黑名单发送至存储服务器进行备份,同时存储服务器对所有用户上传本地黑名单中的发件人数据进行统计,若同一发件人数据存在于超过n个用户的本地黑名单中,则将该发件人数据添加至发件人库,可通过对所有用户的本地黑名单,对服务器中的发件人库进行更新,增加垃圾信息对比库的数据量和准确度。并从所有用户上传的发件人数据和文本数据中获取该发件人以往的文本数据,并通过分词器提取该发件人以往的文本数据中的词组,并计算所有词组出现在垃圾信息和非垃圾信息中的频率,选出垃圾信息中出现频率超过预设值a,且普通信息中出现频率低于预设值b的词组,作为更新数据与特征字库进行比较去重后添加至特征字库,可通过对所有用户的本地黑名单的历史文本数据进行筛选分析,扩充特征字库的特征字的数量,进一步垃圾信息对比库的数据量和准确度。

本实施例的具体工作过程如下:

1)用户接收到新的信息,信息分类模块将发件人信息和文本数据发送至存储服务器,与垃圾信息对比库进行对比,并返回比较结果,信息分类模块根据比较结果判断对信息是否为垃圾信息做初步判断。

2)对于初步判断为非垃圾信息时,再与本地黑名单和通讯录进行对比,进一步筛分类出垃圾信息、普通信息和未知联系人信息,完成第一次分类。

3)完成第一次分类后,信息存储模块对不同类型的信息采用不同的存储策略,将垃圾信息直接送至垃圾箱单元;将未知联系人信息存储至中转单元,根据用户的操作对未知联系人信息进行第二次分类;将普通信息进行内容提取,把大体积的文件传输至存储服务器进行共享,同时使用小体积的文件进行替换,减轻设备的存储压力,提高存储空间的利用率;用户查看时,再从存储服务器下载原文件。

4)存储服务器内对于相同内容的文件只保留最高分辨率的版本,多个用户通过与文件建立映射共享一个文件,通过转化可还原成用户上传时的版本。同时还可根据用户上传的数据对垃圾信息对比库进行更新,提升垃圾信息对比库的数据量和准确度。

以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1