一种数据处理方法和装置的制造方法

文档序号:8905313阅读:160来源:国知局
一种数据处理方法和装置的制造方法
【技术领域】
[0001]本申请涉及信息处理技术领域,更具体的说是涉及一种数据处理方法和装置。
【背景技术】
[0002]随着大数据时代的到来,网络中每天产生的信息量空前巨大,人们在日常生活以及工作中也经常涉及到大量数据信息的处理。比较常见的数据处理是对数据信息存储,以便对数据进行维护,例如,企业需要存储其对应的客户相关的数据信息,以便根据存储的客户信息,与客户之间更好的进行合作。然而对于一个存储系统而言,由于存储的数据量巨大,很有可能会出现存储的数据之间出现的大量冗余,存储的数据之间的重复率较高,从而影响到后续对存储数据的分析。

【发明内容】

[0003]有鉴于此,本申请提供了一种数据处理方法和装置,以降低存储的数据之间的重复率。
[0004]为实现上述目的,本申请提供如下技术方案:一种数据处理方法,包括:
[0005]获取待存储信息,其中,所述待存储信息由至少一组待存储字符串序列组成,所述待存储字符串序列中包括至少一个字符;
[0006]通过分别对每组所述待存储字符串序列进行分词,得到所述至少一组待存储字符串序列分词出的多个待匹配字符串;
[0007]分别将每组所述待存储字符串序列以及每个所述待匹配字符串与信息库中存储的目标信息进行匹配,其中,所述目标信息包括至少一组目标字符串序列;
[0008]当所述信息库中不存在与所述至少一组待存储字符串序列以及所述多个待匹配字符串匹配的目标信息时,将所述待存储信息存储至所述信息库中。
[0009]优选的,在所述将所述待存储信息存储至所述信息库中的同时,还包括:
[0010]将所述待匹配字符串作为所述待存储信息的关联信息存储至所述信息库中。
[0011 ] 优选的,所述信息库存储有:所述目标信息以及对所述目标信息进行分词得到的目标字符串;
[0012]则所述分别将每组所述待存储字符串序列以及每个所述待匹配字符串与信息库中存储的目标信息进行匹配,包括:
[0013]分别将每个所述待存储字符串序列和待匹配字符串与信息库中的所述目标信息对应的目标字符串序列和目标字符串进行匹配。
[0014]优选的,所述获取待存储信息,包括:
[0015]获取待存储客户信息,所述待存储客户信息包括:用于表征公司名称、公司行业、公司负责人和联系电话中的一个或多个的待存储字符串序列。
[0016]优选的,还包括:
[0017]当所述信息库中存在与所述待存储字符串序列和/或所述待匹配字符串相匹配的至少一个目标信息时,输出提示信息,所述提示信息用于提示用户检索到与所述待存储信息匹配度满足要求的目标信息。
[0018]另一方面,本申请还提供了一种数据处理装置,包括:
[0019]信息获取单元,用于获取待存储信息,其中,所述待存储信息由至少一组待存储字符串序列组成,所述待存储字符串序列中包括至少一个字符;
[0020]分词单元,用于通过分别对每组所述待存储字符串序列进行分词,得到所述至少一组待存储字符串序列分词出的多个待匹配字符串;
[0021]匹配单元,用于分别将每组所述待存储字符串序列以及每个所述待匹配字符串与信息库中存储的目标信息进行匹配,其中,所述目标信息包括至少一组目标字符串序列;
[0022]第一存储单元,用于当所述匹配单元确定出所述信息库中不存在与所述至少一组待存储字符串序列以及所述多个待匹配字符串匹配的目标信息时,将所述待存储信息存储至所述信息库中。
[0023]优选的,还包括:
[0024]第二存储单元,用于在所述第一存储单元将所述待存储信息存储至所述信息库中的同时,将所述待匹配字符串作为所述待存储信息的关联信息存储至所述信息库中。
[0025]优选的,所述信息库包括:存储的目标信息以及对所述目标信息进行分词得到的目标字符串;
[0026]则所述匹配单元,包括:
[0027]匹配子单元,用于分别将每个所述待存储字符串序列和待匹配字符串与信息库中的所述目标信息对应的目标字符串序列和目标字符串进行匹配。
[0028]优选的,所述信息获取单元,包括:
[0029]信息获取子单元,用于获取待存储客户信息,所述待存储客户信息包括:用于表征公司名称、公司行业、公司负责人和联系电话中的一个或多个的待存储字符串序列。
[0030]优选的,还包括:
[0031]提示单元,用于当所述匹配单元确定出所述信息库中存在与所述待存储字符串序列和/或待匹配字符串相匹配的至少一个目标信息时,输出提示信息,所述提示信息用于提示用户检索到与所述待存储信息匹配度满足要求的目标信息。
[0032]经由上述的技术方案可知,本申请在对待存储信息存储之前,会对该待存储信息所包含的待存储字符串序列进行分词,并将该待存储字符串序列以及由待存储字符串序列分词出的待匹配字符串作为检索关键词,从该信息库中进行检索匹配,从而有利于提高检索精度,有利于准确定位出与该待存储信息相似的目标信息,进而有利于减少重复存储相同信息的情况。
【附图说明】
[0033]为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0034]图1示出了本申请一种数据处理方法一个实施例的流程示意图;
[0035]图2示出了本申请一种数据处理方法另一个实施例的流程示意图;
[0036]图3示出了本申请一种数据处理装置一个实施例的结构示意图;
[0037]图4示出了本申请一种数据处理装置另一个实施例的结构示意图;
[0038]图5示出了本申请一种数据处理装置另一个实施例的结构示意图。
【具体实施方式】
[0039]本申请实施例提供了一种数据处理方法和装置,以降低存储的数据之间的重复率。
[0040]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0041 ] 参见图1,其示出了本申请一种数据处理方法一个实施例的流程示意图,本实施例的方法可以包括:
[0042]101,获取待存储信息。
[0043]其中,所述待存储信息由至少一组待存储字符串序列组成,字符串序列中包括至少一个字符。
[0044]其中,该字符串序列中的字符可以为汉字,字母或者符号等。
[0045]待存储信息可以具有表征不同类别的多个信息,如,待存储信息为联系人信息时,该待存储信息可以包括:联系人姓名、联系人电话以及联系人工作电话等一个或多个信息,而其中,联系人姓名、联系人电话以及联系人工作电话则分别对应了不同的字符串序列,例如,联系人姓名可以为张三,该字符串序列张三为由两个汉字字符构成的词组。
[0046]102,通过分别对每组该待存储字符串序列进行分词,得到该至少一组字符串序列分词出的多个待匹配字符串。
[0047]在本申请实施例在存储待存储信息所包含的待存储字符串序列之前,对待存储字符串序列进行分词,以得到由该待存储字符串分词出的字符串。
[0048]其中,为了便于区分和描述,将该待存储字符串分词出的字符串称为待匹配字符串O
[0049]103,分别将每组该待存储字符串序列以及每个该待匹配字符串与信息库中存储的目标信息进行匹配。
[0050]其中,该目标信息包括由至少一组目标字符串序列。此处是为
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1