一种数据处理方法和装置的制造方法_3

文档序号:8905313阅读:来源:国知局
词出的多个待匹配字符串;
[0085]匹配单元303,用于分别将每组所述待存储字符串序列以及每个所述待匹配字符串与信息库中存储的目标信息进行匹配,其中,所述目标信息包括至少一组目标字符串序列;
[0086]第一存储单元304,用于当所述信息库中不存在与所述至少一组待存储字符串序列以及所述多个待匹配字符串匹配的目标信息时,将所述待存储信息存储至所述信息库中。
[0087]在本申请实施例中,在对待存储信息存储之前,会对该待存储信息所包含的待存储字符串序列进行分词,并将该待存储字符串序列以及由待存储字符串序列分词出的待匹配字符串作为检索关键词,从该信息库中进行检索匹配,从而有利于提高检索精度,有利于准确定位出与该待存储信息相似的目标信息,进而有利于减少重复存储相同信息的情况。
[0088]参见图4,其示出了本申请一种数据处理装置一个实施例的结构示意图,本实施例的装置与图3所示实施例的装置的不同之处在于:
[0089]本实施例的装置除了包括:信息获取单元301、分词单元302、匹配单元303和第一存储单元304之外,还包括:
[0090]第二存储单元305,用于在所述第一存储单元将所述待存储信息存储至所述信息库中的同时,将所述待匹配字符串作为所述待存储信息的关联信息存储至所述信息库中。
[0091]其中,信息获取单元301、分词单元302、匹配单元303和第一存储单元304可以参见图3实施例的相关介绍,在此不再赘述。
[0092]可选的,在本申请以上任意一个装置的实施例中,所述信息库可以包括:存储的目标信息以及对所述目标信息进行分词得到的目标字符串;
[0093]则所述匹配单元,包括:
[0094]匹配子单元,用于分别将每个所述待存储字符串序列和待匹配字符串与信息库中的所述目标信息对应的目标字符串序列和目标字符串进行匹配。
[0095]可选的,在以上任意一个装置的实施例中,所述信息获取单元,包括:
[0096]信息获取子单元,用于获取待存储客户信息,所述待存储客户信息包括:用于表征公司名称、公司行业、公司负责人和联系电话中的一个或多个的待存储字符串序列。
[0097]参见图5,其示出了本申请一种数据处理装置另一个实施例的结构示意图,本实施例的装置与前面几个实施例的装置的不同之处在于:
[0098]本实施例的装置还可以包括:
[0099]提示单元306,用于当所述匹配单元确定出所述信息库中存在与所述待存储字符串序列和/或待匹配字符串匹配的至少一个目标信息时,输出提示信息,所述提示信息用于提示检索到与待存储信息匹配度满足要求的目标信息。
[0100]本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0101]对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
【主权项】
1.一种数据处理方法,其特征在于,包括: 获取待存储信息,其中,所述待存储信息由至少一组待存储字符串序列组成,所述待存储字符串序列中包括至少一个字符; 通过分别对每组所述待存储字符串序列进行分词,得到所述至少一组待存储字符串序列分词出的多个待匹配字符串; 分别将每组所述待存储字符串序列以及每个所述待匹配字符串与信息库中存储的目标信息进行匹配,其中,所述目标信息包括至少一组目标字符串序列; 当所述信息库中不存在与所述至少一组待存储字符串序列以及所述多个待匹配字符串匹配的目标信息时,将所述待存储信息存储至所述信息库中。2.根据权利要求1所述的方法,其特征在于,在所述将所述待存储信息存储至所述信息库中的同时,还包括: 将所述待匹配字符串作为所述待存储信息的关联信息存储至所述信息库中。3.根据权利要求1或2所述的方法,其特征在于,所述信息库存储有:所述目标信息以及对所述目标信息进行分词得到的目标字符串; 则所述分别将每组所述待存储字符串序列以及每个所述待匹配字符串与信息库中存储的目标信息进行匹配,包括: 分别将每个所述待存储字符串序列和待匹配字符串与信息库中的所述目标信息对应的目标字符串序列和目标字符串进行匹配。4.根据权利要求1所述的方法,其特征在于,所述获取待存储信息,包括: 获取待存储客户信息,所述待存储客户信息包括:用于表征公司名称、公司行业、公司负责人和联系电话中的一个或多个的待存储字符串序列。5.根据权利要求1所述的方法,其特征在于,还包括: 当所述信息库中存在与所述待存储字符串序列和/或所述待匹配字符串相匹配的至少一个目标信息时,输出提示信息,所述提示信息用于提示用户检索到与所述待存储信息匹配度满足要求的目标信息。6.一种数据处理装置,其特征在于,包括: 信息获取单元,用于获取待存储信息,其中,所述待存储信息由至少一组待存储字符串序列组成,所述待存储字符串序列中包括至少一个字符; 分词单元,用于通过分别对每组所述待存储字符串序列进行分词,得到所述至少一组待存储字符串序列分词出的多个待匹配字符串; 匹配单元,用于分别将每组所述待存储字符串序列以及每个所述待匹配字符串与信息库中存储的目标信息进行匹配,其中,所述目标信息包括至少一组目标字符串序列; 第一存储单元,用于当所述匹配单元确定出所述信息库中不存在与所述至少一组待存储字符串序列以及所述多个待匹配字符串匹配的目标信息时,将所述待存储信息存储至所述信息库中。7.根据权利要求6所述的装置,其特征在于,还包括: 第二存储单元,用于在所述第一存储单元将所述待存储信息存储至所述信息库中的同时,将所述待匹配字符串作为所述待存储信息的关联信息存储至所述信息库中。8.根据权利要求6或7所述的装置,其特征在于,所述信息库包括:存储的目标信息以及对所述目标信息进行分词得到的目标字符串; 则所述匹配单元,包括: 匹配子单元,用于分别将每个所述待存储字符串序列和待匹配字符串与信息库中的所述目标信息对应的目标字符串序列和目标字符串进行匹配。9.根据权利要求6所述的装置,其特征在于,所述信息获取单元,包括: 信息获取子单元,用于获取待存储客户信息,所述待存储客户信息包括:用于表征公司名称、公司行业、公司负责人和联系电话中的一个或多个的待存储字符串序列。10.根据权利要求6所述的装置,其特征在于,还包括: 提示单元,用于当所述匹配单元确定出所述信息库中存在与所述待存储字符串序列和/或待匹配字符串相匹配的至少一个目标信息时,输出提示信息,所述提示信息用于提示用户检索到与所述待存储信息匹配度满足要求的目标信息。
【专利摘要】本申请实施例提供了一种数据处理方法和装置,该方法包括:获取待存储信息;通过分别对每组待存储字符串序列进行分词,得到至少一组待存储字符串序列分词出的多个待匹配字符串;分别将每组待存储字符串序列以及每个待匹配字符串与信息库中存储的目标信息进行匹配,其中,目标信息包括至少一组目标字符串序列;当信息库中不存在与所述至少一组待存储字符串序列以及多个待匹配字符串匹配的目标信息时,将待存储信息存储至信息库中。该方法和装置可以降低存储的数据之间的重复率。
【IPC分类】G06F17/30
【公开号】CN104881503
【申请号】CN201510352985
【发明人】彭明明, 张浩鹏, 张丹, 王路, 刘建辉
【申请人】郑州悉知信息技术有限公司
【公开日】2015年9月2日
【申请日】2015年6月24日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1