一种数据处理方法和装置的制造方法_2

文档序号:8905313阅读:来源:国知局
了便于与待存储字符串序列进行区分,而将信息库中已存储的目标信息所包含的字符串序列称为目标字符串序列。
[0051]在存储待存储信息之前,本申请实施例实际上是进行了去重操作,以避免出现重复存储相同的情况。
[0052]而在去重时,本申请不仅仅是将该待存储?目息整体作为检索关键词,而是将该待存储信息包含的每个待存储字符串以及由该待存储字符串分词出待存储字符串均作为了检索关键词,从而增加了检索匹配的精细度。
[0053]例如,待存储信息为ABC时,假设分词得到A、AB、C、BC、AC,则需要从信息库中依次检索是否存在与ABC、A、AB、C、BC以及AC匹配度满足要求的目标信息。
[0054]104,当该信息库中不存在与至少一组待存储字符串序列以及多个待匹配字符串匹配的目标信息时,将所述待存储信息存储至所述信息库中。
[0055]如果不能从信息库中检索出与任意一个待存储字符串序列以及任意一个待匹配字符串匹配的目标信息时,则可以表明信息库中不存在与该待存储信息存储的信息,此时将该待存储信息存储至信息库中,有利于减少重复存储的情况。
[0056]可以理解的是,基于该待存储字符串以及待匹配字符串,从信息库中检索匹配度满足要求的目标信息实际上也是比对该待存储字符串以及该待匹配字符串中的字符与该目标信息的字符串序列中所包含的字符。具体的匹配过程可以采用现有的任意匹配技术,在此不加以限制。
[0057]在本申请实施例中,在对待存储信息存储之前,会对该待存储信息所包含的待存储字符串序列进行分词,并将该待存储字符串序列以及由待存储字符串序列分词出的待匹配字符串作为检索关键词,从该信息库中进行检索匹配,从而有利于提高检索精度,有利于准确定位出与该待存储信息相似的目标信息,进而有利于减少重复存储相同信息的情况。
[0058]需要说明的是,在本申请实施例中,对每组该待存储字符串序列进行分词可以采用现有的任意分词方式,如字符串匹配、智能分词、最细粒度分词等分词方式。例如,待存储信息为字符串:“张三说的确实在理”,则智能分词结果是“张三I说的I确实I在理”;最细粒度分词的结果是“张三I三I说的I的确I的I确实I实在I在理”。
[0059]可选的,在基于现有的分词方式出现歧义时,则可以使用组合遍历的方式进行处理,从分词出的字符串中选取不相交的字符串组成的集合作为待匹配字符串集合。其中,不相交是指匹配出的字符串和词典字符串的词没有共同的部分。例如,待分词的字符串为abed, abed是按其在文本中出现的先后位置排序。假如a与b相交,b与c相交,c与d不相交,则将分词结果切成abc和d两个分词。
[0060]可以理解的是,在本申请实施例中在进行信息匹配将待存储字符串序列以及分词出的待匹配字符串分别与信息库中存储的目标信息进行匹配,而由于目标信息可能是一个或多个字符串序列,直接将该待匹配字符串以及待存储字符串序列与目标信息的字符串序列进行匹配,则可能会出现目标信息对应的字符串序列的粒度较高,则不利用提高检索匹配精度。
[0061]因此,可选的,在信息库中可以在存储目标信息的同时,存储与该目标信息关联的目标字符串,其中,该目标字符串是由该目标信息进行分词得到的字符串。则在进行检索匹配时,可以分别将每个待存储字符串序列以及待匹配字符串与目标信息对应的目标字符串序列以及目标字符串依次进行匹配,以确定是否存在匹配度满足要求的目标信息或者目标字符串。
[0062]其中,该目标信息对应的目标字符串可以是存储该目标信息后,对目标信息分词得到的。考虑到本申请在存储信息前,需要对待存储信息进行分词,因此,可选的,将所述待存储信息存储至所述信息库中的同时,还可以将所述待匹配字符串作为所述待存储信息的关联信息存储至所述信息库中。这样,信息库中可以维护已经存储的目标信息以及对该目标信息分词出的目标字符串。
[0063]参见图2,其示出了本申请一种数据处理方法另一个实施例的流程示意图,本实施例的方法可以包括:
[0064]201,获取待存储信息。
[0065]其中,所述待存储信息由至少一组待存储字符串序列组成,字符串序列中包括至少一个字符。
[0066]202,通过分别对每组该待存储字符串序列进行分词,得到该至少一组字符串序列分词出的多个待匹配字符串。
[0067]203,分别将每组该待存储字符串序列以及每个该待匹配字符串与信息库中存储的目标信息进行匹配。
[0068]其中,该目标信息包括由至少一组目标字符串序列。
[0069]204,当该信息库中不存在与至少一组待存储字符串序列以及多个待匹配字符串匹配的目标信息时,将所述待存储信息存储至所述信息库中。
[0070]205,当该信息库中存在与该待存储字符串序列和/或该待匹配字符串匹配的至少一个目标信息时,输出提示信息。
[0071]其中,该提示信息用于提示检索到与待存储信息匹配度满足要求的目标信息。
[0072]该提示信息可以是对话框的形式输出,也可以直接在信息输入页面进行展示。
[0073]其中,当该信息库中存在与至少一组待存储字符串序列中的一个字符串序列,和/或与该多个待匹配字符串中的一个或多个待匹配字符串相匹配的目标信息时,则说明该信息库中已经存储了与该待存储信息所包含内容部分或全部相同的信息,如果继续存储该待存储信息,则有可能出现重复存储的情况。
[0074]在本申请实施例中,当检测到信息库存在与该待存储信息相匹配的目标信息时,则会向用户输入提示信息,以便用户根据提示信息来确定是否继续存储该待存储信息,使得该数据处理过程更加人性化。
[0075]进一步的,输出该提示信息后,当接收到用户输入的针对该提示信息的取消指令时,取消该提示信息。
[0076]当然,在输入该提示信息后,或者在取消该提示信息后,如果接收到用户针对该待存储信息的存储指令,则将该待存储信息存储至该信息库中。
[0077]可以理解的是,在以上实施例中基于存储需求,以及待存储系统的不同,本申请实施例中待存储信息也可以有多种情况。如,该待存储信息可以为存储客户信息。其中,该待存储客户信息可以包括:用于表征公司名称、公司行业、公司负责人和联系电话中的一个或多个的待存储字符串序列。其中,公司名称、公司行业、公司负责人均对应这不同的字符串序列。
[0078]为了便于理解本申请实施例,以待存储信息为客户信息为例进行介绍。例如,待存储的客户信息包括:公司名称“北京朝阳区第一交易公司”,则对该客户信息进行分词可以得到如下结果北京”、“朝阳”、“朝阳区”、“第一”、“交易”、“第一交易”、“公司”以及“交易公司”这六个分词。
[0079]在进行检索时,将这六个分词以及“北京朝阳区第一交易公司”作为关键词。在信息库中存储的客户信息以及由客户信息分词出的分词信息中检索与该关键词匹配的信息。
[0080]假如从信息库中均未匹配到与这7个词相关的信息,则存户该客户端信息。
[0081]假设该信息库中存储有“朝阳区交易公司”以及该“朝阳区交易公司”分词出的“朝阳”、“朝阳区”、“交易”和“交易公司”时,则可以检索出与该“北京朝阳区第一交易公司”以及以上六个分词匹配的“朝阳区交易公司”、“交易公司” “交易”等。
[0082]对应本申请的一种数据处理方法,本申请还提供了一种数据处理装置。参见图3,其示出了本申请一种数据处理方法另一个实施例的结构示意图,本实施例的装置包括:信息获取单元301、分词单元302、匹配单元303和第一存储单元304。
[0083]其中,信息获取单元301,用于获取待存储信息,其中,所述待存储信息由至少一组待存储字符串序列组成,所述待存储字符串序列中包括至少一个字符;
[0084]分词单元302,用于通过分别对每组所述待存储字符串序列进行分词,得到所述至少一组待存储字符串序列分
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1