数据处理方法、装置、计算机设备及存储介质与流程

文档序号:32329786发布日期:2022-11-25 21:49阅读:36来源:国知局
数据处理方法、装置、计算机设备及存储介质与流程

1.本技术涉及计算机技术领域,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。


背景技术:

2.随着计算机技术的不断深入发展,计算机设备中存储的数据量也越来越大,如计算机设备在存储全称数据以及对应的简称数据时,将存储大量的全-简称数据,而为了方便在使用全-简称数据进行后续的业务处理,常需要先对该计算机设备中存储的全-简称数据进行数据清洗。而当前采用的对数据进行清洗的方法为去噪和去重等方式,而基于当前对数据进行清洗的方法,并不能对后续业务进行有效改善,由此可见,如何提升对全-简称数据进行数据清洗时的有效性,成为了当前的研究热点。


技术实现要素:

3.本发明实施例提供了一种数据处理方法、装置、计算机设备及存储介质,可提升对数据清洗的有效性。
4.一方面,本发明实施例提供了一种数据处理方法,包括:
5.获取目标数据集,所述目标数据集包括目标全称数据及所述目标全称数据对应的m个简称数据,m为正整数;
6.识别所述m个简称数据的数据类型,所述数据类型包含可疑类型,所述可疑类型的简称数据是指无法表示所述目标全称数据语义的简称数据;
7.若所述m个简称数据中存在数据类型为可疑类型的简称数据,则对所述目标全称数据进行数据解析,生成新的简称数据;
8.在所述目标数据集中,将所述m个简称数据中数据类型为可疑类型的简称数据替换为所述新的简称数据。
9.再一方面,本发明实施例提供了一种数据处理装置,包括:
10.获取单元,用于获取目标数据集,所述目标数据集包括目标全称数据及所述目标全称数据对应的m个简称数据,m为正整数;
11.识别单元,用于识别所述m个简称数据的数据类型,所述数据类型包含可疑类型,所述可疑类型的简称数据是指无法表示所述目标全称数据语义的简称数据;
12.解析单元,用于若所述m个简称数据中存在数据类型为可疑类型的简称数据,则对所述目标全称数据进行数据解析,生成新的简称数据;
13.替换单元,用于在所述目标数据集中,将所述m个简称数据中数据类型为可疑类型的简称数据替换为所述新的简称数据。
14.再一方面,本发明实施例提供了一种计算机设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持计算机设备执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理
器被配置用于调用所述程序指令,执行如下步骤:
15.获取目标数据集,所述目标数据集包括目标全称数据及所述目标全称数据对应的m个简称数据,m为正整数;
16.识别所述m个简称数据的数据类型,所述数据类型包含可疑类型,所述可疑类型的简称数据是指无法表示所述目标全称数据语义的简称数据;
17.若所述m个简称数据中存在数据类型为可疑类型的简称数据,则对所述目标全称数据进行数据解析,生成新的简称数据;
18.在所述目标数据集中,将所述m个简称数据中数据类型为可疑类型的简称数据替换为所述新的简称数据。
19.再一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序指令,所述程序指令被处理器执行时,所述程序指令被处理器执行时,用于执行如第一方面所述的数据处理方法。
20.在本发明实施例中,计算机设备在从目标数据集中确定出目标全程数据,以及与该目标全称数据对应的m个简称数据后,该计算机设备可对该m个简称数据中的每个简称数据的数据类型进行识别,以从该m个简称数据中筛选出,无法表达该目标全称数据语义的可疑类型的简称数据,基于对简称数据中可疑类型的简称数据的筛选,可降低计算机设备后续的数据处理压力,提升计算机设备的数据处理效率。而该计算机设备在筛选出可疑类型的简称数据后,则可对该目标数据进行数据解析,以生成新的简称数据,并采用新生成的简称数据,对该目标数据集中原先可疑类型的简称数据进行替换,使得计算机设备可有效提升该目标数据集中的各简称数据对相应全称数据进行语义表达的准确度,有利于在采用该目标数据集执行下游任务时的准确度,同时,基于该计算机设备对目标全称数据的数据解析,以及采用新生成的简称数据对可疑类型的简称数据的替换,可同时实现对该目标数据集中的全称数据和简称数据的丰富,提高了该目标数据集中的数据有效率和充足率。
附图说明
21.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1是本发明实施例提供的一种数据搜索系统的示意图;
23.图2是本发明实施例提供的一种数据处理方法的示意流程图;
24.图3是本发明实施例提供的一种对全称数据进行数据解析的示意图;
25.图4是本发明实施例提供的一种数据处理方法的示意流程图;
26.图5是本发明实施例提供的一种进行爬虫校验的示意图;
27.图6是本发明实施例提供的一种生成新的简称数据的示意图;
28.图7是本发明实施例提供的一种数据处理方法的示意图;
29.图8是本发明实施例提供的一种数据处理装置的示意性框图;
30.图9是本发明实施例提供的一种计算机设备的示意性框图。
具体实施方式
31.本发明实施例提供了一种数据处理方法,可使计算机设备在对目标数据集进行数据清洗时,可在确定目标全称数据的m个简称数据中存在可疑类型的简称数据时,基于该目标全称数据生成新的简称数据,从而采用该新生成的简称数据对该目标全称数据对应的可疑类型的简称数据进行替换,以使得替换得到的目标全称数据的简称数据,均是能表示该目标全称数据的语义的简称数据,从而使得计算机设备可在对目标数据集进行数据清洗时,不仅能删除该目标数据集中无法对全称数据进行语义表达的简称数据,还能实现对目标数据集中的简称数据进行补充,从而可提升对该目标数据集进行数据清洗的有效性,并显著提升该目标数据集中简称数据的数量。在一个实施例中,该目标数据集是包括了至少一个简称数据以及至少一个全称数据的任意集合,该目标数据集中所包括的简称数据和全称数据的数据类型可以是任意类型,且该目标数据集中的任意两个全称数据(或简称数据)可以是相同类型的数据,也可以是不同类型的数据,本发明实施例不做限定,而该目标数据集所包括的目标全称数据则可以是该目标数据集中的任一全称数据,在该目标数据集中一个全称数据可对应一个或多个简称数据,且一个简称数据同样也可和一个或多个全称数据相对应。可以理解的是,全称数据是用于描述机关团体等正式名称的称呼,简称数据则是从全称数据中抽出的部分实体词,用于对全称数据进行概括的数据,其中,该全称数据例如可以是“xxx有限责任公司”,而对应的简称数据则可能是“xxx”或者“xxx公司”等,本发明实施例中提及的目标数据集中原先的全称数据,以及对应的简称数据可以是由历史经验得出的,在本发明实施例中,不对如何确定目标数据集中原全称数据,以及对应的简称数据的方式进行限定。
32.在一个实施例中,计算机设备在获取到目标数据集后,可先对目标数据集进行数据清洗,该计算机设备对目标数据集中的简称数据和全称数据进行的数据清洗包括去噪和去重等,具体地,该计算机设备可去除该目标数据集中的非法字符,以及不满足长度约束的字符等,以及该计算机设备也可对该目标数据集中的噪声字符进行删除,在计算机设备对目标数据集进行数据清洗后,则可进一步地结合专家经验对该目标数据集中的全称数据,以及简称数据进行可信评估,从而通过评估得到的标签,从该目标数据集中筛选出可信度低的全-简称数据组,那么,该计算机设备也就可对可信度低的全-简称数据组进行爬虫校验,从而可输出可信简称和非可信简称。而在该计算机设备从该目标数据集中确定出可信简称和非可信简称后,则可对该目标数据集中的全称数据进行文本解析,并根据文本解析的结果,生成新的简称数据,那么也就可对不可信的简称数据进行剔除,并采用对应的可信的新的简称数据进行替换、补充等,从而可得到新的目标数据集,可有效实现增加该目标数据集中全简称数据的数量,以及提升该目标数据集中简称数据的准确率。在一个实施例中,计算机设备在对全称数据进行文本解析时,可采用命名实体识别(named entity recognition,ner)算法,或者其他的实体词识别算法进行处理。
33.在计算机设备在对该目标数据集中的全称数据,以及对应的简称数据进行更新,得到新的目标数据集后,该计算机设备则可基于得到的新的目标数据集进行搜索信息的推荐,具体可如图1所示,在计算机设备10得到新的目标数据集后,可从终端设备11中获取搜索信息,而该计算机设备10在从终端设备11中获取到搜索信息后,则可从新的目标数据集中查找与该搜索信息匹配的全称信息和/或简称信息,其中,若计算机设备10确定从新的目
标数据集中查找到与该搜索信息匹配的简称信息,则该计算机设备则可从获取与该简称信息相关的内容数据,以及与该简称数据对应全称数据相关的内容数据反馈给终端设备11,从而可在终端设备11中对反馈的内容数据进行现实;而如果计算机设备10从该新的目标数据集中查找到与该搜索信息匹配的全称数据,同样将基于该全称数据,以及对应的简称数据获取相应的内容数据作为反馈数据,并反馈给终端设备11进行显示,基于新的目标数据集进行内容数据的反馈,可有效提升反馈的内容数据的在准确性,从而提升用户在进行数据搜索过程中的满意度。在一个实施例中,计算机设备可从搜索信息的语义,进而可查找与该语义匹配的全称数据(或简称数据),或者,该计算机设备也从基于搜索信息中提取出关键词,从而查找与该关键词匹配的全称数据(或简称数据)。
34.为了对生成该目标数据集中某个全称数据对应的新的简称数据的过程进行详细说明,请参见图2,是本发明实施例提出的一种数据处理方法的示意流程图,在本实施例中对生成该目标数据集中目标全称数据的新的简称数据的过程进行详细说明,该目标全称数据是该目标数据集中的任一全称数据,如图2所示,该方法可包括:
35.s201,获取目标数据集,目标数据集包括目标全称数据及目标全称数据对应的m个简称数据,m为正整数。
36.s202,识别m个简称数据的数据类型,数据类型包含可疑类型,可疑类型的简称数据是指无法表示目标全称数据语义的简称数据。
37.计算机设备获取的目标数据集包括一个或多个全称数据,每个全称数据与一个或多个简称数据相对应,同样的,该目标数据集中的每个简称数据也和一个或多个全称数据相互对应,如全称数据为“xxx有限责任公司”,其对应的简称数据包括“xxx公司”或者“xxx”,而该简称数据“xxx”对应的全称数据也可能不仅包括“xxx有限责任公司”,还可包括“xxx有限责任公司-深圳分公司”,那么可以理解,虽然在该目标数据集中记录了一个或多个全称数据,以及对应的简称关系。那么,计算机设备在采用该目标数据集进行业务处理时,就可能由于该目标数据集中简称数据和全称数据之间存在的多对多的关系,出现业务差错,由此,计算机设备需要对该目标数据集中的简称数据进行调整,进而得到新的目标数据集,以保证在基于该新的目标数据集进行业务处理时的准确性问题。
38.在一个实施例中,计算机设备在对目标数据集中的简称数据进行调整时,可先对该目标数据集中的全称数据,以及简称数据进行数据清洗操,具体地,该计算机设备在对该目标数据集中的全称数据和简称数据进行数据清洗时,可对该全称数据(或简称数据)进行数据去重处理,数据清洗处理,以及去噪处理等,其中,该数据清洗处理包括剔除额外拼接的数据,或者额外的英文字符处理,而去噪处理则可包括除全称数据(以及简称数据)中所包含的非法字符,以及长度不符合约束的数据等。其中,由于长度不符合约束的数据,在大多情况下没有特定的业务语义,因此,可将长度不符合约束的数据在数据清洗阶段进行删除,而该约束例如可以是2个字符长度或者3个字符长度等。在计算机设备对目标数据集进行数据清洗后,则可从该目标数据集中选取任一全称数据作为目标全称数据,并从该目标数据集中确定出该目标全称数据对应的m个简称数据。
39.计算机设备在获取到目标全称数据以及对应的m个简称数据后,则可识别该m个简称数据的数据类型,以从该m个简称数据中确定出无法对目标全称数据的语义进行表达的可疑类型的简称数据。在具体实现中,计算机设备在识别m个简称数据的数据类型时,可通
过对该m个简称数据中的每个简称数据进行语义分析,以确定每个简称数据的语义,此外,该计算机设备还可对该目标全称数据进行语义分析,以确定目标全称数据的语义,那么,该计算机设备则可进一步地将每个简称数据的语义和该目标全称数据的语义进行语义匹配,并根据语义匹配的结果从该m个简称数据中查找出不能表达该目标全称数据的语义(或者不能完整表达该目标全称数据的语义,或者存在语义歧义)的简称数据,其中,查找出的简称数据即为可疑类型的简称数据。
40.在一个实施例中,计算机设备在获取到该目标全称数据以及对应的m个简称数据后,还可先对该m个简称数据进行进一步的可信评估,以删除该m个简称数据中不可信的简称数据,其中,在对该m个简称数据进行可信评估时,计算机设备可基于该m个简称数据中的每个简称数据的数据属性进行,如可通过判断每个简称数据的数据长度等,对每个简称数据进行可信评估,进而在对每个简称数据进行可信评估后,则可对每个可信评估通过的每个简称数据,以及该目标全称数据进行关联性检测,从而进一步基于该关联性的检测结果,确定每个检测数据是否能表达该目标全称数据的语义,从而确定出每个简称数据的数据类型。而在计算机设备确定出目标全称数据对应的每个简称数据的数据类型后,则可对该目标数据集中相应数据类型为可疑类型的简称数据进行调整,以使在目标数据集中,与该目标全称数据对应的简称数据能对该目标全称数据的语义进行表达。
41.s203,若m个简称数据中存在数据类型为可疑类型的简称数据,则对目标全称数据进行数据解析,生成新的简称数据。
42.在一个实施例中,计算机设备在确定出目标全称数据对应的m个简称数据中的每个简称数据的数据类后,则可进一步地对该目标全称数据进行数据解析处理,从而使得该计算机设备可基于对目标全称数据的解析结果,生成该目标全称数据的新的简称数据。在一个实施例中,计算机设备在对目标全称数据进行数据解析处理,并生成相应的新的简称数据时,该计算机设备可通过对该目标全称数据进行语义分析,确定出该目标全称数据的语义分析结果生成新的简称数据,举例来说,如该目标全称数据为“上海xx电子商务有限公司”,计算机设备若确定“上海xx电子商务有限公司”对应的m个简称数据中存在数据类型为可疑类型的简称数据,则可对“上海xx电子商务有限公司”进行语义分析,若生成的语义分析结果为“上海xx公司”,则可将语义分析结果“上海xx公司”作为该目标全称数据对应的新的简称数据。
43.计算机设备在对目标全称数据进行数据解析,并生成相应的新的简称数据时,在另一种实现方式中,该计算机设备还可调用序列标注模型对该目标全称数据进行解析,以确定出该目标全称数据中各实体词对应语义,在该目标全称数据中所表达的角色,那么进一步地,该计算机设备则可基于该序列标注模型对目标全称数据的解析,从该目标全称数据中抽取一个或多个实体词进行多种组合,从而得到该目标全称数据对应的新的简称数据。在一个实施例中,该序列标注模型的模型结构例如可以是bi-lstm+crf的双层模型结构,或者,也可以是bert+lstm+crf的三层模型结构,而该计算机设备在对该目标全称数据进行解析,并从该目标全称数据中抽取出一个或多个实体词时,可基于先验知识进行实体词的抽取和组合,也可通过模型训练进行实体词的抽取和组合。同样的,若该计算机设备确定出的目标全称数据为“上海xx电子商务有限公司”,基于该计算机设备对序列标注模型的调用,可确定出每个实体词对应的角色,如图3所示,实体词上海对应的角色为地名,实体词
xx对应的角色为关键词,实体词电子商务对应的角色为行业,而实体词有限公司对应的角色则为通用信息,那么,基于对该目标全称数据的解析,所确定出的每个实体词对应的角色,计算机设备可基于每个实体词对应的角色,从该目标全称数据中抽取出一个或多个实体词组成该目标全称数据对应的新的简称数据,其中,得到的新的简称数据可能是“上海xx公司”,“xx有限公司”等。
44.基于计算机设备对目标全称数据的解析,生成新的简称数据后,该计算机设备则可采用新的简称数据对该目标数据集进行更新,即该计算机设备可转而执行步骤s204。
45.s204,在目标数据集中,将m个简称数据中数据类型为可疑类型的简称数据替换为新的简称数据。
46.在计算机设备采用新的简称数据对该目标数据集进行更新时,该计算机设备可采用该新的简称数据对相应可疑类型的简称数据进行替换,在一个实施例中,采用该新的简称数据对原先可疑类型的简称数据进行替换是指:在该目标数据集中,取消该可疑类型的简称数据与目标全称数据之间的数据关联性,并将生成的新的简称数据添加到该目标数据集中,并将添加的新的简称数据与该目标全称数据相关联,需要说明的是,计算机设备基于对目标全称数据的数据解析生成的新的简称数据的数量为一个或多个,而生成的新的简称数据的数量和可疑类型的简称数据的数量也可能是相同的,也可能是不同的,即计算机设备基于对该目标全称数据的数据解析所生成的新的简称数据的数量,可能大于可疑类型的简称数据的数量,也可能等于可疑类型的简称数据的数量,或者,也可能小于可疑类型的简称数据的数量,本发明实施例中不做限定。
47.在本发明实施例中,计算机设备在从目标数据集中确定出目标全程数据,以及与该目标全称数据对应的m个简称数据后,该计算机设备可对该m个简称数据中的每个简称数据的数据类型进行识别,以从该m个简称数据中筛选出,无法表达该目标全称数据语义的可疑类型的简称数据,基于对简称数据中可疑类型的简称数据的筛选,可降低计算机设备后续的数据处理压力,提升计算机设备的数据处理效率。而该计算机设备在筛选出可疑类型的简称数据后,则可对该目标数据进行数据解析,以生成新的简称数据,并采用新生成的简称数据,对该目标数据集中原先可疑类型的简称数据进行替换,使得计算机设备可有效提升该目标数据集中的各简称数据对相应全称数据进行语义表达的准确度,有利于在采用该目标数据集执行下游任务时的准确度,同时,基于该计算机设备对目标全称数据的数据解析,以及采用新生成的简称数据对可疑类型的简称数据的替换,可同时实现对该目标数据集中的全称数据和简称数据的丰富,提高了该目标数据集中的数据有效率和充足率。
48.请参见图4,是本发明实施例提出的一种数据处理方法的示意流程图,如图4所示,该方法可包括:
49.s401,获取目标数据集,目标数据集包括目标全称数据及目标全称数据对应的m个简称数据,m为正整数。
50.s402,识别m个简称数据的数据类型,数据类型包含可疑类型,可疑类型的简称数据是指无法表示目标全称数据语义的简称数据。
51.在一个实施例中,计算机设备获取到的目标数据集中包括一个或多个全称数据,以及每个全称数据关联的简称数据,且在该目标数据集中,与每个全称数据关联的简称数据的数量可以是一个或者多个,并且,与每个简称数据相关的全称数据的数量也可以是一
个或者多个。若该计算机设备获取的目标数据集中包括的目标全称数据,以及与该目标全称数据关联的m个简称数据,而在该计算机设备在获取到该目标全称数据,以及对应的m个简称数据后,该计算机设备则可对m个简称数据中每个简称数据的数据类型进行识别,以确定每个简称数据的数据类型,在计算机和设备进行数据识别时,该计算机设备可先获取m个简称数据中的每个简称数据的数据属性,目标全称数据的数据属性,以及目标全称数据分别和每个简称数据之间的数据关联性;进而该计算机设备则可根据每个简称数据的数据属性,目标全称数据的数据属性,以及数据关联性,对每个简称数据进行可信评估,并根据可信评估结果确定m个简称数据的数据类型。
52.简称数据(或目标全称数据)的数据属性是用于对该简称数据(或目标全称数据)进行定性描述和/或定量描述的数据,如该数据属性可包括数据长度,数据中所包括的数据内容等,那么,计算机设备在分别基于简称数据的数据数据,目标全称数据的数据属性,以及数据关联性对每个简称数据进行可信评估时,可基于一种或多种评估方式,为相应的简称数据评估标签,该评估标签用于指示相应的简称数据基于可信评估是否是可信的。在具体实现中,该计算机设备可在根据任一简称数据对应的数据属性,确定任一简称数据的数据长度(如为2或3等)小于长度阈值时,为任一简称数据添加可疑标签,该可疑标签即是计算机设备基于对该任一简称数据执行的可信评估,为该任一简称数据所添加的评估标签,而该可疑标签则用于指示该计算机设备在对该任一简称数据进行可信评估后,认为该任一简称数据是临时不可信的简称数据。此外,该计算机设备在对简称数据进行可信评估时,还可根据任一简称数据对应的数据属性,目标全称数据的数据属性,以及数据关联性,确定任一简称数据和目标全称数据是否存在交集,并在确定存在交集时,为任一简称数据添加可信标签,那么对应可以理解的是,该可信标签用于指示该任一渐层数据在进行可信评估后,被作为是临时可信的简称数据。
53.在一个实施例中,该计算机设备在对简称数据进行可信评估,并基于该可信评估的结果,为简称数据添加相应的评估标签时,该计算机设备还可确定任一简称数据和该目标全称数据是否是一一对应的,并在确定是一一对应时,为该任一简称数据添加可信标签,而在不是一一对应时,为该任一简称数据添加可疑标签。等等,在本发明实施例中,对计算机设备对简称数据进行可信评估时所采用的评估手段的方式和个数均不作限定,即计算机设备可采用上述的三种对简称数据进行可信评估的方式中,选取一个或多个方式对简称数据进行可信评估。其中,当计算机设备中存在多种对简称数据进行可信评估的方式时,可将该多种评估方式进行排序,进而依次采用相应的评估方式对某个简称数据进行可信评估,得到该某个简称数据的评估结果。举例来说,若该计算机设备确定出的简称数据为“abc”,目标全称数据为“上海xx电子商务有限公司”,那么,由于简称数据“abc”与目标全称数据“上海xx电子商务有限公司”之间不存在交集,则确定该简称数据“abc”为不可信的简称数据,并为该简称数据添加可疑标签。
54.在计算机设备根据可信评估结果确定m个简称数据的数据类型后,则可根据可信评估结果,从m个简称数据中筛选出添加了可信标签的简称数据,添加了可信标签的简称数据的数据类型为可信类型,可信类型的简称数据是指能表示目标全称数据语义的简称数据;此外,该计算机设备还可从m个简称数据中确定出添加了可疑标签的简称数据,那么,该计算机设备在确定出添加了可疑标签的简称数据后,则可对添加了可疑标签的简称数据,
以及目标全称数据进行语义解析,得到语义解析结果,那么,该计算机设备则可根据语义解析结果,确定添加了可疑标签的简称数据的语义,以及目标全称数据的语义之间的语义关联性,从而可根据语义关联性确定出被添加了可疑标签的简称数据的数据类型。也就是说,计算机设备在对简称数据进行可信评估后,可进一步基于可信评估的结果,再次对被评估为可疑的简称数据进行分析,从而基于二次的分析结果,确定出该简称数据的数据类型,进而可有效提升计算机设备确定出的每个简称数据的数据类型的可靠性。
55.计算机设备在对添加了可疑标签的简称数据,以及目标全称数据进行语义解析,得到语义解析结果时,可先将添加了可疑标签的简称数据作为第一爬虫关键词,并将目标全称数据作为第二爬虫关键词,从而使得该计算机设备可根据第一爬虫关键词和第二爬虫关键词进行爬虫搜索,得到爬虫搜索结果,并将爬虫搜索结果作为被添加了可疑标签的简称数据,以及目标全称数据进行语义解析的结果。那么,该计算机设备在根据语义解析结果确定添加了可疑标签的简称数据的语义,以及目标全称数据的语义之间的语义关联性时,该计算机设备可在爬虫搜索结果指示第一爬虫关键词和第二爬虫关键词在搜索结果中共同出现时,确定添加了可疑标签的简称数据的语义,以及目标全称数据的语义相关联,而如果该计算机设备确定爬虫搜索结果指示第一爬虫关键词和第二爬虫关键词在搜索结果中未共同出现,则可确定添加了可疑标签的简称数据的语义,以及目标全称数据的语义无关。举例来说,若计算机设备确定出的目标全称数据为“上海xx电子商务有限公司”,且基于上述的可信校验,被添加了可以标签的简称数据包括“abc”,那么,该计算机设备则可将“上海xx电子商务有限公司”作为第二爬虫关键词,将“abc”作为第一爬虫关键词进行爬虫搜索,若基于这两个爬虫关键词进行爬虫搜索得到的搜索结果如图5所示,那么,该计算机设备基于该搜索结果可确定,由于作为第一爬虫关键词的“abc”,以及作为第二爬虫关键词的“上海xx电子商务有限公司”并没有同事出现,则可将简称数据“abc”标记为不可信的状态,那么可以理解,被标记为不可信状态的简称数据“abc”对应的数据类型为可疑类型。
56.基于上述的对简称数据的数据类型的多重分析,进而确定出每个简称数据对应数据类型的方式,可有效提升在确定每个简称数据的数据类型时的准确性,那么,计算机设备在确定每个简称数据的数据类型后,则可在该目标全称数据存在可疑类型的简称数据后,对该目标全称数据进行数据解析,从而实现对可疑类型的简称数据的替换,即转而执行步骤s403。
57.s403,若m个简称数据中存在数据类型为可疑类型的简称数据,则对目标全称数据进行数据解析,生成新的简称数据。
58.s404,在目标数据集中,将m个简称数据中数据类型为可疑类型的简称数据替换为新的简称数据。
59.在一个实施例中,该目标全称数据包括一个或多个实体词,那么,该计算机设备在对目标全称数据进行数据解析,生成新的简称数据时,则可对目标全称数据进行数据解析处理,确定目标全称数据中的每个实体词的实体角色,进而则可根据每个实体词的实体角色,对任意一个或多个实体词进行组合,并将组合得到的实体词作为新的简称数据。其中,该计算机设备可采用序列标注模型对目标全称数据进行数据解析,该序列标注模型是训练完成的用于进行实体词的角色识别的模型,计算机设备采用序列标识模型对该目标全称数据的解析过程可如图3所示。该计算机设备在确定目标全称数据中每个实体词的实体角色
后,则可对任意一个或多个实体词进行组合,从而得到新的简称数据,如图6所示,如该计算机设备可根据每个实体词的角色,根据各实体词角色之间的依赖关系进行实体词组合,得到新的简称数据。
60.在一个实施例中,若该目标全称数据为“上海xx电子商务有限公司”,那么基于实体词上海、xx、电子商务和有限公司这四个对应角色之间的依赖关系,则可重新组合得到新的简称数据,得到的新的简称数据可以是“上海xx”、“xx电子商务”,或者“xx电商”等等。在计算机设备生成新的简称数据后,则可基于采用该新的简称数据替换该目标数据集中对应为可疑类型的简称数据,以提升该目标数据集中各简称数据的可靠性。
61.s405,根据每个简称数据的数据类型,从m个简称数据中筛选出可信类型的简称数据。
62.s406,若可信类型的简称数据与至少两个全称数据相对应,则从至少两个全称数据中,筛选出常用全称数据,以及非常用全称数据。
63.s407,为常用全称数据设置第一权重值,并为非常用全称数据设置第二权重值,且第一权重值的优先级高于第二权重值的优先级。
64.在步骤s405~步骤s407中,基于计算机设备确定出的每个简称数据的数据类型,该计算机设备还可从目标全称数据的m个简称数据中筛选出可信类型的简称数据,并在筛选出可信类型的简称数据后,如果一个可信类型的简称数据与至少两个全称数据相对应,则可从对应的至少两个全称数据中,筛选出常用全称数据和非常用全称数据,其中,该可信类型的简称数据所对应的常用全称数据是指:基于用户的日常表达需求,该可信类型的简称数据所指代的全称数据,如基于用户的日常表达需求,常采用简称数据“pc”指代电脑,而非手机,所以,如果该目标数据集中的简称数据对应的全称数据包括电脑和手机,那么,该计算机设备在确定简称数据“pc”为可信的简称数据后,基于该简称数据确定出的常用全称数据为电脑,非常用全称数据为手机。那么,在计算机设备基于可信简称数据,筛选得到常用全称数据和非常用全称数据后,则可为常用全称数据设置第一权重值,并为非常用第二权重值,且第一权重值的优先级高于第二权重值的优先级,那么可以理解,计算机设备在一个简称数据对应多个全称数据时,通过为对应的不同全称数据设置权重值优先级的方式,可在目标数据集中维护一个常用数据词典,而通过对常用数据词典的维护,可有效降低该目标数据集中全称数据和简称数据之间一对多的情况,进而提升采用该目标数据集执行下游任务的准确性。
65.在一个实施例中,该计算机设备在目标数据集中维护的常用数据的词典,可以基于该全称数据对应企业是否为头部企业来进行维护,其中,头部企业是指在相关领域具有带头启示作用的企业,即如果该计算机设备确定出的可信类型的简称数据对应的全称数据包括a公司的公司名称和b公司的公司名称,而在互联网行业领域中,若a公司为该行业领域的头部企业,而b公司不是该行业领域的头部企业,那么,计算机设备在筛选该可信类型的简称数据分别对应的常用全称数据,以及非常用全称数据时,则可将a公司对应公司名称作为常用全称数据,而将b公司对应的公司名称作为非常用全称数据。
66.计算机设备基于对常用全称数据,以及非常用全称数据的筛选,在目标数据集中维护常用数据词典后,可基于该常用数据词典应用到下游的任务中,如下游任务为搜索任务时,该计算机设备可获取目标搜索信息,目标搜索信息包括可信类型的参考简称数据;进
而可获取与参考简称数据,以及参考简称数据对应的常用全称数据相关的数据,作为搜索结果数据,从而可在终端设备中显示该搜索结果数据,基于常用全称数据进行搜索反馈,不仅可使得搜索反馈的结果更符合用户需求,也可有效降低计算机设备的数据处理压力,提升计算机设备的数据处理效率。在一个实施例中,计算机设备在确定简称数据的数据类型后,还可根据m个简称数据中的每个简称数据的数据类型,从m个简称数据中筛选出可信类型的简称数据,并确定与可信类型的简称数据对应的一个或多个其他全称数据;进而可对目标全称数据,以及一个或多个其他全称数据进行数据解析,生成推荐简称数据,并为目标全称数据,以及一个或多个其他全称数据添加推荐简称数据,基于对全称数据进行推荐简称数据的添加,可显著提升目标数据集中全称数据和简称数据对应的数据量。
67.基于上述对目标数据集中任一目标全称数据进行处理的过程,下面结合图7,对计算机设备对该目标数据集中的各全称数据进行处理时的情况进行描述,其中,计算机设备对目标数据集中任一全称数据进行处理的具体过程可以参见上述实施例的描述。计算机设备在对目标数据集进行数据处理时,主要需要该计算机设备中的简称筛选模块,校验模块和全称数据解析模型,其中,该计算机设备可先采用该简称筛选模块对目标数据集进行数据清洗,去噪,以及全简称去重等,然后就可对该处理完成后的简称数据进行可信评估,得到相应的评估标签,基于可信评估,简称筛选模块可将被添加了可疑标签的简称数据发送到校验模块。校验校验模块在获取到可疑的简称数据后,则可基于可疑的简称数据进行网络爬虫处理,得到爬虫校验结果,进而基于该爬虫校验结果确定简称数据的数据类型,需要说明的是,基于可信评估确定出的被添加了可信标签的简称数据,可直接作为(临时)可信的简称数据到校验模块中。
68.在校验模块基于爬虫校验结果,以及可信评估的输入,确定出可信的简称数据以及可以的简称数据后,针对该可疑的简称数据,该校验模块可将该可疑的简称数据对应全称数据输入到全称数据解析模块,以使该全称数据解析模块生成可疑的简称数据对应全称数据的新的简称数据,并采用该新的简称数据对该可疑的简称数据进行替换。而针对可信的简称数据,计算机设备则可对相应的全称数据进行其他推荐简称数据生成,以及进行常用数据词典的维护,继而完成对目标数据集的有效调整。
69.在本发明实施例中,计算机设备在从目标数据集中确定出目标全称数据后,则可对该目标全称数据对应的每个简称数据的数据类型进行识别,以确定出每个简称数据对应的数据类型,进而可在该目标全称数据对应的简称数据中包括可疑类型的简称数据时,对该目标全称数据进行数据解析,并基于解析结果生成新的简称数据,以采用该新的简称数据替换该目标数据集中可疑的简称数据。此外,该计算机设备还可筛选出的可信类型的简称数据,并根据可信类型的简称数据所对应的全称数据,筛选出常用全称数据和非常用全称数据,从而可采用设置权重值的方式,为常用全称数据和非常用全称数据分别设置不同的优先级,通过对常用全称数据和非常用全称数据的区分维护,可有效提升计算机设备在采用调整后的目标数据集进行后续任务的可靠性。
70.基于上述数据处理方法实施例的描述,本发明实施例还提出了一种数据处理装置,该数据处理装置可以是运行于上述计算机设备中的一个计算机程序(包括程序代码),其中,该计算机设备可以是终端设备,或者也可以是服务器设备。该数据处理装置可用于执行如图2和图4所述的数据处理方法,请参见图8,该数据处理装置包括:获取单元801,识别
单元802,解析单元803和替换单元804。
71.获取单元801,用于获取目标数据集,所述目标数据集包括目标全称数据及所述目标全称数据对应的m个简称数据,m为正整数;
72.识别单元802,用于识别所述m个简称数据的数据类型,所述数据类型包含可疑类型,所述可疑类型的简称数据是指无法表示所述目标全称数据语义的简称数据;
73.解析单元803,用于若所述m个简称数据中存在数据类型为可疑类型的简称数据,则对所述目标全称数据进行数据解析,生成新的简称数据;
74.替换单元804,用于在所述目标数据集中,将所述m个简称数据中数据类型为可疑类型的简称数据替换为所述新的简称数据。
75.在一个实施例中,所述识别单元802,具体用于:
76.获取所述m个简称数据中的每个简称数据的数据属性,所述目标全称数据的数据属性,以及所述目标全称数据分别和每个简称数据之间的数据关联性;
77.根据每个简称数据的数据属性,所述目标全称数据的数据属性,以及所述数据关联性,对每个简称数据进行可信评估,并根据所述可信评估结果确定所述m个简称数据的数据类型。
78.在一个实施例中,所述识别单元802,具体用于:
79.若根据任一简称数据对应的数据属性,确定所述任一简称数据的数据长度小于长度阈值,则为所述任一简称数据添加可疑标签;或者,
80.若根据所述任一简称数据对应的数据属性,所述目标全称数据的数据属性,以及所述数据关联性,确定所述任一简称数据和所述目标全称数据存在交集,则为所述任一简称数据添加可信标签。
81.在一个实施例中,所述数据类型还包括可信类型,所述可信类型的简称数据是指能表示所述目标全称数据语义的简称数据;所述识别单元802,具体用于:
82.根据所述可信评估结果,从所述m个简称数据中筛选出添加了可信标签的简称数据,添加了所述可信标签的简称数据的数据类型为可信类型;
83.从所述m个简称数据中确定出添加了可疑标签的简称数据,并对所述添加了可疑标签的简称数据,以及所述目标全称数据进行语义解析,得到语义解析结果;
84.根据所述语义解析结果,确定所述添加了可疑标签的简称数据的语义,以及所述目标全称数据的语义之间的语义关联性,并根据所述语义关联性确定添加了可疑标签的简称数据的数据类型。
85.在一个实施例中,所述识别单元802,具体用于:
86.将所述添加了可疑标签的简称数据作为第一爬虫关键词,并将所述目标全称数据作为第二爬虫关键词;
87.根据所述第一爬虫关键词和所述第二爬虫关键词进行爬虫搜索,得到爬虫搜索结果,并将所述爬虫搜索结果作为对所述添加了可疑标签的简称数据,以及所述目标全称数据进行语义解析的结果。
88.在一个实施例中,所述识别单元802,具体用于:
89.若所述爬虫搜索结果指示所述第一爬虫关键词和第二爬虫关键词在搜索结果中共同出现,则确定所述添加了可疑标签的简称数据的语义,以及所述目标全称数据的语义
相关联;
90.若所述爬虫搜索结果指示所述第一爬虫关键词和第二爬虫关键词在搜索结果中未共同出现,则确定所述添加了可疑标签的简称数据的语义,以及所述目标全称数据的语义无关。
91.在一个实施例中,所述目标全称数据包括一个或多个实体词;所述解析单元803,具体用于:
92.对所述目标全称数据进行命名实体识别处理,确定所述目标全称数据中的每个实体词的实体角色;
93.根据每个实体词的实体角色,对任意一个或多个实体词进行组合,并将组合得到的实体词作为新的简称数据。
94.在一个实施例中,所述数据类型还包括可信类型,所述可信类型的简称数据是指能表示相应全称数据语义的简称数据;所述装置还包括:筛选单元805和设置单元806。
95.筛选单元805,用于根据所述每个简称数据的数据类型,从所述m个简称数据中筛选出可信类型的简称数据;
96.所述筛选单元805,还用于若所述可信类型的简称数据与至少两个全称数据相对应,则从所述至少两个全称数据中,筛选出常用全称数据,以及非常用全称数据;
97.设置单元806,用于为所述常用全称数据设置第一权重值,并为所述非常用全称数据设置第二权重值,且所述第一权重值的优先级高于所述第二权重值的优先级。
98.在一个实施例中,所述装置还包括:显示单元807。
99.所述获取单元801,还用于从终端设备中获取目标搜索信息,所述目标搜索信息包括可信类型的参考简称数据;
100.所述获取单元801,还用于获取与所述参考简称数据,以及所述参考简称数据对应的常用全称数据相关的数据,作为搜索结果数据;
101.显示单元807,用于在所述终端设备中显示所述搜索结果数据。
102.在一个实施例中,所述数据类型还包括可信类型,所述可信类型的简称数据是指能表示相应全称数据语义的简称数据;所述装置还包括:添加单元808。
103.所述筛选单元805,还用于根据所述m个简称数据中的每个简称数据的数据类型,从所述m个简称数据中筛选出可信类型的简称数据,并确定与所述可信类型的简称数据对应的一个或多个其他全称数据;
104.所述解析单元803,还用于对所述目标全称数据,以及所述一个或多个其他全称数据进行数据解析;
105.添加单元808,用于生成推荐简称数据,并为所述目标全称数据,以及所述一个或多个其他全称数据添加所述推荐简称数据。
106.在本发明实施例中,获取单元801在从目标数据集中确定出目标全程数据,以及与该目标全称数据对应的m个简称数据后,识别单元802可对该m个简称数据中的每个简称数据的数据类型进行识别,以从该m个简称数据中筛选出,无法表达该目标全称数据语义的可疑类型的简称数据,基于对简称数据中可疑类型的简称数据的筛选,可降低计算机设备后续的数据处理压力,提升数据处理效率。而在筛选出可疑类型的简称数据后,解析单元803则可对该目标数据进行数据解析,以生成新的简称数据,从而该替换单元804可采用新生成
的简称数据,对该目标数据集中原先可疑类型的简称数据进行替换,可有效提升该目标数据集中的各简称数据对相应全称数据进行语义表达的准确度,有利于在采用该目标数据集执行下游任务时的准确度,同时,基于对目标全称数据的数据解析,以及采用新生成的简称数据对可疑类型的简称数据的替换,可同时实现对该目标数据集中的全称数据和简称数据的丰富,提高了该目标数据集中的数据有效率和充足率。
107.请参见图9,是本发明实施例提供的一种计算机设备的结构示意性框图。如图9所示的本实施例中的计算机设备可包括:一个或多个处理器901;一个或多个输入设备902,一个或多个输出设备903和存储器904。上述处理器901、输入设备902、输出设备903和存储器904通过总线905连接。存储器904用于存储计算机程序,所述计算机程序包括程序指令,处理器901用于执行所述存储器904存储的程序指令。
108.所述存储器904可以包括易失性存储器(volatile memory),如随机存取存储器(random-access memory,ram);存储器904也可以包括非易失性存储器(non-volatile memory),如快闪存储器(flash memory),固态硬盘(solid-state drive,ssd)等;存储器904还可以包括上述种类的存储器的组合。
109.所述处理器901可以是中央处理器(central processing unit,cpu)。所述处理器901还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,asic),可编程逻辑器件(programmable logic device,pld)等。该pld可以是现场可编程逻辑门阵列(field-programmable gate array,fpga),通用阵列逻辑(generic array logic,gal)等。所述处理器901也可以为上述结构的组合。
110.本发明实施例中,所述存储器904用于存储计算机程序,所述计算机程序包括程序指令,处理器901用于执行存储器904存储的程序指令,用来实现上述如图2和图4中相应方法的步骤。
111.在一个实施例中,所述处理器901被配置调用所述程序指令,用于执行:
112.获取目标数据集,所述目标数据集包括目标全称数据及所述目标全称数据对应的m个简称数据,m为正整数;
113.识别所述m个简称数据的数据类型,所述数据类型包含可疑类型,所述可疑类型的简称数据是指无法表示所述目标全称数据语义的简称数据;
114.若所述m个简称数据中存在数据类型为可疑类型的简称数据,则对所述目标全称数据进行数据解析,生成新的简称数据;
115.在所述目标数据集中,将所述m个简称数据中数据类型为可疑类型的简称数据替换为所述新的简称数据。
116.在一个实施例中,所述处理器901被配置调用所述程序指令,用于执行:
117.获取所述m个简称数据中的每个简称数据的数据属性,所述目标全称数据的数据属性,以及所述目标全称数据分别和每个简称数据之间的数据关联性;
118.根据每个简称数据的数据属性,所述目标全称数据的数据属性,以及所述数据关联性,对每个简称数据进行可信评估,并根据所述可信评估结果确定所述m个简称数据的数据类型。
119.在一个实施例中,所述处理器901被配置调用所述程序指令,用于执行:
120.若根据任一简称数据对应的数据属性,确定所述任一简称数据的数据长度小于长
度阈值,则为所述任一简称数据添加可疑标签;或者,
121.若根据所述任一简称数据对应的数据属性,所述目标全称数据的数据属性,以及所述数据关联性,确定所述任一简称数据和所述目标全称数据存在交集,则为所述任一简称数据添加可信标签。
122.在一个实施例中,所述数据类型还包括可信类型,所述可信类型的简称数据是指能表示所述目标全称数据语义的简称数据;所述处理器901被配置调用所述程序指令,用于执行:
123.根据所述可信评估结果,从所述m个简称数据中筛选出添加了可信标签的简称数据,添加了所述可信标签的简称数据的数据类型为可信类型;
124.从所述m个简称数据中确定出添加了可疑标签的简称数据,并对所述添加了可疑标签的简称数据,以及所述目标全称数据进行语义解析,得到语义解析结果;
125.根据所述语义解析结果,确定所述添加了可疑标签的简称数据的语义,以及所述目标全称数据的语义之间的语义关联性,并根据所述语义关联性确定添加了可疑标签的简称数据的数据类型。
126.在一个实施例中,所述处理器901被配置调用所述程序指令,用于执行:
127.将所述添加了可疑标签的简称数据作为第一爬虫关键词,并将所述目标全称数据作为第二爬虫关键词;
128.根据所述第一爬虫关键词和所述第二爬虫关键词进行爬虫搜索,得到爬虫搜索结果,并将所述爬虫搜索结果作为对所述添加了可疑标签的简称数据,以及所述目标全称数据进行语义解析的结果。
129.在一个实施例中,所述处理器901被配置调用所述程序指令,用于执行:
130.若所述爬虫搜索结果指示所述第一爬虫关键词和第二爬虫关键词在搜索结果中共同出现,则确定所述添加了可疑标签的简称数据的语义,以及所述目标全称数据的语义相关联;
131.若所述爬虫搜索结果指示所述第一爬虫关键词和第二爬虫关键词在搜索结果中未共同出现,则确定所述添加了可疑标签的简称数据的语义,以及所述目标全称数据的语义无关。
132.在一个实施例中,所述目标全称数据包括一个或多个实体词;所述处理器901被配置调用所述程序指令,用于执行:
133.对所述目标全称数据进行命名实体识别处理,确定所述目标全称数据中的每个实体词的实体角色;
134.根据每个实体词的实体角色,对任意一个或多个实体词进行组合,并将组合得到的实体词作为新的简称数据。
135.在一个实施例中,所述数据类型还包括可信类型,所述可信类型的简称数据是指能表示相应全称数据语义的简称数据;所述处理器901被配置调用所述程序指令,用于执行:
136.根据所述每个简称数据的数据类型,从所述m个简称数据中筛选出可信类型的简称数据;
137.若所述可信类型的简称数据与至少两个全称数据相对应,则从所述至少两个全称
数据中,筛选出常用全称数据,以及非常用全称数据;
138.为所述常用全称数据设置第一权重值,并为所述非常用全称数据设置第二权重值,且所述第一权重值的优先级高于所述第二权重值的优先级。
139.在一个实施例中,所述处理器901被配置调用所述程序指令,用于执行:
140.从终端设备中获取目标搜索信息,所述目标搜索信息包括可信类型的参考简称数据;
141.获取与所述参考简称数据,以及所述参考简称数据对应的常用全称数据相关的数据,作为搜索结果数据;
142.在所述终端设备中显示所述搜索结果数据。
143.在一个实施例中,所述数据类型还包括可信类型,所述可信类型的简称数据是指能表示相应全称数据语义的简称数据;所述处理器901被配置调用所述程序指令,用于执行:
144.根据所述m个简称数据中的每个简称数据的数据类型,从所述m个简称数据中筛选出可信类型的简称数据,并确定与所述可信类型的简称数据对应的一个或多个其他全称数据;
145.对所述目标全称数据,以及所述一个或多个其他全称数据进行数据解析,生成推荐简称数据,并为所述目标全称数据,以及所述一个或多个其他全称数据添加所述推荐简称数据。
146.本发明实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述如图2或图4所示的方法实施例。其中,所述的计算机可读存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
147.以上所揭露的仅为本发明的局部实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或局部流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1