文本处理方法、装置、计算机设备和计算机可读存储介质与流程

文档序号:30447768发布日期:2022-06-18 01:07阅读:74来源:国知局
文本处理方法、装置、计算机设备和计算机可读存储介质与流程

1.本技术涉及计算机技术领域,具体而言,涉及一种文本处理方法、装置、计算机设备和计算机可读存储介质。


背景技术:

2.随着科学技术的发展,计算机设备已经进入到人们的工作生活中,人们可以将各种各样的信息或数据存储在计算机设备中,进行相应的管理、分析和决策,以提高效率。
3.相关技术中,例如,在医疗领域,可以将患者的住址、病例等待存储文本输入到计算机设备中,将这些待存储文本进行分词处理得到各待存储文本的至少一个分词结果,然后就可以根据各待存储文本的各分词结果对各待存储文本进行分类存储、结构化存储,或者根据各待存储文本输出符合特定规则的标准文本。
4.然而,由于待存储文本可能存在特殊符号和错别字,并且待存储文本记录的信息可能并不详细,因此,这种方案存在输出的标准文本与待存储文本之间差异较大、输出的标准文本的准确性较低的问题。


技术实现要素:

5.本技术的目的在于提供一种文本处理方法、装置、计算机设备和计算机可读存储介质,可以达到降低输出的标准文本与输入文本的差异,进而达到文件处理的准确性的效果。
6.本技术的实施例是这样实现的:
7.本技术实施例的第一方面,提供一种文本处理方法,包括:
8.获取输入文本的至少一个分词结果,各所述分词结果包括所述输入文本中至少一种类型的词组;
9.根据各所述分词结果获取标准文本数据库中的至少一个待处理文本,所述标准文本数据库用于保存多个标准化文本,各标准化文本分别用于标识地址信息;
10.分别确定所述输入文本和各所述待处理文本之间的差异值;
11.根据各所述差异值,输出与所述输入文本匹配的标准文本。
12.可选地,所述根据各所述分词结果获取标准文本数据库中的至少一个待处理文本,包括:
13.根据各所述分词结果遍历所述标准文本数据库,获取与各所述分词结果匹配的至少一个标准词组,所述标准词组为根据各所述标准化文本切分得到的词组;
14.根据各所述标准词组生成所述至少一个待处理文本。
15.可选地,所述根据各所述分词结果获取标准文本数据库中的至少一个待处理文本,包括:
16.按照各所述分词结果和预设顺序,依次从所述标准文本数据库中获取与各所述分词结果匹配的至少一个第一文本;
17.基于各所述分词结果所指示的地址对应的变更后地址得到更新后分词结果,并按照所述更新后分词结果和所述预设顺序从所述标准文本数据库中获取与所述更新后分词结果匹配的至少一个第二文本;
18.对各所述分词结果进行补齐处理,得到补齐后分词结果,并按照所述补齐后分词结果和所述预设顺序,依次从所述标准文本数据库中获取与所述更新后分词结果匹配的至少一个第三文本;
19.根据各所述第一文本、各所述第二文本和各所述第三文本确定各所述待处理文本。
20.可选地,所述基于各所述分词结果所指示的地址对应的变更后地址得到更新后分词结果,并按照所述更新后分词结果和所述预设顺序从所述标准文本数据库中获取与所述更新后分词结果匹配的至少一个第二文本,包括:
21.从预设的地址变更数据库中获取各所述分词结果所指示的地址对应的变更后地址,基于所述变更后地址更新所述分词结果,得到更新后分词结果;
22.按照所述更新后分词结果和所述预设顺序,依次从所述标准文本数据库中获取与所述更新后分词结果匹配的至少一个第二文本。
23.可选地,所述根据各所述第一文本、各所述第二文本和各所述第三文本确定各所述待处理文本,包括:
24.根据所述第一文本、所述第二文本和所述第三文本生成待处理文本库;
25.确定所述待处理文本库中是否存在重复的文本;
26.若存在,则将所述待处理文本库中除所述重复的文本之外的其他文本作为各所述待处理文本;
27.若不存在,则将所述待处理文本库中的所有文本作为各所述待处理文本。
28.可选地,所述分别确定所述输入文本和各所述待处理文本之间的差异值,包括:
29.确定将所述输入文本转换为所述待处理文本的最少单字符编辑次数;
30.确定所述输入文本和各所述待处理文本之间的存在的相同词组数量;
31.根据所述最少单字符编辑次数和所述相同词组数量计算所述差异值。
32.可选地,所述根据所述最少单字符编辑次数和所述相同词组数量计算所述差异值,包括:
33.根据将所述输入文本转换为所述待处理文本的最少单字符编辑次数计算所述输入文本和各所述待处理文本之间的最小编辑距离;
34.根据所述输入文本和各所述待处理文本之间的存在的相同词组数量计算所述输入文本和各所述待处理文本之间的字符距离;
35.根据所述字符距离和所述最小编辑距离计算所述差异值。
36.本技术实施例的第二方面,提供了一种文本处理装置,所述装置包括:
37.第一获取模块,用于获取输入文本的至少一个分词结果;
38.第二获取模块,用于根据各所述分词结果获取标准文本数据库中的至少一个待处理文本;
39.确定模块,用于分别确定所述输入文本和各所述待处理文本之间的差异值;
40.输出模块,用于根据各所述差异值,输出与所述输入文本匹配的标准文本。
41.本技术实施例的第三方面,提供了一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述第一方面所述的文本处理方法。
42.本技术实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的文本处理方法。
43.本技术实施例的有益效果包括:
44.本技术实施例提供的一种文本处理方法,通过获取输入文本的至少一个分词结果,根据各分词结果获取标准文本数据库中的至少一个待处理文本,分别确定输入文本和各待处理文本之间的差异值,根据各差异值,输出与输入文本匹配的标准文本。其中,获取输入文本的至少一个分词结果,可以将输入文本转换为结构化的各分词结果。根据各分词结果获取标准文本数据库中的至少一个待处理文本,可以得到标准文本数据库中与输入文本相同或较为近似的待处理文本。分别确定输入文本和各待处理文本之间的差异值,可以确定输入文本和待处理文本的相似程度或近似程度。根据各差异值,输出与输入文本匹配的标准文本,可以确保根据差异值输出的与输入文本匹配的标准文本与输入文本的相似程度或近似程度较高。如此,可以达到降低输出的标准文本与输入文本的差异,进而达到文件处理的准确性的效果。
附图说明
45.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
46.图1为本技术实施例提供的第一种文本处理方法的流程图;
47.图2为本技术实施例提供的第二种文本处理方法的流程图;
48.图3为本技术实施例提供的第三种文本处理方法的流程图;
49.图4为本技术实施例提供的第四种文本处理方法的流程图;
50.图5为本技术实施例提供的第五种文本处理方法的流程图;
51.图6为本技术实施例提供的第六种文本处理方法的流程图;
52.图7为本技术实施例提供的第七种文本处理方法的流程图;
53.图8为本技术实施例提供的一种文本处理装置的结构示意图;
54.图9为本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
55.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
56.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护
的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
57.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
58.在医疗领域中,为了减少相关工作人员的工作量,一般可以将患者的住址、病例等待存储文本输入到计算机设备中,将这些待存储文本进行分词处理得到各待存储文本的至少一个分词结果,然后就可以根据各待存储文本的各分词结果对各待存储文本进行分类存储、结构化存储,或者根据各待存储文本输出符合特定规则的标准文本。然而,由于待存储文本可能存在特殊符号和错别字,并且待存储文本记录的信息可能并不详细,因此,这种方案存在输出的标准文本与待存储文本之间差异较大、输出的标准文本的准确性较低的问题。
59.另外,一般地,如果输出的标准文本和待存储文本之间差异较大,就需要相关工作人员手动对输出的标准文本进行调整,这样也就会导致效率较低的问题。
60.为此,本技术实施例提供了文本处理方法,通过获取输入文本的至少一个分词结果,根据各分词结果获取标准文本数据库中的至少一个待处理文本,分别确定输入文本和各待处理文本之间的差异值,根据各差异值,输出与输入文本匹配的标准文本,可以达到降低输出的标准文本与输入文本的差异,进而达到文件处理的准确性的效果。
61.本技术实施例以应用在计算机设备中针对地址信息的文本处理方法为例进行说明。但不表明本技术实施例仅能应用于针对地址信息进行文本处理。
62.该计算机设备可以是计算机、平板电脑、智能手机或者其他任意带有处理功能的电子设备。本技术实施例对此不作限定。
63.下面对本技术实施例提供的文本处理方法进行详细地解释说明。
64.图1为本技术提供的一种文本处理方法的流程图,该方法可以应用于计算机设备,该计算机设备可以是前述的终端设备或服务器。参见图1,本技术实施例提供一种文本处理方法,包括:
65.步骤1001:获取输入文本的至少一个分词结果。
66.可选地,该输入文本可以是包括地址信息的文本,也可以是包括病例信息的文本,还可以是包括任意可能的信息的文本。本技术实施例对此不作限定。
67.用户或相关技术人员可以通过触摸该计算机设备的屏幕输入该输入文本,也可以通过鼠标、键盘、电子触控笔、电子手写板等与该计算机设备连接的外设输入该输入文本。本技术实施例对此不作限定。
68.可选地,可以通过基于字符串的分词算法、基于理解的分词算法、基于统计的分词算法或其他任意可能的分词算法对该输入文本进行分词以获取各分词结果。
69.具体地,可以使用结巴分词算法对该输入文本进行分词以获取各分词结果。本技术实施例对此不做限定。
70.另外,分词可以是指将一个汉字序列切分成多个单独的词的操作。这个汉字序列可以是上述的该输入文本。
71.可选地,各分词结果包括该输入文本中至少一种类型的词组。
admindivid与为fulltext对应的管理员码,与admindivid为fulltext对应的管理类型代码,parentadmindivid为父管理员码,provincecode为省级行政区代码,provincename 为省级行政区名,citycode为地级行政区代码,cityname为地级行政区名,countycode 为县级行政区代码,countyname为县级行政区名,towncode为乡级行政区代码, townname为乡级行政区名。
87.如表1中的示例1所示的,标准化文本全文为北京市市辖区东城区东华门街道, id为3670。如表1中的示例2所示的,标准化文本全文为安徽省铜陵市义安区新桥街道,id为15489。
88.表1
[0089][0090][0091]
并且,在标准文本数据库中存储的各标准化文本均可以存在一个对应的id。这样,就可以根据各标准化文本的id快速、准确、方便地查找到各标准化文本。
[0092]
可选地,在同一省级行政区下的各地级行政区均与这个省级行政区存在索引关系,在同一地级行政区下的各县级行政区均与这个地级行政区存在索引关系,在同一县级行政区下的各乡级行政区均与这个县级行政区存在索引关系。本技术实施例对此不做限定。另外,在该标准文本数据库中存储的各标准词组若是由同一标准化文本切分出来的词组,则各标准词组之间存在相应的索引关系。
[0093]
以在该标准文本数据库中存储的“北京市市辖区东城区东华门街道”的标准化文本为例进行说明。参见表2,表2中列出了五条标准化文本和与各标准化文本对应的 id。
[0094]
可见,与“北京市市辖区东城区”对应的id为1,与“北京市市辖区东城区东华门街
道”对应的id为3670,与“北京市市辖区东城区景山街道”对应的id为3671,与“北京市市辖区东城区交道口街道”对应的id为3672,与“北京市市辖区东城区安定门街道”对应的id为3673。
[0095]
那么,从表2可以得到北京市市辖区东城区的键值对为{

东城区’:[1,3670,3671,3672,3673,

]}。这样,就可以快速、便捷、准确地查找到与东城区存在索引关系的各乡级行政区。
[0096]
表2
[0097][0098][0099]
这样,就可以将该标准文本数据库中存储的各标准文本切分为多个标准词组,并且可以将各标准文本标识的地址信息由省级、地级、县级、乡级分别切分处理,便于根据各分词结果匹配到相应的标准词组。
[0100]
可选地,根据各分词结果获取标准文本数据库中的至少一个待处理文本的操作可以是在该标准文本数据库中检索与各分词结果相同或近似的标准词组,并将这些与各分词结果相同或近似的标准词组进行组合,将组合之后得到的文本作为待处理文本。本技术实施例对此不做限定。
[0101]
值得说明的是,这样,就可以获取到该标准文本数据库中与各分词结果匹配的待处理文本,并且各待处理文本是基于标准的行政区划的标准化文本切分的标准词组组合得到的。如此,可以得到该标准文本数据库中与该输入文本相同或较为近似的待处理文本,便于后续基于各待处理文本进行相应的操作,也就可以达到降低输出的文本与输入文本的差异,进而达到文件处理的准确性的效果。
[0102]
步骤1003:分别确定该输入文本和各待处理文本之间的差异值。
[0103]
可选地,该差异值可以用于表征该输入文本和待处理文本的相似程度或近似程度。
[0104]
一般地,该差异值越小则可以表征该输入文本和该待处理文本越相似,该差异值越大则可以表征该输入文本和该待处理文本越不相似,若该差异值为0则可以表征该输入文本和该待处理文本相同。本技术实施例对此不做限定。
[0105]
可选地,可以通过语义识别算法或其他任意可能的方式来确定该差异值。本技术实施例对此不做限定。
[0106]
值得注意的是,通过计算该差异值可以确定该输入文本和待处理文本的相似程度或近似程度,便于执行后续操作。
[0107]
步骤1004:根据各差异值,输出与该输入文本匹配的标准文本。
[0108]
可选地,可以将各待处理文本中与该输入文本的差异值最小的一个待处理文本作为输出的与该输入文本匹配的标准文本。也可以将各待处理文本中与该输入文本的差异值最小的两个待处理文本作为输出的与该输入文本匹配的标准文本。具体输出该标准文本的方式可以根据实际需要进行设置。本技术实施例对此不做限定。
[0109]
可选地,与该输入文本匹配的标准文本可以是指在各待处理文本中与该输入文本的差异值最小的一个待处理文本。并且由于各待处理文本均是由该标准文本数据库中存储的各标准文本切分为多个标准词组组合得到的,那么各待处理文本也就是标准化的文本。
[0110]
值得说明的是,由于该差异值越小则表征该输入文本和与该差异值对应的一个待处理文本的相似程度或近似程度越高,那么就可以确保根据该差异值输出的与该输入文本匹配的标准文本与输入文本的相似程度或近似程度较高,这样就可以达到降低输出的标准文本与输入文本的差异,进而达到文件处理的准确性的效果。
[0111]
在本技术实施例中,通过获取输入文本的至少一个分词结果,根据各分词结果获取标准文本数据库中的至少一个待处理文本,分别确定该输入文本和各待处理文本之间的差异值,根据各差异值,输出与该输入文本匹配的标准文本。其中,获取输入文本的至少一个分词结果,可以将输入文本转换为结构化的各分词结果。根据各分词结果获取标准文本数据库中的至少一个待处理文本,可以得到该标准文本数据库中与该输入文本相同或较为近似的待处理文本。分别确定该输入文本和各待处理文本之间的差异值,可以确定该输入文本和待处理文本的相似程度或近似程度。根据各差异值,输出与该输入文本匹配的标准文本,可以确保根据该差异值输出的与该输入文本匹配的标准文本与输入文本的相似程度或近似程度较高。如此,可以达到降低输出的标准文本与输入文本的差异,进而达到文件处理的准确性的效果。
[0112]
一种可能的实现方式中,为了提高各分词结果的准确性,参见图2,获取输入文本的至少一个分词结果,包括:
[0113]
步骤1005:基于预设分词条件提取该输入文本的至少一种子信息。
[0114]
可选地,该输入文本包括各子信息,各子信息均不相同。
[0115]
可选地,该预设分词条件可以是指采用结巴分词算法,将该输入文本按照多级行政区划将该输入文本中包括地址信息的词组切分。
[0116]
可选地,该子信息可以是包括地址信息的词组。
[0117]
示例性地,若该输入文本为“上海市静安区彭浦镇镇长”,且使用结巴分词算法按照上述四级行政区划切分出多个子信息,那么,各子信息可以分别为“上海市”,“静安区”和“彭浦镇”。由于“镇长”并不是包括地址信息的词组,也不属于上述四级行政区划,那么,就不会将“镇长”切分出来作为子信息。
[0118]
步骤1006:将各子信息分别作为各分词结果。
[0119]
这样,就可以准确高效地获取到该输入文本对应的、包括地址信息的各分词结果,进而可以提高文本处理的准确性和效率。
[0120]
一种可能的实现方式中,为了提高获取到的待处理文本的准确性,参见图3,根据各分词结果获取标准文本数据库中的至少一个待处理文本,包括:
[0121]
步骤1007:根据各分词结果遍历该标准文本数据库,获取与各分词结果匹配的至
少一个标准词组。
[0122]
可选地,与各分词结果匹配的至少一个标准词组可以是指在该标准文本数据库中存储的与各分词结果相同或相似的标准词组。
[0123]
可选地,该标准词组可以是通过上述分词算法对各标准化文本进行分词得到的词组。
[0124]
步骤1008:根据各标准词组生成该至少一个待处理文本。
[0125]
进一步地,根据各标准词组生成该至少一个待处理文本的操作可以是将各标准词组按照行政区划的大小分别进行排列组合,并将各标准词组组合后的得到的文本作为待处理文本。
[0126]
示例性地,若获取到与各分词结果匹配的四个标准词组,这四个标准词组分别为“河南省”、“郑州市”、“新郑市”、“新密市”,那么,就可以将这四个标准词组按照省级行政区、地级行政区、县级行政区的顺序进行排列组合,由于“新郑市”、“新密市”均为县级行政区,那么将这四个标准词组组合之后可以得到两个文本,这两个文本分别为“河南省郑州市新郑市”和“河南省郑州市新密市”,所以,根据各标准词组可以生成两个待处理文本,分别为“河南省郑州市新郑市”和“河南省郑州市新密市”。
[0127]
这样,就可以得到准确地各待处理文本,就可以达到降低输出的标准文本与输入文本的差异,进而达到文件处理的准确性的效果。
[0128]
一种可能的实现方式中,为了提高获取到的各待处理文本的准确性和全面性,参见图4,根据各分词结果获取标准文本数据库中的至少一个待处理文本,包括:
[0129]
步骤1009:按照各分词结果和预设顺序,依次从该标准文本数据库中获取与各分词结果匹配的至少一个第一文本。
[0130]
可选地,该第一文本可以是存储在该标准文本数据库中的一个标准化文本。
[0131]
具体地,可以根据各分词结果分别确定该标准文本数据库中的与各分词结果匹配、相似或相同的各标准词组,将各标准词组按照行政区划的等级进行排列组合,将排列组合之后得到的文本作为各第一文本。本技术实施例对此不做限定。
[0132]
可选地,该预设顺序可以是指按照行政区划由小到大的顺序。本技术实施例对此不做限定。
[0133]
例如,若该行政区划分为四级行政区划,并且这四级行政区划分别为省级行政区、地级行政区、县级行政区和/或乡级行政区,那么该预设顺序可以是乡级行政区、县级行政区、地级行政区、省级行政区的顺序。
[0134]
又例如,若该行政区划分为三级行政区划,并且这三级行政区划分别为省级行政区、地级行政区和县级行政区,那么该预设顺序可以是县级行政区、地级行政区、省级行政区的顺序。
[0135]
另外,在按照该预设顺序依次从该标准文本数据库中获取各第一文本的情况下,若根据任一级行政区划的分词结果可以获取到与该分词结果匹配的文本,那么就可以根据与该分词结果匹配的文本索引出与其对应的包括上一级行政区划的地址信息的各标准化文本或各标准词组。并且,将与该分词结果匹配的文本、与该分词结果匹配的文本索引出的各标准化文本或各标准词组作为各第一文本。本技术实施例对此不做限定。
[0136]
值得注意的是,由于在该标准文本数据库中存储的各标准化文本之间是存在索引
关系的,并且,可以通过上一级行政区的id索引到下一级行政区的id,或者可以通过下一级行政区的id索引到上一级行政区的id,进而可以获取到该标准文本数据库中各级行政区的id。
[0137]
也就是说,在使用最低一级的行政区划从该标准文本数据库中获取各第一文本的情况下,就可以根据最低一级的行政区划的id获取到与最低一级的行政区划的id存在索引关系的各级行政区划的第一文本。
[0138]
示例性地,该行政区划可以分为三级行政区划,并且这三级行政区划分别为省级行政区、地级行政区、县级行政区。若使用一个县级行政区的id进行索引,就可以索引出与这个县级行政区存在索引关系的地级行政区的id以及与这个县级行政区存在索引关系的省级行政区的id,进而可以获取到与这个县级行政区存在索引关系的地级行政区的第一文本以及与这个县级行政区存在索引关系的省级行政区的第一文本。
[0139]
若使用一个地级行政区的id进行索引,就可以索引出与这个地级行政区存在索引关系的省级行政区的id,还可以索引出与这个地级行政区存在索引关系的所有县级行政区的id,进而就可以获取到与这个地级行政区存在索引关系的省级行政区的第一文本以及与这个地级行政区存在索引关系的所有县级行政区的第一文本。本技术实施例对此不作限定。
[0140]
步骤1010:基于各分词结果所指示的地址对应的变更后地址得到更新后分词结果,并按照该更新后分词结果和该预设顺序从该标准文本数据库中获取与该更新后分词结果匹配的至少一个第二文本。
[0141]
值得注意的是,例如,若用户或相关技术人员输入的该输入文本为“安徽省铜陵市铜官山区”或“安徽省铜陵市狮子山区”,而铜陵市铜官山区、狮子山区均已经撤销并在铜陵市铜官山区、狮子山区的原有辖区设立铜陵市铜官区。如果直接对“安徽省铜陵市铜官山区”或“安徽省铜陵市狮子山区”进行分词,那么,根据得到的分词结果获取的标准文本数据库中的待处理文本就是不准确的。所以,为了避免这种情况以提高获取到的待处理文本的准确性,就需要将该输入文本进行更新。
[0142]
又例如,若该输入文本为“安徽省铜陵市铜陵县”,那么各分词结果可以分别是“安徽省”、“铜陵市”、“铜陵县”,由于铜陵市铜陵县已被撤销并设立铜陵市义安区,基于与各分词结果所指示的地址对应的变更后地址就是安徽省铜陵市义安区,得到的更新后分词结果分别可以是“安徽省”、“铜陵市”、“义安区”。
[0143]
这样,就可以避免用户或相关技术人员输入的输入文本指示的地址或者输入文本的各分词结果指示的地址发生行政区域上的变更或名称的变更导致的匹配的待处理文本不准确的问题。
[0144]
步骤1011:对各分词结果进行补齐处理,得到补齐后分词结果,并按照该补齐后分词结果和该预设顺序,依次从该标准文本数据库中获取与该更新后分词结果匹配的至少一个第三文本。
[0145]
值得注意的是,例如,若用户或相关技术人员输入的该输入文本为“新疆阿克苏”,而在该标准文本数据库中存储指示的新疆维吾尔自治区的标准化文本为“新疆维吾尔自治区”,在该标准文本数据库中存储指示的阿克苏地区的标准化文本为“阿克苏地区”。如果直接利用针对“新疆阿克苏”的分词结果,根据得到的分词结果获取的标准文本数据库中的待
处理文本就是不准确的。所以,为了避免这种情况以提高获取到的待处理文本的准确性,就需要补齐该输入文本,然后再根据补齐后的分词结果从标准文本数据库中获取与该更新后分词结果匹配的各第三文本。
[0146]
示例性地,若该输入文本为“新疆阿克苏”,那么各分词结果可以分别是“新疆”、“阿克苏”,那么,就需要将“新疆”和“阿克苏”分别补齐为“新疆维吾尔自治区”和“阿克苏地区”,然后,再按照上述预设顺序,具体可以分别按照行政区划由小到大的顺序,依次从该标准文本数据库中获取与各分词结果匹配的各第三文本。
[0147]
具体地,可以先根据“阿克苏地区”从该标准文本数据库中获取与“阿克苏地区”匹配的至少一个文本,若能匹配到至少一个文本,则可以直接根据与“阿克苏地区”匹配的各文本查询与各文本存在索引关系的其他文本,并且将与“阿克苏地区”匹配的各文本、与各文本存在索引关系的指示上一级行政区划的其他文本作为各第三文本。
[0148]
若根据“阿克苏地区”在该标准文本数据库中匹配不到文本,那就需要再根据“新疆维吾尔自治区”从该标准文本数据库中获取与“新疆维吾尔自治区”匹配的至少一个文本。
[0149]
可选地,可以通过利用字符共现性来对各分词结果进行补齐处理并匹配各第三文本。
[0150]
可选地,可以通过下式(1)来匹配各第三文本:
[0151][0152]
其中,s1为各分词结果对应的补齐后分词结果,s2是基于补齐后分词结果匹配的文本,|s1|是补齐后分词结果的长度,|s2|是基于补齐后分词结果匹配的文本的长度, m是基于补齐后分词结果匹配的文本和补齐后分词结果中相同的字符数,s为字符共现性得分,字符共现性得分越高,则说明补齐后分词结果和基于补齐后分词结果匹配的文本越相似。
[0153]
可选地,将字符共线性得分最高的前x个基于补齐后分词结果匹配的文本,作为各第三文本。一般地,可以将x设为20,当然也可以将x设为其他值。本技术实施例对此不做限定。
[0154]
步骤1012:根据各第一文本、各第二文本和各第三文本确定各待处理文本。
[0155]
值得说明的是,通过多种不同的方式分别确定出各第一文本、各第二文本和各第三文本,可以确保能最大限度地确定出与该输入文本的各分词结果对应的标准化文本或标准词组。再根据各第一文本、各第二文本和各第三文本确定各待处理文本,这样,就可以大幅提高确定各待处理文本的全面性和准确性。再根据各待处理文本进行后续的差异值计算、根据差异值输出标准文本,就可以达到降低输出的标准文本与输入文本的差异,进而达到文件处理的准确性的效果。
[0156]
一种可能的实现方式中,参见图5,基于各分词结果所指示的地址对应的变更后地址得到更新后分词结果,并按照该更新后分词结果和所述预设顺序从该标准文本数据库中获取与该更新后分词结果匹配的至少一个第二文本,包括:
[0157]
步骤1013:从预设的地址变更数据库中获取各分词结果所指示的地址对应的变更后地址,基于该变更后地址更新该分词结果,得到更新后分词结果。
[0158]
可选地,该更新后分词结果可以是指各分词结果所指示的地址对应的最新、最准
确的行政区划信息。比如,一个分词结果为“长安县”,所指示的地址为陕西省西安市长安县,而长安县已经撤县设区,那么与这个分词结果对应的更新后分词结果就可以是“长安区”。本技术实施例对此不做限定。
[0159]
可选地,该预设的地址变更数据库可以是提前根据该标准文本数据库建立的数据库。
[0160]
可选地,该预设的地址变更数据库中可以存储各标准化文本的变更数据。
[0161]
示例性地,若各标准化文本为地址信息,那么,该预设的地址变更数据库中就可以存储与各标准化文本对应的历史地名。
[0162]
例如,铜陵市铜官山区、狮子山区均已经撤销并在铜陵市铜官山区、狮子山区的原有辖区设立铜陵市铜官区,那么,在该预设的地址变更数据库中就可以存储与铜陵市铜官区对应的历史名称变更数据,比如{“安徽省铜陵市铜官区”:[“安徽省铜陵市铜官山区”,“安徽省铜陵市铜官区”]}。
[0163]
又例如,铜陵市铜陵县已被撤销并设立铜陵市义安区,那么,在该预设的地址变更数据库中就可以存储与铜陵市义安区对应的历史名称变更数据,比如,{“安徽省铜陵市义安区”:[“安徽省铜陵市铜陵县”]}。
[0164]
这样,就可以将在该预设的地址变更数据库中的地址信息与在该标准文本数据库存储的标准化文本对应起来,也就可以确定出与各分词结果所指示的地址的历史名称变更数据,也就可以确定出与各分词结果所指示的地址对应的变更后地址,进而得到更新后分词结果。
[0165]
步骤1014:按照该更新后分词结果和该预设顺序,依次从该标准文本数据库中获取与该更新后分词结果匹配的至少一个第二文本。
[0166]
值得说明的是,这样就可以根据与各分词结果所指示的地址对应的最新、最准确的行政区划信息,在该标准文本数据库中获取与该更新后分词结果匹配的各第二文本,并且还可以按照上述预设顺序,具体可以分别按照行政区划由小到大的顺序,依次从该标准文本数据库中获取与各更新后分词结果匹配的各第二文本。
[0167]
这样,就可以大幅提高确定各第二文本的准确性,进而可以提高确定各待处理文本的准确性。
[0168]
一种可能的实现方式中,参见图6,分别确定该输入文本和各待处理文本之间的差异值,包括:
[0169]
步骤1015:确定将该输入文本转换为该待处理文本的最少单字符编辑次数。
[0170]
可选地,该最少单字符编辑次数可以用于表征任意两个字符串的差异程度,计算该最少单字符编辑次数的逻辑是通过确定至少需要多少次的处理才能将一个字符串变成另一个字符串。一般地,在计算该最少单字符编辑次数时,每次编辑字符串时仅仅只能插入、替代或删除一个字符。
[0171]
可选地,可以通过编辑距离(minimum edit distance,简称med)算法来计算该最少单字符编辑次数。
[0172]
示例性地,假设该输入文本为“江西省上饶县苏桥乡”,该待处理文本为“江西省上饶市万年县苏桥乡”,那么,计算该输入文本和该待处理文本的最少单字符编辑次数就是要计算出将“江西省上饶县苏桥乡”变为“江西省上饶市万年县苏桥乡”需要编辑的次数。
[0173]
具体的编辑过程可以是如下过程:
[0174]
(1)先用“市”替代“江西省上饶县苏桥乡”中的“县”,即可变为“江西省上饶市苏桥乡”。
[0175]
(2)在“江西省上饶市苏桥乡”中插入“万”,即可变为“江西省上饶市万苏桥乡”。
[0176]
(3)在“江西省上饶市万苏桥乡”中插入“年”,即可变为“江西省上饶市万年苏桥乡”。
[0177]
(4)在“江西省上饶市万年苏桥乡”中插入“县”,即可变为“江西省上饶市万年县苏桥乡”。
[0178]
此时,就完成了编辑过程。
[0179]
由上述编辑过程可见,“江西省上饶县苏桥乡”和“江西省上饶市万年县苏桥乡”的编辑距离为4,该最少单字符编辑次数为4。
[0180]
步骤1016:确定该输入文本和各待处理文本之间的存在的相同词组数量。
[0181]
可选地,可以通过n-gram距离算法来确定该输入文本和各待处理文本之间的存在的相同词组数量。也可以通过最长公共子序列(longest common subsequence,简称lcs)、余弦相似度(cosine similarity)、编辑距离(levenshtein)函数来确定该输入文本和各待处理文本之间的存在的相同词组数量。当然,还可以通过其他任意可能的算法来确定该输入文本和各待处理文本之间的存在的相同词组数量。本技术实施例对此不做限定。
[0182]
示例性地,以n-gram距离算法为例,n-gram距离算法是一种基于统计语言模型的算法,通过n-gram距离算法可以将该输入文本切分为多个长度是n的片段,可以将各片段记为gram。若n=2,则为2-gram距离算法,若n=3,则为3-gram距离算法,以此类推。在本技术实施例中,以2-gram距离算法为例来进行说明,但不代表在本技术实施例中仅能以2-gram距离算法来确定该输入文本和各待处理文本之间的存在的相同词组数量。
[0183]
例如,该输入文本为“上海市黄浦区人民大道200号”,通过2-gram距离算法就可以将该输入文本切分为“上海”、“海市”、“市黄”、“黄浦”、“浦区”、“区人”、“人民”、“民大”、“大道”、“道2”、“20”、“00”、“0号”这些片段。
[0184]
又例如,该输入文本为“江苏省新沂市新安镇幸福路”,各待处理文本中的一个待处理文本为“江苏省徐州市新沂市新安街道”,那么,就可以通过2-gram距离算法分明别将该输入文本和这个待处理文本进行切分。可以得到该输入文本的各片段为{('江 ','苏'):1,('苏','省'):1,('省','新'):1,('新','沂'):1,('沂','市'):1,('市','新'):1,('新','安'):1,(' 安','镇'):1,('镇','幸'):1,('幸','福'):1,('福','路'):1},这个待处理文本的各片段为{('市',' 新'):2,('江','苏'):1,('苏','省'):1,('省','徐'):1,('徐','州'):1,('州','市'):1,('新','沂'):1,('沂 ','市'):1,('新','安'):1,('安','街'):1,('街','道'):1}。其中的数字为各片段的重复次数。
[0185]
可以通过该输入文本的各片段和这个待处理文本的各片段确定出该输入文本和这个待处理文本之间的存在的相同词组为{('江','苏'),('苏','省'),('新','沂'),('沂','市')(' 市','新'),('新','安')}。那么,该输入文本和各待处理文本之间的存在的相同词组数量为6。
[0186]
步骤1017:根据该最少单字符编辑次数和该相同词组数量计算该差异值。
[0187]
值得说明的是,由于该最少单字符编辑次数可以用于表征任意两个字符串的差异
程度,而该相同词组数量为该输入文本和各待处理文本之间的存在的相同词组的数量,那么根据该最少单字符编辑次数和该相同词组数量来计算该输入文本和各待处理文本之间的差异值,就可以准确地反映出该输入文本和各待处理文本之间的相似程度或近似程度。如此,可以达到降低输出的标准文本与输入文本的差异,进而达到文件处理的准确性的效果。
[0188]
一种可能的实现方式中,参见图7,根据该最少单字符编辑次数和该相同词组数量计算该差异值,包括:
[0189]
步骤1018:根据将该输入文本转换为该待处理文本的最少单字符编辑次数计算该输入文本和各待处理文本之间的最小编辑距离。
[0190]
可选地,可以直接将该最少单字符编辑次数作为该最小编辑距离。
[0191]
可选地,可以通过下式(2)来计算该最小编辑距离:
[0192][0193]
其中,lev
a,b
(i,j)为该最小编辑距离,a和b分别表示该输入文本和该待处理文本,i表示该输入文本中的前i个字符,j表示该待处理文本中的前j个字符,当i=|a|,j=|b| 时,lev
a,b
(i,j)的值则为lev
a,b
(|a|,|b|),max(i,j)表示i和j中最大的一个值。
[0194]
在min(i,j)=0的情况下,也即,在i和j至少有一个的值为0的情况下,可以表示该输入文本a和该待处理文本b中至少有一个为空字符串,那么在这种情况下,只需进行 max(i,j)次单字符操作,例如单字符删除或单字符插入,即可将该待处理文本中的前i个字符ai转换为该待处理文本中的前j个字符bj。
[0195]
在min(i,j)≠0的情况下,也即,在i和j的值均不为0的情况下,lev
a,b
(i,j)为通过如下3种编辑方式以使得将该待处理文本中的前i个字符ai转换为该待处理文本中的前j个字符bj,并计算得到将该待处理文本中的前i个字符ai转换为该待处理文本中的前j个字符bj的最小编辑距离:
[0196]
第一种方式,如上式(2)中的lev
a,b
(i-1,j)+1表征删除该输入文本a中的第i个字符。其中,在删除该输入文本a中的字符时,每次编辑只能删除一个字符。在这种情况下,lev
a,b
(i,j)即为lev
a,b
(i-1,j)+1,每删除一个字符,则该输入文本a和该待处理文本b的编辑距离加1。
[0197]
第二种方式,如上式(2)中的lev
a,b
(i,j-1)+1表征在该输入文本a中第i个字符的位置插入字符。其中,在该输入文本a中的前i个字符ai中插入字符时,每次编辑只能插入一个字符。在这种情况下,lev
a,b
(i,j)即为lev
a,b
(i,j-1)+1,每插入一个字符,则该输入文本a和该待处理文本b的编辑距离加1。
[0198]
第三种方式,如上式(2)中的lev
a,b
(i-1,j-1)+i表征对该输入文本a中第i个字符进行替换操作。
[0199]
其中,当替换完成后,该输入文本a中的前i个字符ai和该待处理文本中的前j个字符bj相同时,即当ai=bj时,i取0。当替换完成后,该输入文本a中的前i个字符和该待处理文本中的前j个字符bj不相同时,即当ai≠bj时,i取1。
[0200]
另外,在替换该输入文本a中的前i个字符ai中的字符时,每次编辑只能替换一个字符。在这种情况下,lev
a,b
(i,j)即为lev
a,b
(i-1,j-1)+i,每替换一个字符,则该输入文本a和该待处理文本b的编辑距离加1。
[0201]
也就是说,可以通过插入、替换、删除、插入和替换、删除和替换、或者插入、替换和删除等多种编辑方式对该输入文本a中的前i个字符ai进行编辑的方式来使得编辑该输入文本a中的前i个字符ai后得到的字符串与该待处理文本b中的前j个字符bj相同。本技术实施例对此不做限定。
[0202]
并且,如果需要通过多种编辑方式对该待处理文本中的前i个字符ai进行处理才能将该待处理文本中的前i个字符ai转换为该待处理文本中的前j个字符bj,那么,在编辑过程中,可以执行插入操作、替换操作、删除操作的顺序可以是任意顺序。
[0203]
例如,若需要执行插入操作、替换操作和删除操作才能将该待处理文本中的前i个字符ai转换为该待处理文本中的前j个字符bj,那么,可以先执行插入操作再执行替换操作最后执行删除操作,也可以先执行替换操作再执行删除操作最后执行插入操作,还可以先执行删除操作再执行替换操作最后执行插入操作。理所当然地,也可以按照其他任意可能的顺序进行编辑。本技术实施例对此不作限定。
[0204]
又例如,可以通过各种各样的编辑方式将该待处理文本中的前i个字符ai转换为该待处理文本中的前j个字符bj,并且计算出每种编辑方式对应的将该待处理文本中的前 i个字符ai转换为该待处理文本中的前j个字符bj的编辑距离,然后将计算得到的各编辑距离中最小的一个编辑距离作为上述的最小编辑距离。并且,与该最小编辑距离对应的编辑方式就是将该输入文本转换为该待处理文本的最优编辑方式。
[0205]
示例性地,该输入文本a可以是“二五六”,该待处理文本b可以是“五九九八四”,那么就可以通过如下方式将该输入文本a的前3个转换为该待处理文本b的前5个字符:
[0206]
第一步,确定i=3,j=5,然后在该输入文本a的第3个字符后插入该待处理文本b 的第5个字符“四”,该输入文本a就变为了“二五六四”。
[0207]
第二步,确定i=3,j=4,然后在该输入文本a的第3个字符后插入该待处理文本b 的第4个字符“八”,该输入文本a就变为了“二五六八四”。
[0208]
第三步,确定i=3,j=3,然后在该输入文本a的第3个字符后插入该待处理文本b 的第3个字符“九”,该输入文本a就变为了“二五六九八四”。
[0209]
第四步,确定i=3,j=2,然后将该输入文本a的第3个字符替换为该待处理文本b 的第2个字符“九”,该输入文本a就变为了“二五九九八四”。
[0210]
由于该输入文本a的第2个字符和该待处理文本b的第1个字符均为“五”,所以就不需要对该输入文本a的第2个字符进行处理。
[0211]
因此第五步为,确定i=1,j=0,然后删除该输入文本a的第1个字符,该输入文本 a就变为了“五九九八四”。
[0212]
可见,通过这种方式将该输入文本a的前3个转换为该待处理文本b的前5个字符计算的编辑距离为5。
[0213]
通过上述五步,就可以将该输入文本a的前3个转换为该待处理文本b的前5个字符。当然,也可以通过其他的方式来将该输入文本a的前3个转换为该待处理文本b的前5个字符。另外,在通过其他可能的编辑方式计算出的编辑距离也是大于或等于5的,因此可以
得到将“二五六”转换为“五九九八四”的最小编辑距离为5。
[0214]
上述这五步仅仅是本技术实施例为了解释说明而举例的一种可能的编辑方式,并不代表在这种情况下只能以这五步列出的编辑方式对该输入文本a进行转换。本技术实施例对此不作限定。
[0215]
综上,在min(i,j)≠0的情况下,将该待处理文本中的前i个字符ai转换为该待处理文本中的前j个字符bj的最小编辑距离为通过上述三种方式或这三种方式的各种组合计算得到的各编辑距离中的最小值。
[0216]
这样,通过比较上述各种方式计算得到的各编辑距离的大小,就可以计算出该输入文本和各待处理文本之间的最小编辑距离,进而还可以确定将该输入文本转换为该待处理文本的最优编辑方式。
[0217]
步骤1019:根据该输入文本和各待处理文本之间的存在的相同词组数量计算该输入文本和各待处理文本之间的字符距离。
[0218]
可选地,该字符距离用于表征该输入文本和各待处理文本的差异。一般地,该字符距离越大,则表征该输入文本和各待处理文本的差异越大。
[0219]
可选地,可以根据下式(3)来计算该字符距离。
[0220][0221]
其中,dg为该字符距离,sg(a,b)为该输入文本和各待处理文本的距离值,a为该输入文本,b为待处理文本,|a∩b|为该输入文本和一个待处理文本之间的存在的相同词组数量,|a|为该输入文本中的片段数,|b|为一个待处理文本的片段数。
[0222]
步骤1020:根据该字符距离和该最小编辑距离计算该差异值。
[0223]
可选地,将该字符距离和该最小编辑距离进行加权求和,并将求得的和作为该差异值。
[0224]
具体地,可以根据下式(4)来计算该差异值。
[0225]
d=w1ds+w2dgꢀꢀꢀ
(4)
[0226]
其中,d为该差异值,w1为第一权值,w2为第二权值,ds为该字符距离,dg为该最小编辑距离。
[0227]
可选地,该第一权值和该第二权值均可以是由相关技术人员根据实际需要提前设置的值。一般地,可以将该第一权值设置为0.2,将第二权值设置为0.8。理所当然地,也可以将该第一权值和该第二权值设置为其他任意可能的值。本技术实施例对此不做限定。
[0228]
这样,可以提高计算出的该差异值的准确性,也就可以提高确定该输入文本和各待处理文本的相似程度或近似程度的准确性。再根据这样计算出的差异值输出标准文本,就可以达到降低输出的标准文本与输入文本的差异,进而达到文件处理的准确性的效果。
[0229]
为了避免出现获取到的各待处理文本存在重复的情况,可以对获取到的各待处理文本进行去重操作。
[0230]
具体可以通过如下方式进行去重操作。一种可能的实现方式中,根据各第一文本、各第二文本和各第三文本确定各待处理文本,包括:
[0231]
根据该第一文本、该第二文本和该第三文本生成待处理文本库。
[0232]
可选地,该待处理文本库可以包括所有的第一文本、所有的第二文本和所有的第
三文本。
[0233]
确定该待处理文本库中是否存在重复的文本。
[0234]
可选地,可以遍历该待处理文本库,并将该待处理文本库中的任一各文本与该待处理文本库中的其他文本进行对比,以确定是否存在重复的文本。
[0235]
若存在,则将该待处理文本库中除该重复的文本之外的其他文本作为各待处理文本。
[0236]
具体地,若确定该待处理文本库中存在重复的文本,也就是说,确定该待处理文本库中任意两个文本相同,则删除这两个相同的文本中的任一个文本,仅保留这两个相同的文本中一个文本。
[0237]
这样,可以完成去重操作,就可以避免出现获取到的各待处理文本存在重复的情况。
[0238]
若不存在,则将该待处理文本库中的所有文本作为各待处理文本。
[0239]
这样,就说明各第一文本、各第二文本和各第三文本均不相同,那么就可以将各第一文本、各第二文本和各第三文本作为待处理文本。如此,可以提高确定待处理文本的灵活性,并且可以避免出现出现获取到的各待处理文本存在重复的情况,进而可以降低后续确定差异值和输出标准文本的压力。
[0240]
一种可能的实现方式中,根据各差异值,输出与该输入文本匹配的标准文本,包括:
[0241]
将与各差异值中最小的该差异值对应的待处理文本作为该标准文本。
[0242]
输出该标准文本。
[0243]
一种可能的实现方式中,在获取输入文本的至少一个分词结果之前,该方法还包括:
[0244]
对该输入文本进行预处理操作。
[0245]
可选地,该预处理操作至少包括如下一项:将该输入文本中的英文字符全部转化为小写字符、将该输入文本中的繁体字转化为简体字、删除该输入文本中的特殊符号、修改该输入文本中的错别字。
[0246]
这样,就可以更准确地对该输入文本进行分词以获取分词结果,也可以提高确定上述差异值的准确性,进而可以达到降低输出的标准文本与输入文本的差异,进而达到文件处理的准确性的效果。
[0247]
下述对用以执行的本技术所提供文本处理方法的装置、设备及计算机可读存储介质等进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。
[0248]
图8是本技术实施例提供的一种文本处理装置的结构示意图,参见图9,该装置包括:
[0249]
第一获取模块201,用于获取输入文本的至少一个分词结果。
[0250]
可选地,该输入文本可以是包括地址信息的文本,也可以是包括病例信息的文本,还可以是包括任意可能的信息的文本。本技术实施例对此不作限定。
[0251]
可选地,各分词结果包括该输入文本中至少一种类型的词组。
[0252]
可选地,各类型可以包括地址、人名、行政区划名称、疾病名称、药品名称等。
[0253]
第二获取模块202,用于根据各分词结果获取标准文本数据库中的至少一个待处
理文本。
[0254]
可选地,该标准文本数据库用于保存多个标准化文本,各标准化文本分别用于标识地址信息。
[0255]
确定模块203,用于分别确定该输入文本和各待处理文本之间的差异值。
[0256]
可选地,该差异值可以用于表征该输入文本和待处理文本的相似程度或近似程度。
[0257]
输出模块204,用于根据各差异值,输出与该输入文本匹配的标准文本。
[0258]
可选地,与该输入文本匹配的标准文本可以是指在各待处理文本中与该输入文本的差异值最小的一个待处理文本。并且由于各待处理文本均是由该标准文本数据库中存储的各标准文本切分为多个标准词组组合得到的,那么各待处理文本也就是标准化的文本。
[0259]
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
[0260]
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,简称asic),或,一个或多个微处理器,或,一个或者多个现场可编程门阵列(field programmable gate array,简称fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,简称cpu) 或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统 (system-on-a-chip,简称soc)的形式实现。
[0261]
图9是本技术实施例提供的一种计算机设备的结构示意图。参见图9,计算机设备包括:存储器301、处理器302,存储器301中存储有可在处理器302上运行的计算机程序,处理器302执行计算机程序时,实现上述任意各个方法实施例中的步骤。
[0262]
本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
[0263]
可选地,本技术还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述任一文本处理方法实施例。
[0264]
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0265]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0266]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0267]
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存
储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor) 执行本发明各个实施例方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文:read-only memory,简称:rom)、随机存取存储器(英文:randomaccess memory,简称:ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0268]
上仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
[0269]
以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1