文本处理方法、装置、URL处理方法及装置与流程

文档序号:32756348发布日期:2022-12-31 03:51阅读:28来源:国知局
文本处理方法、装置、URL处理方法及装置与流程
文本处理方法、装置、url处理方法及装置
技术领域
1.本说明书实施例涉及信息分类技术领域,特别涉及文本处理方法。


背景技术:

2.统一资源定位符(url)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的url,它包含的信息可以指出文件的位置以及浏览器对该文件的处理方式。
3.通常可以根据域名是否相同来对url进行分类并存储,然而,url中存在着自动生成的发散字段内容,这些发散字段内容可能是无意义的数字和特殊符号的堆积,在实际存储和查询渲染时,这些字段内容由于字符长度较长,在存储时需要将这些发散字段全部存储,导致存储成本和查询成本的增加。因此,亟需一种有效的技术方案解决上述问题。


技术实现要素:

4.有鉴于此,本说明书实施例提供了一种文本处理方法。本说明书一个或者多个实施例同时涉及一种文本处理装置,一种url处理方法,一种url处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
5.根据本说明书实施例的第一方面,提供了一种文本处理方法,包括:
6.对目标文本进行拆分,获得所述目标文本的若干个文本分段;
7.利用文本分类策略,分析所述若干个文本分段在所述目标文本中的文本特征,得到所述若干个文本分段各自对应的分类;
8.针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类;
9.将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段;
10.利用所述收敛后的文本分段,更新所述目标文本。
11.根据本说明书实施例的第二方面,提供了一种文本处理装置,包括:
12.拆分模块,被配置为对目标文本进行拆分,获得所述目标文本的若干个文本分段;
13.第一分析模块,被配置为利用文本分类策略,分析所述若干个文本分段在所述目标文本中的文本特征,得到所述若干个文本分段各自对应的分类;
14.第二分析模块,被配置为针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类;
15.收敛模块,被配置为将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段;
16.更新模块,被配置为利用所述收敛后的文本分段,更新所述目标文本。
17.根据本说明书实施例的第三方面,提供了一种url处理方法,包括:
18.对目标url进行拆分,获得所述目标url的若干个文本分段;
19.利用文本分类策略,分析所述若干个文本分段在所述目标url中的文本特征,得到
所述若干个文本分段各自对应的分类;
20.针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类;
21.将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段;
22.利用所述收敛后的文本分段,更新所述目标url,得到更新后的url;
23.利用迭代器模型,查询所述更新后的url。
24.根据本说明书实施例的第四方面,提供了一种url处理装置,包括:
25.拆分模块,被配置为对目标url进行拆分,获得所述目标url的若干个文本分段;
26.第一分析模块,被配置为利用文本分类策略,分析所述若干个文本分段在所述目标url中的文本特征,得到所述若干个文本分段各自对应的分类;
27.第二分析模块,被配置为针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类;
28.收敛模块,被配置为将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段;
29.更新模块,被配置为利用所述收敛后的文本分段,更新所述目标url,得到更新后的url;
30.查询模块,被配置为利用迭代器模型,查询所述更新后的url。
31.根据本说明书实施例的第五方面,提供了一种计算设备,包括:
32.存储器和处理器;
33.所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述文本处理方法或url处理方法的步骤。
34.根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述文本处理方法或url处理方法的步骤。
35.根据本说明书实施例的第七方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述文本处理方法或url处理方法的步骤。
36.本说明书一个实施例提供了一种文本处理方法,对目标文本进行拆分,获得所述目标文本的若干个文本分段;利用文本分类策略,分析所述若干个文本分段在所述目标文本中的文本特征,得到所述若干个文本分段各自对应的分类;针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类;将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段;利用所述收敛后的文本分段,更新所述目标文本。
37.上述方法通过对目标文本进行拆分,利用文本分类策略对拆分后得到的若干个文本分段在目标文本中的文本特征进行分析,从而获得若干个文本分段各自对应的分类;并且,对于利用文本分类策略无法确定分类的文本分段,利用单词字典库对其进行分析,实现对其分类。通过文本分类策略和单词字典库结合对文本分段进行分析,即能够实现对每个文本分段的分类,并对分类属于发散的文本分段进行收敛处理,利用收敛后的文本分段更新该目标文本,实现了对单个目标文本的更新,使其无需依赖其他url进行分类,能够满足一进一出式的流式场景的需求,并且能够适配url动态变化,通用性强,依赖人工经验较少,计算耗时低。并且实现了目标文本中的字符长度的减少,便于存储和查询,进而降低了存储
成本和查询成本。
附图说明
38.图1是本说明书一个实施例提供的一种文本处理方法的具体应用场景示意图;
39.图2是本说明书一个实施例提供的一种文本处理方法的流程图;
40.图3是本说明书一个实施例提供的一种文本处理方法中查询url的示意图;
41.图4是本说明书一个实施例提供的一种文本处理方法的处理过程流程图;
42.图5是本说明书一个实施例提供的一种文本处理装置的结构示意图;
43.图6是本说明书一个实施例提供的一种url处理方法的具体应用场景示意图;
44.图7是本说明书一个实施例提供的一种url处理方法的流程图;
45.图8是本说明书一个实施例提供的一种url处理方法中的文本分类策略的示意图;
46.图9是本说明书一个实施例提供的一种url处理装置的结构示意图;
47.图10是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
48.在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
49.在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
50.应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
51.首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
52.url:英文全称为uniform resource locator,统一资源定位符,是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
53.正则表达式:英文全称为regular expression,又称正规表示法、常规表示法。使用单个字符串来描述、匹配一系列符合某个句法规则。
54.火山模型:也称为迭代器模型,火山模型是数据库界已经很成熟的解释计算模型,该计算模型将关系代数中每一种操作抽象为一个运算符函数,将整个sql构建成一个运算符函数树,从根节点到叶子结点自上而下地递归调用next()函数,实现从迭代器中检索下一个项目。受限于火山模型,很多数据库,日志查询场景的算子函数,必须是一进一出型。
55.sql:英文全称为structured query language,结构化查询语言,是一种计算机语言,用来存储、检索和修改关系型数据库中存储的数据。
56.uuid:英文全称为universally unique identifier,通用唯一识别码,用于识别属性类型,在所有空间和时间上被视为唯一的标识。
57.id:英文全称为identity document,是一种号码标识。
58.实际应用中,在时序数据标签保存、日志内容保存以及前端查询指标组合渲染等场景,url中的文本内容存在大量的无效信息。这些无效信息的存在导致日志内容过于发散,造成查询速度慢。
59.通常,可以通过正则表达式对url进行识别并分类,正则表达式通常是人工凭借经验撰写的,或者是预设一些典型的模板来识别,严重依赖专家经验,正则匹配耗时高,浪费人工成本和时间成本,并且也不能适应url的动态变化,只能识别分类固定种类的url。
60.此外,还可以通过对多条url进行聚类,统计某个字符段在该聚类后的url中出现的频率,进而生成url的正则表达式,以便根据该正则表达式识别url中发散的字符段,从而对该url进行收敛。然而,这种方法需要依赖多条url,无法满足一进一出式的流式场景需求。因此,亟需一种有效的技术方案解决上述问题。
61.在本说明书中,提供了一种文本处理方法,本说明书同时涉及一种文本处理装置,一种url处理方法,一种url处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
62.参见图1,图1示出了根据本说明书一个实施例提供的一种文本处理方法的具体应用场景示意图。
63.图1包括计算机终端和与计算机终端通信连接的服务端,服务端可以执行文本处理方法,进而实现对目标文本的处理。
64.具体实施时,可以通过计算机终端将目标文本发送至服务端,服务端通过执行上述文本处理方法,实现对目标文本的更新,并将更新后的目标文本发送至数据库,数据库用于存储更新后的目标文本并提交查询。或者,也可以将更新后的目标文本发送至计算机终端,计算机终端将更新后的目标文本存储至对应的分类列表中。具体地,服务端可以将目标文本进行拆分,获得目标文本的若干个文本分段;结合文本分类策略和单词字典库,对若干个文本分段进行分类,将分类属于发散的文本分段进行收敛处理,并利用收敛后的文本分段对目标文本进行更新,以实现对目标文本的无意义内容的分类收敛。
65.如图1所示,计算机终端将目标文本“/base-file/base/file/116140b1-7d9c-40c8-91a2-88ddf36e563c”发送至服务端,服务端通过执行上述文本处理方法,对其中的文本分段“116140b1-7d9c-40c8-91a2-88ddf36e563c”进行收敛处理,收敛后的文本分段为“uuid”,并根据该收敛后的文本分段对目标文本进行更新,获得的更新后的目标文本为“/base-file/base/file/uuid”,并将该更新后的目标文本发送至数据库,便于后续数据库的存储,并能够将其存储的更新后的目标文本提交至迭代器模型进行查询。
66.参见图2,图2示出了根据本说明书一个实施例提供的一种文本处理方法的流程图,具体包括以下步骤。
67.步骤202:对目标文本进行拆分,获得所述目标文本的若干个文本分段。
68.其中,目标文本可以理解为需要进行分类并存储的文本,比如目标文本可以是待分类的url。文本分段可以理解为对目标文本进行拆分之后得到的文本分段。若干个文本分段可以理解为个数不确定的一个或多个文本分段,比如,对目标文本进行拆分后可以获得
该目标文本的两个文本分段、三个文本分段、五个文本分段等。
69.需要说明的是,在对目标文本进行拆分时,可以根据目标文本中的分隔符号对目标文本进行拆分。比如,在对url进行拆分时,可以根据url中的分隔符号“/”对url进行拆分;在对其他类型的目标文本进行拆分时,也可以确定其他分隔符号对目标文本进行拆分,比如分隔符号还可以是
“‑”
等,本说明书实施例在此不作限定。
70.基于此,可以确定目标文本中的分隔符号,根据该分隔符号对待分类的目标文本进行拆分,获得目标文本的若干个文本分段。
71.以url“/dmo-base-dictionary/base/dictionary/type/batch/customertype”为例,根据其中的分隔符号“/”对该url进行拆分,得到“dmo-base-dictionary”、“base”、“dictionary”、“type”、“batch”、“customertype”这6个文本分段。
72.步骤204:利用文本分类策略,分析所述若干个文本分段在所述目标文本中的文本特征,得到所述若干个文本分段各自对应的分类。
73.具体地,在获得目标文本的若干个文本分段之后,为了识别这些文本分段中是否存在发散内容,可以利用预设的文本分类策略,分析若干个文本分段中的每个文本分段在目标文本中的文本特征,从而得到每个文本分段对应的分类。
74.其中,文本分类策略可以理解为预先设置的文本分类规则,也可以是训练好的分类模型,任何能够实现对文本分段在目标文本中的文本特征进行分析并确定文本分段对应的分类的策略都可以是此处的文本分类策略,本实施例在此不作限定。
75.此外,若干个文本分段在目标文本中的文本特征可以理解为若干个文本分段中的每个文本分段各自的文本特征,该文本特征无需依赖其他目标文本或文本分段,而与该文本分段自身相关。
76.基于此,可以利用预设的文本分类策略,分析若干个文本分段中的每个文本分段自身的文本特征,得到每个文本分段对应的分类。
77.沿用上例,可以利用文本分类策略,对上述“dmo-base-dictionary”、“base”、“dictionary”、“type”、“batch”、“customertype”这6个文本分段中的每个文本分段自身的文本特征进行分析,并确定这6个文本分段中的每个文本分段对应的分类。
78.具体实施时,在利用文本分类策略,分析若干个文本分段在目标文本中的文本特征时,为了实现对单个文本分段的分析,使其无需依赖其他文本分段或其他目标文本,可以根据文本分段对应的文本字符的字符类型和不同字符类型对应的文本字符的切换次数,确定文本分段对应的分类,具体实现方式如下:
79.确定所述若干个文本分段各自对应的文本字符的字符类型、以及不同字符类型对应的文本字符的切换次数;
80.利用文本分类策略,根据所述字符类型和所述切换次数,确定所述若干个文本分段各自对应的分类。
81.其中,若干个文本分段各自对应的文本字符的字符类型可以理解为,每个文本分段中的每个文本字符的字符类型,字符类型比如可以是字母类型、数字类型、特殊符号类型等,字母类型可以包括大写字母和小写字母,特殊符号类型可以理解为不属于字符和数字的字符,比如逗号、下划线、短横线等。不同字符类型对应的文本字符的切换次数,可以理解为一种字符类型对应的文本字符切换至另一种字符类型对应的文本字符的次数,比如可以
是字母类型切换至数字类型,或者可以是数字类型切换至特殊符号类型等。
82.需要说明的是,字符类型和切换次数仅作为一种具体实现方式,实现对文本分段的分类,实际应用中还可以选择其他文本特征确定文本分段的分类。例如,还可以根据文本分段在目标文本中的切换占比确定该文本分段的分类,切换占比可以理解为不同字符类型的文本字符的切换次数与文本分段中的所有文本字符的长度的比值。文本字符的长度可以理解为文本字符的个数。具体地,在文本分段在目标文本中的切换占比达到第一切换占比阈值范围的情况下,可以确定文本分段的分类属于收敛。在文本分段在目标文本中的切换占比达到第二切换占比阈值范围的情况下,可以确定文本分段的分类属于发散。本说明书实施例对文本特征的选择不做限定,本领域技术人员可以根据实际需求选择任何与文本分段相关的文本特征作为确定文本分段的分类的依据。
83.基于此,可以确定若干个文本分段中的每个文本分段对应的文本字符的字符类型、以及从一种字符类型对应的文本字符切换至另一种字符类型对应的文本字符的切换次数,并利用文本分类策略,根据确定的字符类型和切换次数,确定每个文本分段对应的分类。
84.以文本分段“dmo-base-dictionary”为例,确定其中的字符类型为字母类型和特殊符号类型,其中,“o
‑”
表示从字母类型对应的文本字符“o”切换成特殊符号类型对应的文本字符
“‑”

“‑
b”表示从特殊符号类型对应的文本字符
“‑”
切换成字母类型对应的文本字符“b”。以此类推,确定该文本分段中不同字符类型对应的文本字符的切换次数为4次,可以根据字母类型、特殊符号类型和切换次数4次,利用文本分类策略,确定该文本分段对应的分类。
85.综上,通过利用文本分类策略分析每个文本分段自身的文本特征,能够实现在不依赖其他目标文本或其他文本分段的基础上对文本分段进行分类,进而实现对单个目标文本的识别和分类,满足一进一出式的流式场景。
86.实际应用中,为了便于对文本分段进行分类,可以将文本分段的类别预设为收敛类别和发散类别,其中,属于收敛类别的文本分段中的文本内容是有意义的,其表示一个明确的意思,可以使人直接看懂,比如上述文本分段“dictionary”。属于发散类别的文本分段中的文本内容是无意义的,其通常表示系统或代码自动生成的文本内容,比如数字和特殊符号的结合,是通过系统的拼凑产生的,人无法直接理解其内容,比如“116140b1-7d9c-40c8-91a2-88ddf36e563c”。
87.基于此,在字符类型包括字母类型和数字类型时,可以根据预设的文本分类策略,根据与收敛类别和发散类别各自对应的文本分类策略对文本分段进行分类,具体实现方式如下:
88.在字母类型对应的文本字符的占比达到字母占比阈值范围、以及不同字符类型对应的文本字符的切换次数达到第一切换阈值范围的情况下,确定所述文本分段对应的分类属于收敛。
89.其中,字母类型对应的文本字符的占比可以理解为字母类型对应的文本字符的个数与文本分段中所有文本字符的个数的比值。字母占比阈值范围可以理解为根据实际需求设置的字母占比的阈值范围,比如,字母类型对应的文本字符的占比达到字母占比阈值范围,可以是字母类型对应的文本字符的占比大于90%。第一切换阈值范围可以理解为根据
实际需求设置的切换次数的阈值范围,比如第一切换阈值范围可以是小于3次。
90.基于此,可以确定文本分段中字母类型对应的文本字符的个数与文本分段中所有文本字符的个数的比值、以及不同字符类型对应的文本字符的切换次数,在字母类型对应的文本字符的个数与所有文本字符的个数的比值达到预设的字母占比阈值范围、且不同字符类型对应的文本字符的切换次数达到预设的第一切换阈值范围的情况下,确定文本分段对应的分类属于收敛。
91.以文本分段“dictionary”为例,字母类型对应的文本字符的个数为10,文本分段的所有文本字符的个数为10,计算得出字母类型对应的文本字符的占比为100%,达到字母占比阈值范围“大于90%”;且,切换次数为0,达到第一切换阈值范围“小于3”。同时满足上述字母占比阈值范围和第一切换阈值范围,确定该文本分段“dictionary”对应的分类属于收敛。
92.相应的,在字符类型包括字母类型和数字类型时,根据与发散类别对应的文本分类策略对文本分段进行分类的具体实现方式如下:
93.在数字类型对应的文本字符的占比达到数字占比阈值范围、或不同字符类型对应的文本字符的切换次数达到第二切换阈值范围的情况下,确定所述文本分段对应的分类属于发散。其中,所述第一切换阈值范围的上限小于等于所述第二切换阈值范围的下限。
94.其中,数字类型对应的文本字符的占比可以理解为数字类型对应的文本字符的个数与文本分段中所有文本字符的个数的比值。数字占比阈值范围可以理解为根据实际需求设置的数字占比的阈值范围,比如数字类型对应的文本字符的占比达到数字占比阈值范围,可以是数字类型对应的文本字符的占比大于80%。第二切换阈值范围可以理解为根据实际需求设置的切换次数的阈值范围,比如第二切换阈值范围可以是大于5次。第一切换阈值范围的上限可以理解为第一切换阈值范围中的最大值,比如第一切换阈值范围为小于3的情况下,上限为3。第二切换阈值范围的下限可以理解为第二切换阈值范围内的最小值,比如第二切换阈值范围为大于3的情况下,下限为3;第二切换阈值范围为大于5的情况下,下限为5。
95.基于此,可以确定文本分段中数字类型对应的文本字符的个数与文本分段中所有文本字符的个数的比值、以及不同字符类型对应的文本字符的切换次数,在数字类型对应的文本字符的个数与所有文本字符的个数的比值达到预设的数字占比阈值范围、且不同字符类型对应的文本字符的切换次数达到预设的第二切换阈值范围的情况下,确定文本分段对应的分类属于发散。
96.以文本分段“116140b1-7d9c-40c8-91a2-88ddf36e563c”为例,数字类型对应的文本字符的个数为22,文本分段的所有文本字符的个数为36,计算得出数字类型对应的文本字符的占比为22/36,即61%,不满足数字占比阈值范围“大于80%”。切换次数为23,满足第二切换阈值范围“大于5”。只要满足上述数字占比阈值范围和第二切换阈值范围这二者中的一个,即可确定该文本分段“116140b1-7d9c-40c8-91a2-88ddf36e563c”对应的分类属于发散。
97.需要说明的是,上述字母占比阈值范围、数字占比阈值范围、第一切换阈值范围和第二切换阈值范围仅作为本说明书的一个具体实施例,用于举例说明本说明书实施例提供的文本处理方法,本领域技术人员可以根据实际需求确定不同数值的字母占比阈值范围、
数字占比阈值范围、第一切换阈值范围和第二切换阈值范围,本说明书实施例在此不作限定。
98.此外,第一切换阈值范围是用于确定收敛分类,第二切换阈值范围适用于确定发散分类,第一切换阈值范围和第二切换阈值范围可以相同,也可以不同。
99.综上,通过预先设置与收敛类别和发散类别各自对应的文本分类策略,对文本分段的文本特征进行识别,实现对单个文本分段的初步分类,为后续针对发散类别的文本分段进行收敛处理提供数据基础。
100.步骤206:针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类。
101.具体地,利用文本分类策略对若干个文本分段进行分类之后,可以存在既不满足发散类别对应的文本分类策略、也不满足收敛类别对应的文本分类策略的文本分段,对于这种仅利用文本分类策略无法准确分类的文本分段,可以利用单词字典库对其进行分析,实现对其的分类。换言之,单词字典库提供了对文本分类策略进行查漏补缺的作用,实现了对文本分类策略无法分类的文本分段的补充分类。
102.其中,单词字典库可以理解为存储有效单词的字典库。有效单词可以理解为有明确的含义的单词,比如“dictionary”、“cat”等,有一些字母类型对应的文本字符无意义拼凑的单词,没有任何含义,不能认为其是有效单词,比如“usncoi”,这些字母的拼凑通常没有明确的含义,通常是系统自动生成的发散内容。
103.分类不确定的文本分段,可以理解为既不满足发散类别对应的文本分类策略、也不满足收敛类别对应的文本分类策略的文本分段,这种文本分段在利用文本分类策略进行分析之后,无法得到确定的分类。例如,文本分段“dmo-base-dictionary”,对应的切换次数为4,无法满足上述第一切换阈值范围“小于3”,也不满足上述第二切换阈值范围“大于5”,其中不存在数字类型对应的文本字符,因此也不满足上述数字占比阈值范围“大于80%”,该文本分段“dmo-base-dictionary”即为利用文本分类策略无法确定分类的文本分段。
104.基于此,针对上述文本分类策略无法确定分类的文本分段,可以利用单词字典库对该文本分段进行分析,得到该文本分段对应的分类。
105.具体实施时,在利用单词字典库对分类不确定的文本分段进行分析,得到对应的分类时,可以根据文本单词的第一字符长度和文本分段确定文本分段对应的分类,具体实现方式如下:
106.针对分类不确定的文本分段,利用单词字典库,确定所述文本分段对应的文本单词;
107.根据所述文本单词,确定所述文本分段对应的第一字符长度;
108.根据所述文本分段、以及所述文本分段对应的第一字符长度,确定所述文本分段对应的分类。
109.其中,文本分段对应的文本单词可以理解为文本分段中的有效单词,比如文本分段“dmo-base-dictionary”中的有效单词为“dictionary”。文本分段对应的第一字符长度可以理解为有效单词在文本分段中的字符长度,比如有效单词“dictionary”在“dmo-base-dictionary”中的第一字符长度为10。
110.基于此,可以利用单词字典库,确定分类不确定的文本分段中的有效单词,并确定
有效单词在文本分段中的第一字符长度,根据文本分段和第一字符长度,确定文本分段对应的分类。
111.综上,通过利用单词字典库确定文本分段中的有效单词,能够实现识别文本分段中的有意义内容,进而实现确定该文本分段对应的分类,避免仅利用文本分类策略造成的遗漏。
112.具体实施时,在确定第一字符长度时,可以根据文本单词在文本分段中的字符区间确定,具体实现方式如下:
113.确定所述文本单词在所述文本分段中的字符区间;
114.根据所述字符区间,确定所述文本分段对应的第一字符长度。
115.其中,字符区间可以理解为文本单词在文本分段中的位置范围,比如文本单词“dictionary”在“dmo-base-dictionary”中的字符区间为(9,19)。
116.基于此,可以确定文本单词在文本分段中的字符区间,并根据该字符区间,计算得到文本单词的第一字符长度。
117.以上述文本单词“dictionary”在“dmo-base-dictionary”中的字符区间为(9,19)为例,计算其第一字符长度为19-9等于10。
118.综上,通过计算文本单词的第一字符长度,能够实现根据第一字符长度完成后续的分类,文本单词作为有效单词,往往是用户希望看到的信息,也是用户能够看懂的信息,进而实现对文本分段的分类。
119.然而,实际应用中,一个文本分段中可能存在若干个文本单词,比如上述文本分段“dmo-base-dictionary”中,文本单词不仅包括“dictionary”,还包括“base”、“tion”等文本单词,可以理解的,这些文本单词可能在文本分段中的位置范围重复,此时可以确定每个文本单词对应的字符区间,这些字符区间进行合并,并根据合并后得到的区间范围确定有效单词对应的第一字符长度,具体实现方式如下:
120.在确定所述文本分段对应的若干个文本单词的情况下,确定所述若干个文本单词在所述文本分段中各自对应的字符区间;
121.对所述若干个文本单词在所述文本分段中各自对应的字符区间进行合并,根据合并结果确定所述文本分段对应的第一字符长度。
122.具体地,在文本分段中包含若干个有效单词的情况下,可以确定若干个有效单词中的每个有效单词在文本分段中的区间范围,并将这些区间范围进行合并,根据合并结果计算有效单词对应的第一字符长度。
123.以文本分段“deleteopportunities”为例,其中有效单词和对应的字符区间分别为:“delete”,(0,6)、“let”,(2,5)、“opp”,(6,9)、“opportunities”,(6,19)、“port”,(8,12)、“tun”,(11,14)、“uni”,(12,15)、“unit”,(12,16)、“unities”,(12,19)、“nit”,13,16)、“tie”,(15,18)、“ties”,(15,19),并将这些字符区间进行合并,得到的合并结果为(0,19),根据合并结果计算第一字符长度为19。
124.综上,通过区间范围合并确定有效单词对应的第一字符长度,考虑到了区间范围存在重复的有效单词,实现了对文本分段中的所有有效单词的统计,为后续实现文本分段的分类提供基础。
125.具体实施时,在确定文本分段的分类时,可以根据第一字符长度和文本分段对应
的第二字符长度的比值确定,具体实现方式如下:
126.确定所述文本分段对应的文本字符的第二字符长度;
127.根据所述第一字符长度和所述第二字符长度的比值,确定所述文本分段对应的分类。
128.其中,文本分段对应的文本字符的第二字符长度可以理解为文本分段中的所有文本字符对应的长度,也即是文本分段中的所有文本字符的个数。
129.基于此,可以根据文本分段中的有效单词对应的第一字符长度,和文本分段中的所有文本字符对应的第二字符长度的比值,确定文本分段对应的分类。
130.沿用上例,文本分段“deleteopportunities”对应的第二字符长度为19,第一字符长度为19,第一字符长度和第二字符长度的比值为19/19等于100%,根据该比值,可以确定文本分段对应的分类。
131.具体地,在所述比值达到第一比例阈值范围的情况下,确定所述文本分段对应的分类属于收敛;在所述比值达到第二比例阈值范围的情况下,确定所述文本分段对应的分类属于发散。其中,所述第一比例阈值范围的下限等于所述第二比例阈值范围的上限。
132.其中,第一比例阈值范围是预先设置的比值能够达到的范围,达到该第一比例阈值范围意味着文本分段属于收敛,比如第一比例阈值范围可以是大于等于70%。相应的,第二比例阈值范围也是预先设置的比值能够达到的范围,达到该第二比例阈值范围意味着文本分段属于发散,比如第二比例阈值范围可以是小于70%。第一比例阈值范围的下限可以理解为第一比例阈值范围内的最小值,比如在第一比例阈值范围为大于等于80%的情况下,下限为80%。相应的,第二比例阈值范围的上限可以理解为第二比例阈值范围内的最大值,比如在第二比例阈值范围为小于80%的情况下,上限为80%。
133.沿用上例,文本分段“deleteopportunities”对应的比值为100%,达到第一比例阈值范围大于等于70%,确定该文本分段属于收敛。
134.综上,通过第一字符长度和第二字符长度的比值,能够确定有效单词在文本分段中的占比,进而实现对文本分段的分类,将比值较高的部分分类为收敛类别,保留有效单词占比较高的部分,可解释性较强,为后续对目标文本的更新提供基础。
135.步骤208:将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段。
136.具体地,在确定若干个文本分段对应的分类之后,对于属于发散类别的文本分段,对其进行收敛处理,以得到收敛后的文本分段。
137.其中,收敛处理可以理解为将文本分段中的发散内容进行收敛。
138.此外,对于属于收敛类别的文本分段,可以进行保留,不对其进行处理。
139.具体实施中,为了减少目标文本中的发散内容,便于存储和查询,可以将该属于发散类别的文本分段进行二次分类,根据二次分类结果替换该文本分段中的文本内容,具体实现方式如下:
140.确定所述若干个文本分段中对应的分类属于发散的文本分段对应的文本字符;
141.根据所述文本字符,对所述文本分段进行二次分类;
142.利用二次分类结果替换所述文本分段,得到收敛后的文本分段。
143.其中,收敛后的文本分段是对分类属于发散的文本分段进行替换之后得到的。
144.具体地,可以确定分类属于发散的文本分段对应的文本字符,确定文本字符的特征,根据预设的特征和二次分类结果之间的对应关系,对该文本分段进行二次分类,得到该文本分段对应的二次分类结果,并利用结果替换该文本分段,从而实现对该文本分段的收敛和分类。
145.需要说明的是,特征和二次分类结果之间的对应关系是根据不同的应用场景人工定义的,可以根据场景需求的不同定义不同的对应关系。
146.举例而言,可以确定文本分段的不同字符类型对应的文本字符的切换次数,切换次数达到预设切换阈值且存在特殊符号的情况下,对应的分类结果可以为uuid(通用唯一识别码);还可以确定文本分段中的文本字符的字符类型,当字符类型全部为数字类型时,可以确定其分类结果为id。
147.以文本分段“081055d8-bcbe-40e6-b2fd-5766d6c06ad5”为例,其对应的分类结果为uuid,此时,利用分类结果“uuid”替换该文本分段“081055d8-bcbe-40e6-b2fd-5766d6c06ad5”。
148.综上,通过结合预先设定的特征和二次分类结果之间的对应关系,利用二次分类结果对文本分段进行替换,可以准确分类无效内容到不同的二次分类结果中,能够实现对属于发散类别的文本分段的收敛,对文本分段的分类效率高,耗时短,准确度高,进而实现对目标文本的更新,进一步实现目标文本的储存成本和查询成本的降低。
149.步骤210:利用所述收敛后的文本分段,更新所述目标文本。
150.具体地,在对分类属于发散的文本分段进行收敛处理后,可以利用收敛后的文本分段,对目标文本进行更新。
151.具体地,可以在目标文本中将分类属于发散的文本分段替换成收敛后的文本分段,实现对目标文本的更新。
152.实际应用中,通常可以选用迭代器模型对更新后的目标文本进行查询,然而,由于迭代器模型的查询算子结构,该迭代器模型通常支持一进一出式的流失场景。为了满足该一进一出式的流式场景的需求,可以对流式输入的单条目标文本进行更新,并对更新后的单条目标文本流式输出,具体实现方式如下:
153.接收以单条文本为单位、流式输入的若干条文本;
154.相应地,对目标文本进行拆分,包括:将输入的单条文本作为目标文本进行拆分;
155.所述更新所述目标文本之后,还包括:以单条文本为单位,流式输出更新后的目标文本。
156.其中,流式输入可以理解为输入单条目标文本;流式输出可以理解为输出单条目标文本。
157.基于此,可以根据接收输入的单条目标文本,对该单条目标文本进行拆分,以实现后续对该单条目标文本的更新,并将更新后的单条目标文本输出。
158.具体实施时,在输出更新后的单条目标文本之后,还可以将流式输出的更新后的url,逐条输入至迭代器模型,以查询所述更新后的url。
159.实际应用中,目标文本可以为url,在对url进行更新之后,可以将更新后的url按照二次分类结果进行分类存储,通过对无效信息收敛为同一个模板,实现对更新后的url的分类存储。参见图3,图3示出了本说明书一个实施例提供的一种文本处理方法中查询url的
示意图,对于更新后的url,可以根据二次分类结果进行分类存储,查询时,可以通过对应分类的存储列表查询需要的url,提高查询效率。如图3中,根据不同的二次分类结果“uuid”、“id”、“uuid-hex”等,创建与二次分类结果对应的存储列表,用户通过点击相应的存储列表,即可获取存储列表中存储的url,并且能够根据该存储列表构建曲线。比如,当用户点击“/base-file/base/file/id”存储列表时,展示给用户的为文本内容为id的url,例如可以是“/base-file/base/file/00562207899”。
160.综上,通过对流式输入的单条目标文本进行更新,并流式输出更新后的单条目标文本,能够满足迭代器模型一进一出的查询需求,实现提取有效信息,减少无效信息,进而实现快速方便构建曲线并展示。
161.综上所述,上述方法通过对目标文本进行拆分,利用文本分类策略对拆分后得到的若干个文本分段在目标文本中的文本特征进行分析,从而获得若干个文本分段各自对应的分类;并且,对于利用文本分类策略无法确定分类的文本分段,利用单词字典库对其进行分析,实现对其分类。通过文本分类策略和单词字典库结合对文本分段进行分析,即能够实现对每个文本分段的分类,并对分类属于发散的文本分段进行收敛处理,利用收敛后的文本分段更新该目标文本,实现了对单个目标文本的更新,使其无需依赖其他url进行分类,能够适配url动态变化,通用性强,依赖人工经验较少,计算耗时低。并且实现了目标文本中的字符长度的减少,便于存储和查询,进而降低了存储成本和查询成本。
162.下述结合附图4,以本说明书提供的文本处理方法在url分类的应用为例,对所述文本处理方法进行进一步说明。其中,图4示出了本说明书一个实施例提供的一种文本处理方法的处理过程流程图,具体包括以下步骤。
163.步骤402:对目标url进行拆分,获得所述目标url的若干个文本分段。
164.以目标url“/base-file/base/file/081055d8-bcbe-40e6-b2fd-5766d6c06ad5”为例,根据该目标url中的分隔符号“/”,将目标url拆分为多个文本分段“base-file”、“base”、“file”、“081055d8-bcbe-40e6-b2fd-5766d6c06ad5”。
165.步骤404:确定所述若干个文本分段各自对应的文本字符的字符类型、以及不同字符类型对应的文本字符的切换次数。
166.对于上述文本分段“base-file”,确定文本字符的字符类型为字母类型和特殊符号类型,不同字符类型对应的文本字符的切换次数为2。
167.对于上述文本分段“base”,确定文本字符的字符类型为字母类型,不同字符类型对应的文本字符的切换次数为0;
168.对于上述文本分段“081055d8-bcbe-40e6-b2fd-5766d6c06ad5”,确定文本字符的字符类型为数字类型、字母类型和特殊符号类型,不同字符类型对应的文本字符的切换次数为20。
169.步骤406:利用文本分类策略,根据所述字符类型和所述切换次数,确定所述若干个文本分段各自对应的分类。
170.对于上述文本分段“base-file”,小写字母有8个,特殊符号有1个,总字符有9个,切换次数为2。其字母占比为8/9约等于90%,字母占比不满足字母占比阈值范围大于90%,不存在数字,因此也不满足数字占比阈值范围大于80%,不满足第二切换阈值范围大于5,因此,利用文本分类策略无法对该文本分段“base-file”进行分类,该文本分段即为分类不
确定的文本分段。
171.对于上述文本分段“base”,小写字母有4个,总字符有4个,切换次数为0,字母占比为100%,字母类型对应的文本字符的占比达到字母占比阈值范围大于90%,切换次数达到第一切换阈值范围小于3,属于收敛;
172.对于上述文本分段“081055d8-bcbe-40e6-b2fd-5766d6c06ad5”,切换次数为20,达到第二切换阈值范围大于5,属于发散。
173.步骤408:针对分类不确定的文本分段,利用单词字典库,确定所述文本分段对应的若干个文本单词。
174.针对分类不确定的文本分段“base-file”,可以通过枚举算法确定字符组合,对于每个字符组合,排除存在包含非字母类型的字符组合,将其余的字符组合输入wordnet单词字典库进行匹配,确定其中的有效单词base和file。
175.步骤410:确定所述若干个文本单词在所述文本分段中各自对应的字符区间。
176.确定base对应的字符区间(0,4),file对应的字符区间(5,9)。
177.步骤412:对所述若干个文本单词在所述文本分段中各自对应的字符区间进行合并,根据合并结果确定所述文本分段对应的第一字符长度。
178.对上述两个字符区间进行合并,得到合并结果为(0,9),根据合并结果确定第一字符长度为9。
179.步骤414:根据所述文本分段对应的文本字符,确定所述文本分段对应的第二字符长度。
180.文本分段“base-file”对应的第二字符长度为9。
181.步骤416:根据所述第一字符长度和所述第二字符长度,确定所述文本分段对应的比值。
182.计算得到第一字符长度和第二字符长度的比值为9/9等于100%。
183.步骤418:根据所述比值,确定所述文本分段对应的分类。
184.该比值达到第一比例阈值范围大于等于70%,属于收敛。
185.步骤420:确定所述若干个文本分段中对应的分类属于发散的文本分段对应的文本字符。
186.针对属于发散的文本分段“081055d8-bcbe-40e6-b2fd-5766d6c06ad5”,确定其对应的文本字符包括字母类型、数字类型和特殊符号类型。
187.步骤422:根据所述文本字符,对所述文本分段进行二次分类。
188.其中切换次数为20,且存在特殊符号
“‑”
,根据预设的映射关系,确定其对应的二次分类结果为uuid。
189.步骤424:利用二次分类结果替换所述文本分段,得到收敛后的文本分段。
190.利用uuid,替换081055d8-bcbe-40e6-b2fd-5766d6c06ad5,得到收敛后的文本分段uuid。
191.步骤426:利用所述收敛后的文本分段,更新所述目标url。
192.更新后的目标url为“/base-file/base/file/uuid”。
193.上述方法通过对目标url进行拆分,利用文本分类策略对拆分后得到的若干个文本分段在目标url中的文本特征进行分析,从而获得若干个文本分段各自对应的分类;并
且,对于利用文本分类策略无法确定分类的文本分段,利用单词字典库对其进行分析,实现对其分类。通过文本分类策略和单词字典库结合对文本分段进行分析,即能够实现对每个文本分段的分类,并对分类属于发散的文本分段进行收敛处理,利用收敛后的文本分段更新该目标url,实现了对单个目标url的更新,使其无需依赖其他url进行分类,能够适配url动态变化,通用性强,依赖人工经验较少,计算耗时低。并且实现了目标url中的字符长度的减少,便于存储和查询,进而降低了存储成本和查询成本。
194.与上述方法实施例相对应,本说明书还提供了文本处理装置实施例,图5示出了本说明书一个实施例提供的一种文本处理装置的结构示意图。如图5所示,该装置包括:
195.拆分模块502,被配置为对目标文本进行拆分,获得所述目标文本的若干个文本分段;
196.第一分析模块504,被配置为利用文本分类策略,分析所述若干个文本分段在所述目标文本中的文本特征,得到所述若干个文本分段各自对应的分类;
197.第二分析模块506,被配置为针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类;
198.收敛模块508,被配置为将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段;
199.更新模块510,被配置为利用所述收敛后的文本分段,更新所述目标文本。
200.一个可选的实施例中,所述第二分析模块506,进一步被配置为:
201.针对分类不确定的文本分段,利用单词字典库,确定所述文本分段对应的文本单词;
202.根据所述文本单词,确定所述文本分段对应的第一字符长度;
203.根据所述文本分段、以及所述文本分段对应的第一字符长度,确定所述文本分段对应的分类。
204.一个可选的实施例中,所述第二分析模块506,进一步被配置为:
205.确定所述文本单词在所述文本分段中的字符区间;
206.根据所述字符区间,确定所述文本分段对应的第一字符长度。
207.一个可选的实施例中,所述第二分析模块506,进一步被配置为:
208.在确定所述文本分段对应的若干个文本单词的情况下,确定所述若干个文本单词在所述文本分段中各自对应的字符区间;
209.对所述若干个文本单词在所述文本分段中各自对应的字符区间进行合并,根据合并结果确定所述文本分段对应的第一字符长度。
210.一个可选的实施例中,所述第二分析模块506,进一步被配置为:
211.确定所述文本分段对应的文本字符的第二字符长度;
212.根据所述第一字符长度和所述第二字符长度的比值,确定所述文本分段对应的分类。
213.一个可选的实施例中,所述第二分析模块506,进一步被配置为:
214.在所述比值达到第一比例阈值范围的情况下,确定所述文本分段对应的分类属于收敛;
215.在所述比值达到第二比例阈值范围的情况下,确定所述文本分段对应的分类属于
发散,其中,所述第一比例阈值范围的下限等于所述第二比例阈值范围的上限。
216.一个可选的实施例中,所述第一分析模块504,进一步被配置为:
217.确定所述若干个文本分段各自对应的文本字符的字符类型、以及不同字符类型对应的文本字符的切换次数;
218.利用文本分类策略,根据所述字符类型和所述切换次数,确定所述若干个文本分段各自对应的分类。
219.一个可选的实施例中,所述字符类型包括字母类型和数字类型,所述第一分析模块504,进一步被配置为:
220.在字母类型对应的文本字符的占比达到字母占比阈值范围、以及不同字符类型对应的文本字符的切换次数达到第一切换阈值范围的情况下,确定所述文本分段对应的分类属于收敛。
221.一个可选的实施例中,所述字符类型包括字母类型和数字类型,所述第一分析模块504,进一步被配置为:
222.在数字类型对应的文本字符的占比达到数字占比阈值范围、或不同字符类型对应的文本字符的切换次数达到第二切换阈值范围的情况下,确定所述文本分段对应的分类属于发散,其中,所述第一切换阈值范围的上限小于等于所述第二切换阈值范围的下限。
223.一个可选的实施例中,所述收敛模块508,进一步被配置为:
224.确定所述若干个文本分段中对应的分类属于发散的文本分段对应的文本字符;
225.根据所述文本字符,对所述文本分段进行二次分类;
226.利用二次分类结果替换所述文本分段,得到收敛后的文本分段。
227.一个可选的实施例中,所述装置还包括查询模块,被配置为:
228.利用迭代器模型,查询所述更新后的url。
229.综上所述,上述装置通过对目标文本进行拆分,利用文本分类策略对拆分后得到的若干个文本分段在目标文本中的文本特征进行分析,从而获得若干个文本分段各自对应的分类;并且,对于利用文本分类策略无法确定分类的文本分段,利用单词字典库对其进行分析,实现对其分类。通过文本分类策略和单词字典库结合对文本分段进行分析,即能够实现对每个文本分段的分类,并对分类属于发散的文本分段进行收敛处理,利用收敛后的文本分段更新该目标文本,实现了对单个目标文本的更新,使其无需依赖其他url进行分类,能够适配url动态变化,通用性强,依赖人工经验较少,计算耗时低。并且实现了目标文本中的字符长度的减少,便于存储和查询,进而降低了存储成本和查询成本。
230.上述为本实施例的一种文本处理装置的示意性方案。需要说明的是,该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思,文本处理装置的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
231.与上述文本处理方法的技术构思相类似的,本说明书一个实施例还提供了一种url处理方法,参见图6,图6示出了根据本说明书一个实施例提供的一种url处理方法的具体应用场景示意图。
232.图6包括能够执行上述url处理方法的实时url翻译/收敛系统,将单个url实时输入该实时url翻译/收敛系统,能够实时输出该单个url对应的单个更新后的url。
233.具体实施时,对于实时输入的单个url,经过实时url翻译/收敛系统之后,该实时
url翻译/收敛系统能够对该单个url进行更新并实时输出单个更新后的url,更新过程中不依赖其他url的输入,实现了对单个url的分类收敛,能够满足一进一出式的流式场景。
234.参见图7,图7示出了根据本说明书一个实施例提供的一种url处理方法的流程图,具体包括以下步骤。
235.步骤702:对目标url进行拆分,获得所述目标url的若干个文本分段;
236.步骤704:利用文本分类策略,分析所述若干个文本分段在所述目标url中的文本特征,得到所述若干个文本分段各自对应的分类;
237.步骤706:针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类;
238.步骤708:将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段;
239.步骤710:利用所述收敛后的文本分段,更新所述目标url,得到更新后的url;
240.步骤712:利用迭代器模型,查询所述更新后的url。
241.具体地,可以根据目标url中的分隔符号,对目标url进行拆分,获得该目标url的若干个文本分段,利用文本分类策略,分析该若干个文本分段在目标url中的文本特征,从而确定该若干个文本分段各自对应的分类。针对分类不确定的文本分段,利用单词字典库进行分析,确定其对应的分类。将分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段,并利用收敛后的文本分段对目标url进行更新,将更新后的目标url进行分类存储,并利用迭代器模型,在分类存储列表中查询更新后的url。
242.参见图8,图8示出了本说明书一个实施例提供的一种url处理方法中的文本分类策略的示意图。在图8中,示出了一种文本分类策略的具体实施例,用于对文本分类策略进一步说明,本领域技术人员可以根据实际需要设置任何文本分类策略,本说明书实施例在此不做限定。
243.具体地,如图8所示,在文本分段中的文本字符中,满足小写字母占比超过90%、或者大写字母占比超过90%中的任意一种的情况下,以及满足不同字符类型的文本字符之间的切换占比小于20%、或者不同字符类型的文本字符之间的切换次数小于3中的任意一种的情况下,确定该文本分段的分类属于收敛。在文本分段中的文本字符中,满足数字占比超过80%、或者不同字符类型的文本字符之间的切换次数大于5、或者不同字符类型的文本字符之间的切换占比大于30%中的任意一种的情况下,确定该文本分段的分类属于发散。在不满足上述任意一种情况的其他情况下,文本分段的分类不能确定。对于这些分类不确定的文本分段,则需要采用单词字典库进行分类。
244.上述方法通过对目标url进行拆分,利用文本分类策略对拆分后得到的若干个文本分段在目标url中的文本特征进行分析,从而获得若干个文本分段各自对应的分类;并且,对于利用文本分类策略无法确定分类的文本分段,利用单词字典库对其进行分析,实现对其分类。通过文本分类策略和单词字典库结合对文本分段进行分析,即能够实现对每个文本分段的分类,并对分类属于发散的文本分段进行收敛处理,利用收敛后的文本分段更新该目标url,实现了对单个目标url的更新,使其无需依赖其他url进行分类,能够适配url动态变化,通用性强,依赖人工经验较少,计算耗时低。并且实现了目标url中的字符长度的减少,便于存储和查询,进而降低了存储成本和查询成本。
245.需要说明的是,该url处理方法的技术方案与上述的文本处理方法的技术方案属于同一构思,url处理方法的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
246.与上述方法实施例相对应,本说明书还提供了url处理装置实施例,图9示出了本说明书一个实施例提供的一种url处理装置的结构示意图。如图9所示,该装置包括:
247.拆分模块902,被配置为对目标url进行拆分,获得所述目标url的若干个文本分段;
248.第一分析模块904,被配置为利用文本分类策略,分析所述若干个文本分段在所述目标url中的文本特征,得到所述若干个文本分段各自对应的分类;
249.第二分析模块906,被配置为针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类;
250.收敛模块908,被配置为将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段;
251.更新模块910,被配置为利用所述收敛后的文本分段,更新所述目标url,得到更新后的url;
252.查询模块912,被配置为利用迭代器模型,查询所述更新后的url。
253.上述装置通过对目标url进行拆分,利用文本分类策略对拆分后得到的若干个文本分段在目标url中的文本特征进行分析,从而获得若干个文本分段各自对应的分类;并且,对于利用文本分类策略无法确定分类的文本分段,利用单词字典库对其进行分析,实现对其分类。通过文本分类策略和单词字典库结合对文本分段进行分析,即能够实现对每个文本分段的分类,并对分类属于发散的文本分段进行收敛处理,利用收敛后的文本分段更新该目标url,实现了对单个目标url的更新,使其无需依赖其他url进行分类,能够适配url动态变化,通用性强,依赖人工经验较少,计算耗时低。并且实现了目标url中的字符长度的减少,便于存储和查询,进而降低了存储成本和查询成本。
254.上述为本实施例的一种url处理装置的示意性方案。需要说明的是,该url处理装置的技术方案与上述的url处理方法的技术方案属于同一构思,url处理装置的技术方案未详细描述的细节内容,均可以参见上述url处理方法的技术方案的描述。
255.图10示出了根据本说明书一个实施例提供的一种计算设备1000的结构框图。该计算设备1000的部件包括但不限于存储器1010和处理器1020。处理器1020与存储器1010通过总线1030相连接,数据库1050用于保存数据。
256.计算设备1000还包括接入设备1040,接入设备1040使得计算设备1000能够经由一个或多个网络1060通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备1040可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。
257.在本说明书的一个实施例中,计算设备1000的上述部件以及图10中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图10所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换
其他部件。
258.计算设备1000可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备1000还可以是移动式或静止式的服务器。
259.其中,处理器1020用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述文本处理方法或url处理方法的步骤。
260.上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本处理方法或url处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本处理方法或url处理方法的技术方案的描述。
261.本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述文本处理方法或url处理方法的步骤。
262.上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本处理方法或url处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本处理方法或url处理方法的技术方案的描述。
263.本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述文本处理方法或url处理方法的步骤。
264.上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的文本处理方法或url处理方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述文本处理方法或url处理方法的技术方案的描述。
265.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
266.所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
267.需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域
技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
268.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
269.以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1