文档分类的方法、装置和计算机可读存储介质与流程

文档序号:28048872发布日期:2021-12-17 19:45阅读:89来源:国知局
文档分类的方法、装置和计算机可读存储介质与流程

1.本公开涉及计算机技术领域,特别涉及一种文档分类的方法、装置和计算机可读存储介质。


背景技术:

2.在大数据时代,文档或文件的存储是海量的。文档的分类和管理的准确性影响着文档的查找和后续的应用的效率。
3.目前对文档的主要分类及管理方式是属于无监督学习的聚类及属于监督学习的分类模型。


技术实现要素:

4.发明人发现:采用聚类和分类模型的这方式都主要适用于存量文档,并没有针对新增文档进行合理的调整,新增文档到来以后会根据已有的模型将其归类到已有的分类中,无法准确的对新增文档进行分类。
5.本公开所要解决的一个技术问题是:如何提高文档分类的准确性。
6.根据本公开的一些实施例,提供的一种文档分类的方法,包括:获取待分类文档的文档向量,作为目标文档向量,以及一个或多个已存在的文件夹中各个文档的文档向量,作为参考文档向量;针对每个已存在的文件夹,根据目标文档向量和文件夹对应的参考文档向量,确定待分类文档与文件夹的内容的相似度;根据待分类文档与各个已存在的文件夹的内容的相似度,确定待分类文档是否属于已存在的文件夹;在待分类文档不属于任一个已存在的文件夹的情况下,为待分类文档确定新的类型。
7.在一些实施例中,根据目标文档向量和文件夹对应的参考文档向量,确定待分类文档与文件夹的内容的相似度包括:针对每个已存在的文件夹,根据文件夹对应的各个参考文档向量确定文件夹的中心点的向量;选取与中心点的向量相似度最高的参考文档向量,作为代表文档向量;根据目标文档向量和代表文档向量的相似度,确定待分类文档与文件夹的内容的相似度。
8.在一些实施例中,根据目标文档向量和文件夹对应的参考文档向量,确定待分类文档与文件夹的内容的相似度包括:针对每个已存在的文件夹,根据文件夹对应的各个参考文档向量确定文件夹的中心点的向量;根据目标文档向量和中心点的向量的相似度,确定待分类文档与文件夹的内容的相似度。
9.在一些实施例中,在根据目标文档向量和代表文档向量的相似度,确定待分类文档与文件夹的内容的相似度的情况下,目标文档向量与文件夹的相似度为目标文档向量与文件夹的代表文档向量的距离;根据待分类文档与各个已存在的文件夹的内容的相似度,确定待分类文档是否属于已存在的文件夹包括:根据目标文档向量与各个已存在的文件夹的代表文档向量的距离,确定相似度最高的文件夹,作为最相似文件夹;确定目标文档向量与最相似文件夹的代表文档向量的距离是否大于第一异常检测阈值;在目标文档向量与最
相似文件夹的代表文档向量的距离大于第一异常检测阈值的情况下,确定待分类文档不属于最相似文件夹,在目标文档向量与最相似文件夹的代表文档向量的距离小于或等于第一异常检测阈值的情况下,确定待分类文档属于最相似文件夹。
10.在一些实施例中,在根据目标文档向量和中心点的向量的相似度,确定待分类文档与文件夹的内容的相似度的情况下,目标文档向量与文件夹的相似度为目标文档向量与文件夹的中心点的向量的距离;根据待分类文档与各个已存在的文件夹的内容的相似度,确定待分类文档是否属于已存在的文件夹包括:根据目标文档向量与各个已存在的文件夹的中心点的向量的距离,确定相似度最高的文件夹,作为最相似文件夹;确定目标文档向量与最相似文件夹的中心点的向量的距离是否大于第二异常检测阈值;在目标文档向量与最相似文件夹的中心点的向量的距离大于第二异常检测阈值的情况下,确定待分类文档不属于最相似文件夹,在目标文档向量与最相似文件夹的中心点的向量的距离小于或等于第二异常检测阈值的情况下,确定待分类文档属于最相似文件夹。
11.在一些实施例中,第一异常检测阈值采用以下方法确定:针对每个已存在的文件夹,确定该文件夹中各个参考文档向量与对应的代表文档向量的距离的最大值,作为该文件夹对应的半径,将各个已存在的文件夹对应的半径中的最大值与预设的第一放大系数的乘积,确定为第一异常检测阈值;其中,已存在的文件夹中文档的总数量越多,预设的第一放大系数越小。
12.在一些实施例中,第二异常检测阈值采用以下方法确定:针对每个已存在的文件夹,确定该文件夹中各个参考文档向量与对应的中心点的向量的距离的最大值,作为该文件夹对应的半径,将各个已存在的文件夹对应的半径中的最大值与预设的第二放大系数的乘积,确定为第二异常检测阈值;其中,已存在的文件夹中文档的总数量越多,预设的第二放大系数越小。
13.在一些实施例中,为待分类文档确定新的类型包括:将待分类文档输入预训练的文档分类器,得到待分类文档的新的类型;其中,预训练的文档分类器是根据已存在的文件夹中的文档之外的网络数据进行训练得到的。
14.在一些实施例中,该方法还包括:向用户发送询问信息,询问用户是否将待分类文档的新的类型作为待分类文档的分类结果;响应于接收到用户确认将待分类文档的新的类型作为待分类文档的分类结果的情况下,将待分类文档归入新的类型对应的文件夹,或者,创建新的类型对应的文件夹,并将待分类文档归入新的类型对应的文件夹;响应于接收到用户否认将待分类文档的新的类型作为待分类文档的分类结果的情况下,询问用户是否自定义待分类文档归入的文件夹,响应于用户确认自定义待分类文档归入的文件夹,将待分类文档归入自定义的文件夹,响应于用户否认自定义待分类文档归入的文件夹,将待分类文档归入未分类文件夹或预设类型的文件夹。
15.在一些实施例中,获取待分类文档的文档向量包括:为待分类文档分配文档标识;将待分类文档的文档标识作为输入信息,输入预训练的自然语言处理模型,对自然语言处理模型重新训练,自然语言处理模型包括词嵌入矩阵模块;在自然语言处理模型重新训练完成的情况下,从自然语言处理模型中提取文档标识对应的向量,作为待分类文档的文档向量。
16.根据本公开的另一些实施例,提供的一种文档分类的装置,包括:获取模块,用于
获取待分类文档的文档向量,作为目标文档向量,以及一个或多个已存在的文件夹中各个文档的文档向量,作为参考文档向量;相似度确定模块,用于针对每个已存在的文件夹,根据目标文档向量和文件夹对应的参考文档向量,确定待分类文档与文件夹的内容的相似度;文件夹确定模块,用于根据待分类文档与各个已存在的文件夹的内容的相似度,确定待分类文档是否属于已存在的文件夹;类型确定模块,用于在待分类文档不属于任一个已存在的文件夹的情况下,为待分类文档确定新的类型。
17.根据本公开的又一些实施例,提供的一种文档分类的装置,包括:处理器;以及耦接至处理器的存储器,用于存储指令,指令被处理器执行时,使处理器执行如前述任意实施例的文档分类的方法。
18.根据本公开的再一些实施例,提供的一种非瞬时性计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意实施例的文档分类的方法。
19.本公开获取待分类文档的文档向量,作为目标文档向量,以及一个或多个已存在的文件夹中各个文档的文档向量,作为参考文档向量,根据目标文档向量和已存在的文件夹对应的参考文档向量,确定待分类文档与每个已存在的文件夹的内容的相似度,进一步确定待分类文档是否属于各个已存在的文件夹。如果待分类文档不属于任一个已存在的文件夹的情况下,则为待分类文档确定新的类型。本公开的方法不同于现有的基于关键词、词频等特征提取对文档进行分类的方法,而是将待分类文档转化为文档向量,文档向量可以反应整个文档的内容,根据文档向量的相似度来确定待分类文档是否属于已有类别的文件夹,如果不属于则进行新的类别的确定,解决了现有方法没有考虑到新增文档可能不属于任何已有分类,而属于一个新分类的问题,提高了文档分类的准确性。
20.此外,使用文档向量进行相似度比较的方法不依赖于大量人工调试、储存空间及计算能力的特征提取,分类过程简单高效,不会影响原有的分类结构提高了文档分类的效率。
21.通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
22.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1示出本公开的一些实施例的文档分类的方法的流程示意图。
24.图2a示出本公开的一些实施例的dm模型的结构示意图。
25.图2b示出本公开的一些实施例的dbow模型的结构示意图。
26.图2c示出本公开的一些实施例的bert模型的结构示意图。
27.图3示出本公开的另一些实施例的文档分类的方法的流程示意图。
28.图4示出本公开的一些实施例的文档分类的装置的结构示意图。
29.图5示出本公开的另一些实施例的文档分类的装置的结构示意图。
30.图6示出本公开的又一些实施例的文档分类的装置的结构示意图。
具体实施方式
31.下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
32.本公开提供一种文档分类的方法,下面结合图1进行描述。
33.图1为本公开文档分类的方法一些实施例的流程图。如图1所示,该实施例的方法包括:步骤s102~s108。
34.在步骤s102中,获取待分类文档的文档向量,作为目标文档向量,以及一个或多个已存在的文件夹中各个文档的文档向量,作为参考文档向量。
35.在一些实施例中,为待分类文档分配文档标识;将待分类文档的文档标识作为输入信息,输入预训练的自然语言处理模型,对自然语言处理模型重新训练,自然语言处理模型包括词嵌入矩阵模块;在自然语言处理模型重新训练完成的情况下,从自然语言处理模型中提取文档标识对应的向量,作为待分类文档的文档向量。
36.同样的,参考文档向量的生成方法可以与上述方法类似。针对每个已存在的文件夹中的每个文档,为文档分配文档标识;将文档标识作为输入信息,输入预训练的自然语言处理模型,对自然语言处理模型重新训练,自然语言处理模型包括词嵌入矩阵模块;在自然语言处理模型重新训练完成的情况下,从自然语言处理模型中提取文档标识对应的向量,作为参考文档向量。
37.文档向量可以理解为是该文档内容在一个n维语义空间的投射,它表示了该文档的核心内容语义,每个维度可以理解为该文档某个特定的特征。自然语言处理(nlp)模型例如为可以完成doc2vec或para2vec或str2vec任务的自然语言处理模型。可以用来进行doc2vec任务的模型例如为dm(distributed memory,分布式记忆)模型、dbow(distributed bag of words,分布式词袋)模型和bert(bidirectional encoder representations from transformers,来自变换器的双向编码器表征量)等,不限于所举示例。
38.可以采用迁移学习(transfer learning)将预训练的nlp模型中的词嵌入矩阵模块及位置编码(若有)部分取出,若需要也可将其他训练好的参数和网络结构直接使用。针对待分类文档或已存在的文件夹中的各个文档,给文档分配一个文档标识(例如,在文档分词前增加一个新的词表示整个文档),词嵌入矩阵模块和其他层的参数保持迁移学习获得的参数(即已由专家通过大量文本数据训练好的参数)不变,重新利用随机梯度下降算法及输入的文档的信息(包括文档的标识,还可以包括文档的分词)训练模型(训练时迁移学习获得的参数必须保持固定不变,但文档矢量表示参数需要更新)。等误差收敛后,即可通过提取训练后的代表整个文档的参数得到文档标识对应的文档向量。由于nlp模型的训练任务主要是用来理解上下文内容,所以输出基本为预测词或句的概率,所以文档向量不是通过模型的输出获得,而是通过模型训练后的中间参数获得。
39.如图2a~图2c所示,分别为dm、dbow和bert三种模型网络的结构图。虚线框中是最终提取作为文档向量的参数。词向量与文档矢量可以拥有同样的维度,且被放在同一个嵌入矩阵中,但是它们所处于的是两个不同的语义空间,且训练过程中保证词向量固定不变,
神经网络梯度下降所更新的仅为文档向量,训练收敛后提取文档向量。如图2a和2c所示,重新训练的过程不仅需要输入文档标识还需要输入文档的分词,因此,需要在输入区对文档进行分词等预处理,在此不再赘述。
40.文档向量还可以为dm、dbow和bert中一种或多种得到的文档向量进行任意组合获得组合后的文档矢量。例如将所有方法获得的向量拼接所形成的向量作为文档向量。
41.在步骤s104中,针对每个已存在的文件夹,根据目标文档向量和文件夹对应的参考文档向量,确定待分类文档与文件夹的内容的相似度。
42.在一些实施例中,针对每个已存在的文件夹,根据该文件夹对应的各个参考文档向量确定该文件夹的中心点的向量;选取与中心点的向量相似度最高的参考文档向量,作为代表文档向量;根据目标文档向量和代表文档向量的相似度,确定待分类文档与该文件夹的内容的相似度。
43.两个向量的相似度可以用距离(例如,欧氏距离)表示,相似度越高距离越小。例如,假设已存在的文件夹有n个,则文件夹集合表示为{f1,f2,

f
n
}。针对每个文件夹f
i
(1≤i≤n),该文件夹中的参考文档向量表示为x
j
(1≤j≤|f
i
|,|f
i
|为该文件夹中参考文档向量的个数)。可以计算各个参考文档向量的平均值,作为该文件夹的中心点的向量μ
i
。例如,可以采用以下公式计算中心点的向量。
[0044][0045]
获得文件夹f
i
的中心点的向量后,可以计算文件夹f
i
中每个参考文档向量到中心点的向量的距离,选取到中心点的距离最小的参考文档向量作为代表文档向量c
i
,可以采用以下公式表示。
[0046][0047]
根据待分类文档p与代表文档向量c
i
的距离可以确定待分类文档p与文件夹f
i
的相似度。
[0048]
在另一些实施例中,针对每个已存在的文件夹,根据文件夹对应的各个参考文档向量确定文件夹的中心点的向量;根据目标文档向量和中心点的向量的相似度,确定待分类文档与文件夹的内容的相似度。
[0049]
在步骤s106中,根据待分类文档与各个已存在的文件夹的内容的相似度,确定待分类文档是否属于已存在的文件夹。
[0050]
在一些实施例中,在根据目标文档向量和代表文档向量的相似度,确定待分类文档与文件夹的内容的相似度的情况下,目标文档向量与文件夹的相似度为目标文档向量与文件夹的代表文档向量的距离。根据目标文档向量与各个已存在的文件夹的代表文档向量的距离,确定相似度最高的文件夹,作为最相似文件夹;确定目标文档向量与最相似文件夹的代表文档向量的距离是否大于第一异常检测阈值;在目标文档向量与最相似文件夹的代表文档向量的距离大于第一异常检测阈值的情况下,确定待分类文档不属于最相似文件夹,在目标文档向量与最相似文件夹的代表文档向量的距离小于或等于第一异常检测阈值的情况下,确定待分类文档属于最相似文件夹。
[0051]
进一步,第一异常检测阈值采用以下方法确定:针对每个已存在的文件夹,确定该
文件夹中各个参考文档向量与对应的代表文档向量的距离的最大值,作为该文件夹对应的半径,将各个已存在的文件夹对应的半径中的最大值与预设的第一放大系数的乘积,确定为第一异常检测阈值;其中,已存在的文件夹中文档的总数量越多,推荐预设的第一放大系数越小。第一放大系数也可以根据实际需求进行设置,不限于所举示例。
[0052]
在待分类文档p与代表文档向量c
i
的距离为待分类文档p与文件夹f
i
的相似度的情况下,则最相似文件夹的代表文档向量是与待分类文档p距离最近的代表文档向量,可以表示为nf。可以采用以下公式表示。
[0053][0054]
针对每个已存在的文件夹f
i
中,计算该文件夹下各个参考文档向量到该文件夹的代表文档向量c
i
的距离,并找到这些距离中的最大值d
i
,作为该文件夹对应的半径,例如采用以下公式表示。
[0055][0056]
在各个已存在的文件夹对应的半径d
i
中找到最大值,与预设的放大系数α相乘,得到第一异常检测阈值r,可以采用以下公式表示。
[0057]
r=α
·
max(d
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0058]
α与已存在的文件夹中文档的总数量成反比,例如可以设置为1.2。将待分类文档p与nf的距离与r进行比对,如果大于r,则待分类文档不属于最相似的文件夹,否则,待分类文档属于最相似文件夹。
[0059]
在另一些实施例中,在根据目标文档向量和中心点的向量的相似度,确定待分类文档与文件夹的内容的相似度的情况下,目标文档向量与文件夹的相似度为目标文档向量与文件夹的中心点的向量的距离。根据目标文档向量与各个已存在的文件夹的中心点的向量的距离,确定相似度最高的文件夹,作为最相似文件夹;确定目标文档向量与最相似文件夹的中心点的向量的距离是否大于第二异常检测阈值;在目标文档向量与最相似文件夹的中心点的向量的距离大于第二异常检测阈值的情况下,确定待分类文档不属于最相似文件夹,在目标文档向量与最相似文件夹的中心点的向量的距离小于或等于第二异常检测阈值的情况下,确定待分类文档属于最相似文件夹。
[0060]
进一步,第二异常检测阈值采用以下方法确定:针对每个已存在的文件夹,确定该文件夹中各个参考文档向量与对应的中心点的向量的距离的最大值,作为该文件夹对应的半径,将各个已存在的文件夹对应的半径中的最大值与预设的第二放大系数的乘积,确定为第二异常检测阈值;其中,已存在的文件夹中文档的总数量越多,推荐预设的第二放大系数越小。第二放大系数也可以根据实际需求进行设置,不限于所举示例。
[0061]
上述两种实施方式可以结合应用,例如,根据上述两种实施方式分别判断待分类文档是否属于最相似的文件夹,如果两种实施方式判断待分类文档都不属于最相似的文件夹,则待分类文档不属于已知类别的文件夹,否则,待分类文档属于已知类别的文件夹。
[0062]
在对比待分类文档与各个已存在的文件夹的内容的相似度时,上述方法关注待分类文档的目标文档向量与各个代表文档向量的相似度或者与中心点的向量的相似度,具有很好的鲁棒性,不会被各个文件夹中存在的异常文档所干扰,且不会因为相似分类的典型特征重合度高而在准确率上受到影响。
[0063]
在步骤s108中,在待分类文档不属于任一个已存在的文件夹的情况下,为待分类文档确定新的类型。或者,可以将待分类文档归入未分类文档文件夹。
[0064]
在一些实施例中,将待分类文档输入预训练的文档分类器,得到待分类文档的新的类型。预训练的文档分类器可以是根据已存在的文件夹中的文档之外的网络数据进行训练得到的,也可以是通过其他方式获得的已训练的成熟文档分类模型(如开源模型及其参数)。也可以采用其他方式为待分类文档确定新的类型,不限于所举示例。
[0065]
上述实施例中获取待分类文档的文档向量,作为目标文档向量,以及一个或多个已存在的文件夹中各个文档的文档向量,作为参考文档向量,根据目标文档向量和已存在的文件夹对应的参考文档向量,确定待分类文档与每个已存在的文件夹的内容的相似度,进一步确定待分类文档是否属于各个已存在的文件夹。如果待分类文档不属于任一个已存在的文件夹的情况下,则为待分类文档确定新的类型。上述实施例的方法不同于现有的基于关键词、词频等特征提取对文档进行分类的方法,而是将待分类文档转化为文档向量,文档向量可以反应整个文档的内容,根据文档向量的相似度来确定待分类文档是否属于已有类别的文件夹,如果不属于则进行新的类别的确定,解决了现有方法没有考虑到新增文档可能不属于任何已有分类,而属于一个新分类的问题,提高了文档分类的准确性。
[0066]
此外,使用文档向量进行相似度比较的方法不依赖于大量人工调试、储存空间及计算能力的特征提取,分类过程简单高效,不会影响原有的分类结构提高了文档分类的效率。
[0067]
图3为本公开文档分类的方法另一些实施例的流程图。如图3所示,该实施例的方法在步骤s108之后还包括:步骤s302~s314。
[0068]
在步骤s302中,向用户发送询问信息,询问用户是否将待分类文档的新的类型作为待分类文档的分类结果。
[0069]
例如,向用户显示待分类文档的新的类型,并显示询问信息。
[0070]
在步骤s304中,接收用户返回的询问结果,确定用户是否确认将待分类文档的新的类型作为待分类文档的分类结果,如果是,则执行步骤s306,否则执行步骤s310。
[0071]
在步骤s306中,确定是否存在新的类型对应的文件夹,如果是,执行步骤s307,否则执行步骤s308。
[0072]
在步骤s307中,将待分类文档归入新的类型对应的文件夹。
[0073]
在步骤s308中,创建新的类型对应的文件夹,并将待分类文档归入新的类型对应的文件夹。
[0074]
在步骤s310中,询问用户是否自定义待分类文档归入的文件夹。
[0075]
在步骤s312中,接收用户返回的询问结果,确定用户是否自定义待分类文档归入的文件夹,如果是,则执行步骤s313,否则执行步骤s314。
[0076]
在步骤s313中,将待分类文档归入自定义的文件夹。
[0077]
在步骤s314中,待分类文档归入未分类文件夹或预设类型的文件夹。
[0078]
本公开还提供一种文档分类的装置,下面结合图4进行描述。
[0079]
图4为本公开文档分类的装置的一些实施例的结构图。如图4所示,该实施例的装置40包括:获取模块410,相似度确定模块420,文件夹确定模块430,类型确定模块440。
[0080]
获取模块410用于获取待分类文档的文档向量,作为目标文档向量,以及一个或多
个已存在的文件夹中各个文档的文档向量,作为参考文档向量。
[0081]
在一些实施例中,获取模块410用于为待分类文档分配文档标识;将待分类文档的文档标识作为输入信息,输入预训练的自然语言处理模型,对自然语言处理模型重新训练,自然语言处理模型包括词嵌入矩阵模块;在自然语言处理模型重新训练完成的情况下,从自然语言处理模型中提取文档标识对应的向量,作为待分类文档的文档向量。
[0082]
相似度确定模块420用于针对每个已存在的文件夹,根据目标文档向量和文件夹对应的参考文档向量,确定待分类文档与文件夹的内容的相似度。
[0083]
在一些实施例中,相似度确定模块420用于针对每个已存在的文件夹,根据文件夹对应的各个参考文档向量确定文件夹的中心点的向量;选取与中心点的向量相似度最高的参考文档向量,作为代表文档向量;根据目标文档向量和代表文档向量的相似度,确定待分类文档与文件夹的内容的相似度。
[0084]
在一些实施例中,相似度确定模块420用于针对每个已存在的文件夹,根据文件夹对应的各个参考文档向量确定文件夹的中心点的向量;根据目标文档向量和中心点的向量的相似度,确定待分类文档与文件夹的内容的相似度。
[0085]
文件夹确定模块430用于根据待分类文档与各个已存在的文件夹的内容的相似度,确定待分类文档是否属于已存在的文件夹。
[0086]
在一些实施例中,在根据目标文档向量和代表文档向量的相似度,确定待分类文档与文件夹的内容的相似度的情况下,目标文档向量与文件夹的相似度为目标文档向量与文件夹的代表文档向量的距离。文件夹确定模块430用于根据目标文档向量与各个已存在的文件夹的代表文档向量的距离,确定相似度最高的文件夹,作为最相似文件夹;确定目标文档向量与最相似文件夹的代表文档向量的距离是否大于第一异常检测阈值;在目标文档向量与最相似文件夹的代表文档向量的距离大于第一异常检测阈值的情况下,确定待分类文档不属于最相似文件夹,在目标文档向量与最相似文件夹的代表文档向量的距离小于或等于第一异常检测阈值的情况下,确定待分类文档属于最相似文件夹。
[0087]
在一些实施例中,第一异常检测阈值采用以下方法确定:针对每个已存在的文件夹,确定该文件夹中各个参考文档向量与对应的代表文档向量的距离的最大值,作为该文件夹对应的半径,将各个已存在的文件夹对应的半径中的最大值与预设的第一放大系数的乘积,确定为第一异常检测阈值;其中,已存在的文件夹中文档的总数量越多,预设的第一放大系数越小。
[0088]
在一些实施例中,在根据目标文档向量和中心点的向量的相似度,确定待分类文档与文件夹的内容的相似度的情况下,目标文档向量与文件夹的相似度为目标文档向量与文件夹的中心点的向量的距离。文件夹确定模块430用于根据目标文档向量与各个已存在的文件夹的中心点的向量的距离,确定相似度最高的文件夹,作为最相似文件夹;确定目标文档向量与最相似文件夹的中心点的向量的距离是否大于第二异常检测阈值;在目标文档向量与最相似文件夹的中心点的向量的距离大于第二异常检测阈值的情况下,确定待分类文档不属于最相似文件夹,在目标文档向量与最相似文件夹的中心点的向量的距离小于或等于第二异常检测阈值的情况下,确定待分类文档属于最相似文件夹。
[0089]
在一些实施例中,第二异常检测阈值采用以下方法确定:针对每个已存在的文件夹,确定该文件夹中各个参考文档向量与对应的中心点的向量的距离的最大值,作为该文
件夹对应的半径,将各个已存在的文件夹对应的半径中的最大值与预设的第二放大系数的乘积,确定为第二异常检测阈值;其中,已存在的文件夹中文档的总数量越多,预设的第二放大系数越小。
[0090]
类型确定模块440用于在待分类文档不属于任一个已存在的文件夹的情况下,为待分类文档确定新的类型。
[0091]
在一些实施例中,类型确定模块440用于将待分类文档输入预训练的文档分类器,得到待分类文档的新的类型;其中,预训练的文档分类器可以是根据已存在的文件夹中的文档之外的网络数据进行训练得到的,也可以是通过其他方式获得的已训练的成熟文档分类模型(如开源模型及其参数)。
[0092]
在一些实施例中,该装置40还包括:归档模块450用于向用户发送询问信息,询问用户是否将待分类文档的新的类型作为待分类文档的分类结果;响应于接收到用户确认将待分类文档的新的类型作为待分类文档的分类结果的情况下,将待分类文档归入新的类型对应的文件夹,或者,创建新的类型对应的文件夹,并将待分类文档归入新的类型对应的文件夹;响应于接收到用户否认将待分类文档的新的类型作为待分类文档的分类结果的情况下,询问用户是否自定义待分类文档归入的文件夹,响应于用户确认自定义待分类文档归入的文件夹,将待分类文档归入自定义的文件夹,响应于用户否认自定义待分类文档归入的文件夹,将待分类文档归入未分类文件夹或预设类型的文件夹。
[0093]
本公开的实施例中的文档分类的装置可各由各种计算设备或计算机系统来实现,下面结合图5以及图6进行描述。
[0094]
图5为本公开文档分类的装置的一些实施例的结构图。如图5所示,该实施例的装置50包括:存储器510以及耦接至该存储器510的处理器520,处理器520被配置为基于存储在存储器510中的指令,执行本公开中任意一些实施例中的文档分类的方法。
[0095]
其中,存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(boot loader)、数据库以及其他程序等。
[0096]
图6为本公开文档分类的装置的另一些实施例的结构图。如图6所示,该实施例的装置60包括:存储器610以及处理器620,分别与存储器510以及处理器520类似。还可以包括输入输出接口630、网络接口640、存储接650等。这些接口630,640,650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口650为sd卡、u盘等外置存储设备提供连接接口。
[0097]
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0098]
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程
序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0099]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0100]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0101]
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1