书面语体类型的分类方法、装置、存储介质及电子设备

文档序号:26714709发布日期:2021-09-22 19:48阅读:131来源:国知局
书面语体类型的分类方法、装置、存储介质及电子设备

1.本技术属于数据处理技术领域,尤其涉及一种书面语体类型的分类方法、装置、存储介质及电子设备。


背景技术:

2.现代汉语书面语体类型包括记叙体、议论体和说明体等。而所述“记叙体”的下级节点品种从初级到高级的发展品种有《语文》教材类、写人叙事类散文,民间故事、人物事件类新闻报道、小说等;“议论体”从初级到高级的发展品种有教材类、议论性散文、时评类新闻评论、社论类新闻评论、学术论文等;“说明体”的下级节点品种较另两类基础书面语体更多,从教材类、科普文、到操作指南、会议类新闻报道、学术论文、法律法规、政府公文等,因其所应用的专业领域分类非常广泛,故到高级阶段分支类型非常多样。
3.而传统技术中,没有系统化且自动化的书面语体类型的分类方法,对所述书面语体类型的分类方法均是靠人工对其加以区分,而导致所述汉语书面语体类型的分类无法批量且自动的进行分类,进而使得书面语体类型的分类成本较高。
4.申请内容
5.本技术实施方式提供了一种书面语体类型的分类方法、装置、存储介质及电子设备,以解决汉语书面语体类型的传统分类无法批量且自动的进行分类,进而使得书面语体类型的分类成本较高的技术问题。
6.本技术实施方式第一方面提供了一种书面语体类型的分类方法,所述方法包括:
7.获取待分类书面语体样本;
8.将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应;
9.根据所述至少一个分类结果,确定所述待分类书面语体样本的书面语体类型。
10.可选地,所述至少一个子分类模型包括:
11.因子子分类模型集合以及中值距离子分类模型。
12.可选地,所述将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应之前,所述方法还包括:
13.预先构建所述因子子分类模型集合;
14.相应的,所述预先构建所述因子子分类模型集合具体包括:
15.对预先配置的训练集进行因子分析,获取分析数据;
16.根据所述分析数据与预先配置的矩阵计算公式,确认至少一个矩阵;
17.对所述至少一个矩阵分别进行均值聚类,获取所述因子子分类模型集合以及至少
一个均值聚类距离值。
18.可选地,所述将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应之前,所述方法还包括:
19.预先构建所述中值距离子分类模型;
20.相应的,所述预先构建中值距离子分类模型,具体包括:
21.获取不同书面语体类型对应的至少一个中值向量;
22.根据预先配置的中值距离计算公式,计算输入的训练集距离所述至少一个中值向量的中值距离,确定最小的中值距离对应的书面语体类型为当前样本的书面语体类型,以此构建所述中值距离自分类模型。
23.可选地,所述中值距离计算公式为:
24.其中,a表示a类书面语体类型,z
an
为所述待分类书面语体样本距离所述a类书面语体类型的中值距离,所述t
in
表示第n个样本且第i个指标变量,z
ai
表示a类中第i个指标变量的中值向量,p值指标变量,1≤n≤846,n为正整数,1≤i≤9,i为正整数。
25.可选地,所述分类结果为四个;对应的,所述根据所述至少一个分类结果,确定所述待分类书面语体样本的书面语体类型,具体包括:
26.当至少三个所述分类结果一致时,确定当前所述一致的分类结果对应的书面语体类型为所述待分类书面语体样本的书面语体类型;
27.当两个所述分类结果一致,且另外两个所述分类结果不一致时,确定当前所述一致的分类结果对应的书面语体类型为所述待分类书面语体样本的书面语体类型;
28.当所述分类结果两两一致时,确定所述中值距离与所述至少一个均值聚类距中的最小值,所述最小值对应的书面语体类型即为所述待分类书面语体样本的书面语体类型。
29.可选地,所述预先构建所述因子子分类模型集合之前,所述方法还包括:
30.预先对构建所述因子子分类模型集合的数据进行预处理。
31.本技术实施方式第二方面提供了一种书面语体类型的分类装置,所述装置包括:
32.获取模块,用于获取待分类书面语体样本;
33.输入模块,用于将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应;
34.确定模块,用于根据所述至少一个分类结果,确定所述待分类书面语体样本的书面语体类型。
35.本技术实施方式第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前述的一种书面语体类型的分类方法。
36.本技术实施方式第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前述的一种书面语体类型的分类方法的步骤。
37.本技术实施方式第五方面提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述本技术实施方式第一方面提供的一种书面语体类型的分类方法。
38.本发明的实施方式与现有技术相比存在的有益效果是:先获取待分类书面语体样本,然后将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应,最后根据所述至少一个分类结果,确定所述待分类书面语体样本的书面语体类型。通过预先构建所述书面语体类型分类模型,以自动确认所述待分类书面语体样本的书面语体类型,以解决了传统靠人工对其加以区分,而导致所述汉语书面语体类型的分类无法批量且自动的进行分类,进而使得书面语体类型的分类成本较高等技术问题,实现降低分类成本,提高分类效率的技术效果。
附图说明
39.为了更清楚地说明本技术实施方式中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
40.图1是本技术实施例提供的一种书面语体类型的分类方法的第一种实现过程流程示意图;
41.图2是本技术实施例提供的一种书面语体类型的分类方法的第二种实现过程流程示意图;
42.图3是本技术实施例提供的一种书面语体类型的分类装置的结构示意图;
43.图4是本技术实施例提供的电子设备的结构示意图。
具体实施方式
44.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本技术实施方式。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施方式中也可以实现本技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本技术的描述。
45.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
46.还应当理解,在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
47.还应当理解,在此本技术说明书中所使用的术语仅仅是出于描述特定实施方式的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
48.应当理解,本实施例中各步骤的先后撰写顺序并不意味着执行顺序的先后,各过
程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
49.在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
50.为了说明本技术所述的技术方案,下面通过具体实施方式来进行说明。
51.参见图1,是本技术实施例一提供一种书面语体类型的分类方法的第一种实现过程的流程图,为了便于说明,仅示出了与本技术实施例相关的部分。
52.本案优选实施例可为,所述一种书面语体类型的分类方法,所述方法包括:
53.s101:获取待分类书面语体样本。
54.在本实施例中,所述待分类书面语体样本是指待进行书面语体类型分类的现代汉语书面语体,所述待分类书面语体样本通常可为剔除了标题、作者、单列的注释、参考文献等要素,仅保留语料正文的汉语书面语体。所述获取待分类书面语体样本的方式,具体可为上传文本、下载文本等形式。举个例子,所述待分类书面语体样本可为k3

k12《语文》三种教材(人教版、苏教版、北师大版)、中华人民共和国政府网、人民网、果壳网、“十万个为什么”在线青少年百科全书网、优秀现当代作家代表作品(中短篇作品为主)等。
55.在一些可能实施的实施例中,书面语体包括三种基础的书面语体类型,具体为记叙体、议论体以及说明体。经统计比较后发现,记叙体中代词、副词、数词、量词、助词占该文本的总词频较有优势,说明体中名词、介词、连词占总词频、名词均长、动词均长、小句均长这几个指标值较有优势,议论体中形容词、连词占总词频、动词均长、小句均长这几个指标较有优势。另外,多项研究表明记叙体中的助词“了”(如刘林、陈振宇,2012等)使用率较高,提取“了”占该文本的助词频次。还有,记叙体往往要写若干具体的人物(名),以及人物活动的具体时间、地点,因此提炼出名词小类中时间词、地点词、处所词、地理词,但发现这四个小类单独计算频次均较低,故取四小类名词之和占该文本的名词频次为指标。这样一共取得15个指标待进一步检验。在经过多次尝试性的计算后,进一步筛选出书面语体区分度更为明显的平均小句长、名词均长、动词均长、名词占比、动词占比、助词占比、介词占比、形容词占比、副词占比、名词四小类词占名词比、“了”占助词比一共11个指标。进一步地,所述书面语体类型的分类方法的主要思路就是提取书面语体的某些特征,经过分类器算法的识别,实现预期类别的输出。而上述的指标即为分类器算法的进行分类识别的基础指标。
56.s102:将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应。
57.在本实施例中,所述书面语体类型分类模型是指用于根据所述输入的待分类书面语体样本,进行书面语体类型的分类确定,举个例子,输入一个所述待分类书面语体样本,所述书面语体类型分类模型输出所述待分类书面语体样本对应书面语体类型,比如,记叙
体、说明体以及议论体的其中一种。
58.在一些可能实施的实施例中,所述至少一个子分类模型包括:
59.因子子分类模型集合以及中值距离子分类模型。
60.在本实施例中,所述子分类模型为四个,其中三个为所述因子得分子分类模型,组成所述因子子分类模型集合,另外一个为中值距离子分类模型。
61.在其他一些可能实施的实施例中,在预先构建所述因子子分类模型集合之前,所述方法还包括:
62.预先对构建所述因子子分类模型集合的数据进行预处理。
63.在本实施例中,所述预先对构建所述因子子分类模型集合的数据进行预处理,是指对需要用到的数据进行标准化处理。具体可为:
64.首先,对前述11项指标进行了统计,然后用min

max方法对其中不同量纲单位的指标进行了标准化处理。其次,对缺失值进行填补。主要是部分短文本有某些词类指标值缺失。因本研究指标数据矩阵变量间有相关性,比较适合用多元线性回归模型填补缺失值。具体做法是:设参与聚类指标中没有缺失值的前5项指标平均小句长、名词均长长、名词占比、动词均长,动词占比为5个自变量x1、x2、x3…
x5,算出多元线性回归模型公式中的各参数值设因变量为第n个样本的第6项有缺失值的变量则把第n个样本的前5个未缺失的值x
1n
……
x
5n
带入回归方程,计算得到该样本第6项的缺失值。以此方法,填满所有文本中的第6项指标中所有的缺失值。然后得到所有样本没有缺失值的前6项指标。再把这6项指标设为自变量,重复上述方法,填满所有样本第7项的缺失值。以此类推,直至填满所有含有缺失值的11项指标。得到一个完整的指标变量数据集,参与下一步工作。
65.第三,填补缺失值后发现其中的名词均长、名词占比与动词均长、动词占比这四个指标的区分度还不够理想。因其两两相关,分别用指标值的积的方式合并,即名词均长与名词占比的积,和动词均长和动词占比的积,形成两个新指标代替原来的4个指标,分别命名为名词综合、动词综合指标。
66.至此,参与分类建模的全部指标预处理完毕。
67.第四,在正式建模前,把全部991个样本按三种书面语体文本的数量随机分为训练集和测试集两类。训练集占总样本量的85%,共846个样本,其中记叙体、说明体和议论体的样本数分别为278个、276个、292个;测试集占总样本量的15%,共145个样本,其中记叙体、说明体和议论体的样本数分别为152个、40个、153个。
68.在一些可能实施的实施例中,所述将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应之前,所述方法还包括:
69.预先构建所述因子子分类模型集合;
70.相应的,所述预先构建所述因子子分类模型集合具体包括:
71.s201:对预先配置的训练集进行因子分析,获取分析数据;
72.其中,所述分析数据是指对所述训练集进行主成分数提取,把训练集的9个指标变量值录入spss进行因子分析,得到的方差解释表。参照下表1:
[0073][0074]
表1
[0075]
其中,方差解释表的第一列是公因子的编号,所有公因子根据其值大小呈降序排列。排序第一的因子是最重要的因子,其特征值达到了3.253,方差贡献率为36.146,意思是能解释所有9个变量的36.146%,前4个因子特征值都大于或非常接近于1,能解释所有变量的73.518%,所以取前4个因子进行后续的计算。
[0076]
s202:根据所述分析数据与预先配置的矩阵计算公式,确认至少一个矩阵;
[0077]
其中,所述分类系统获取到所述分析数据之后,会对所述分析数据进行预先配置的计算公式进行计算,以确定至少一个矩阵。具体地,所述根据所述分析数据与预先配置的矩阵计算公式,确认至少一个矩阵可为:以因子负荷量为依据,就可以通过矩阵相乘的方法,转换原来文本的9个变量为新的4个变量,从而获得可以进行用于聚类的因子分数。具体说明如下:
[0078]
为了在合理范围内强化三种书面语体变量的区分度,分别提取三种书面语体主成分建模矩阵。设记叙书面语体为a类、说明书面语体为b类、议论书面语体为c类,则其相应的主成分建模矩阵为下表2、表3、表4。
[0079][0080]
表2 a类主成份建模矩阵a
[0081][0082]
表3 b类主成份建模矩阵a
[0083][0084]
表4 c类主成份建模矩阵a
[0085]
具体地,所谓的矩阵相乘就是求两个数据矩阵乘积的方法。其几何意义在于实现多维空间向二维空间的线性转换而使原维度空间的数值的相对坐标没有改变。举个例子,设x为n
×
p的矩阵,设y为p
×
m的矩阵,那么n
×
m就是x和y这两个矩阵的乘积,即形成一个新矩阵t,记为t=xy,t矩阵中第i行第j列的值的计算公式表示为:
[0086][0087]
现在我们设x为有9个原变量值的846个样本的数据矩阵,其中n值为846个样本原指标值,p值是9;设表3为y矩阵,即p值是9,m值是4个成分值,以公式1得到新的矩阵ta,即把原来846个样本的9个变量值基于a类主成分数据转化为了新的4个变量值,即因子得分。以此方法,依次得到与表4和表5的新数据矩阵tb和tc。由此得到用于文本聚类的最终变量值。
[0088]
s203:对所述至少一个矩阵分别进行均值聚类,获取所述因子子分类模型集合以及至少一个均值聚类距离值。
[0089]
其中,所述对所述至少一个矩阵分别进行均值聚类,获取所述因子子分类模型集合具体包括:把矩阵ta数据用spss进行k均值聚类,聚类数设置为3,得到第一个聚类结果集合1,该集合中的846个样本都分别分配到其所属的类型,即a类、b类或c类中的一种。另外还
获得了每个样本到其所属聚类的中心点的均值聚类距离值d
an
,(n为正整数,1≤n≤846)。同理,再依次分别用tb和tc数据聚类,得到集合2,集合3。至此得到基于因子得分聚类的三个结果的集合。每个集合都有846个成员,每个成员都有其分配所属的类型和到三个聚类中心点的均值聚类距离值d
an
、d
bn
、d
cn

[0090]
在其他一些可能实施的实施例中,所述将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应之前,所述方法还包括:
[0091]
预先构建所述中值距离子分类模型;
[0092]
相应地,所述预先构建中值距离子分类模型,具体包括:
[0093]
s301:获取不同书面语体类型对应的至少一个中值向量;
[0094]
其中,距离聚类可以基于多种数据完成,常见的有中值、均值、众数等。经对比和验算,从其中选出了区分度最为明显的数据——中值。新引入一个指标,命名为“中值距离”。“中值距离”聚类的基本原理是计算一个文本到a、b、c三类书面语体的中值的距离长度,其中最短的一类,即判断为该文本所属的书面语体类型。具体地,所述获取不同书面语体类型对应的至少一个中值向量是指用spss分别得到a、b、c三类书面语体各自的9个指标的中值向量。
[0095]
s302:根据预先配置的中值距离计算公式,计算输入的训练集距离所述至少一个中值向量的中值距离,确定最小的中值距离对应的书面语体类型为当前样本的书面语体类型,以此构建所述中值距离自分类模型。
[0096]
其中,所述中值距离计算公式可为:
[0097][0098]
其中t
in
表示第n个样本(1≤n≤846,n为正整数)第i个指标变量(1≤i≤9,i为正整数),z
ai
表示a类中第i个指标变量(1≤i≤9,i为正整数)的中值向量,p值为9,即9个指标变量。把第n个样本9个指标数据带入公式2,计算得到的z
an
即为该样本到a类书面语体的中值距离。以此类推,分别得到每个样本到b类书面语体和到c类书面语体的中值距离。通过比较判定每个样本的3个中值距离的最小值。该值所对应的a、b、c类书面语体类型,即判定为该文本所属聚类的类型。由此得到基于距离聚类的集合4。所述集合4即为中值距离子分类模型。
[0099]
s103:根据所述至少一个分类结果,确定所述待分类书面语体样本的书面语体类型。
[0100]
在本实施例中,所述至少一个分类结果是与所述子分类模型一一对应的,则所述分类结果的数量是由所述子分类模型的数量决定的。
[0101]
在一些可能实施的实施例中,所述分类结果为四个;对应的,所述根据所述至少一个分类结果,确定所述待分类书面语体样本的书面语体类型,具体包括:
[0102]
当至少三个所述分类结果一致时,确定当前所述一致的分类结果对应的书面语体类型为所述待分类书面语体样本的书面语体类型;
[0103]
当两个所述分类结果一致,且另外两个所述分类结果不一致时,确定当前所述一致的分类结果对应的书面语体类型为所述待分类书面语体样本的书面语体类型;
[0104]
当所述分类结果两两一致时,确定所述中值距离与所述至少一个均值聚类距中的最小值,所述最小值对应的书面语体类型即为所述待分类书面语体样本的书面语体类型。
[0105]
在其他一些可能实施的实施例中,所述书面语体类型的分类测试,具体包括召回率、精确率和f

测度值3个指标衡量,经测试,三种书面语体测试集分类结果如以下表格所示:
[0106] 记叙体说明体议论体精确率78.7%96.4%92.1%召回率96.8%96.0%72.3%f

测度值86.8%96.2%81.0%
[0107]
表5
[0108] 记叙体说明体议论体精确率0.7380.8970.829召回率0.9060.8750.654f

测度值0.8140.8860.731
[0109]
表6
[0110]
根据上述表格结果所示,可以看出,在训练集中,说明体的分类效果最好,无论是精确率还是召回率都达到了96%以上。记叙体的召回率较高,而议论体的精确率较高。从f

测度值看,总体值也达到了较为满意的效果,其中还是说明体值最高、记叙体分类的综合得分要高于议论体。表6测试集的分类结果数值总体较训练集略低,但分类效果的差异倾向与训练集是一致的。
[0111]
三种书面语体样本之间的误分情况在数据中表现出较为一致的规律。
[0112]
在训练集中,说明体误分为其他两类的数量都较低,显示出说明体语言使用总体上自成一派,不易与其他两类混淆。而记叙体与议论体之间的误分率非常明显,尤其是议论体误分为记叙体的比率是所有书面语体间误分最高的,占该书面语体类型样本总量的近四分之一(见表7)。这可能与议论体写作方法有关。议论体往往需要用大量例子来解释映证观点道理,即所谓“夹叙夹议”,而例子又往往是讲故事讲事件的记叙体模式写的,因此产生了书面语体模式混杂的复杂情况。
[0113]
在表8中虽然具体的比率值有差异,但类似的误分倾向也得到了测试集的支持(见表8)。说明这些差异反映了三种基础书面语体类型间的区别和联系的基本规律。
[0114][0115][0116]
表7训练集三种书面语体分类的交叉情况
[0117][0118]
表8测试集三种书面语体分类的交叉情况
[0119]
本发明的实施方式与现有技术相比存在的有益效果是:先获取待分类书面语体样本,然后将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应,最后根据所述至少一个分类结果,确定所述待分类书面语体样本的书面语体类型。通过预先构建所述书面语体类型分类模型,以自动确认所述待分类书面语体样本的书面语体类型,以解决了传统靠人工对其加以区分,而导致所述汉语书面语体类型的分类无法批量且自动的进行分类,进而使得书面语体类型的分类成本较高等技术问题,实现降低分类成本,提高分类效率的技术效果。
[0120]
对应于上文中的一种书面语体类型的分类方法实施例中所述的一种书面语体类型的分类装置,图3示出了本技术实施例一提供的一种书面语体类型的分类装置的结构框图,为了便于说明,仅示出了与本技术实施例相关的部分。
[0121]
参照图3,一种书面语体类型的分类装置300,所述装置包括:
[0122]
获取模块301,用于获取待分类书面语体样本;
[0123]
输入模块302,用于将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应;
[0124]
确定模块303,用于根据所述至少一个分类结果,确定所述待分类书面语体样本的书面语体类型。
[0125]
可选地,所述至少一个子分类模型包括:
[0126]
因子子分类模型集合以及中值距离子分类模型。
[0127]
可选地,所述装置300还包括:
[0128]
第一构建模块,用于预先构建所述因子子分类模型集合;
[0129]
相应的,所述第一构建模块具体用于:
[0130]
对预先配置的训练集进行因子分析,获取分析数据;
[0131]
根据所述分析数据与预先配置的矩阵计算公式,确认至少一个矩阵;
[0132]
对所述至少一个矩阵分别进行均值聚类,获取所述因子子分类模型集合以及至少一个均值聚类距离值。
[0133]
可选地,所述装置300还包括:
[0134]
第二构建模块,用于预先构建所述因子子分类模型集合;
[0135]
相应的,所述第二构建模块具体用于:
[0136]
获取不同书面语体类型对应的至少一个中值向量;
[0137]
根据预先配置的中值距离计算公式,计算输入的训练集距离所述至少一个中值向量的中值距离,确定最小的中值距离对应的书面语体类型为当前样本的书面语体类型,以此构建所述中值距离自分类模型。
[0138]
可选地,所述中值距离计算公式为:
[0139]
其中,a表示a类书面语体类型,z
an
为所述待分类书面语体样本距离所述a类书面语体类型的中值距离,所述t
in
表示第n个样本且第i个指标变量,z
ai
表示a类中第i个指标变量的中值向量,p值指标变量,1≤n≤846,n为正整数,1≤i≤9,i为正整数。
[0140]
可选地,所述分类结果为四个;对应的,所述确定模块303具体用于:
[0141]
当至少三个所述分类结果一致时,确定当前所述一致的分类结果对应的书面语体类型为所述待分类书面语体样本的书面语体类型;
[0142]
当两个所述分类结果一致,且另外两个所述分类结果不一致时,确定当前所述一致的分类结果对应的书面语体类型为所述待分类书面语体样本的书面语体类型;
[0143]
当所述分类结果两两一致时,确定所述中值距离与所述至少一个均值聚类距中的最小值,所述最小值对应的书面语体类型即为所述待分类书面语体样本的书面语体类型。
[0144]
可选地,所述装置300还包括:
[0145]
处理模块,用于预先对构建所述因子子分类模型集合的数据进行预处理。
[0146]
需要说明的是,上述装置/模块之间的信息交互、执行过程等内容,由于与本技术的一种书面语体类型的分类方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见一种书面语体类型的分类方法实施例部分,此处不再赘述。
[0147]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将所述书面语体类型的分类方法的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述中各功能模块的具体工作过程,可以参考前述一种书面语体类型的分类方法实施例中的对应过程,在此不再赘述。
[0148]
图4是本技术实施例三提供的电子设备400的结构示意图。如图4所示,电子设备400包括:处理器402、存储器401以及存储在存储器401中并可在处理器402上运行的计算机程序403。处理器402的个数是至少一个,图4以一个为例。处理器402执行计算机程序403时实现上述一种书面语体类型的分类方法的实现步骤,即图1或者图2所示的步骤。
[0149]
电子设备400的具体实现过程可以参见上文中的书面语体类型的分类方法实施例。
[0150]
示例性的,计算机程序403可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在存储器401中,并由处理器402执行,以完成本技术。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序403在终端设备400中的执行过程。
[0151]
电子设备400可以是桌上型计算机、笔记本、掌上电脑、主控等计算设备,也可以是相机、手机等具有图像采集功能和数据处理功能的设备,还可以是触控显示设备。电子设备400可包括,但不仅限于,处理器以及存储器。本领域技术人员可以理解,图4仅是电子设备400的示例,并不构成对电子设备400的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备400还可以包括输入输出设备、网络接入设备、总线等。
[0152]
处理器402可以是cpu(central processing unit,中央处理单元),还可以是其他通用处理器、dsp(digital signal processor,数字信号处理器)、asic(application specific integrated circuit,专用集成电路)、fpga(field

programmable gate array,现成可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0153]
存储器401可以是电子设备400的内部存储单元,例如硬盘或内存。存储器401也可以是终端设备400的外部存储设备,例如电子设备400上配备的插接式硬盘、smc(smart media card,智能存储卡)、sd卡(secure digital,安全数字卡)、flash card(闪存卡)等。进一步地,存储器401还可以既包括电子设备400的内部存储单元也包括外部存储设备。存储器401用于存储操作系统、应用程序、引导装载程序、数据以及其他程序等,例如所述计算机程序403的程序代码等。存储器401还可以用于暂时地存储已经输出或者将要输出的数据。
[0154]
本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上文中的一种书面语体类型的分类方法实施例中的步骤。
[0155]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述自动一种书面语体类型的分类方法实施例中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述一种书面语体类型的分类方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、rom(read

only memory,只读存储器)、ram(random access memory,随机存取存储器)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
[0156]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0157]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0158]
在本技术所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0159]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0160]
以上所述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1