一种用于构建标题识别模型的方法、装置、电子设备以及存储介质与流程

文档序号:25098125发布日期:2021-05-18 22:20阅读:100来源:国知局
一种用于构建标题识别模型的方法、装置、电子设备以及存储介质与流程

1.本申请涉及计算机技术,特别地涉及一种用于构建标题识别模型的方法、装置、电子设备以及存储介质。


背景技术:

2.传媒企业往往存储了大量非结构化的、版面复杂的期刊数据,这些期刊数据可以被存储在例如pdf格式或indd格式的文档中。
3.很多情况下,企业需要对这些期刊数据进行结构化数据处理,例如:将期刊数据的标题、正文、作者、日期中的一种或多种信息提取归类,以便于后续对期刊数据的检索查阅。
4.标题提取是结构化数据处理的一部分。在一种传统方案中,可以基于文章中的字体字号信息和文字之间的相邻位置信息来区分标题与正文,并提取标题。但如果标题的字号、字体与正文相同,并且文中各处的相邻位置也相同,则很难提取到文档标题。


技术实现要素:

5.依据本申请的第一方面,提供了一种用于构建标题识别模型的方法,包括:
6.对样本文档进行解析,得到所述样本文档的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
7.基于所述多个文本块中的每个文本块的文本内容提取出所述样本文档的标题文本块并作为正样本置入训练集;
8.将所述样本文档中除标题文本块以外的文本块确定为非标题文本块,并选择所述样本文档的非标题文本块并作为负样本置入所述训练集;
9.针对所述训练集中的任一样本,基于所述样本所对应的解析信息中的不同维度上的特征信息构建所述样本的特征向量;以及
10.依据所述训练集中多个样本的特征向量构建标题识别模型。依据本申请的第二方面,提供了一种使用第一方面所构建的标题识别模型来识别标题的方法:
11.对待识别文档进行解析,得到所述待识别文档中的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
12.使用所述多个文本块中每个文本块所对应的解析信息中的不同维度上的特征信息构建对应文本块的特征向量;
13.依据所述标题识别模型对所述多个文本块中每个文本块的特征向量进行预测,以在所述多个文本块中确定出标题文本块。
14.依据本申请的第三方面,提供了一种用于构建标题识别模型的装置,包括:
15.样本解析模块,被配置为对样本文档进行解析,得到所述样本文档的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
16.正样本获取模块,被配置为基于所述多个文本块中的每个文本块的文本内容提取出所述样本文档的标题文本块并作为正样本置入训练集;
17.负样本获取模块,被配置为将所述样本文档中除标题文本块以外的文本块确定为非标题文本块,并选择所述样本文档的非标题文本块并作为负样本置入所述训练集;
18.第一特征向量构建模块,被配置为针对所述训练集中的任一样本,基于所述样本所对应的解析信息中的不同维度上的特征信息构建所述样本的特征向量;以及
19.模型构建模块,被配置为依据所述训练集中多个样本的特征向量构建标题识别模型。
20.依据本申请的第四方面,提供了一种使用第三方面所构建的标题识别模型来识别标题的装置,包括:
21.文档解析模块,被配置为对待识别文档进行解析,得到所述待识别文档中的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
22.第二特征向量构建模块,被配置为使用所述多个文本块中每个文本块所对应的解析信息中的不同维度上的特征信息构建对应文本块的特征向量;
23.标题识别模块,被配置为依据所述标题识别模型对所述多个文本块中每个文本块的特征向量进行预测,以在所述多个文本块中确定出标题文本块。
24.依据本申请的第五方面,提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为能够执行所述指令,以实现如第一方面所述的方法,或第二方面所述的方法。
25.依据本申请的第六方面,提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令被计算机执行时能够执行如第一方面所述的方法,或第二方面所述的方法。
26.本申请的实施例公开了一种用于构建标题识别模型的方法。该方法使用文本块在多个维度的特征来构建正负样本的特征向量,并训练标题识别模型,使标题识别模型可以通过这些样本学习到标题文本块的特征和非标题文本块的特征。该标题识别模型可以实现对文档标题的自动化识别,而不局限于通过字号、字体来区分标题和正文。
附图说明
27.图1是本申请一示例性实施例示出的标题识别模型的构建方法的一种流程图;
28.图2是本申请一示例性实施例示出的indd格式文档的版面的一种示意图;
29.图3是本申请一示例性实施例示出的文本块的解析信息的一种示意图;
30.图4是本申请一示例性实施例示出的确定正负样本的一种流程图;
31.图5是本申请一示例性实施例示出的标题识别方法的一种流程图;
32.图6是本申请一示例性实施例示出的标题识别模型的构建装置的一种示意图;
33.图7是本申请一示例性实施例示出的标题识别装置的一种示意图;
具体实施方式
34.现在将参照若干示例性实施例来论述本申请的内容。应当理解,论述了这些实施
例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本申请的内容,而不是暗示对本申请的范围的任何限制。
35.如本文中所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。术语“另一个实施例”要被解读为“至少一个其他实施例”。如本文中所使用的,术语“任务”可以指任何一种可执行单元,包括但不限于进程、线程、模块或其集合。
36.本申请的实施例提供了一种用于构建标题识别模型的方法,以及应用所述用于构建标题识别模型的方法的设备。参见图1,根据一示例性实施例示出了一种用于构建标题识别模型的方法的示意图,包括以下步骤s101~步骤s105。
37.在步骤s101中,对样本文档进行解析,得到所述样本文档中每个文本块的解析信息,所述解析信息包含中不同维度上的特征信息,所述特征信息至少包括文本内容;
38.本实施例方案可以应用于一类特定类型的文档,该特定类型是:文档中包括多个文本块,且记录了每个文本块的文本内容和格式信息。
39.文档所包括的文本块可能包含有标题内容,即为标题文本块,也可能包含有正文内容或其他内容,本实施例将未包含标题内容的文本块统称为非标题文本块。
40.参见图2,是indd格式文档的版面示意图。indd格式的文档即为此类特定类型的文档。indd文档是使用adobe indesign创建的专业页面布局项目。文档中可以包括文档页面的格式布局,以及文档页面的文本内容等信息,这一文件格式通常用于创建和格式化书籍,杂志,报纸,传单和小册子等。
41.在实施本实施例之前,可在indd文档库中选择出一定数量的文档,使用这些文档作为有监督学习的训练样本来训练标题识别模型,这些被选择出的文档可以被称为样本文档。
42.在一些实施例中,当样本文档是indd格式的文件时,对样本文档的解析可以采用如下步骤:
43.(1

1)调用indesignserver服务,将indd格式的文件转换为idml文件;
44.(1

2)提取出idml文件中的xml文件,解析出所述xml文件中所包含的信息并存入数据库。
45.对文档进行解析后,会提取出该文档所包含的多个文本块各自的解析信息。例如,若一个样本文档包含了10个文本块,则可以解析出对应的10组解析信息。每组解析信息均至少包括文本块本身的格式信息以及文本块中记载的文本内容信息。
46.参见图3,是解析后得到的部分解析信息。图3中的每一行表示一个文本块,每一列表示文本块的一种解析信息。如:第一列“content”表示文本块的文本内容、第二列“index_order”表示文本块的索引号

等等。
47.在步骤s102中,基于所述多个文本块中的每个文本块所述的文本内容提取出所述样本文档的标题文本块并作为正样本置入确定为训练集内的正样本
48.在步骤s103中,将所述样本文档中除标题文本块以外的文本块确定为非标题文本块,选择所述样本文档的非标题文本块并确定为作为负样本置入训练集内的负样本;
49.在一些实施例中,可以由开发人员阅览样本文档,并人工提供样本文档的标题,再
使用该人工提供的标题在对应样本文档的各个文本块的解析信息中进行匹配,以确定其中的标题文本块。
50.具体而言,该匹配过程可以包括以下步骤(2

1)~步骤(2

2):
51.(2

1)利用相似度分析算法对比每个文本块中的文本内容与人工提供的标题内容的相似度;
52.(2

2)在相似度大于预定阈值时,将对应的文本块确定为所述样本文档的标题文本块。
53.参见图4所示,以解析indd文件为例,将人工标注数据(人工提供的标题文本内容)与indd解析数据(indd文件中解析出的文本块的文本内容)进行文本相似度比对,若两者的相似值大于预先设定的阈值,则将这一文本块作为正样本,否则将这一文本块加入负样本候选集,负样本候选集中的样本都可以视为非标题文本块。后续可在负样本候选集中随机选择一些文本块作为负样本。
54.在一些实施例中,在计算相似度时,可以计算文本块中的文本内容与人工提供的标题内容的jaccard(杰卡德)相似性系数,以确定标题文本块。利用相似度计算可以批量分析样本文档,快速得到一批文档的标题文本块。
55.其中,标题文本块不一定是包含完整标题的文本块,也可能是包含部分标题的文本块。在创建文档页面时,一个完整标题的不同部分可能被分配在不同文本块中。
56.举例说明:通过人工阅览后,其中一个文档的标题被记录为“这才是当季最流行的美妆!”。该文档被解析后,得到文本块a中包括文本内容:“这才是当季最流行的”,文本块b中包括文本内容:“美妆!”。利用相似度分析算法计算该文档的所有文本块的相似度系数。其中,在所设置的相似度阈值较低时,文本块a和文本块b都会被识别为标题文本块;在所设置的相似度阈值中等时,其中一个文本块a被识别为标题文本块;在所设置的相似度阈值较高时,文本块a和文本块b都不被识别为标题文本块。
57.相似度阈值可以基于实际应用场景的需求进行相应调整,相似度阈值设置得越高,文本块的文本内容需要越“相似”于人工提供的标题文本内容,才能被确定为标题文本块。
58.在步骤s104中,针对所述训练集中的任一样本,基于所述样本所对应的解析信息中的不同维度上的特征信息所述特征信息构建所述样本的特征向量;
59.解析信息中可能包括很多维度的信息,需选择其中几个指定维度的信息,确定为训练样本中的特征信息。
60.在一些实施例中,指定维度可以包括:文本长度维度、索引号维度、对齐方向维度、段落说明维度、字号大小维度和字体方向维度等。
61.在基于不同维度的特征信息构建特征向量时,可以利用预先设定的转换规则将所述不同维度的特征信息分别转换为数字表示,将各个数字表示所集合成的向量确定为特征向量。
62.下面以特征信息包括文本长度、索引号、对齐方向、段落说明、字号大小和字体方向这6个维度为例,说明将特征信息分别转换为数字表示的方式:
63.文本长度:将文本块中文字内容的长度数值作为对应的数字表示(去除文本内容的收尾空格后的字符长度)。
64.索引号:针对一篇文章或期刊等文档,索引号是文档创建时为其中的各个文本块从前向后分配的序号。例如,包含标题的文本块的索引号是1,所临近的下方小标题的文本块的索引号是2,小标题下方的第一段正文的文本块的索引号是3,等等。文本块的索引号不一定能表示该文本块是标题或正文,但可以表示出不同文本块之间的位置关系,即,索引号相邻的文本块一般也是位置相邻的。在将索引号转换为数字表示时,可以将索引号本身作为它的数字表示。
65.对齐方向:对齐方向一般有左对齐(leftalign)、右对齐(rightalign)和中间对齐(centeralign),分别设定这三种对齐方式所对应的数字,以将文本块的对齐方向特征转换为数字表示。例如:“左对齐”可以被转换为数字0,“右对齐”可以被转换为数字1,“中间对齐”可以被转换为数字2。
66.段落说明:对满足数组['^.*(引言|导语|引文).*$','^.*目录.*$','^^.*((?<![次小])标题|大标).*$','^.*(作者|署名).*$','^.*(图注|图片|说明|图中提要|图说).*$','^.*(广告语|赞助商).*$','^.*(正文|内文|文章内容|提炼语|引语).*$','^.*(下标|页码|图号).*$','^.*(问答|回答|问题|问话|采访|专访|评语|th问).*$','^.*链接.*$','^.*封面.*$','^.*专栏.*$','^.*(小标|二标|次标题).*$','^.*题标.*$','^英文细体.*$']中的正则表达式,取匹配到的序号。不在其中的,取数组长度加1的值。
[0067]
字号大小:取字号本身。缺失值记为

1。
[0068]
字体方向:对“lefttorightdirection”、空字符等这样的内容进行编码,转化为数字。
[0069]
在一些实施例中,还可在样本的特征向量中加入样本的上下文信息。步骤如下:
[0070]
(3

1)确定所述样本的索引号,将所述索引号的上一索引号所对应的文本块确定为所述样本的样本上文,将所述索引号的下一索引号所对应的文本块确定为所述样本的样本下文;
[0071]
(3

2)基于所述样本的解析信息,所述样本上文的解析信息和所述样本下文的解析信息共同构建所述样本的具有上下文特征的特征向量。
[0072]
一个文本块的上下文特征,是指比该文本块索引号大一个或小一个的文本块的特征。比如一个文本块的索引号是6,它的上文特征就是索引号为5的文本块所具有的特征。它的下文特征就是索引号为7的文本块所具有的特征。
[0073]
下面举例说明构建特征向量的方式:对于文本块x,经过解析后,可以得到其包括的文本内容是“爱马仕美妆终于来了”;索引号是“1”;对齐方向是“空”;段落说明是“头盘大标题”;字号大小是“空”;字体方向是“lefttorightdirection”。
[0074]
以上6个不同维度的特征信息可以形成一条数据:{"文本内容":"爱马仕美妆终于来了!","索引号":"1","对齐的方向":"","段落说明":"头盘大标题","字号大小":"","字体方向":"lefttorightdirection"}。
[0075]
依据预设的数字表示转换规则,文本块x所构建出的特征向量是:[10,1,0,2,

1.0,0]。具体构建方式如下:
[0076]
文本内容:“爱马仕美妆终于来了!”,其中共有10个字符,则对应可得到的数字表示的文本长度特征是“10”;
[0077]
索引号:“1”,对应可得到的数字表示的索引号是“1”;
[0078]
对齐方向:
“”
,对应可得到的数字表示的对齐方向是“0”;
[0079]
段落说明:“头盘大标题”,使用“头盘大标题”在预先设置的正则表达式中进行匹配,匹配到“^^.*((?<![次小])标题|大标).*$”,则对应为数字2;
[0080]
字号大小:对应为数字

1.0;
[0081]
字体方向:"lefttorightdirection"对应为数字0。
[0082]
将上述数字表示集合为向量,即为特征向量[10,1,0,2,

1.0,0]。
[0083]
进一步的,文本块x的上文特征为{"文本内容":"爱马仕全球艺术总监......","索引号":"0","对齐的方向":"","段落说明":"内文一级小标题内文一级小标题内文一级小标题内文一级小标题内文","字号大小":"","字体方向":"lefttorightdirection"},转换为数字表示为[1163,0,0,12,

1.0,0]。
[0084]
下文特征为{"文本内容":"期盼已久","索引号":"2","对齐的方向":"","段落说明":"内文小","字号大小":"18","字体方向":"lefttorightdirection"},转换为数字表示为[4,2,0,6,18.0,0]。
[0085]
则文本块x结合了上下文特征后构建出的特征向量是:[10,1,0,2,

1.0,0,1163,0,0,12,

1.0,0,4,2,0,6,18.0,0]。
[0086]
在步骤s105中,依据所述训练集中各个样本的特征向量构建标题识别模型。
[0087]
该步骤即训练标题识别模型的步骤,通过上述步骤s101~步骤s103准备好训练集后,可以使用该训练集中的多个训练样本(正样本和负样本)进行模型训练,以构建出标题识别模型。
[0088]
具体地,每个训练样本均包括样本特征(特征向量)和样本标签(通常来说,正样本的样本标签是1,负样本的样本标签是0),训练方式是有监督学习。通过有监督学习,标题识别模型分别可以学习到标题文本块的特征信息和非标题文本块的特征信息。由此,本实施例所构建的标题识别模型可以用于对同类型的文档(例如indd格式的文档)特征信息对标题进行自动化识别。
[0089]
在构建标题识别模型后,还可将一部分样本作为测试集,使用该标题识别模型对测试集进行预测,以检测该标题识别模型的性能,从而对模型进行进一步的迭代调整,最终得到符合需求的可用模型。
[0090]
标题识别模型可被应用于实际的标题识别场景中,对文档的标题进行识别。参见图5,是本申请一实施例公开的标题识别方法,该标题识别方法基于上述构建完成的标题识别模型,包括以下步骤s501~步骤s503:
[0091]
在步骤s501中,对待识别文档进行解析,得到所述待识别文档中的多个文本块中的每个文本块的解析信息,所述解析信息包含中不同维度上的特征信息,所述特征信息至少包括文本内容;
[0092]
在步骤s502中,使用所述多个文本块中每个文本块所对应的解析信息中的不同维度上的特征信息构建对应文本块的特征向量;
[0093]
待识别文档即需要进行标题识别的文档,其中,对于待识别文档进行解析的步骤以及使用每个文本块的解析信息构建对应的特征向量的步骤可以参考上文对样本文档的相关说明。待识别文档需要选择与样本文档同样维度的特征信息构建成特征向量。
[0094]
在步骤s503中,依据所述标题识别模型对所述多个文本块中每个文本块的特征向
量进行预测,以在各个文本块中确定出标题文本块。
[0095]
在一些实施例中,一个待识别文档可以包括多个标题文本块,
[0096]
在各个文本块中确定出标题文本块后,还需要确定出所述待识别文档的全部标题文本块,根据标题文本块的解析信息中的索引号将标题文本块中的标题内容进行拼接。
[0097]
由上所述,本申请的实施例公开了一种标题识别模型的构建方法。先获取文档的各个文本块,再利用文档的文本块在多个维度的特征来构建正负样本并训练标题识别模型,使标题识别模型可以通过这些正负样本学习到标题文本块的特征和非标题文本块的特征。该标题识别模型可以实现对文档标题的自动化识别,而不局限于通过字号、字体来区分标题和正文。
[0098]
相应于上述方法实施例,本申请实施例还提供一种标题识别模型的构建装置,参见图6所示,所述装置可以包括:
[0099]
样本解析模块,被配置为对样本文档进行解析,得到所述样本文档的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
[0100]
正样本获取模块,被配置为基于所述多个文本块中的每个文本块的文本内容提取出所述样本文档的标题文本块并作为正样本置入训练集;
[0101]
负样本获取模块,被配置为将所述样本文档中除标题文本块以外的文本块确定为非标题文本块,并选择所述样本文档的非标题文本块并作为负样本置入所述训练集;
[0102]
第一特征向量构建模块,被配置为针对所述训练集中的任一样本,基于所述样本所对应的解析信息中的不同维度上的特征信息构建所述样本的特征向量;以及
[0103]
模型构建模块,被配置为依据所述训练集中多个样本的特征向量构建标题识别模型。
[0104]
相应于上述方法实施例,本申请实施例还提供一种标题识别模型的构建装置,参见图7所示,所述装置可以包括:
[0105]
文档解析模块,被配置为对待识别文档进行解析,得到所述待识别文档中的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
[0106]
第二特征向量构建模块,被配置为使用所述多个文本块中每个文本块解析信息中的所对应的不同维度上的特征信息构建对应文本块的特征向量;
[0107]
标题识别模块,被配置为依据所述标题识别模型对所述多个文本块中每个文本块的特征向量进行预测,以在所述多个文本块中确定出标题文本块。
[0108]
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0109]
本申请实施例还提供一种电子设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述标题识别模
型的构建方法,所述方法包括:
[0110]
对样本文档进行解析,得到所述样本文档的多个文本块中的每个文本块的解析信息,所述解析信息包含不同维度上的特征信息,所述特征信息至少包括文本内容;
[0111]
基于所述多个文本块中的每个文本块的文本内容提取出所述样本文档的标题文本块并作为正样本置入训练集;
[0112]
将所述样本文档中除标题文本块以外的文本块确定为非标题文本块,并选择所述样本文档的非标题文本块并作为负样本置入所述训练集;
[0113]
针对所述训练集中的任一样本,基于所述样本所对应的解析信息中的不同维度上的特征信息构建所述样本的特征向量;以及
[0114]
依据所述训练集中多个样本的特征向量构建标题识别模型。
[0115]
本申请实施例还提供一种计算机可读介质,其上存储有计算机可读指令,所述指令被执行时可实施本申请各实施例的方法。
[0116]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd

rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁存储设备存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0117]
根据需要,本申请各实施例的系统、方法和装置可以实现为纯粹的软件(例如用java和sql来编写的软件程序),也可以根据需要实现为纯粹的硬件(例如专用asic芯片或fpga芯片),还可以实现为结合了软件和硬件的系统(例如存储有固定代码的固件系统或者带有通用存储器和处理器的系统)。
[0118]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
[0119]
以上所述仅是本申请实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请实施例的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1