文档层级划分方法、文档层级划分装置和可读存储介质与流程

文档序号:20579536发布日期:2020-04-29 01:22阅读:280来源:国知局
文档层级划分方法、文档层级划分装置和可读存储介质与流程

本发明涉及文档排版技术领域,具体而言,涉及一种文档层级划分方法、一种文档层级划分装置和一种计算机可读存储介质。



背景技术:

当前图书出版领域中,由于传统的出版流程及工艺主要关注图书内容,导致在作者、编辑、排版、印刷等环节流通的各类文档主要包括图书的内容,图书大纲结构很少包含或结构混乱,无法满足自动排版或其他数字出版的要求。如何能够满足编辑出版人员对图书内容进行快速逻辑检查、自动排版、结构化加工等方面的需求,成为亟需解决的技术问题。



技术实现要素:

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此,本发明的第一方面提供了一种文档层级划分方法。

本发明的第二方面提供了一种文档层级划分装置。

本发明的第三方面提供了一种计算机可读存储介质。

为了实现上述目的,根据本发明的第一方面的技术方案,提供了一种文档层级划分方法,包括:获取文档中的标题,并提取标题的文本特征;根据文本特征对标题进行分类,以确定标题类别;根据标题类别和排列顺序确定标题的级别;其中,文本特征包括:关键字信息、词义信息和字形信息。

在该技术方案中,在需要对文档进行排版布局前,获取文档中的所有标题,并提取标题的文本特征,根据提取的文本特征对获取到的标题进行分类从而确定每个标题的类别,根据标题的类别和排列顺序确定标题的级别,根据标题的级别对文档进行排版。其中,排列顺序为标题在文档中出现的先后顺序。本文特征包括关键字信息、词义信息和字形信息。通过确定文档中标题的类型以及各个类型标题出现的顺序可以准确的对文档中的标题级别进行划分,实现了自动识别文档中标题的层级关系,根据标题的层级关系可以快速提取出文档的大纲结构。满足了编辑出版人员对图书内容逻辑的快速检查、自动排版、结构化加工等方面的需求。

在上述任一技术方案中,根据文本特征对标题进行分类的步骤,具体包括;标题的词义信息不符合预设词义确定标题为未定级标题;根据关键字信息对未定标题进行分类,以确定项目类标题和数字类标题;根据字形信息对数字类标题进行分类,以确定数字类标题的字形类别。

在该技术方案中,根据标题的词义信息是否符合预设词义确定标题是否为未定级标题,具体为当标题的词义符合预设词义则确定标题为定级标题,如果标题的词义不符合预设词义则确定标题为未定级标题。对未定级的标题根据关键字信息进行分类,将未定的标题分类为项目类标题和数字类标题,根据字形信息对数据子类标题进行分类,确定每个数字类标题的字形类别。即现根据词义确定出文档中的大标题,根据关键字信息和字形信息对文档中每章中的子标题进行两次分类,实现了根据文本特征对在文本当中采集到的标题进行分类,确定文档中需要的确定界别的标题。

可以理解的是,根据标题的词义确定文档中的大标题,例如章节标题:“第一章,经济学视角下的人力资源概念”。对大标题下的子标题中是否存在关键字确定子标题是否为项目类的标题,具体例如:查找标题中是否含有关键字“项目”等,如果标题中包括关键字“项目”,则确定标题为项目类标题,其余为数字类标题。根据字形信息对数字类标题进行分类,具体例如:将为带括号的数字标题分为一类,再将不带有括号的数字分类一类。其中,值得注意的是汉字形式的数字例如“一”、“二”也属于数字类标题。

在上述任一技术方案中,根据标题类别和排列顺序确定标题的级别的步骤包括:根据标题类别确定对未定级标题的第一调整顺序;按照第一调整顺序,根据排列顺序依次确定项目类标题和数字类标题的级别。

在该技术方案中,未定级的标题分为项目类标题和数字类标题,对项目类标题和数字类标题设置第一调整顺序,确定是先对项目类标题进行调整还是先对数字类标题进行调整。按照第一调整顺序,按照标题的排列顺序对项目类标题和数字类标题进行标题级别调整。

在上述任一技术方案中,第一调整顺序为确定项目类标题的级别后确定数字类标题的级别。

在该技术方案中,第一调整顺序为先对项目类标题进行调正级别,再对数字类标题进行调整级别。在文档中项目类标题通常级别相对于数字类的要高,先确定级别较高的标题可以使标题进行定级时不需要对较高级别的标题重新进行设置等级,在较高级别的标题后对较低级别的标题进行确定即可,节省了整体调整标题级别的步骤,提高调整效率使调整更加合理。

可以理解的是,第一调整顺序可以根据用户意愿或者文档的实际情况进行调整。

在上述任一技术方案中,确定项目类标题的级别的步骤,具体包括:根据排列顺序对项目类标题进行划分层级,以使项目类标题为定级标题,并确定定级标题的级别。

在该技术方案中,根据排列顺序对项目类的标题定级,使项目类标题为定级标题并且确定每个项目类的标题的级别。标题在文档中的出现顺序可以一定程度代表级别的高低,项目类标题均为同一种标题,则认为项目类标题出现在文档中先后顺序可以确定项目类标题的级别高低。

在上述任一技术方案中,确定数字类标题的级别的步骤,具体包括:根据排列顺序查找位于数字类标题之前的定级标题,确定与数字类标题最接近的定级标题的级别;根据定级标题的级别确定数字类标题的级别。

在该技术方案中,在对标题根据第一调整顺序进行调整级别时,数字类标题为最后进行调整的标题。确定数字标题的级别时,可以查找数字标题相邻的定级标题的级别,根据相邻的定级标题的级别确定该数字标题的级别。具体例如:需要查找标题为“1”的标题级别,则向前查找已定级的定级标题“(一)”,并确定该定级标题的级别为二级,则确定标题为“1”的标题的级别为三级。

可以理解的是,在进行调整标题的等级时,为先确定级别较高的标题的等级再确定级别较低的标题的等级,向带定级的数字标题的文档前面查找定级标题,能提高查找到数字标题最接近的定级标题的效率。

在上述任一技术方案中,文档划分方法还包括:根据字形类别和预设字形类别顺序确定数字类标题的第二调整顺序;按照第二调整顺序,根据定级标题的级别和排列顺序依次确定每个字形类别的数字类标题的级别。

在该技术方案中,根据字形信息将数字类标题分为多种字形类别,对多种字形类别设置相应的第二调整顺序,在对数字类标题进行定级时,按照第二调整顺序对每种不同的字形类别的数字标题进行定级。按照文档的标题的字形使用习惯对多种字形类别进行设置第二调整顺序。通过第二调整顺序对不同字形类别的数字类标题进行调整,实现了按照级别高低依次进行调整,提高了级别调整的效率。

可以理解的是,数字标题包括“一”、“(一)”、“1”、“(1)”、“1)”这几种,则根据文档中的使用习惯对第二调整顺序进行设置,具体例如:如果文档中习惯将汉字的数字标题设置在前面,则按照“一”、“(一)”、“1”、“(1)”、“1)”做为第二调整顺序。

在上述任一技术方案中,文档划分方法还包括:根据预设标题级别对每个标题的级别进行调整。

在该技术方案中,对从文档中提取的标题的级别进行统计和调整,在调整完成的级别可能存在缺级的问题,则将缺少的等级删除,并依次对后面较低的级别进行提升级别,使文档中的标题更加准确,使分级后的文档满足进行快速逻辑检查、自动排版以及结构化加工的需求。

根据本发明的第二方面的技术方案,提供了一种文档层级划分装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序;计算机程序被处理器执行时实现如上述任一技术方案中的文档划分方法的步骤。该文档层级划分装置具有上述任一技术方案的文档划分方法所具有的一切有益效果,在此不再赘述。

根据本发明的第三方面的技术方案,提供了一种计算机可读存储介质,计算机可读存储介质上存储有控制程序,控制程序被处理器执行时实现如上述任一项技术方案中的文档划分方法的步骤。因此该计算机存储介质具有上述任一技术方案的文档划分方法所具有的一切有益效果,在此不再赘述。

本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1示出了根据本发明的一个实施例的文档层级划分方法的流程示意图;

图2示出了根据本发明的另一个实施例的文档层级划分方法的流程示意图;

图3示出了根据本发明的再一个实施例的文档层级划分方法的流程示意图;

图4示出了根据本发明的又一个实施例的文档层级划分方法的流程示意图;

图5示出了根据本发明的又一个实施例的文档层级划分方法的流程示意图;

图6示出了根据本发明的又一个实施例的文档层级划分方法的流程示意图;

图7示出了根据本发明的又一个实施例的文档层级划分方法的流程示意图;

图8示出了根据本发明的又一个实施例的文档层级划分方法的流程示意图;

图9示出了根据本发明的又一个实施例的文档层级划分方法的流程示意图;

图10示出了根据本发明的一个实施例的文档层级划分装置的示意框图;

图11示出了根据本发明的一个实施例中对文档设置标签的截图示例。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。

下面参照图1至图11描述根据本发明一个实施例的文档层级划分方法、文档层级划分装置和计算机可读存储介质。

实施例一:

如图1所示,本发明的一个实施例中,提供一种文档层级划分方法,包括:

步骤s102,获取文档中的标题,并提取标题的文本特征;

步骤s104,根据文本特征对标题进行分类,以确定标题类别;

步骤s106,根据标题类别和排列顺序确定标题的级别;

其中,文本特征包括:关键字信息、词义信息和字形信息。

在该实施例中,在需要对文档进行排版布局前,获取文档中的所有标题,并提取标题的文本特征,根据提取的文本特征对获取到的标题进行分类从而确定每个标题的类别,根据标题的类别和排列顺序确定标题的级别,根据标题的级别对文档进行排版。其中,排列顺序为标题在文档中出现的先后顺序。本文特征包括关键字信息、词义信息和字形信息。通过确定文档中标题的类型以及各个类型标题出现的顺序可以准确的对文档中的标题级别进行划分,实现了自动识别文档中标题的层级关系,根据标题的层级关系可以快速提取出文档的大纲结构。实现了满足编辑出版人员对图书内容逻辑的快速检查、自动排版、结构化加工等方面的需求。

如图2所示,在上述实施例中,根据文本特征对标题进行分类的步骤,具体包括;

步骤s202,标题的词义信息不符合预设词义确定标题为未定级标题;

步骤s204,根据关键字信息对未定标题进行分类,以确定项目类标题和数字类标题;

步骤s206,根据字形信息对数字类标题进行分类,以确定数字类标题的字形类别。

在该实施例中,根据标题的词义信息是否符合预设词义确定标题是否为未定级标题,具体为当标题的词义符合预设词义则确定标题为定级标题,如果标题的词义不符合预设词义则确定标题为未定级标题。对未定级的标题根据关键字信息进行分类,将未定的标题分类为项目类标题和数字类标题,根据字形信息对数据子类标题进行分类,确定每个数字类标题的字形类别。即现根据词义确定出文档中的大标题,根据关键字信息和字形信息对文档中每章中的子标题进行两次分类,实现了根据文本特征对在文本当中采集到的标题进行分类,确定文档中需要的确定界别的标题。

可以理解的是,根据标题的词义确定文档中的大标题,例如章节标题:“第一章,经济学视角下的人力资源概念”。对大标题下的子标题中是否存在关键字确定子标题是否为项目类的标题,具体例如:查找标题中是否含有关键字“项目”等,如果标题中包括关键字“项目”,则确定标题为项目类标题,其余为数字类标题。根据字形信息对数字类标题进行分类,具体例如:将为带括号的数字标题分为一类,再将不带有括号的数字分类一类。其中,值得注意的是汉字形式的数字例如“一”、“二”也属于数字类标题。

如图3所示,在上述任一实施例中,根据标题类别和排列顺序确定标题的级别的步骤包括:

步骤s302,根据标题类别确定对未定级标题的第一调整顺序;

步骤s304,按照第一调整顺序,根据排列顺序依次确定项目类标题和数字类标题的级别。

在该实施例中,未定级的标题分为项目类标题和数字类标题,对项目类标题和数字类标题设置第一调整顺序,确定是先对项目类标题进行调整还是先对数字类标题进行调整。按照第一调整顺序,按照标题的排列顺序对项目类标题和数字类标题进行标题级别调整。

实施例二:

如图4所示,本发明的一个实施例中,提供一种文档层级划分方法,包括:

步骤s402,获取文档中的标题,并提取标题的文本特征;

步骤s404,标题的词义信息不符合预设词义确定标题为未定级标题;

步骤s406,根据关键字信息对未定标题进行分类,以确定项目类标题和数字类标题;

步骤s408,根据排列顺序对项目类标题进行划分层级,以使项目类标题为定级标题,并确定定级标题的级别;

步骤s410,根据排列顺序查找位于数字类标题之前的定级标题,确定与数字类标题最接近的定级标题的级别;

步骤s412,根据定级标题的级别确定数字类标题的级别。

在该实施例中,调整顺序为第一调整顺序,具体为先对项目类标题进行调正级别,再对数字类标题进行调整级别。在文档中项目类标题通常级别相对于数字类的要高,先确定级别较高的标题可以使标题进行定级时不需要对较高级别的标题重新进行设置等级,在较高级别的标题后对较低级别的标题进行确定即可,节省了整体调整标题级别的步骤,提高调整效率使调整更加合理。其中,第一调整顺序可以根据用户意愿或者文档的实际情况进行调整。

根据排列顺序对项目类的标题定级,使项目类标题为定级标题并且确定每个项目类的标题的级别。标题在文档中的出现顺序可以一定程度代表级别的高低,项目类标题均为同一种标题,则认为项目类标题出现在文档中先后顺序可以确定项目类标题的级别高低。

在对标题根据第一调整顺序进行调整级别时,数字类标题为最后进行调整的标题。确定数字标题的级别时,可以查找数字标题相邻的定级标题的级别,根据相邻的定级标题的级别确定该数字标题的级别。具体例如:需要查找标题为“1”的标题级别,则向前查找已定级的定级标题“(一)”,并确定该定级标题的级别为二级,则确定标题为“1”的标题的级别为三级。

可以理解的是,在进行调整标题的等级时,为先确定级别较高的标题的等级再确定级别较低的标题的等级,向带定级的数字标题的文档前面查找定级标题,能提高查找到数字标题最接近的定级标题的效率。

如图5所示,在上述实施例中,文档划分方法还包括:

步骤s502,根据字形类别和预设字形类别顺序确定数字类标题的第二调整顺序;

步骤s504,按照第二调整顺序,根据定级标题的级别和排列顺序依次确定每个字形类别的数字类标题的级别;

步骤s506,根据预设标题级别对每个标题的级别进行调整。

在该实施例中,根据字形信息将数字类标题分为多种字形类别,对多种字形类别设置相应的第二调整顺序,在对数字类标题进行定级时,按照第二调整顺序对每种不同的字形类别的数字标题进行定级。按照文档的标题的字形使用习惯对多种字形类别进行设置第二调整顺序。通过第二调整顺序对不同字形类别的数字类标题进行调整,实现了按照级别高低依次进行调整,提高了级别调整的效率。在对文档中的标题的级别进行调整之后,还需要对根据预设标题级别对每个标题的级别进行整体调整。

可以理解的是,从文档中提取的标题的级别进行统计和调整,在调整完成的级别可能存在缺级的问题,则将缺少的等级删除,并依次对后面较低的级别进行提升级别,使文档中的标题更加准确,使分级后的文档满足进行快速逻辑检查、自动排版以及结构化加工的需求。

可以理解的是,数字标题包括“一”、“(一)”、“1”、“(1)”、“1)”这几种,则根据文档中的使用习惯对第二调整顺序进行设置,具体例如:如果文档中习惯将汉字的数字标题设置在前面,则按照“一”、“(一)”、“1”、“(1)”、“1)”作为第二调整顺序。

实施例三:

如图6所示,本发明的一个具体实施例中,提供一种文档层级划分方法,包括:

步骤s602,识别出文档中包含的不同类型标题并分类;

步骤s604,确定各类标题层级;

步骤s606,对整体标题层级进行优化,清除整体为空的层级后,设置标题层级。

在该实施例中,文档层级划分方法解决现有方法对含有“模块一”“任务一”“项目一”“知识点一”等特定类型的标题及“一”“(一)”“1”“(1)”“1)”等形式作为标题序号的情况处理不好的问题,包括:标题识别及分类装置、标题层级确定装置和标题层级优化装置,通过标题识别及分类装置,识别出文档中包含的不同类型标题并分别打上标签进行分类,区分出定级标题和未定级标题;通过标题层级确定装置,首先对含有“模块一”“任务一”“项目一”“知识点一”等特定类型的标题确定级别,然后再对“一”、“(一)”、“1”、“(1)”、“1)”等形式作为标题序号的标题确定级别;通过标题层级优化装置,对整体标题层级进行优化后设置标题层级。

如图7所示,在上述实施例中,识别出文档中包含的不同类型标题并分类的步骤,包括:

步骤s702,识别文档中的章标题和篇标题,确定章标题和篇标题为定级标题;

步骤s704,根据文本特征,识别出不同类型的标题并设置不同的标签;

步骤s706,对标题进行分类。

在该实施例中,根据标题类型的不同设置不同的标签,例如“1”-yes1,“1.1”-yes2,“1.1.1”-yes3…“项目一”-yesp,“模块一”-yesm,“任务一”-yest…“一”-yes0,“(一)”-yes0a…。

其中,可以设置yesp、yesm、yest等标签为项目类标题,其他类型为数字类标题。

如图11所示的对文档设置标签的截图示例中,“项目一”为项目类特殊标题、“一、”为yes0型标题、“(一)”为yes0a型标题、“1.”为yes1型标题。

在该实施例中,对文档中的标题进行分类,将文档中的所有标题分为定级标题和未定级标题,在对未定级标题进行分类,具体分为数字类标题和项目类标题。

可以理解的是,为了更好地对标题进行调整将每种标题设置一个标签,利用标题对应的标签进行调整,实现了快速准确的对标题进行分类的效果,方便后续步骤中对标题级别进行调整。

如图8所示,在上述实施例中,确定各类标题层级的步骤,具体包括:

步骤s802,对项目类标题确定级别;

步骤s804,对数字类标题确定级别。

在该实施例中,对项目类标题确定级别具体包括:按照在文档中出现的顺序进行确定级别。

对数字类标题确定级别具体包括:

以“一”为例:

首先,查找文档中所有的“一”形式的标题,向前找到与“一”最接近的定级标题;

其次,比较这些标题的级别,设这些标题中最低级别为x级,则“项目一”标题的级别设置为x+1级;如果“项目一”标题前面没有固定级别的标题,则设置“项目一”标题为一级标题。

实施例四:

如图9所示,本发明的一个具体实施例中,提供一种文档层级划分方法,包括:

步骤s902,识别文档中的章标题和篇标题,确定章标题和篇标题为定级标题;

步骤s904,识别文档中的未定级标题,将未定级标题分为项目类标题和数字类标题;

步骤s906,按照项目类标题出现的顺序依次对项目类标题确定级别;

步骤s908,判断数字类标题之前是否存在已定级标题,判断结果为是则执行步骤s910,否则执行步骤s912;

步骤s910,设为比已定级标题级别低一级;

步骤s912,设为一级标题;

步骤s914,判断文章中是否缺少某一级别标题,判断结果为是则执行步骤s916,否则结束;

步骤s916,清除这一级别。

在该实施例中,先对文档中的标题进行识别,确定出文档中的篇级、章级标题,并将其设定为定级标题。在对未定级标题进行分类,将未定级标题分为项目类标题和数字类标题,先对项目类标题按照项目类标题在文档中的出现顺序调整级别,在对数字类标题进行调整级别。在对数字类标题调整时,先对该数字类标题向前查找定级标题,如果并未查找到定级标题则设该数字类标题为一级标题,如果查找到定级标题,则确定该定级标题的级别,设定该数字类标题为定级标题的级别低一级别的标题。在对所有标题进行调整后,确定是否文档中缺少某一级别的标题,如果是则清除该级别。

可以理解的是,再对多个数字类标题进行确定级别时,则根据预设的顺序依次对每个数字类标题进行确定级别,直至所有标题全部为定级标题。

实施例五:

如图10所示,本发明的再一个实施例中,提供了一种文档层级划分装置100。包括:存储器120、处理器140及存储在存储器120上并可在处理器140上运行的计算机程序,计算机程序被处理器140执行时实现如上述任一技术方案限定的文档层级划分方法的步骤,该文档层级划分装置100具有上述任一技术方案的文档层级划分方法所具有的一切有益效果,在此不再赘述。

实施例六:

本发明的再一个实施例中,提供了一种计算机可读存储介质,计算机可读存储介质上存储有控制程序,控制程序被处理器执行时实现如上述任一实施例中的文档层级划分方法的步骤,或上述任一实施例中的文档层级划分方法的步骤。该计算机可读存储介质具有上述任一实施例中的文档层级划分方法所具有的一切有益效果,在此不再赘述。

在本发明中,术语“第一”、“第二”、“第三”仅用于描述的目的,而不能理解为指示或暗示相对重要性;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的描述中,需要理解的是,术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本发明的限制。

在本说明书的描述中,术语“一个实施例”、“一个实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1