一种目录生成方法及装置与流程

文档序号:18104691发布日期:2019-07-06 11:34阅读:202来源:国知局
一种目录生成方法及装置与流程

本发明涉及计算机软件应用技术领域,特别是涉及一种目录生成方法及装置。



背景技术:

目录可以为用户直观地呈现文档的结构和层次,并帮助用户对文档中的内容进行快速的定位,方便用户对文档的理解和阅览。

然而,目前生成目录的方法,需要人工从文档中挑选出作为目录内容的文字,并逐一为挑选出的文字设置标题样式、大纲级别等信息,然后以此为依据生成目录。因此,目录的生成过程非常繁琐,导致用户生成目录的效率较低,给用户的体验较差。



技术实现要素:

本发明实施例的目的在于提供一种目录生成方法与装置,以提高目录的生成效率,提升用户的体验。

为解决上述问题,本发明实施例提出了一种目录生成方法,所述方法包括:

获取文档内待生成目录的段落的段落格式、格式属性、段号及段落标识;

根据段落标识和段落格式,从待生成目录的段落中选择作为标题的段落;

根据所选择段落的段号和格式属性,获得所选择段落之间的层级关系;

根据所述层级关系,生成待生成目录的段落的目录。

较佳的,所述根据段落标识和段落格式,从待生成目录的段落中选择作为标题的段落,包括:

确定待生成目录的段落中段落标识不属于预设非标题段落标识的段落;

根据段落格式,从所确定的段落中选择作为标题的段落。

较佳的,所述根据段落格式,从所确定的段落中选择作为标题的段落,包括:

根据段落格式,计算所确定的每一段落作为标题的预测值;

根据所确定的每一段落的预测值,从所确定的段落中选择作为标题的段落。

较佳的,一个段落的段落格式,包括:编号格式、字号、文本最后一个字符和文本长度;

所述根据段落格式,计算所确定的每一段落作为标题的预测值,包括:

根据段落中文本的字号,计算所确定的每一段落与预设的标题字号之间字号差;

按照以下表达式,获得所确定的每一段落的预测元素对应的预测值,其中,一个段落的预测元素包括:段落的编号格式、字号差、段落中文本的最后一个字符和段落中文本的长度:

一个预测元素对应的预测值=该预测元素的预设权重*该预测元素+该预测元素的预设偏移位;

根据所获得的预测值,计算所确定的每一段落作为标题的预测值。

较佳的,所述非标题段落标识包括:

表示子文档的段落标识、表示表格的段落标识、表示目录域的段落标识、表示图片的段落标识和标识空白段落的段落标识。

较佳的,所述根据所选择段落的段号和格式属性,获得所选择段落之间的层级关系,包括:

根据段落的格式属性,将所选择段落划分为段落组;

根据段号以及以下表达式,确定每个段落组中每个段落的管理区间:

一个段落在所属段落组中存在下一相邻段落时,该段落的管理区间为:[该段落的段号,该段落在所属段落组中下一相邻段落的段号-1];该段落在所属段落组中不存在下一相邻段落时,该段落的管理区间为:[该段落的段号,该段落的段号];

按照所选择段落的段号排列顺序,并根据所选择段落的管理区间和所选择段落的格式属性,获得所选择段落之间的层级关系。

较佳的,所述按照所选择段落的段号排列顺序,并根据所选择段落的管理区间和所选择段落的格式属性,获得所选择段落之间的层级关系,包括:

按照所选择段落的段号排列顺序以及以下方式,获得所选择段落中相邻两段落之间的层级关系:

确定第一段落的管理区间与第二段落的管理区间之间的区间关系,其中,所述第一段落和第二段落为:所选择段落中,按照段号排列顺序相邻的两个段落,按照段号排列顺序,所述第二段落排列在所述第一段落之后;

在所述区间关系为相离关系时,判断所述第一段落的格式属性与所述第二段落的格式属性是否相同;

若相同,确定所述第一段落和第二段落之间的层级关系为:同级段落;

若不相同,查找相似段落,其中,所述相似段落为:按照段号排列顺序,所选择段落中在所述第一段落之前与所述第二段落的格式属性相同的段落;若存在所述相似段落,确定所述第二段落为与所述相似段落之间层级关系为:同级;若不存在所述相似段落,确定所述第一段落和第二段落之间的层级关系为:段号小的段落是段号大的段落的上一级段落;

在所述区间关系为非相离关系时,执行所述查找相似段落的步骤。

较佳的,所述判断所述第一段落的格式属性与所述第二段落的格式属性是否相同,包括:

判断所述第一段落和第二段落是否均有编号;

若均有编号,则根据所述第一段落的编号格式和第二段落的编号格式,判断所述第一段落的格式属性与所述第二段落的格式属性是否相同;

若非均有编号,则根据所述第一段落的文本设置和第二段落的文本设置,判断所述第一段落的格式属性与所述第二段落的格式属性是否相同。

本发明实施例还提供了一种目录生成装置,所述装置包括:

段落信息获取模块,用于获取文档内待生成目录的段落的段落格式、格式属性、段号及段落标识;

段落筛选模块,用于根据段落标识和段落格式,从所述待生成目录的段落中选择作为标题的段落;

层级分析模块,用于根据所选择段落的段号和格式属性,获得所选择段落之间的层级关系;

目录生成模块,用于根据所述层级关系,生成所述待生成目录的段落的目录。

较佳的,所述段落筛选模块,包括:

第一筛选子模块,用于确定所述待生成目录的段落中段落标识不属于预设非标题段落标识的段落;

第二筛选子模块,用于根据段落格式,从所确定的段落中选择作为标题的段落。

较佳的,所述第二筛选子模块,包括:

预测值计算单元,用于根据段落格式,计算所确定的每一段落作为标题的预测值;

标题选择单元,用于根据所确定的每一段落的预测值,从所确定的段落中选择作为标题的段落。

较佳的,一个段落的段落格式,包括:编号格式、字号、文本最后一个字符和文本长度:

所述预测值计算单元,具体用于:

根据段落中文本的字号,计算所确定的每一段落与预设的标题字号之间字号差;

按照以下表达式,获得所确定的每一段落的预测元素对应的预测值,其中,一个段落的预测元素包括:段落的编号格式、字号差、段落中文本的最后一个字符和段落中文本的长度:

一个预测元素对应的预测值=该预测元素的预设权重*该预测元素+该预测元素的预设偏移位;

根据所获得的预测值,计算所确定的每一段落作为标题的预测值。

较佳的,所述非标题段落标识包括:

表示子文档的段落标识、表示表格的段落标识、表示目录域的段落标识、表示图片的段落标识和标识空白段落的段落标识。

较佳的,所述层级分析模块,包括:

分组子模块,用于根据段落的格式属性,将所选择段落划分为段落组;

区间划分子模块,用于根据段号以及以下表达式,确定每个段落组中每个段落的管理区间:

一个段落在所属段落组中存在下一相邻段落时,该段落的管理区间为:[该段落的段号,该段落在所属段落组中下一相邻段落的段号-1];该段落在所属段落组中不存在下一相邻段落时,该段落的管理区间为:[该段落的段号,该段落的段号];

层级划分子模块,用于按照所选择段落的段号排列顺序,并根据所选择段落的管理区间和所选择段落的格式属性,获得所选择段落之间的层级关系。

较佳的:

所述层级划分子模块,具体用于按照所选择段落的段号排列顺序以及以下方式,获得所选择段落中相邻两段落之间的层级关系:

确定第一段落的管理区间与第二段落的管理区间之间的区间关系,其中,所述第一段落和第二段落为:所选择段落中,按照段号排列顺序相邻的两个段落,按照段号排列顺序,所述第二段落排列在所述第一段落之后;

在所述区间关系为相离关系时,判断所述第一段落的格式属性与所述第二段落的格式属性是否相同;

若相同,确定所述第一段落和第二段落之间的层级关系为:同级段落;

若不相同,查找相似段落,其中,所述相似段落为:按照段号排列顺序,所选择段落中在所述第一段落之前与所述第二段落的格式属性相同的段落;若存在所述相似段落,确定所述第二段落为与所述相似段落之间层级关系为:同级;若不存在所述相似段落,确定所述第一段落和第二段落之间的层级关系为:段号小的段落是段号大的段落的上一级段落;

在所述区间关系为非相离关系时,执行所述查找相似段落的步骤。

较佳的,所述层级划分子模块判断所述第一段落的格式属性与所述第二段落的格式属性是否相同,包括:

判断所述第一段落和第二段落是否均有编号;

若均有编号,则根据所述第一段落的编号格式和第二段落的编号格式,判断所述第一段落的格式属性与所述第二段落的格式属性是否相同;

若非均有编号,则根据所述第一段落的文本设置和第二段落的文本设置,判断所述第一段落的格式属性与所述第二段落的格式属性是否相同。

本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述任一所述的方法步骤。

本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的目录生成方法。

本发明实施例提供的目录生成方法及装置,通过获取文档内各个待生成目录的段落的段落格式、格式属性、段号及段落标识,从待生成目录的段落中筛选出作为标题的段落,并对这些段落的层级结构进行划分,自动生成目录,从而提高目录的生成效率,提升用户的体验。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为为本发明实施例提供的一种目录生成方法的流程示意图;

图2为本发明实施例提供的另一种目录生成方法的流程示意图;

图3为本发明实施例提供的另一种目录生成方法的流程示意图;

图4为应用本发明实施例提供的方案生成的目录示例图;

图5为本发明实施例中一种目录生成装置的结构示意图;

图6为本发明实施例中另一种目录生成装置的结构示意图;

图7为本发明实施例中另一种目录生成装置的结构示意图;

图8为一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了解决现有技术中文档目录的生成过程非常繁琐,导致用户生成目录的

效率较低的问题,本发明提出了一种目录生成方法及装置。

下面从总体上对本发明实施例提供的目录生成方法进行说明。

本发明的一种实现方式中,上述目录生成方法包括:

获取文档内待生成目录的段落的段落格式、格式属性、段号及段落标识;

根据段落标识和段落格式,从待生成目录的段落中选择作为标题的段落;

根据所选择段落的段号和格式属性,获得所选择段落之间的层级关系;

根据层级关系,生成待生成目录的段落的目录。

由以上可见,应用本发明实施例提供的方案生成文档内的目录时,通过获取文档内各个待生成目录的段落的段落格式、格式属性、段号及段落标识,从待生成目录的段落中筛选出作为标题的段落,并对这些段落的层级结构进行划分,自动生成目录,从而提高目录的生成效率,提升用户的体验。

下面将通过具体的实施例,对本发明实施例提供的目录生成方法进行详细描述。

如图1所示,为本发明实施例提供的一种目录生成方法的流程示意图,包括如下步骤:

步骤s101:获取文档内待生成目录的段落的段落格式、格式属性、段号及段落标识。

一种实现方式中,段落的段落格式包括段落的编号格式、文本的字号、文本的最后一个字符和段落中文本的长度等;段落的格式属性可以根据段落的编号格式和文本设置进行判断,其中,段落的文本设置包括段落的居中情况、加粗情况等;段落的段号为该段落在所有待生成目录的段落中的按顺序排列的序号;段落的段落标识则体现出段落的内容,例如:该段落的内容可能为图片、目录域、子文档等。

在本步骤中,待生成目录的段落可以是文档内的所有段落,也可以是由用户选择的段落,还可以是文档中特定页码中的所有段落,具体可以由用户的需要决定,本发明实施例对此不做限定。

步骤s102:根据段落标识和段落格式,从所述待生成目录的段落中选择作为标题的段落。

在一种实现方式中,可以依次遍历每一个待生成目录的段落,对遍历到的待生成目录的段落进行判断,筛选出作为标题的待生成目录的段落,直至所有的待生成目录的段落遍历完毕。

当然,也可以不考虑顺序,直接对待生成目录的段落进行筛选,只需保证所有待生成目录的段落都会被筛选即可,本发明实施例对此不做限定。

在本步骤中,通过对待生成目录的段落的筛选,将待生成目录的段落中的标题段落与其他段落进行了区分。而标题本身就是对文档内容的概括,因此,后续只需对作为标题的段落之间的层级关系进行划分,从而使得生成目录的效率提高。

步骤s103:根据所选择段落的段号和格式属性,获得所选择段落之间的层级关系。

在本步骤中,所选择的段落之间的层级关系即为标题之间的层级关系,而标题之间的层级关系,能够体现出待生成目录的段落之间的层次结构。

步骤s104:根据所述层级关系,生成所述待生成目录的段落的目录。

在一种实现方式中,可以将生成的目录进行展示在文档中,例如:展示在待生成目录的段落的前一页或待生成目录的段落的后一页等,本发明实施例对此不做限定。

由以上可见,应用本发明实施例提供的方案生成目录时,通过获取文档内各个待生成目录的段落的段落格式、格式属性、段号及段落标识,从待生成目录的段落中筛选出作为标题的段落,并对这些段落的层级结构进行划分,自动生成目录,从而提高目录的生成效率,提升用户的体验。

如图2所示,为本发明实施例提供的另一种目录生成方法的流程示意图,包括如下步骤:

步骤s201:获取文档内各个待生成目录的段落的段落格式、格式属性、段号及段落标识。

步骤s202:确定所述待生成目录的段落中段落标识不属于预设非标题段落标识的段落。

不同内容的段落有不同的段落标识,因此,可以首先将能够确定不属于标题段落的段落标识筛选出来,再根据这些段落标识,从所有的待生成目录的段落中筛选出可能为标题段落的段落。

在一种实现方式中,预设的非标题段落标识包括:表示子文档的段落标识、表示表格的段落标识、表示目录域的段落标识、表示图片的段落标识和标识空白段落的段落标识,当然也可能包括其他能够确定该段落不是标题段落的段落标识。

步骤s203:根据段落格式,从所确定的段落中选择作为标题的段落。

在上一步骤中,利用段落标识筛选出了待生成目录的段落中可能为标题的段落,而在这些段落中,还可能存在一些非标题的文本段落,例如正文段落等。因此,在本步骤中,继续通过待生成目录的段落的段落格式,从上一步筛选出的段落中,进一步选择出作为标题的段落。

在一种实现方式中,可以根据段落格式计算出所确定的每一段落作为标题的预测值,再根据该预测值选择作为标题的段落。

具体的,可以通过以下方式计算每一段落作为标题的预测值:

步骤1:根据段落中文本的字号,计算所确定的每一段落与预设的标题字号之间的字号差。

步骤2:按照以下表达式,获得所确定的每一段落的预测元素对应的预测值:

一个预测元素对应的预测值=该预测元素的预设权重*该预测元素+该预测元素的预设偏移位

其中,一个段落的预测元素包括:段落的编号格式、字号差、段落中文本的最后一个字符和段落中文本的长度。而每个预测元素的预设权重根据不同的预测元素对预测结果的影响大小决定,每个预测元素的预设偏移位即为该预测元素在算法中允许的最大偏移位范围,体现出该预测元素的置信度区间,两者都根据前期的机器学习算法训练得到。

步骤3:根据所获得的预测值,计算所确定的每一段落作为标题的预测值。

在一种实现方式中,可以利用sigmoid函数,对上一步骤中计算得到的每个预测元素对应的预测值进行计算,最终得到每一段落作为标题的预测值。

具体的,对于利用sigmoid函数计算得到每一段落作为标题的预测值,可以设定一个阈值,当一个段落作为标题的预测值大于阈值时,判断该段落是标题段落,当一个段落作为标题的预测值小于阈值时,判断该段落是正文段落。其中,在一种实现方式中,该阈值可以设定为0.5。

需要说明的是,每个段落的段落格式包括多种元素,例如:编号格式、字号、文本最后一个字符、文本长度、行间距、字符间距等。本发明实施例通过机器学习算法,对各个元素进行了统计计算,根据训练结果选择效果最佳的几个元素作为后续计算的依据。即最终以段落的编号格式、字号、文本最后一个字符和文本长度为依据,对段落作为标题的预测值进行计算。但本发明实施例仅仅以上述为例进行说明,并不对本发明构成限定。

步骤s204:根据所选择段落的段号和格式属性,获得所选择段落之间的层级关系。

步骤s205:根据所述层级关系,生成所述待生成目录的段落的目录。

步骤s201与图1所示发明实施例的步骤s101相同,步骤s204至步骤s205与图1所示发明实施例的步骤s103至步骤s104相同,这里不再一一赘述。

由以上可见,应用本发明实施例提供的方案生成目录时,通过获取到的各个待生成目录的段落的段落标识,筛选出不属于预设非标题段落的段落,再根据各个段落的段落格式,筛选出作为标题的段落,然后根据所选择段落的段号和格式属性,获得所选择段落之间的层级关系,自动生成目录,从而提高目录的生成效率,提升用户的体验。

如图3所示,为本发明实施例提供的另一种目录生成方法的流程示意图,包括如下步骤:

步骤s301:获取文档内各个待生成目录的段落的段落格式、格式属性、段号及段落标识。

步骤s302:根据段落标识和段落格式,从所述待生成目录的段落中选择作为标题的段落。

步骤s303:根据段落的格式属性,将所选择段落划分为段落组。

在一种实现方式中,将格式属性相同的段落划分为一组,从而将待生成目录的段落划分为不同的段落组。

步骤s304:根据段号以及以下表达式,确定每个段落组中每个段落的管理区间。

具体的,一个段落在所属段落组中存在下一相邻段落时,该段落的管理区间为:[该段落的段号,该段落在所属段落组中下一相邻段落的段号-1];该段落在所属段落组中不存在下一相邻段落时,该段落的管理区间为:[该段落的段号,该段落的段号]。

举例而言,如果一个段落的段号为1,而与其在同一个段落组内的下一个相邻段落的段号为4,则该段落的管理区间为[1,3];如果一个段落的段号为6,而在同一个段落组中,该段落不存在下一相邻段落,则该段落的管理区间为[6,6]。

步骤s305:按照所选择段落的段号排列顺序,并根据所选择段落的管理区间和所选择段落的格式属性,获得所选择段落之间的层级关系。

在一种实现方式中,按照所选择段落的段号排列顺序以及以下方式,获得所选择段落中相邻两段落之间的层级关系:

步骤1:确定第一段落的管理区间与第二段落的管理区间之间的区间关系。

其中,在所选择的按照段号排列顺序相邻的两个段落中,按照段号排列顺序,第二段落排列在所述第一段落之后。而区间之间的关系分为两种,相离、相交和包含,在本方案中,将区间之间的相交和包含关系称为非相离关系。

举例而言,如果第一段落的管理区间为[1,1],第二段落的管理区间为[2,2],两个区间之间没有重合的部分,则第一段落与第二段落对应的区间之间的关系为相离;如果第一段落的管理区间为[1,5],第二段落的管理区间为[2,2],第二段落的管理区间完全包含在第一段落的管理区间内,则第一段落与第二段落对应的区间之间的关系为包含,即非相离关系;如果第一段落的管理区间为[1,2],第二段落的管理区间为[2,3],第一段落的管理区间完全与第二段落的管理区间存在重合的部分,则第一段落与第二段落对应的区间之间的关系为相交,也是非相离关系。

步骤2:

第一种情况:

第一段落的管理区间与第二段落的管理区间之间的区间关系为相离关系:

(1)判断第一段落的格式属性与第二段落的格式属性是否相同。

在一种实现方式中,判断第一段落的格式属性与第二段落的格式属性是否相同,通过以下方式实现:

首先,判断第一段落和第二段落是否均有编号。

如果均有编号,则根据第一段落的编号格式和第二段落的编号格式,判断第一段落的格式属性与第二段落的格式属性是否相同。如果编号格式相同,则判断第一段落和第二段落的格式属性相同;

如果非均有编号,即第一段落和第二段落都没有编号,或者只有其中一段有编号,另一段没有,则根据段落的文本设置,判断第一段落的格式属性与所述第二段落的格式属性是否相同。如果段落的文本设置相同,则判断第一段落和第二段落的格式属性相同。

在一种情况中,段落的文本设置包括字号大小、是否居中和是否加粗,当字号、居中和加粗设置都相同时,即为段落的文本设置相同。

(2)若第一段落的格式属性与第二段落的格式属性相同,则确定第一段落和第二段落之间的层级关系为:同级段落。

若不相同,则查找相似段落;其中,相似段落为:按照段号排列顺序,所择段落中在第一段落之前与第二段落的格式属性相同的段落;

若存在相似段落,则确定第二段落为与相似段落之间层级关系为:同级。

若不存在相似段落,则确定第一段落和第二段落之间的层级关系为:段号小的段落是段号大的段落的上一级段落。

在一种实现方式中,查找相似段落时,根据各个段落的段号,从第一段落的前一个段落开始,依次递归查找之前的段落。

第二种情况:

第一段落的管理区间与第二段落的管理区间之间的区间关系为非相离关系:

执行上述查找相似段落的步骤:

若存在相似段落,则确定第二段落为与相似段落之间层级关系为:同级。

若不存在相似段落,则确定第一段落和第二段落之间的层级关系为:段号小的段落是段号大的段落的上一级段落。

步骤s306:根据层级关系,生成待生成目录的段落的目录。

步骤s301至步骤s302与图1所示发明实施例的步骤s101至步骤s102相同,步骤s306与图1所示发明实施例的步骤s104相同,这里不再一一赘述。

由以上可见,应用本发明实施例提供的方案生成目录时,通过获取到的各个待生成目录的段落的段落标识和段落格式,筛选出作为标题的段落,然后根据所选择段落的段号,为每个段落划分管理区间,再根据各个段落的格式属性及管理区间的关系,获得所选择段落之间的层级关系,自动生成目录,从而提高目录的生成效率,提升用户的体验。

为了便于理解,下面通过一个具体的例子对图3所示的目录生成方法进行解释。

如图4所示,为应用本发明实施例提供的方案生成的目录。

图4中所示的目录中的所有标题,均为根据段落标识和段落格式,从所有待生成目录的段落中筛选出的作为标题的段落。

1、根据段落的格式属性,将这些段落划分为段落组。

可以看出,“层次划分总结”、“目的”、“结论”、“算法”、“验证”和“注意事项”为一个段落组,“1.自动测试”和“2.手动测试”为一个段落组,“1.1.样张源”、“1.2.对比数据”和“1.3场景”为一个段落组,“2.1.样张源”、“2.2.方法”和“2.3结论”为一个段落组。

2、确定每个段落组中每个段落的管理区间。

“层次划分总结”的管理区间为[1,1];“目的”的管理区间为[2,2];“结论”的管理区间为[3,3];“算法”的管理区间为[4,4];“验证”的管理区间为[5,13];“注意事项”的管理区间为[14,14];

“1.自动测试”的管理区间为[6,9];“2.手动测试”的管理区间为[10,10];

“1.1.样张源”的管理区间为[7,7];“1.2.对比数据”的管理区间为[8,8];“1.3场景”的管理区间为[9,9];

“2.1.样张源”的管理区间为[11,11];“2.2.方法”的管理区间为[12,12];“2.3结论”的管理区间为[13,13]。

3、根据所选择段落的管理区间和所选择段落的格式属性,获得所选择段落之间的层级关系。

“层次划分总结”和“目的”、“目的”和“结论”、“结论”和“算法”、“算法”和“验证”、“1.1.样张源”和“1.2.对比数据”、“1.2.对比数据”和“1.3场景”、“2.1.样张源”和“2.2.方法”、“2.2.方法”和“2.3结论”之间管理区间为相离,且格式属性相同,因此,上述段落之间的层级关系均为同级;

“验证”和“1.自动测试”、“1.自动测试”和“1.1.样张源”之间管理区间为非相离,则递归查找格式属性相同的段落,可以看出,“1.自动测试”和“1.1.样张源”在之前均不存在相似段落,因此,“验证”是“1.自动测试”的上一级,“1.自动测试”是“1.1.样张源”的上一级;

“2.手动测试”和“2.1.样张源”之间管理区间为非相离,则递归查找格式属性相同的段落,可以看出,“2.1.样张源”与“1.3场景”格式属性相同,因此,“2.1.样张源”与“1.3场景”为同级;

“1.3场景”和“2.手动测试”、“注意事项”和“2.3结论”之间管理区间为相离,且格式属性不相同,则递归查找格式属性相同的段落,可以看出,“2.手动测试”与“1.自动测试”格式属性相同,“注意事项”与“验证”格式属性相同,因此,“2.手动测试”与“1.自动测试”为同级,“注意事项”与“验证”为同级。

4、根据层级关系,生成待生成目录的段落的目录,即如图4所示的结果。

与上述信息推送方法相对应,本发明实施例还提供了一种目录生成装置。

如图5所示,为本发明实施例中一种目录生成装置的结构示意图,该装置包括:

段落信息获取模块510,用于获取文档内各个待生成目录的段落的段落格式、格式属性、段号及段落标识。

段落筛选模块520,用于根据段落标识和段落格式,从所述待生成目录的段落中选择作为标题的段落。

层级分析模块530,用于根据所选择段落的段号和格式属性,获得所选择段落之间的层级关系。

目录生成模块540,用于根据所述层级关系,生成所述待生成目录的段落的目录。

由以上可见,本发明实施例提供的方案中,通过段落信息获取模块510获取文档内各个待生成目录的段落的段落格式、格式属性、段号及段落标识,段落筛选模块520从待生成目录的段落中筛选出作为标题的段落,并由层级分析模块530对这些段落的层级结构进行划分,最终目录生成模块540自动生成目录,从而提高目录的生成效率,提升用户的体验。

如图6所示,为本发明实施例中另一种目录生成装置的结构示意图,该装置包括:

段落信息获取模块610,用于获取文档内各个待生成目录的段落的段落格式、格式属性、段号及段落标识。

段落筛选模块620,包括:

第一筛选子模块621,用于确定所述待生成目录的段落中段落标识不属于预设非标题段落标识的段落。

在一种实现方式中,不属于预设非标题段落标识为:表示子文档的段落标识、表示表格的段落标识、表示目录域的段落标识、表示图片的段落标识和标识空白段落的段落标识。

第二筛选子模块622,用于根据段落格式,从所确定的段落中选择作为标题的段落。

在一种实现方式中,所述第二筛选子模块622,包括:

预测值计算单元622(a),用于根据段落格式,计算所确定的每一段落作为标题的预测值;

具体用于:

在一种实现方式中,一个段落的段落格式,包括:编号格式、字号、文本最后一个字符和文本长度。

根据段落中文本的字号,计算所确定的每一段落与预设的标题字号之间字号差。

按照以下表达式,获得所确定的每一段落的预测元素对应的预测值,其中,一个段落的预测元素包括:段落的编号格式、字号差、段落中文本的最后一个字符和段落中文本的长度:

一个预测元素对应的预测值=该预测元素的预设权重*该预测元素+该预测元素的预设偏移位。

根据所获得的预测值,计算所确定的每一段落作为标题的预测值。

标题选择单元622(b),用于根据所确定的每一段落的预测值,从所确定的段落中选择作为标题的段落。

层级分析模块630,用于根据所选择段落的段号和格式属性,获得所选择段落之间的层级关系。

目录生成模块640,用于根据所述层级关系,生成所述待生成目录的段落的目录。

由以上可见,应用本发明实施例提供的方案生成文档内的目录时,通过段落信息获取模块610获取到的各个待生成目录的段落的段落标识,第一筛选子模块621筛选出不属于预设非标题段落的段落,第二筛选子模块622再根据各个段落的段落格式,筛选出作为标题的段落,然后层级分析模块630根据所选择段落的段号和格式属性,获得所选择段落之间的层级关系,目录生成模块640自动生成目录,从而提高目录的生成效率,提升用户的体验。

如图7所示,为本发明实施例中另一种文档内的目录生成装置的结构示意图,该装置包括:

段落信息获取模块710,用于获取文档内各个待生成目录的段落的段落格式、格式属性、段号及段落标识。

段落筛选模块720,用于根据段落标识和段落格式,从所述待生成目录的段落中选择作为标题的段落。

层级分析模块730,包括:

分组子模块731,用于根据段落的格式属性,将所选择段落划分为段落组。

区间划分子模块732,用于根据段号以及以下表达式,确定每个段落组中每个段落的管理区间:

一个段落在所属段落组中存在下一相邻段落时,该段落的管理区间为:[该段落的段号,该段落在所属段落组中下一相邻段落的段号-1];该段落在所属段落组中不存在下一相邻段落时,该段落的管理区间为:[该段落的段号,该段落的段号]。

层级划分子模块733,用于按照所选择段落的段号排列顺序,并根据所选择段落的管理区间和所选择段落的格式属性,获得所选择段落之间的层级关系。

具体的,确定第一段落的管理区间与第二段落的管理区间之间的区间关系,其中,所述第一段落和第二段落为:所选择段落中,按照段号排列顺序相邻的两个段落,按照段号排列顺序,所述第二段落排列在所述第一段落之后;

在所述区间关系为相离关系时,判断所述第一段落的格式属性与所述第二段落的格式属性是否相同;

若相同,确定所述第一段落和第二段落之间的层级关系为:同级段落;

若不相同,查找相似段落,其中,所述相似段落为:按照段号排列顺序,所选择段落中在所述第一段落之前与所述第二段落的格式属性相同的段落;若存在所述相似段落,确定所述第二段落为与所述相似段落之间层级关系为:同级;若不存在所述相似段落,确定所述第一段落和第二段落之间的层级关系为:段号小的段落是段号大的段落的上一级段落;

在所述区间关系为非相离关系时,执行所述查找相似段落的步骤。

在一种实现方式中,所述层级划分子模块判断所述第一段落的格式属性与所述第二段落的格式属性是否相同,包括:

判断所述第一段落和第二段落是否均有编号;

若均有编号,则根据所述第一段落的编号格式和第二段落的编号格式,判断所述第一段落的格式属性与所述第二段落的格式属性是否相同;

若非均有编号,则根据所述第一段落的文本设置,判断所述第一段落的格式属性与所述第二段落的格式属性是否相同。

目录生成模块740,用于根据所述层级关系,生成所述待生成目录的段落的目录。

由以上可见,应用本发明实施例提供的方案生成目录时,通过段落信息获取模块710获取到的各个待生成目录的段落的段落标识和段落格式,段落筛选模块720筛选出作为标题的段落,然后分组子模块731和区间划分子模块732根据所选择段落的段号,为每个段落划分管理区间,层级划分子模块733再根据各个段落的格式属性及管理区间的关系,获得所选择段落之间的层级关系,目录生成模块740自动生成目录,从而提高目录的生成效率,提升用户的体验。

本发明实施例还提供了一种电子设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,

存储器803,用于存放计算机程序;

处理器801,用于执行存储器803上所存放的程序时,实现如下步骤:

获取文档内各个待生成目录的段落的段落格式、格式属性、段号及段落标识;

根据段落标识和段落格式,从所述待生成目录的段落中选择作为标题的段落;

根据所选择段落的段号和格式属性,获得所选择段落之间的层级关系;

根据所述层级关系,生成所述待生成目录的段落的目录。

上述电子设备提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect,pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(randomaccessmemory,ram),也可以包括非易失性存储器(non-volatilememory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由以上可见,本发明实施例提供的方案中,通过获取文档内各个待生成目录的段落的段落格式、格式属性、段号及段落标识,从待生成目录的段落中筛选出作为标题的段落,并对这些段落的层级结构进行划分,自动生成目录,从而提高目录的生成效率,提升用户的体验,提升用户的体验。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的目录生成方法。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的目录生成方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1