一种识别文字文档生成目录的方法及装置与流程

文档序号:12305373阅读:479来源:国知局
一种识别文字文档生成目录的方法及装置与流程

本发明涉及计算机技术领域,尤其涉及一种识别文字文档生成目录的方法及装置。



背景技术:

在日常生活、工作中,在电脑端文字文档已普遍为用户使用,用户将自己的想法、介绍项目计划、说明产品使用、发布公告通知等通过文字文档形式展示给多人查阅。而如何让文档看起来更加直观、结构更加清晰、重点更加突出就成了重难点。microsoftword设定了一系列的展示规则(例如:标题样式、题注样式、项目符号和编号不同层级的缩进和行间距等)来解决上述问题,而用户必须了解和学习这些规则,并在文档编辑过程中,对字、段设置相应的规则和属性。

在阅读文档时,有目录的文档能更加吸引看者来阅读,并且能让阅读者在短时间内就知道全文的主旨和主要内容,把握全文的结构布局。而对于一篇文档要显示出目录,必须要作者在编写时严格按照microsoftword设定了大纲级别规则来做,才能在文档完成时生成目录。否则,用户拿到任何一篇没有目录的文档,是无法看到目录的,从而导致了操作复杂,体验性低的技术问题。



技术实现要素:

本发明实施例提供了一种识别文字文档生成目录的方法及装置,解决了目前对于一篇文档要显示出目录,必须要作者在编写时严格按照microsoftword设定了大纲级别规则来做,才能在文档完成时生成目录。否则,用户拿到任何一篇没有目录的文档,是无法看到目录的,从而导致了操作复杂,体验性低的技术问题。

本发明实施例中提供的一种识别文字文档生成目录的方法,包括:

根据提取的原文档内容识别出版面元素;

根据所述版面元素将所述原文档内容按照预置方式进行目录生成。

可选地,根据提取的原文档内容识别出版面元素之前还包括:

提取原文档的所有内容或部分内容。

可选地,根据提取的原文档内容识别出版面元素具体包括:

根据提取的原文档的所有内容或部分内容对应的属性以确定所述版面元素。

可选地,所述版面元素属于文字属性和版面排版属性。

可选地,所述文字属性包括文字字形、文字颜色、文字字号;

所述版面排版属性包括段落大纲级别。

可选地,根据提取的原文档的所有内容或部分内容对应的属性以确定所述版面元素具体包括:

根据所述文字属性和所述版面排版属性将所述原文档内容按照预置规则进行目录生成。

可选地,根据所述文字属性和所述版面排版属性将所述原文档内容按照预置规则进行目录生成具体包括:

根据所述文字字形和/或所述文字颜色和/或所述文字字号和/或所述段落大纲级别将所述原文档内容按照预置规则进行目录生成。

本发明实施例中提供的一种识别文字文档生成目录的装置,包括:

识别单元,用于根据提取的原文档内容识别出版面元素;

目录生成单元,用于根据所述版面元素将所述原文档内容按照预置方式进行目录生成。

可选地,所述识别文字文档生成目录的装置还包括:

提取单元,用于提取原文档的所有内容或部分内容。

可选地,目录生成单元具体用于根据文字字形和/或文字颜色和/或文字字号和/或段落大纲级别将所述原文档内容按照预置规则进行目录生成;

其中,所述版面元素属于文字属性和版面排版属性;

所述文字属性包括文字字形、文字颜色、文字字号;

所述版面排版属性包括段落大纲级别。

从以上技术方案可以看出,本发明实施例具有以下优点:

本发明实施例中提供的一种识别文字文档生成目录的方法及装置,其中,识别文字文档生成目录的方法包括:根据提取的原文档内容识别出版面元素;根据所述版面元素将所述原文档内容按照预置方式进行目录生成。本实施例 中,通过根据提取的原文档内容识别出版面元素;根据所述版面元素将所述原文档内容按照预置方式进行目录生成,解决了目前对于一篇文档要显示出目录,必须要作者在编写时严格按照microsoftword设定了大纲级别规则来做,才能在文档完成时生成目录。否则,用户拿到任何一篇没有目录的文档,是无法看到目录的,从而导致了操作复杂,体验性低的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。

图1为本发明实施例中提供的一种识别文字文档生成目录的方法的一个实施例流程示意图;

图2为本发明实施例中提供的一种识别文字文档生成目录的方法的另一个实施例流程示意图;

图3为本发明实施例中提供的一种识别文字文档生成目录的装置的一个实施例结构示意图;

图4为本发明实施例中提供的一种识别文字文档生成目录的装置的另一个实施例结构示意图。

具体实施方式

本发明实施例提供了一种识别文字文档生成目录的方法及装置,解决了目前对于一篇文档要显示出目录,必须要作者在编写时严格按照microsoftword设定了大纲级别规则来做,才能在文档完成时生成目录。否则,用户拿到任何一篇没有目录的文档,是无法看到目录的,从而导致了操作复杂,体验性低的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1,本发明实施例中提供的一种识别文字文档生成目录的方法的一个实施例包括:

101、根据提取的原文档内容识别出版面元素;

本实施例中,当一篇文档要显示出目录时,需要根据提取的原文档内容识别出版面元素。

102、根据版面元素将原文档内容按照预置方式进行目录生成。

当根据提取的原文档内容识别出版面元素之后,需要根据版面元素将原文档内容按照预置方式进行目录生成。

本实施例中,前述的版面元素可以是单个或多个,此处具体不做限定。

本实施例中,通过根据提取的原文档内容识别出版面元素;根据版面元素将原文档内容按照预置方式进行目录生成,解决了目前对于一篇文档要显示出目录,必须要作者在编写时严格按照microsoftword设定了大纲级别规则来做,才能在文档完成时生成目录。否则,用户拿到任何一篇没有目录的文档,是无法看到目录的,从而导致了操作复杂,体验性低的技术问题。

上面是对识别文字文档生成目录的方法的过程进行详细的描述,下面将对根据版面元素将原文档内容按照预置方式进行目录生成的具体过程进行详细的描述,请参阅图2,本发明实施例中提供的一种识别文字文档生成目录的方法的另一个实施例包括:

201、提取原文档的所有内容或部分内容;

本实施例中,当一篇文档要显示出目录时,需要提取原文档的所有内容或部分内容。

202、根据提取的原文档内容识别出版面元素;

当提取原文档的所有内容或部分内容之后,需要根据提取的原文档内容识别出版面元素,提取目标文档内容的部分属性,例如:文字的字形、颜色、字号、段落的大纲级别等。

203、根据文字字形和/或文字颜色和/或文字字号和/或段落大纲级别将原文档内容按照预置规则进行目录生成。.

当提取原文档的所有内容或部分内容之后,需要根据文字字形和/或文字颜色和/或文字字号和/或段落大纲级别将版面元素属于文字属性和版面排版 属性,文字属性包括文字字形、文字颜色、文字字号,版面排版属性包括段落大纲级别,例如根据所获取的属性,加上自定义规则,识别出文档的标题和大纲,只根据字号来识别文档标题和大纲。

需要说明的是,可以是根据实际的目的和关注的重点提取整篇文档或部分文档的所需内容。

例如提取:空格、回车、字号、字形、段落、文档标题、大纲级别、项目符号和编号、表格、图片、超链接、题注、艺术字。

需要说明的是,可以是将版面元素映射到相对应的预置标签;

当根据提取的原文档内容识别出复数个版面元素之后,可以是将版面元素映射到相对应的预置标签,可以是根据一些规则将提取到的元素映射到对应的标签,对应的标签可自定义,还可以是多个映射到一个预置标签中,此处具体不做限定。

元素映射到对应的标签可以如下表所示:

需要说明的是,根据文字字形和/或文字颜色和/或文字字号和/或段落大纲级别将原文档内容按照预置规则进行目录生成时,我们可以将版面元素或者这些标签的做出相应的展示规则,以便更好的展现文档。例如:我们可以取出所有映射到正文标签的文字,将他们的行间距、左右缩进进行特殊设定,展示规则可以多样,此处具体不做限定。

例如:在全文无标题样式和大纲级别的对应属性时,如表2所示规则判断标题和大纲级别(注:规则不仅仅包括所列出项,此规则可以多样,这里仅是一个样例,本实施例为一个优选例)。

表2

以上只是样例,识别规则多样,可根据原有的大纲级别+字号来识别文档标题和大纲;根据段落的字形来识别样式等等,然后根据识别的结果,将结果生成目录。

本实施例中,通过根据提取的原文档内容识别出版面元素;根据版面元素将原文档内容按照预置方式进行目录生成,解决了目前对于一篇文档要显示出目录,必须要作者在编写时严格按照microsoftword设定了大纲级别规则来做,才能在文档完成时生成目录。否则,用户拿到任何一篇没有目录的文 档,是无法看到目录的,从而导致了操作复杂,体验性低的技术问题。

以及,通过对文字文档的智能识别,解决由于文字片段缺省相应属性标识使得文档结构错乱的问题,从而在识别后不仅能保证与用户的表达意思一致,更能清晰的展示文档结构,或对文档的某些文字片段进行重点的显示效果优化。

请参阅图3,本发明实施例中提供的一种识别文字文档生成目录的装置的一个实施例包括:

识别单元301,用于根据提取的原文档内容识别出版面元素;

目录生成单元302,用于根据版面元素将原文档内容按照预置方式进行目录生成。

本实施例中,通过识别单元301根据提取的原文档内容识别出版面元素;目录生成单元302根据版面元素将原文档内容按照预置方式进行目录生成,解决了目前对于一篇文档要显示出目录,必须要作者在编写时严格按照microsoftword设定了大纲级别规则来做,才能在文档完成时生成目录。否则,用户拿到任何一篇没有目录的文档,是无法看到目录的,从而导致了操作复杂,体验性低的技术问题。

上面是对识别文字文档生成目录的装置的各单元进行详细的描述,下面将对附加单元进行详细的描述,请参阅图4,本发明实施例中提供的一种识别文字文档生成目录的装置的另一个实施例包括:

提取单元401,用于提取原文档的所有内容或部分内容

识别单元402,用于根据提取的原文档内容识别出版面元素;

目录生成单元403,用于根据版面元素将原文档内容按照预置方式进行目录生成。

目录生成单元403,具体用于根据文字字形和/或文字颜色和/或文字字号和/或段落大纲级别将原文档内容按照预置规则进行目录生成;

其中,版面元素属于文字属性和版面排版属性;

文字属性包括文字字形、文字颜色、文字字号;

版面排版属性包括段落大纲级别。

本实施例中,通过识别单元402根据提取的原文档内容识别出版面元素; 目录生成单元403根据版面元素将原文档内容按照预置方式进行目录生成,解决了目前对于一篇文档要显示出目录,必须要作者在编写时严格按照microsoftword设定了大纲级别规则来做,才能在文档完成时生成目录。否则,用户拿到任何一篇没有目录的文档,是无法看到目录的,从而导致了操作复杂,体验性低的技术问题。

以及,通过对文字文档的智能识别,解决由于文字片段缺省相应属性标识使得文档结构错乱的问题,从而在识别后不仅能保证与用户的表达意思一致,更能清晰的展示文档结构,或对文档的某些文字片段进行重点的显示效果优化。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本 发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1