文件目录的生成方法、装置、服务器及计算机存储介质与流程

文档序号:11729448阅读:294来源:国知局
文件目录的生成方法、装置、服务器及计算机存储介质与流程

本发明涉及互联网技术领域,具体涉及一种文件目录的生成方法、装置、服务器及计算机存储介质。



背景技术:

随着网络技术的发展,人们可以通过不同的设备、不同的途径获得各种各样的电子文件,这些电子文件极大地丰富了人们的工作和生活内容。

很多时候,需要对电子文件进行重新排版,对于包含目录页的文件,由于目录初始设计并不规范,导致现有技术中不能准确地获取到目录项文本,从而导致根据目录项文本重新排版所生成的目录页并不准确,致使目录失去正确引导用户阅读、以及准确定位文本的作用。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文件目录的生成方法、装置、服务器和计算机存储介质。

根据本发明的一个方面,提供了一种文件目录的生成方法,包括:

对文件中除目录页以外的其他页面中的文本对象进行文字样式聚类处理,得到多个具有不同文字样式的文本对象集合;

对文件的目录页进行分析,得到目录项文本;

对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合;

将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

根据本发明的另一方面,提供了一种文件目录的生成装置,包括:

聚类处理模块,适于对文件中除目录页以外的其他页面中的文本对象进行文字样式聚类处理,得到多个具有不同文字样式的文本对象集合;

分析模块,适于对文件的目录页进行分析,得到目录项文本;

匹配模块,适于对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合;

生成模块,适于将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

根据本发明的又一方面,提供了一种服务器,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述文件目录的生成方法对应的操作。

根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行如上述文件目录的生成方法对应的操作。

根据本发明提供的方案,对文件中除目录页以外的其他页面中的文本对象进行文字样式聚类处理,得到多个具有不同文字样式的文本对象集合,对文件的目录页进行分析,得到目录项文本,对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合,将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。利用本发明提供的技术方案,能够提升目录的规范性和准确性,保证生成的目录页更为准确,从而使用户能够充分地利用目录定位到相应的文本对象,给予用户正确地引导。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明一个实施例的文件目录的生成方法的流程示意图;

图2示出了根据本发明另一个实施例的文件目录的生成方法的流程示意图;

图3示出了根据本发明一个实施例的文件目录的生成装置的结构示意图;

图4示出了根据本发明另一个实施例的文件目录的生成装置的结构示意图;

图5示出了根据本发明一个实施例的服务器的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的文件目录的生成方法的流程示意图。如图1所示,该方法包括以下步骤:

步骤s100,对文件中除目录页以外的其他页面中的文本对象进行文字样式聚类处理,得到多个具有不同文字样式的文本对象集合。

目录具有引导用户阅读的作用,用户可以通过目录快速定位到文章中相应的章节内容,因此,目录的准确性直接影响用户对文件的阅读。本发明实施例适用于包含目录页的文件,这里将文件分为目录页和除目录页以外的其他页面,首先,需要对文件进行初步识别,得到文件包含的文本对象,然后对文件中除目录页以外的其他页面中的文本对象进行解析得到文本对象的文字样式,在得到文字样式之后,对文本对象进行文字样式聚类处理,将具有相同文字样式的文本对象聚类在一起,得到多个具有不同文字样式的文本对象集合,其中,每个文本对象集合包含同一种文字样式的文本对象。

步骤s101,对文件的目录页进行分析,得到目录项文本。

文件的目录页一般都包括目录项文本,本实施例中对文件的目录页进行分析,主要是为了从目录页中获取到目录项文本,以便于后续根据目录项文本确定上述文本对象集合中哪些属于目录项的文本对象集合。

步骤s102,对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合。

在得到目录项文本之后,对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,举例说明,属于某文字样式的文本对象集合中包含3个文本对象,例如文本对象1、2、3,目录项文本有10项,这里需要将三个文本对象分别与目录项文本进行文字内容模糊匹配,具体地,将文本对象1分别与目录项文本进行文字内容模糊匹配,若存在与文本对象1文字内容模糊匹配的目录项文本,则模糊匹配结束,若未查找到与文本对象1文字内容模糊匹配的目录项文本,则需要继续将文本对象1与目录项文本进行文字内容模糊匹配直至文本对象1与10项目录项文本都进行了文字内容模糊匹配才结束,对于文本对象2、3类似,这里不再赘述。在将文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配之后,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合。

步骤s103,将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

文本偏移位置指文本对象在文件中位置,例如,文本对象在文件中的段落信息,在确定了文本对象属于目录项的文本对象集合之后,将文本对象与该文本对象在文件中的文本偏移位置相关联,然后生成目录页,这里的相关联指当用户点击所生成的目录页中的某文本对象时,可以根据文本偏移位置自动且准确地跳转到该文本对象在文件中的位置,举例说明,目录页中某文本对象在文件中的段落信息为第5段,则用户点击目录页中该文本对象时,可以跳转至第5段对应的文本对象。由于是根据文件中除目录页以外的其他页面中的文本对象生成目录页,相对于直接对文件中的目录页进行识别的结果来说,所生成的目录更为准确,能够更为准确地引导用户阅读。

根据本发明上述实施例提供的方法,对文件中除目录页以外的其他页面中的文本对象进行文字样式聚类处理,得到多个具有不同文字样式的文本对象集合,对文件的目录页进行分析,得到目录项文本,对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合,将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。利用本发明提供的技术方案,能够提升目录的规范性和准确性,保证生成的目录页更为准确,从而使用户能够充分地利用目录定位到相应的文本对象,给予用户正确地引导。

图2示出了根据本发明另一个实施例的文件目录的生成方法的流程示意图。如图2所示,该方法包括以下步骤:

步骤s200,对文件中除目录页以外的其他页面中的文本对象进行文字样式聚类处理,得到多个具有不同文字样式的文本对象集合。

首先,对文件进行初步识别,得到文件包含的文本对象,然后,对文件中除目录页以外的其他页面中的文本对象进行解析得到文本对象的文字样式,在得到文字样式之后,对文本对象进行文字样式聚类处理,将具有相同文字样式的文本对象聚类在一起,举例说明,对于文本对象1,根据文本对象1的文字样式创建文字样式1的文本对象集合,并将文本对象1划分到文字样式1的文本对象集合中,然后将文本对象2的文字样式与文本对象1的文字样式进行比较,确定文本对象2的文字样式不同于文字对象1的文字样式,则根据文本对象2的文字样式创建文字样式2的文本对象集合,并将文本对象2划分到文字样式2的文本对象集合中,对于其他的文本对象类似,这里不再赘述,最后得到多个具有不同文字样式的文本对象集合。

步骤s201,对文件的目录页进行分析,得到目录项文本。

文件的目录页一般都包括目录项文本,本实施例中对文件的目录页进行分析,主要是为了从目录页中获取到目录项文本,以便于后续根据目录项文本确定属于目录项的文本对象集合。

步骤s200中得到的文本对象集合可能会包含部分非目录项的文本对象集合,例如,图注对应的文本对象集合、注释对应的文本对象集合等,这样就需要对文本对象进行初筛,具体地,可以采用步骤s202-步骤s204中的方法进行筛选:

步骤s202,对于每个文本对象集合,将文本对象的总项数与预设项数阈值进行比较,筛选得到文本对象的总项数小于或等于预设项数阈值的文本对象集合进行后续处理。

通常情况下,文件中除目录页以外的其他页面中,具有相同文字样式且属于目录项的文本对象一般为各大小章节的标题,其总项数相较于非目录项的文本对象的总项数少,因此,对于每个文本对象集合,可以将文本对象的总项数与预设项数阈值进行比较来确定文本对象集合是否可能为目录项的文本对象集合,若文本对象的总项数大于预设项数阈值,则文本对象集合不可能是目录项的文本对象集合,若文本对象的总项数小于或等于预设项数阈值,则文本对象集合可能是目录项的文本对象集合,其中,预设项数阈值可以根据实际经验进行设定,例如,设定为15,这里仅是举例说明,不具有任何限定作用,对筛选得到文本对象的总项数小于或等于预设项数阈值的文本对象集合可以进行后续处理。

当然,对于每个文本对象集合,本发明可以仅通过将文本对象的总项数与预设项数阈值进行比较的方法来对文本对象集合进行筛选,但是为了进一步提升准确性,还可以在将文本对象的总项数与预设项数阈值进行比较之后,再将文本对象的平均字数与预设字数阈值进行比较从而进一步筛选文本对象集合。

步骤s203,对于每个文本对象集合,将文本对象的平均字数与预设字数阈值进行比较,筛选得到文本对象的平均字数小于或等于预设字数阈值的文本对象集合进行后续处理。

通常情况下,文件中除目录页以外的其他页面中,具有相同文字样式且属于目录项的文本对象一般为各大小章节的标题,其平均字数相较于非目录项的文本对象的平均字数少,因此,对于每个文本对象集合,可以将文本对象的平均字数与预设字数阈值进行比较,来确定文本对象集合是否可能为目录项的文本对象集合,若文本对象的平均字数大于预设字数阈值,则文本对象集合不可能是目录项的文本对象集合,若文本对象的平均字数小于或等于预设字数阈值,则文本对象集合可能是目录项的文本对象集合,其中,预设字数阈值可以根据实际经验进行设定,例如,设定为20,这里仅是举例说明,不具有任何限定作用,对筛选得到文本对象的平均字数小于或等于预设字数阈值的文本对象集合可以进行后续处理。

当然,对于每个文本对象集合,本发明可以仅通过将文本对象的平均字数与预设字数阈值进行比较的方法来对文本对象集合进行筛选,但是为了进一步提升准确性,还可以在将文本对象的平均字数与预设字数阈值进行比较之后,再将文本对象的文字字号与预设字号阈值进行比较从而进一步筛选文本对象集合。

步骤s204,对于每个文本对象集合,将文本对象的文字字号与预设字号阈值进行比较,筛选得到文本对象的文字字号大于或等于预设字号阈值的文本对象集合进行后续处理。

通常情况下,文件中除目录页以外的其他页面中,具有相同文字样式且属于目录项的文本对象一般为各大小章节的标题,其文字字号相较于非目录项的文本对象的文字字号大,因此,对于每个文本对象集合,可以将文本对象的文字字号与预设字号阈值进行比较,来确定文本对象集合是否可能为目录项的文本对象集合,若文本对象的文字字号小于预设字号阈值,则文本对象集合不可能是目录项的文本对象集合,若文本对象的文字字号大于或等于预设字号阈值,则文本对象集合可能是目录项的文本对象集合,其中,预设字数阈值可以根据实际经验进行设定,例如,设定为14,这里仅是举例说明,不具有任何限定作用,对筛选得到文本对象的文字字号大于或等于预设字号阈值的文本对象集合可以进行后续处理。

当然,对于每个文本对象集合,本发明可以仅将文本对象的文字字号与预设字号阈值进行比较的方法来对文本对象集合进行筛选,但是为了进一步提升准确性,还可以在将文本对象的文字字号与预设字号阈值进行比较之后,再将文本对象的总项数与预设项数阈值进行比较从而进一步筛选文本对象集合。

另外,本发明可以仅利用步骤s202-步骤s204中的方法对文本对象集合进行筛选,但是为了进一步提升目录页生成效率,减少匹配次数,还可以在对文本对象集合进行初筛后,对筛选后的文本对象集合进行排序。

步骤s205,对于每个文本对象集合,依据文字字号从大到小的顺序对多个文本对象集合进行排序。

不同文本对象集合中文本对象的文字字号并不相同,为了能够优先将可能属于目录项的文本对象集合与目录项文本进行文字内容模糊匹配,减少后续匹配次数,本实施例可以依据文字字号从大到小的顺序对多个文本对象集合进行排序,从而可以依据排序结果进行后续匹配。

步骤s206,依据排序结果,依次将每个文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合。

在多个文本对象集合排序结果之后,依据排序结果,依次将每个文本对象集合中文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,举例说明,多个文本对象集合的排序分别为:文本对象集合1、文本对象集合3、文本对象集合2,则需要依据该排序结果,分别将文本对象集合1文本对象集合3、文本对象集合2中的文本对象与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合。

具体地,可以采用如下方法确定文本对象是否属于目录项的文本对象集合:判断文本对象集合中与目录项文本的文字内容匹配的文本对象的项数与文本对象集合中文本对象的总项数的比率是否大于或等于预设比率阈值;若是,则确定文本对象属于目录项的文本对象集合。

在本发明实施例中,若文本对象集合属于目录项的文本对象集合,则该文本对象集合中大部分的文本对象的文字内容是与目录项文本的文字内容匹配的,可能会存在很少一部分文本对象的文字内容不匹配的情况,因此,可以通过判断文本对象集合中与目录项文本的文字内容匹配的文本对象的项数与文本对象集合中文本对象的总项数的比率是否大于或等于预设比率阈值来确定文本对象是否属于目录项的文本对象集合,若文本对象集合中与目录项文本的文字内容匹配的文本对象的项数与文本对象集合中文本对象的总项数的比率大于或等于预设比率阈值,则可以确定文本对象属于目录项的文本对象集合;若文本对象集合中与目录项文本的文字内容匹配的文本对象的项数与文本对象集合中文本对象的总项数的比率小于预设比率阈值,则可以确定文本对象不属于目录项的文本对象集合,其中,预设比率阈值可以根据实际经验进行设定,例如,设定预设比率阈值为95%,这里仅是举例说明,不具有任何限定作用。

当然,本发明还可以不对文本对象集合进行初筛,仅依据文字字号从大到小的顺序对多个文本对象集合进行排序,然后进行文字内容模糊匹配。

步骤s207,依据文字字号确定属于目录项的文本对象集合中文本对象的目录级别。

其中,文字样式包括:文字字号和文字字体,一般情况下,一级目录的文字字号大于二级目录的文字字号,二级目录的文字字号大于三级目录的文字字号……,因此,可以依据文字字号确定属于目录项的文本对象集合中文本对象的目录级别。

本发明不仅可以根据文字字号确定目录级别,当然还可以采用以下方法确定目录级别:依据属于目录项的文本对象集合中文本对象在文件中出现的初始偏移位置,确定属于目录项的文本对象集合中文本对象的目录级别。

其中,初始偏移位置指属于同一文字样式的文本对象在文件中其他页面首次出现的位置,一般情况下,一级目录在文件中出现的初始偏移位置较二级目录在文件中出现的初始偏移位置靠前,二级目录在文件中出现的初始偏移位置较三级目录在文件中出现的初始偏移位置靠前……,因此,可以依据属于目录项的文本对象集合中文本对象在文件中出现的初始偏移位置,确定属于目录项的文本对象集合中文本对象的目录级别。

步骤s208,依据目录级别,将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

在确定了属于目录项的文本对象集合中文本对象的目录级别之后,可以依据目录级别,将文本对象与该文本对象在文件中的文本偏移位置相关联,然后生成目录页。文本偏移位置指文本对象在文件中位置,例如,文本对象在文件中的段落信息,在确定了文本对象属于目录项的文本对象集合之后,将文本对象与该文本对象在文件中的文本偏移位置相关联,然后生成目录页,这里的相关联指当用户点击所生成的目录页中的某文本对象时,可以根据文本偏移位置自动且准确地跳转到该文本对象在文件中的位置,举例说明,目录页中某文本对象在文件中的段落信息为第5段,则用户点击目录页中该文本对象时,可以跳转至第5段对应的文本对象。由于是根据文件中除目录页以外的其他页面中的文本对象生成目录页,相对于直接对文件中的目录页进行识别的结果来说,所生成的目录更为准确,能够更为准确地引导用户阅读。

这里以pdf文件为例,很多时候会对pdf文件中的目录进行版式设计,由于没有统一的设计标准,如果直接对pdf文件的目录项文本进行识别,根据识别结果得到的目录页并不准确,然而当需要将pdf文件转换为epub文件时,通过识别pdf文件中的目录项文本生成epub文件的目录页,就很容易出错,因此,可以步骤s200-步骤s208中的方法来生成epub文件的目录页,从而保证了epub文件的目录页的准确性。

根据本发明上述实施例提供的方法,在得到多个具有不同文字样式的文本对象集合后,对文本对象集合进行多次筛选,提升了筛选后的文本对象集合是目录项文本对象集合的概率,从而进一步提高了生成目录的准确性;依据文字字号从大到小的顺序对多个文本对象集合进行排序,依据排序结果,依次将每个文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,可以减少匹配次数,提高了生成目录页的速率。此外,利用本发明提供的技术方案,能够提升目录的规范性和准确性,保证生成的目录页更为准确,从而使用户能够充分地利用目录定位到相应的文本对象,给予用户正确地引导。

图3示出了根据本发明一个实施例的文件目录的生成装置的结构示意图。如图3所示,该装置包括:聚类处理模块300、分析模块310、匹配模块320和生成模块330。

聚类处理模块300,适于对文件中除目录页以外的其他页面中的文本对象进行文字样式聚类处理,得到多个具有不同文字样式的文本对象集合。

分析模块310,适于对文件的目录页进行分析,得到目录项文本。

匹配模块320,适于对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合。

生成模块330,适于将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

根据本发明上述实施例提供的装置,对文件中除目录页以外的其他页面中的文本对象进行文字样式聚类处理,得到多个具有不同文字样式的文本对象集合,对文件的目录页进行分析,得到目录项文本,对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合,将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。利用本发明提供的技术方案,能够提升目录的规范性和准确性,保证生成的目录页更为准确,从而使用户能够充分地利用目录定位到相应的文本对象,给予用户正确地引导。

图4示出了根据本发明另一个实施例的文件目录的生成装置的结构示意图。如图4所示,该装置包括:聚类处理模块400、分析模块410、筛选模块420、排序模块430、匹配模块440和生成模块450。

聚类处理模块400,适于对文件中除目录页以外的其他页面中的文本对象进行文字样式聚类处理,得到多个具有不同文字样式的文本对象集合。

分析模块410,适于对文件的目录页进行分析,得到目录项文本。

筛选模块420,适于对于每个文本对象集合,将文本对象的总项数与预设项数阈值进行比较,筛选得到文本对象的总项数小于或等于预设项数阈值的文本对象集合进行后续处理。

此外,筛选模块420进一步适于:对于每个文本对象集合,将文本对象的平均字数与预设字数阈值进行比较,筛选得到文本对象的平均字数小于或等于预设字数阈值的文本对象集合进行后续处理。

此外,筛选模块420进一步适于:对于每个文本对象集合,将文本对象的文字字号与预设字号阈值进行比较,筛选得到文本对象的文字字号大于或等于预设字号阈值的文本对象集合进行后续处理。

排序模块430,适于依据文字字号从大到小的顺序对多个文本对象集合进行排序。

匹配模块440,适于依据排序结果,依次将每个文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合。

此外,匹配模块440进一步适于:判断文本对象集合中与目录项文本的文字内容匹配的文本对象的项数与文本对象集合中文本对象的总项数的比率是否大于或等于预设比率阈值;若是,则确定文本对象属于目录项的文本对象集合。

在本发明实施例中,文字样式包括:文字字号和文字字体;

生成模块450进一步包括:确定单元451,适于依据文字字号确定属于目录项的文本对象集合中文本对象的目录级别;

生成单元452,适于依据目录级别,将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

本发明不仅可以根据文字字号确定目录级别,还可以依据属于目录项的文本对象集合中文本对象在文件中出现的初始偏移位置,确定属于目录项的文本对象集合中文本对象的目录级别,具体地,生成模块进一步包括:确定单元,适于依据属于目录项的文本对象集合中文本对象在文件中出现的初始偏移位置,确定属于目录项的文本对象集合中文本对象的目录级别;

生成单元452,适于依据目录级别,将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

根据本发明上述实施例提供的装置,在得到多个具有不同文字样式的文本对象集合后,对文本对象集合进行多次筛选,提升了筛选后的文本对象集合是目录项文本对象集合的概率,从而进一步提高了生成目录的准确性;依据文字字号从大到小的顺序对多个文本对象集合进行排序,依据排序结果,依次将每个文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,可以减少匹配次数,提高了生成目录页的速率。此外,利用本发明提供的技术方案,能够提升目录的规范性和准确性,保证生成的目录页更为准确,从而使用户能够充分地利用目录定位到相应的文本对象,给予用户正确地引导。

本申请实施例提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文件目录的生成方法。

图5示出了根据本发明实施例的一种服务器的结构示意图,本发明具体实施例并不对服务器的具体实现做限定。

如图5所示,该服务器可以包括:处理器(processor)502、通信接口(communicationsinterface)504、存储器(memory)506、以及通信总线508。

其中:

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502,用于执行程序510,具体可以执行上述文件目录的生成方法实施例中的相关步骤。

具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。

处理器502可能是中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。服务器包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。

存储器506,用于存放第一数据集合、第二数据集合以及程序510。存储器506可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作:对文件中除目录页以外的其他页面中的文本对象进行文字样式聚类处理,得到多个具有不同文字样式的文本对象集合;对文件的目录页进行分析,得到目录项文本;对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合;将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

在一种可选的实施方式中,文字样式包括:文字字号和文字字体;

程序510还用于使得处理器502在将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页时:依据文字字号确定属于目录项的文本对象集合中文本对象的目录级别;依据目录级别,将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

在一种可选的实施方式中,程序510还用于使得处理器502在将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页时:依据属于目录项的文本对象集合中文本对象在文件中出现的初始偏移位置,确定属于目录项的文本对象集合中文本对象的目录级别;依据目录级别,将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

在一种可选的实施方式中,程序510还用于使得处理器502在将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合时:判断文本对象集合中与目录项文本的文字内容匹配的文本对象的项数与文本对象集合中文本对象的总项数的比率是否大于或等于预设比率阈值;若是,则确定文本对象属于目录项的文本对象集合。

在一种可选的实施方式中,程序510还用于使得处理器502在将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配之前,对于每个文本对象集合,将文本对象的总项数与预设项数阈值进行比较,筛选得到文本对象的总项数小于或等于预设项数阈值的文本对象集合进行后续处理。

在一种可选的实施方式中,程序510还用于使得处理器502在将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配之前,对于每个文本对象集合,将文本对象的平均字数与预设字数阈值进行比较,筛选得到文本对象的平均字数小于或等于预设字数阈值的文本对象集合进行后续处理。

在一种可选的实施方式中,程序510还用于使得处理器502在将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配之前,对于每个文本对象集合,将文本对象的文字字号与预设字号阈值进行比较,筛选得到文本对象的文字字号大于或等于预设字号阈值的文本对象集合进行后续处理。

在一种可选的实施方式中,程序510还用于使得处理器502在将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配之前,依据文字字号从大到小的顺序对多个文本对象集合进行排序;

程序510还用于使得处理器502在对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配时:依据排序结果,依次将每个文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了:a1.一种文件目录的生成方法,包括:

对文件中除目录页以外的其他页面中的文本对象进行文字样式聚类处理,得到多个具有不同文字样式的文本对象集合;

对文件的目录页进行分析,得到目录项文本;

对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合;

将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

a2.根据a1所述的方法,其中,所述文字样式包括:文字字号和文字字体;

所述将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页进一步包括:

依据文字字号确定属于目录项的文本对象集合中文本对象的目录级别;

依据目录级别,将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

a3.根据a1所述的方法,其中,所述将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页进一步包括:

依据属于目录项的文本对象集合中文本对象在文件中出现的初始偏移位置,确定属于目录项的文本对象集合中文本对象的目录级别;

依据目录级别,将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

a4根据a1-a3任一项所述的方法,其中,所述将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合进一步包括:

判断文本对象集合中与目录项文本的文字内容匹配的文本对象的项数与文本对象集合中文本对象的总项数的比率是否大于或等于预设比率阈值;

若是,则确定文本对象属于目录项的文本对象集合。

a5.根据a1-a4任一项所述的方法,其中,在将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配之前,所述方法还包括:

对于每个文本对象集合,将文本对象的总项数与预设项数阈值进行比较,筛选得到文本对象的总项数小于或等于预设项数阈值的文本对象集合进行后续处理。

a6.根据a1-a4任一项所述的方法,其中,在将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配之前,所述方法还包括:

对于每个文本对象集合,将文本对象的平均字数与预设字数阈值进行比较,筛选得到文本对象的平均字数小于或等于预设字数阈值的文本对象集合进行后续处理。

a7.根据a1-a4任一项所述的方法,其中,在将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配之前,所述方法还包括:

对于每个文本对象集合,将文本对象的文字字号与预设字号阈值进行比较,筛选得到文本对象的文字字号大于或等于预设字号阈值的文本对象集合进行后续处理。

a8.根据a1-a7任一项所述的方法,其中,在将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配之前,所述方法还包括:

依据文字字号从大到小的顺序对多个文本对象集合进行排序;

所述对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配进一步包括:

依据排序结果,依次将每个文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配。

本发明还公开了:b9.一种文件目录的生成装置,包括:

聚类处理模块,适于对文件中除目录页以外的其他页面中的文本对象进行文字样式聚类处理,得到多个具有不同文字样式的文本对象集合;

分析模块,适于对文件的目录页进行分析,得到目录项文本;

匹配模块,适于对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合;

生成模块,适于将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

b10.根据b9所述的装置,其中,所述文字样式包括:文字字号和文字字体;

所述生成模块进一步包括:确定单元,适于依据文字字号确定属于目录项的文本对象集合中文本对象的目录级别;

生成单元,适于依据目录级别,将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

b11.根据b9所述的装置,其中,所述生成模块进一步包括:确定单元,适于依据属于目录项的文本对象集合中文本对象在文件中出现的初始偏移位置,确定属于目录项的文本对象集合中文本对象的目录级别;

生成单元,适于依据目录级别,将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

b12.根据b9-b11任一项所述的装置,其中,所述匹配模块进一步适于:判断文本对象集合中与目录项文本的文字内容匹配的文本对象的项数与文本对象集合中文本对象的总项数的比率是否大于或等于预设比率阈值;若是,则确定文本对象属于目录项的文本对象集合。

b13.根据b9-b12任一项所述的装置,其中,所述装置还包括:筛选模块,适于对于每个文本对象集合,将文本对象的总项数与预设项数阈值进行比较,筛选得到文本对象的总项数小于或等于预设项数阈值的文本对象集合进行后续处理。

b14.根据b9-b12任一项所述的装置,其中,所述装置还包括:筛选模块,适于对于每个文本对象集合,将文本对象的平均字数与预设字数阈值进行比较,筛选得到文本对象的平均字数小于或等于预设字数阈值的文本对象集合进行后续处理。

b15.根据b9-b12任一项所述的装置,其中,所述装置还包括:筛选模块,适于对于每个文本对象集合,将文本对象的文字字号与预设字号阈值进行比较,筛选得到文本对象的文字字号大于或等于预设字号阈值的文本对象集合进行后续处理。

b16.根据b9-b15任一项所述的装置,其中,所述装置还包括:

排序模块,适于依据文字字号从大到小的顺序对多个文本对象集合进行排序;

所述匹配模块进一步适于:依据排序结果,依次将每个文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配。

本发明还公开了:c17.一种服务器,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如a1-a8中任一项所述的文件目录的生成方法对应的操作。

本发明还公开了:d18.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行如a1-a8中任一项所述的文件目录的生成方法对应的操作。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1