一种文档类文件复杂度判定方法及平台与流程

文档序号:17645273发布日期:2019-05-11 00:57阅读:194来源:国知局
一种文档类文件复杂度判定方法及平台与流程

本发明涉及文件计算机领域,尤其是一种文档类文件复杂度判定方法及平台。



背景技术:

文件的复杂度是对文件中所包含的信息的复杂程度的描述,而对于文件复杂度的判断,关系到对于文件进行相关处理(例如排版、翻译、转排等)的成本预计,可能直接决定费用的收取或结算。

目前对于文件复杂度的判断,均为采用人工判别的方式,人工借助个人理解和经验,通过获取到的文件的文本量、图片量等文件参数,进行经验性判定。该方式一方面需要耗费大量的人力和时间成本,另一方面,其受人为主观因素的影响太大,虽然在行业内,存在相应的复杂度判断准则,但对于不同能力的人员,其判断结果相差仍然较大,无法统一,客观性差。这样,对于商务预算以及相关从业人员的管理都不能形成可执行的标准。



技术实现要素:

本发明的发明目的在于:针对上述存在的问题,提供一种基于对历史文件的学习,得到针对文档类文件复杂度的客观判断方案。以实现对任意一份文档类文件,可快速、客观、准确地判断其复杂度。

本发明采用的技术方案如下:

一种文档类文件复杂度判定方法,包括以下步骤:

step1:针对海量文件,分别获取每一份文档类文件的若干文件参数,所述文件参数,为文件中包含的各种类信息的数据量;

step2:根据对文件所获取的各文件参数,对所述海量文件的每一份文件进行难度等级设定;

step3:通过设定的训练模型,对海量文件的各文件参数和对应的难度等级进行学习,得到复杂度检测模型,学习的包括确定各项文件参数的难度系数的过程;

step4:获取待检测文件的若干项文件参数,载入step3所训练的模型中,即可得到待检测文件的复杂度。待检测文件所提取的文件参数项,与用于学习的文件所提取的文件参数项相同。

通过基于文件中各项文件参数的数据量,结合通用的难度等级设定规则,对用于训练的文件进行较为客观的训练,得到一组客观的难度系数,后续待评价的文件即可基于该难度系数进行快速、客观、准确的难度评价。

进一步的,文件的所述若干文件参数包括文本量、图片量、分栏量和表格量。该组参数可以很全面地反映出文档类文件的信息,即作为复杂度判断的主要影响因素,基于该组参数,可对文档类文件进行较为全面的复杂度评价。

进一步的,对于所述文档类文件中,所获取的图片量,为图片尺寸达到预定的尺寸阈值的图片的数量。该方案可避免将不相关的图片(如logo、标识等)纳入到文件的难度评价中,进而更加客观、准确地判断出文件的复杂度。

进一步的,上述step3中,用于机器学习所用到的每一份文件的文件参数和难度等级,均是进行预处理后所得到的数据。

对相关参数进行预处理,可以便于后续的机器学习进行快速计算,同时,主动为机器学习提取出相关特征,可减小训练过程的计算量,节约算力资源。

进一步的,上述对每一份文件的文件参数和难度等级的预处理为,对每一份文件的文件参数和难度等级基于文件的页数分别做平均处理。

对参数进行平均处理,可以使对文件的人工判断差异得到较为全面的均衡,缩小对于各文件进行人工难度等级定义带来的主观差异度,使得用于学习的文件库中,各文件间的主观差异较小,进而提高训练结果的客观性。

为解决上述全部或部分问题,本发明提供了一种文档类文件复杂度判定平台,包括:参数提取部、难度等级划分部、模型构建部、文件输入部和结果输出部,其中:

参数提取部用于针对海量文件,分别获取每一份文件的若干文件参数,还获取待检测文件的若干文件参数传输给模型构建部;所述文件参数,为文件中包含的各种类信息的数据量;

难度等级划分部用于对所述海量文件的每一份文件设定难度等级;

模型构建部用于根据设定的训练模型,对海量文件的各文件参数和对应的难度等级进行学习,训练出复杂度检测模型;

文件输入部用于接收待检测文件,传输给参数提取部;

结果输出部用于输出待检测文件经复杂度检测模型评价后的结果。

进一步的,所述参数提取部对每一份文件所获取的若干文件参数包括:文本量、图片量、分栏量和表格量。

进一步的,所述参数提取部所获取的图片量,为文件中图片尺寸达到预定的尺寸阈值的图片的数量。

进一步的,所述模型构建部在对海量文件的各文件参数和对应的难度等级进行学习前,先对每一份文件的文件参数和对应的难度等级进行预处理。

进一步的,所述预处理具体为:对每一份文件的文件参数和对应的难度等级相对于文件的页数分别做平均处理。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

1、本发明基于海量的历史文件的文件参数(而非文件具体内容),训练出相应的复杂度评价模型,可实现对文件复杂度的快速、准确、客观评价。使得可为文件处理的成本预算提供及时、客观的数据支撑。

2、本发明基于文件处理的主要影响因素进行信息采集和综合判断,使得对于文件复杂度的判断所考虑的因素较为全面,判断准确性较高。

3、本发明对于文档类文件而言,设定了相应的文件参数统计阈值(图片量),可以将其原理应用到类似的文件参数统计中,这样,可以有效过滤掉不相关内容(如logo、标识等)带来的噪音,使得对文件的训练和评价效果更加准确。

4、本发明对于人工评价的文件进行预处理(均衡处理),一方面,处理后的数据更适合机器学习,以提高学习效率,另一方面,可以将评价的差异度均衡化,减小各文件间的主观评价差异度,使得对文件的评价准则较为统一,进而训练出更加客观的评价模型。

附图说明

本发明将通过例子并参照附图的方式说明,其中:

图1是文档类文件复杂度判定流程图。

图2是文档类文件复杂度判定方法流程的一个实施例。

图3是文档类文件复杂度判定平台构造的一个实施例。

具体实施方式

本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。

如图1所示,本实施例公开了一种文档类文件复杂度判定方法,包括以下步骤:

step1:针对海量文件,分别获取每一份文件的若干文件参数,所述文件参数,为文件中包含的各种类信息的数据量。文件参数能反映出文件中,各种类型的信息-如文字、图片、表格等-的数据量,即全面反映出文件的特征信息量(区别于文件所包含的具体内容)。

对于文档类文件而言,所谓若干项文件参数至少包括文本量、图片量、分栏量和表格量。对于文档类文件而言,例如word文件;通过文档的xml信息(可通过现有的文档解析技术获取)即可获取到相应的文件参数,如包含多少文字/字符,包含多少张图片,分栏情况,以及包含多少张表格。

step2:根据对文件所获取的各文件参数,对每一份文件进行难度等级设定。此处对文件设定难度等级的规则遵循排版领域对文件排版时划分的规则。即参照文件中如文本量、图片量、分栏量和表格量,对文件的复杂度划定一个难度等级。

step3:通过对海量文件的各文件参数和对应的难度等级进行学习,得到复杂度检测模型,学习的过程包括确定各项文件参数的难度系数的过程。

在上述step1和step2中,已经获取到了每一份文件的文件参数和难度等级,将每一份文件的该类数据向量化,得到文件向量,如[第一参数、第二参数、第三参数、第四参数、……、难度等级],例如对于某一份文件而言,得到的向量为[文本量、图片量、分栏量、表格量、难度等级]。再将每一份文件的文件向量载入到神经网络中进行学习,得到每一类文件参数对应的难度系数,例如得到文本的难度系数、图片的难度系数等。至于学习所选用的模型,可以为线性回归、决策树、逻辑回归和svm等。

需要说明的是,在step3中,所进行机器学习所用到的每一份文件的文件参数和难度等级,均是进行预处理后所得到的数据。所谓的预处理,即进行平均处理,所谓平均,即对于多页文件而言,文件参数和难度等级是整体的文件参数和难度等级分别对页数所作平均的平均值。对于单页文件而言,平均后的结果未改变。

以线性回归的方法为例,将若干项文件参数和对应的难度等级构成的向量载入网络中,形成形如难度等级=x1*第一参数+x2*第二参数+x3*第三参数+……+xn*第n参数(此仅为对网络运算过程的一个形式举例,并不代表具体网络架构,具体网络运算时会更加复杂,例如难度等级=x1*第一参数^0.5+x2*第二参数+x3*第三参数/第一参数+x4*第三参数+x5*第四参数^2+……+xn*第n参数/2),其中,x1-xn为对应第一文件参数-第n文件参数的难度系数,这样,通过海量文件的数据,即可计算出多个文件参数所对应的难度系数,对每一个文件参数而言,通过多个难度系数计算出最终的难度系数(对于计算方法,可以选用如均值法、线性回归、挑选占比比例最大值等),将难度系数保存,即完成模型的训练。

step4:获取待检测文件的各项文件参数,载入step3所训练的模型中,即可得到待检测文件的复杂度。

即通过计算得到的各项文件参数的难度系数,将获取的待检测文件的各项文件参数同对应的难度系数进行综合计算(还需考虑模型中的权重问题),即可得到待检测文件的难度等级。

为了避免将不相关的参数纳入到复杂度判断中,具体而言,为了防止例如logo、图标等被纳入到文件复杂度判断中,本方法中对于文档类文件而言,所获取的图片量,为图片尺寸达到预定的尺寸阈值的图片的数量,即文件中附图/插图的尺寸达到了尺寸阈值,则视为有效图片,进行计量,否则,忽略掉该图片。

如图2所示,本实施例公开了一种文档类文件复杂度的判定方法,包括以下步骤:

step1:针对海量文件,分别获取每一份文件的若干项文件参数,包括文本量、图片量、分栏量和表格量;优选的,所获取的图片量,为图片尺寸达到预定的尺寸阈值的图片的数量;

step2:根据对海量文件所获取的各文件参数,对海量文件的每一份文件进行难度等级设定;

step3:分别对海量文件的每一份文件的文件参数和难度等级基于文件页数进行平均,再利用设定的训练模型对所有文件平均后的文件参数和难度等级进行学习,得到复杂度检测模型,其中包括确定各项文件参数的难度系数;在一个具体实施例中,该学习流程为:将每一份文件的文本量、图片量、分栏量、表格量和难度等级向量化,得到的文件向量为[文本量、图片量、分栏量、表格量、难度等级],再将每一份文件的文件向量载入到线性回归分析模型中进行分析,得到每一个文件参数(文本量、图片量、分栏量和表格量)的难度系数;

step4:获取待检测文件的各项文件参数,载入step3所训练的模型中,即可得到待检测文件的复杂度。

如图3所示,本实施例公开了一种文档类文件复杂度判定平台,该平台包括:参数提取部、难度等级划分部、模型构建部、文件输入部和结果输出部,其中:

参数提取部用于针对海量文件,分别获取每一份文件的若干文件参数,还获取待检测文件的若干文件参数传输给模型构建部;所述若干文件参数,为文件中包含的各种类信息的数据量;在一个实施例中,文件(用于学习的文件和待检测文件)的各项文件参数包括文本量、图片量、分栏量和表格量;

难度等级划分部用于对所述海量文件的每一份文件设定难度等级;可以为通过外部输入进行设定,例如键入;

模型构建部用于根据设定的训练模型,对海量文件的各文件参数和对应的难度等级进行学习,训练出复杂度检测模型;

文件输入部用于接收待检测文件,传输给参数提取部;

结果输出部用于输出待检测文件经复杂度检测模型评价后的结果。

利用参数提取部对海量文件进行文件参数提取,基于提取的文件参数,对每一份文件通过难度等级划分部进行难度等级设定,将参数提取部提取的各项文件参数和对应的难度等级进行关联,进一步通过模型构建部中设定的训练模型进行机器学习,以训练出复杂度检测模型。对于学习的结果,可以得到每一类文件参数所对应的难度系数,即每一类文件参数特征对于文件复杂度的影响权重。将待检测文件通过文件输入部输入到训练的复杂度检测模型中进行评价,评价结果通过结果输出部输出。

为了避免将不相关的参数纳入到复杂度判断中,具体而言,为了防止例如logo、图标等被纳入到文件复杂度判断中,本平台的参数提取部所获取的图片量,为文件中图片尺寸达到预定的尺寸阈值的图片的数量,即文件中附图/插图的尺寸达到了尺寸阈值,则视为有效图片,进行计量,否则,忽略掉该图片。

本实施例公开了另一种文档类文件复杂度判定平台,其与上述平台的区别仅在于:所述模型构建部在对海量文件的各文件参数和对应的难度等级进行学习前,先对每一份文件的文件参数和对应的难度等级进行预处理。所谓的预处理,为对每一份文件的文件参数和对应的难度等级相对于文件的页数分别做平均处理。对于单页文件而言,平均处理的结果并未发生改变。

本实施例公开了另一种文档类文件复杂度判定平台,该平台包括:参数提取部、难度等级划分部、模型构建部、文件输入部和结果输出部,其中:

参数提取部用于针对海量文件,分别获取每一份文件的若干文件参数,包括文本量、图片量、分栏量和表格量;还获取待检测文件的若干文件参数:文本量、图片量、分栏量和表格量,将其传输给模型构建部;参数提取部对文件所获取的图片量,为文件中图片尺寸达到预定的尺寸阈值的图片的数量;

难度等级划分部用于接收对所述海量文件的每一份文件设定难度等级;

模型构建部用于分别对海量文件的每一份文件的文件参数和难度等级基于文件页数进行平均,再利用设定的训练模型对所有文件平均后的文件参数和难度等级进行学习,得到复杂度检测模型;该学习流程为:将每一份文件的文本量、图片量、分栏量、表格量和难度等级向量化,得到的文件向量为[文本量、图片量、分栏量、表格量、难度等级],再将每一份文件的文件向量载入到线性回归分析模型中进行分析,得到每一个文件参数(文本量、图片量、分栏量和表格量)的难度系数;

以线性回归的方法为例,将若干项文件参数和对应的难度等级构成的向量载入网络中,形成形如难度等级=x1*第一参数+x2*第二参数+x3*第三参数+……+xn*第n参数(此仅为对网络运算过程的一个形式举例,并不代表具体网络架构,具体网络运算时会更加复杂,例如难度等级=x1*第一参数^0.5+x2*第二参数+x3*第三参数/第一参数+x4*第三参数+x5*第四参数^2+……+xn*第n参数/2),其中,x1-xn为对应第一文件参数-第n文件参数的难度系数,这样,通过海量文件的数据,即可计算出多个文件参数所对应的难度系数,对每一个文件参数而言,通过多个难度系数计算出最终的难度系数(对于计算方法,可以选用如均值法、线性回归、挑选占比比例最大值等);将难度系数保存即完成模型的训练;

文件输入部用于接收待检测文件,传输给参数提取部;

结果输出部用于输出待检测文件经复杂度检测模型评价后的结果。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1