本发明涉及书刊印刷检错,更具体地涉及一种书刊印刷检错系统及其方法。
背景技术:
1、印刷的数字化问题已成为国内外相关理论与技术的研究关注热点,它可以广泛应用于机关、图书馆、档案馆、资料馆等相关行业的使用,具有很大的实用性,基于图像处理与模式识别理论的光学字符识别技术,已经实现了印刷文字的自动输入,通常在印刷书刊前,为了确保输出的正确性,会对印刷的书刊进行检查处理。
2、但是现有的印刷检错大部分只针对文字总分进行检错,未对书刊中的图像以及格式问题进行检错,而类书刊中存在诸多图像元素,无法对图像元素进行检错,同时未注重对书刊格式问题的检错,因而检错覆盖面较窄,大多通过人工方式进行检错,效率较低,同时,未通过对书刊的检错结果进行进一步分析,未基于书刊的检错结果来判断机器是否需要进行维护保养或维修,以确保后续印刷工作的正常进行,无法避免因设备本身原因降低印刷质量,造成损失。
技术实现思路
1、为了克服现有技术的上述缺陷,本发明提供了一种书刊印刷检错系统及其方法,以解决上述背景技术中存在的问题。
2、本发明提供如下技术方案:一种书刊印刷检错系统,包括:
3、目标对象信息采集模块:通过采集n个目标对象的文本信息、图像信息以及格式信息,所述目标对象为待打印的书刊;
4、数据预处理模块:用于对采集的单个目标对象信息数据进行清洗降噪与分类,提取出文本数据与图像数据,所述单个目标对象为单本书刊;
5、文本检错模块:通过自然语言处理对数据预处理模块的文本数据进行分词处理,并与样本数据进行对比,对错误处进行标记;
6、图像检错模块:通过细粒度识别对数据预处理模块的图像数据进行差异对比,通过余弦相似度计算公式计算得出图像差异率β;
7、格式检错模块:通过对数据预处理模块中文本数据的各个部分进行定位,提取各部分的格式信息,与样本数据进行比对;
8、目标对象整体分析模块:包括文本分析警示单元、格式分析警示单元以及合格标准检测单元,通过分析文本检错模块、图像检错模块以及格式检错模块的数据,判断该目标对象是否达到印刷合格标准;
9、综合评价模块:通过目标对象整体分析模块中合格标准检测单元的判断结果对n个目标对象的整体合格率进行分析,通过总体合格率计算公式计算得出批次合格率ω,并与标准值进行对比,对设备性能进行初步评估。
10、优选的,所述文本分析警示单元通过文本错误率计算公式计算得出文本错误率α,所述格式分析警示单元通过格式差异计算公式计算得出格式错误率γ,所述合格标准检测单元通过对文本错误率α、格式错误率γ以及图像差异率β进行综合分析,判断目标对象是否达到印刷合格标准。
11、优选的,所述余弦相似度公式为:,其中,hi为图像的颜色向量,h1为样本图像的颜色标准向量,,其中,h(xij)为像素xij的出现频率,,其中,xij为图像中某一特定颜色,s(xij)为该像素的个数。
12、优选的,所述文本错误率计算公式为:,其中,c为文本检错模块对错误处进行标记的数量,z为目标文本的全部字数。
13、优选的,所述格式差异计算公式为:,其中,,其中,a为样本格式,b为目标对象的格式,wi为样本格式a的格式特征字符串,cj为目标对象的格式特征字符串,m为样本格式特征字符串的数量,n为目标对象的格式特征字符串的数量。
14、优选的,所述总体合格率计算公式为:,其中,η为合格标准检测单元判定为合格的目标对象数量。
15、一种书刊印刷检错方法,用于实施上述任一所述的一种书刊印刷检错系统,其特征在于:包括以下步骤:
16、步骤s11:目标对象信息采集:采集n个目标对象的文本信息、图像信息以及格式信息;
17、步骤s12:数据预处理:对采集的单个目标对象信息数据进行清洗降噪与分类,提取出文本数据与图像数据;
18、步骤s13:文本检错:通过自然语言处理对步骤s12中的文本数据进行分词处理,并与样本数据进行对比,对错误处进行标记;
19、步骤s14:图像检错:通过细粒度识别对步骤s12中的图像数据进行差异对比,通过余弦相似度计算公式计算得出图像差异率β;
20、步骤s15:格式检错:通过对步骤s12中文本数据的各个部分进行定位,提取各部分的格式信息,与样本数据进行比对;
21、步骤s16:对目标对象进行整体分析:通过分析步骤s13、步骤s14以及步骤s15中的数据,判断该目标对象是否达到印刷合格标准;
22、步骤s17:通过步骤s16中的判断结果对n个目标对象的整体合格率进行分析,通过总体合格率计算公式计算得出批次合格率ω,并与标准值进行对比,对设备性能进行初步评估;
23、步骤s18:对步骤s16与步骤s17的数据进行结果显示与反馈。
24、本发明的技术效果和优点:
25、本发明通过设有目标对象整体分析模块与综合评价模块,有利于通过文本错误率计算公式得出文本错误率,通过格式差异率计算公式得出格式错误率,再结合图像差异率得出目标对象的整体合格情况,多标准衡量书刊印刷错误率情况,并对多个目标对象进行整体分析,从而得出印刷整体合格情况,根据批次合格率对设备性能进行初步评估,利用检错结果进一步分析,以此来判定设备是否需要进行维护保养或更换,确保后续印刷工作的正常进行,避免因设备本身原因降低印刷质量从而造成损失。
1.一种书刊印刷检错系统,其特征在于:包括:
2.根据权利要求1所述的一种书刊印刷检错系统,其特征在于:所述文本分析警示单元通过文本错误率计算公式计算得出文本错误率α,所述格式分析警示单元通过格式差异计算公式计算得出格式错误率γ,所述合格标准检测单元通过对文本错误率α、格式错误率γ以及图像差异率β进行综合分析,判断目标对象是否达到印刷合格标准。
3.根据权利要求1所述的一种书刊印刷检错系统,其特征在于:所述余弦相似度公式为:,其中,hi为图像的颜色向量,h1为样本图像的颜色标准向量,,其中,h(xij)为像素xij的出现频率,,其中,xij为图像中某一特定颜色,s(xij)为该像素的个数。
4.根据权利要求2所述的一种书刊印刷检错系统,其特征在于:所述文本错误率计算公式为:,其中,c为文本检错模块对错误处进行标记的数量,z为目标文本的全部字数。
5.根据权利要求2所述的一种书刊印刷检错系统,其特征在于:所述格式差异计算公式为:,其中,,其中,a为样本格式,b为目标对象的格式,wi为样本格式a的格式特征字符串,cj为目标对象的格式特征字符串,m为样本格式特征字符串的数量,n为目标对象的格式特征字符串的数量。
6.根据权利要求1所述的一种书刊印刷检错系统,其特征在于:所述总体合格率计算公式为:,其中,η为合格标准检测单元判定为合格的目标对象数量。
7.一种书刊印刷检错方法,用于实施上述权利要求1-6任一所述的一种书刊印刷检错系统,其特征在于:包括以下步骤: