本公开涉及图像处理领域。本公开涉及用于评估文件的质量的方法和相关电子装置。
背景技术:
1、物理文件被数字化,例如被扫描并输入到电子装置上,以被进一步处理,例如用于控制一个或多个机器。但是,所扫描的文件的质量各不相同。组织通常依赖于诸如技术文件等的某些文件的高质量扫描。当文件扫描具有低质量并且文本不易读时,可能会有问题,例如尤其是对于某些工业应用。这可能由于不必要地处理质量差的文件而导致资源的浪费。
技术实现思路
1、需要可以例如在任何进一步的处理之前提供文件的数字化版本的质量的评估的电子装置和方法。
2、因此,需要用于评估文件的质量的电子装置和方法,该电子装置和方法减轻、缓解或解决现有的缺点,并可以允许例如文件的数字版本的文件的质量的更准确、稳健和时间高效的评估,并且从而使得能够更高效地进一步处理文件。
3、公开了由电子装置执行的用于评估例如数字文件的文件的质量的方法。该方法包括获得与文件相关联的文本数据。该方法包括通过对文本数据应用质量预测模型来确定与多个字符中的至少一个字符相关联的置信度分数。置信度分数指示质量预测模型在将至少一个字符与预定字符匹配时的置信程度。该方法包括基于与至少一个字符相关联的置信度分数来确定与文件相关联的文件质量分数。该方法包括提供与文件质量分数相关联的输出。
4、公开了一种电子装置,其包括存储器电路系统、处理器电路系统和接口,其中该电子装置被配置为执行根据所公开的方法的方法中的任一项。
5、公开了一种存储一个或多个程序的计算机可读存储介质,该一个或多个程序包括指令,这些指令在由电子装置执行时致使该电子装置执行根据所公开的方法中的任一项。
6、本公开的优点在于,所公开的电子装置和方法在对文件的任何进一步的处理之前提供了对文件的质量的预测。例如,当文件要被提供用于进一步的处理(例如,ocr)时,则本公开可以避免对具有不令人满意的文件质量分数的文件的不必要的处理。换句话说,质量不足的文件可以被选择不经历进一步的处理,从而潜在地防止了否则将由对质量不佳的文件执行进一步的处理而导致的资源(例如,时间、功率和/或计算资源)的浪费。在另一示例中,所公开的技术可以通过在文件质量为质量不足的情况下不打印来减少影印/打印装置处的资源浪费。与传统或手动操作相比,所公开的技术导致对文件的控制更不容易出错、更稳健、时间和资源高效。
7、此外,所公开的技术允许预测文件质量分数,该分数可用于与适用于文件的领域和/或上下文的标准进行比较。例如,所公开的技术可以适用于比其他领域(诸如休闲文件)要求更高准确度的技术领域(诸如用于机器控制的文件)。例如,该标准可以反映对更高准确度的要求。所公开的技术允许将所要求的质量调整到基于应用领域而选择的标准。所公开的技术使得能够基于参考和/或目标文件质量分数来提供机器(诸如扫描仪、打印机或其他机器)的设置的行业特定自动校准。
1.一种由电子装置执行的用于评估文件的质量的方法,其中,所述文件包括一个或多个页,其中,所述一个或多个页包括多个字符,所述方法包括:
2.根据权利要求1所述的方法,其中,所述质量预测模型被配置为基于所述文本数据来确定与所述多个字符中的每个字符相关联的所述置信度分数。
3.根据前述权利要求中任一项所述的方法,其中,所述质量预测模型被配置为基于所述文本数据和预定字符库来确定所述置信度分数。
4.根据权利要求3所述的方法,其中,应用所述质量预测模型包括将所述至少一个字符与来自所述预定字符库中的所述预定字符进行比较。
5.根据前述权利要求中任一项所述的方法,其中,所述质量预测模型包括神经网络,其中,所述神经网络基于长短期记忆模型。
6.根据前述权利要求中任一项所述的方法,其中,确定所述文件质量分数包括:
7.根据前述权利要求中任一项所述的方法,其中,所述方法包括选择所述文件的一个或多个页以确定所述文件质量分数。
8.根据前述权利要求中任一项所述的方法,其中,所述方法包括确定所述文件质量分数是否满足第一标准。
9.根据前述权利要求中任一项所述的方法,其中,所述方法包括:
10.根据前述权利要求中任一项所述的方法,其中,提供与所述文件质量分数相关联的输出包括控制所述电子装置和/或外部装置。