图片搜题耗时优化的方法、装置、电子设备和存储介质与流程

文档序号：22324473发布日期：2020-09-25 17:52阅读：139来源：国知局

本发明涉及智能设备技术领域，具体涉及一种图片搜题耗时优化的方法、装置、电子设备和存储介质。

背景技术：

当前很多电子教辅设备，大多具有点读场景，点读场景是指用户通过手指指向书本、练习册或试卷等承载体时，教辅设备会通过图像采集装置对承载体进行拍照，并识别手指的位置，从而根据手指位置确定用户意图，进而得到用户意图对应的图像，用于搜题等。搜题时，一般采用的方法是通过将图像通过ocr识别后，在资源库或者互联网中搜索ocr识别后文字相关的内容，例如，可以是搜答案、搜读音或语义等。当搜题使用的图像所占内存较大，识别和搜索响应速度较慢，影响用户体验的效果。

技术实现要素：

针对所述缺陷，本发明实施例公开了一种图片搜题耗时优化的方法、装置、电子设备和存储介质，其可以压缩目标图片的内存占有率，提升搜题相应速度。

本发明实施例第一方面公开一种图片搜题耗时优化的方法，所述方法包括：

获取目标图片；

在接收到搜题指令时，获取所述目标图片所占内存的大小，在所述目标图片所占内存的大小大于或等于预设阈值时，对所述目标图片按照预定压缩率进行压缩，得到压缩图片；

采用所述压缩图片进行搜题。

作为一种可选的实施方式，在本发明实施例第一方面中，在所述获取目标图片之前，还包括：

通过训练样本集根据预定搜题正确率确定预定压缩率。

作为一种可选的实施方式，在本发明实施例第一方面中，所述通过训练样本集根据预定搜题正确率确定预定压缩率，包括：

对训练样本集中每个样本均通过不同压缩率进行压缩，得到压缩样本；

确定每个压缩率下压缩样本的文字识别率；

在所述文字识别率等于文字识别率阈值时，确定所述预定压缩率，所述预定压缩率为等于文字识别率阈值的压缩样本对应的压缩率。

作为一种可选的实施方式，在本发明实施例第一方面中，所述文字识别率阈值确定的方法，包括：

构建文字识别率和搜题准确率的线性函数；

根据预设搜题准确率以及所述线性函数确定文字识别率阈值。

作为一种可选的实施方式，在本发明实施例第一方面中，在所述文字识别率等于文字识别率阈值时，确定所述预定压缩率，包括：

确定每个压缩样本的文字识别率等于文字识别率阈值时的目标压缩率；

对所有目标压缩率进行聚类，并确定目标聚类集合，所述目标聚类集合为聚类中数量最大的目标压缩率的集合；

获取目标聚类集合中所有目标压缩率的平均值，并将所述平均值作为预定压缩率。

作为一种可选的实施方式，在本发明实施例第一方面中，采用所述压缩图片进行搜题，包括：

对所述压缩图片进行ocr识别，得到文字识别信息；

利用所述文字识别信息在资源库或互联网中按照搜题指令进行搜索，得到搜题结果。

作为一种可选的实施方式，在本发明实施例第一方面中，所述预定压缩率包括尺寸压缩率或/和质量压缩率。

本发明实施例第二方面公开一种图片搜题耗时优化的装置，所述装置包括：

获取单元，用于获取目标图片；

压缩单元，用于在接收到搜题指令时，获取所述目标图片所占内存的大小，在所述目标图片所占内存的大小大于或等于预设阈值时，对所述目标图片按照预定压缩率进行压缩，得到压缩图片；

搜题单元，用于采用所述压缩图片进行搜题。

作为一种可选的实施方式，在本发明实施例第二方面中，所述装置，还包括：

训练单元，用于通过训练样本集根据预定搜题正确率确定预定压缩率。

作为一种可选的实施方式，在本发明实施例第二方面中，所述训练单元，包括：

模型构建子单元，用于对训练样本集中每个样本均通过不同压缩率进行压缩，得到压缩样本；

识别率确定子单元，用于确定每个压缩率下压缩样本的文字识别率；

压缩率确定子单元，用于在所述文字识别率等于文字识别率阈值时，确定所述预定压缩率，所述预定压缩率为等于文字识别率阈值的压缩样本对应的压缩率。

作为一种可选的实施方式，在本发明实施例第二方面中，所述识别率确定子单元，包括：

第一孙单元，用于构建文字识别率和搜题准确率的线性函数；

第二孙单元，用于根据预设搜题准确率以及所述线性函数确定文字识别率阈值。

作为一种可选的实施方式，在本发明实施例第二方面中，所述压缩率确定子单元，包括：

第三孙单元，用于确定每个压缩样本的文字识别率等于文字识别率阈值时的目标压缩率；

第四孙单元，用于对所有目标压缩率进行聚类，并确定目标聚类集合，所述目标聚类集合为聚类中数量最大的目标压缩率的集合；

第五孙单元，用于获取目标聚类集合中所有目标压缩率的平均值，并将所述平均值作为预定压缩率。

作为一种可选的实施方式，在本发明实施例第二方面中，所述搜题单元，包括：

识别子单元，用于对所述压缩图片进行ocr识别，得到文字识别信息；

搜索子单元，用于利用所述文字识别信息在资源库或互联网中按照搜题指令进行搜索，得到搜题结果。

本发明实施例第三方面公开一种电子设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行本发明实施例第一方面公开的一种图片搜题耗时优化的方法的部分或全部步骤。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种图片搜题耗时优化的方法的部分或全部步骤。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种图片搜题耗时优化的方法的部分或全部步骤。

本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种图片搜题耗时优化的方法的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，获取目标图片；在接收到搜题指令时，获取所述目标图片所占内存的大小，在所述目标图片所占内存的大小大于或等于预设阈值时，对所述目标图片按照预定压缩率进行压缩，得到压缩图片；采用所述压缩图片进行搜题。可见，实施本发明实施例，可以通过对图片进行压缩来降低图片的内存占有率，提高识别和搜题相应速度，提升用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种图片搜题耗时优化的方法的流程示意图；

图2为本发明实施例公开的另一种图片搜题耗时优化的方法的流程示意图；

图3为本发明实施例公开的一种图片搜题耗时优化的装置的结构示意图；

图4为本发明实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，示例性地，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种图片搜题耗时优化的方法、装置、电子设备和存储介质，可以通过对图片进行压缩来降低图片的内存占有率，提高识别和搜题相应速度，提升用户体验，以下结合附图进行详细描述。

实施例一

请参阅图1，图1是本发明实施例公开的一种图片搜题耗时优化的方法的流程示意图。如图1所示，该图片搜题耗时优化的方法包括以下步骤：

110、获取目标图片。

目标图片为根据用户意图确定的图像。示例性地，在点读场景下，用户通过手触承载体并触发相应的拍照指令，由图像采集装置对承载体的拍照，进而识别用户意图。识别用户意图可以通过神经网络算法实现，例如根据psenet算法识别文本行，再根据肤色分割算法确定指尖坐标，从而确定指尖坐标所在的文本行或题目行，并根据指尖坐标所在的文本行或题目行对拍照图像进行分割，得到目标图片。

触发拍照的指令有多种，示例性地，可以通过语音方式实现，例如“请拍照”或者“这个词怎么读(这个词什么意思)”等，其中，前一个语音方式仅触发拍照操作，后续用户意图需要新的指令，后一个语音方式是通过搜题指令触发拍照指令。还可以通过按键(例如机械按键或触控按键)触发相应的拍照指令，也可以在电子设备(主要指家教机、学习机以及点读机等教辅设备)在进入点读场景例如点读app下触发拍照指令。

承载体为纸质的书本、练习册、作业本或试卷等。图像采集装置为执行拍照功能的器件，其可以集成于电子设备上，例如通过电子设备的前置摄像头对放置于电子设备前的承载体进行拍照，也可以是分立器件，通过有线或无线方式与电子设备建立通讯连接，执行电子设备发送的拍照指令，并将拍照得到的图像发送给电子设备。

120、在接收到搜题指令时，获取所述目标图片所占内存的大小，在所述目标图片所占内存的大小大于或等于预设阈值时，对所述目标图片按照预定压缩率进行压缩，得到压缩图片。

搜题指令为用户意图操作，搜题指令可以是搜答案，例如“这道题怎么解”，也可以是搜读音，例如“这个词怎么读”，或者搜解释，例如“这个词是什么意思”，还可以是搜近义词或反义词，例如“这个词的近义词(反义词)是什么”等。

因为搜题过程中，目标图片占有一定的内存大小，当目标图片占用内存较大时，就会影响设备的响应速度，从而影响识别和搜题的相应速度。在本发明实施例中，根据目标图片所占内存的大小确定是否对目标图像进行压缩。

预设阈值可以根据搜题指令的类型，对于搜题指令为搜读音、解释、近义词或反义词等时，预设阈值可以设置相对小一些，以快速响应，提升用户体验。对于搜答案等时，预设阈值可以相对设置大一些，一方面搜答案时一般针对计算题较多，所以目标图片本身较大，压缩和识别本身就花费较多的时间；另一方面，搜答案时，用户对搜索时间有一定的承受范围，而且也给用户留有一定的思考时间。

根据需要设置预定压缩率，预定压缩率可以与文字识别率相结合，即可以根据预设文字识别率，在对目标图片进行相应的压缩后确定的文字识别率与设定的预设文字识别率相当时，则可以认为该压缩时对应的压缩率为预定压缩率。文字识别率为将压缩后的压缩图片进行文字识别，文字识别得到的字符数与目标图片本身的字符数的比值即文字识别率。如果需要提升搜题速度，而对搜题准确性要求不是太高时，可以适当降低预设文字识别率，即提高预定压缩率，反之，如果要求搜题准确性较高，对搜题速度要求一般时，可以适当提升预设文字识别率，即降低预定压缩率。

130、采用所述压缩图片进行搜题。

对于未进行压缩的目标图片，执行搜题指令时，仍以原始的目标图片进行搜题，对于压缩的目标图片，执行搜题指令时，以压缩图片进行搜题。

搜题方法与现有技术类似，即先对图片(原始的目标图片或压缩图片)进行ocr识别，确定识别后的文本识别信息即文本内容，然后基于文本内容和搜索指令在资源库或互联网中搜索相应的内容。

资源库可以是事先创建的基于不同的科目、年级或者其他的数据库，根据需要创建。搜索相应的内容是各级搜题指令确定，可以是语音(搜索怎么读时)、答案(搜索怎么做时)或者字符(搜索近义词或反义词时)等。

实施本发明实施例，可以通过对图片进行压缩来降低图片的内存占有率，提高识别和搜题相应速度，提升用户体验。

实施例二

请参阅图2，图2是本发明实施例公开的另一种图片搜题耗时优化的方法的流程示意图。如图2所示，该图片搜题耗时优化的方法包括以下步骤：

210、获取目标图片。

220、在接收到搜题指令时，获取所述目标图片所占内存的大小，在所述目标图片所占内存的大小大于或等于预设阈值时，对所述目标图片按照预定压缩率进行压缩，得到压缩图片。

230、采用所述压缩图片进行搜题。

步骤210和230可以与实施例一步骤110和130相同，这里不再赘述。

步骤220中，搜题指令为用户意图操作，搜题指令可以是搜答案，例如“这道题怎么解”，也可以是搜读音，例如“这个词怎么读”，或者搜解释，例如“这个词是什么意思”，还可以是搜近义词或反义词，例如“这个词的近义词(反义词)是什么”等。

预定压缩率是根据预先训练得到，预定压缩率包括尺寸压缩率和/或质量压缩率，通过训练模型将二者相结合，得到压缩模型，对压缩模型进行训练，确定尺寸压缩率和质量压缩率的值。

尺寸压缩会改变图片的尺寸，即压缩图片宽度和高度的像素点，主要用于减少图片所占内存大小。而质量压缩是在保持像素前提下改变图片的位深及透明度等来压缩图片的，主要用于减少图片的存储大小。在本发明实施例中，由于主要降低目标图片的内存占有率，因此，在获取预定压缩率时，可以将尺寸压缩率的比重设置相对较大一些，例如p＝0.95p1+0.05p2；其中，p为预定压缩率，p1和p2分别为尺寸压缩率和质量压缩率。

压缩模型可以依据现有的压缩算法例如luban图像压缩算法，或者现有的质量压缩算法例如mediastore.images.media.getbitmap或者bitmapfactory.decodestream以及现有的尺寸压缩算法例如bitmapfactory.decodefile进行结合，通过预设权重得到压缩模型。当然，也可以根据上述预定压缩率的公式通过有限次试验确定尺寸压缩率和质量压缩率。

通过训练样本集对压缩模型进行训练，根据预定搜题正确率确定预定压缩率。具体地，其可以包括以下步骤：

221、对训练样本集中每个样本均通过不同压缩率进行压缩，得到压缩样本。

将每个样本均输入压缩模型，通过实现设定的不同采样率(针对尺寸压缩率)和质量压缩比例(在本发明实施例中，设定质量压缩比例为1-(压缩图像和原始图像的质量比例)，例如质量压缩比例为10％，则压缩图像的质量为原始图像质量的90％)的组合确定压缩样本，如果采用离线的压缩率，可以为每个样本设置不少于20个的不同压缩率，如果采用连续的压缩率，则可以对连续的压缩率进行采样，以使每个样本确定不少于20个不同的采样点。

222、确定每个压缩率下压缩样本的文字识别率。

文字识别率是指压缩样本输入ocr识别模型中得到的字符数量与压缩样本实际的字符总数量的比值。

223、在所述文字识别率等于文字识别率阈值时，确定所述预定压缩率，所述预定压缩率为等于文字识别率阈值的压缩样本对应的压缩率。

理论上，图像压缩率越大，文字识别率就越低，搜题的准确率就越低。因此，可以通过搜题准确率来确定图像压缩率，寻求搜题准确率和图像压缩率的平衡点。可以通过多次试验方式构建文字识别率和搜题准确率的线性函数，线性函数可以通过最小二乘法进行拟合，线性函数可以分段式进行，根据具体的识别率和准确率对应的坐标系中点的位置设置分段式线性函数。对于搜题准确率，用户一般会有一定的预期，根据不同的搜题类型确定，对于搜题指令为搜读音、解释、近义词或反义词等时，搜题准确率一般较高，对于搜答案等，可以允许一定的容错率，搜题准确率可以设置低一些。从而可以根据预设搜题准确率以及构建的线性函数确定文字识别率阈值，再根据文字识别率阈值确定预定压缩率。

文字识别率阈值可以是一个范围，确定每个压缩样本的文字识别率等于文字识别率阈值时的目标压缩率，即是确定的目标压缩率进行文字识别，识别出的字符数是目标图片中总的字符数的比例在文字识别率阈值的范围内。

可以通过数学期望(平均值)的方式确定预定压缩率，即将所有目标压缩率进行求平均，然后将平均值作为预定压缩率。在压缩模型存在一定的误差的前提下，还可以通过聚类方式对该误差进行消除，先对所有目标压缩率进行聚类，确定每个聚类集合中目标压缩率数量。所谓的聚类，是将某个目标压缩率±预设值范围内的所有目标压缩率作为一个聚类，形成聚类集合。从这些聚类集合中找出聚类中数量最多的目标压缩率的集合，记为目标聚类集合，将目标聚类集合中所有的目标压缩率求平均值，并将平均值作为预定压缩率。

实施本发明实施例，可以通过对图片进行压缩来降低图片的内存占有率，提高识别和搜题相应速度，提升用户体验。

实施例三

请参阅图3，图3是本发明实施例公开的一种图片搜题耗时优化的装置的结构示意图。如图3所示，该图片搜题耗时优化的装置可以包括：

获取单元320，用于获取目标图片；

压缩单元330，用于在接收到搜题指令时，获取所述目标图片所占内存的大小，在所述目标图片所占内存的大小大于或等于预设阈值时，对所述目标图片按照预定压缩率进行压缩，得到压缩图片；

搜题单元340，用于采用所述压缩图片进行搜题。

作为一种可选的实施方式，所述装置，还包括：

训练单元310，用于通过训练样本集根据预定搜题正确率确定预定压缩率。

作为一种可选的实施方式，所述训练单元310，包括：

模型构建子单元311，用于对训练样本集中每个样本均通过不同压缩率进行压缩，得到压缩样本；

识别率确定子单元312，用于确定每个压缩率下压缩样本的文字识别率；

压缩率确定子单元313，用于在所述文字识别率等于文字识别率阈值时，确定所述预定压缩率，所述预定压缩率为等于文字识别率阈值的压缩样本对应的压缩率。

作为一种可选的实施方式，所述识别率确定子单元312，包括：

第一孙单元3121，用于构建文字识别率和搜题准确率的线性函数；

第二孙单元3122，用于根据预设搜题准确率以及所述线性函数确定文字识别率阈值。

作为一种可选的实施方式，所述压缩率确定子单元313，包括：

第三孙单元3131，用于确定每个压缩样本的文字识别率等于文字识别率阈值时的目标压缩率；

第四孙单元3132，用于对所有目标压缩率进行聚类，并确定目标聚类集合，所述目标聚类集合为聚类中数量最大的目标压缩率的集合；

第五孙单元3133，用于获取目标聚类集合中所有目标压缩率的平均值，并将所述平均值作为预定压缩率。

作为一种可选的实施方式，所述搜题单元340，包括：

识别子单元341，用于对所述压缩图片进行ocr识别，得到文字识别信息；

搜索子单元342，用于利用所述文字识别信息在资源库或互联网中按照搜题指令进行搜索，得到搜题结果。

图3所示的图片搜题耗时优化的装置，可以通过对图片进行压缩来降低图片的内存占有率，提高识别和搜题相应速度，提升用户体验。

实施例四

请参阅图4，图4是本发明实施例公开的一种电子设备的结构示意图。如图4所示，该电子设备可以包括：

存储有可执行程序代码的存储器410；

与存储器410耦合的处理器420；

其中，处理器420调用存储器410中存储的可执行程序代码，执行实施例一中图片搜题耗时优化的方法中的部分或全部步骤。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行实施例一中图片搜题耗时优化的方法中的部分或全部步骤。

本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一中图片搜题耗时优化的方法中的部分或全部步骤。

本发明实施例还公开一种应用发布平台，其中，应用发布平台用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一中图片搜题耗时优化的方法中的部分或全部步骤。

在本发明的各种实施例中，应理解，所述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。

在本发明所提供的实施例中，应理解，“与a对应的b”表示b与a相关联，根据a可以确定b。但还应理解，根据a确定b并不意味着仅仅根据a确定b，还可以根据a和/或其他信息确定b。

本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(read-onlymemory，rom)、随机存储器(randomaccessmemory，ram)、可编程只读存储器(programmableread-onlymemory，prom)、可擦除可编程只读存储器(erasableprogrammableread-onlymemory，eprom)、一次可编程只读存储器(one-timeprogrammableread-onlymemory，otprom)、电子抹除式可复写只读存储器(electrically-erasableprogrammableread-onlymemory，eeprom)、只读光盘(compactdiscread-onlymemory，cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种图片搜题耗时优化的方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵华;史云奇
技术所有人：广东小天才科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。