图像识别方法、装置、存储介质和计算机设备与流程

文档序号：18030256发布日期：2019-06-28 22:34阅读：151来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及计算机技术领域，特别是涉及一种图像识别方法、装置、存储介质和计算机设备。

背景技术：

随着计算机技术的发展与图像处理技术的进步，可以通过图像来呈现的内容越来越多。传统的图像识别技术是以图像的特征为基础，通过图像特征提取与图像特征匹配得到图像识别结果。

然而，伴随着图像内容的多样化，图像特征也越来越复杂，通过传统的图像识别技术进行图像识别时，为了保证图像识别的准确性，需要提取的图像特征也越来越多，从而导致图像识别过程效率低。

技术实现要素：

基于此，有必要针对传统的图像识别方法识别效率低问题，提供一种图像识别方法、装置、存储介质和计算机设备。

一种图像识别方法，所述方法包括：

获取待识别的页面图像；

根据所述页面图像中各页面元素所在区域，将所述页面图像划分为各所述页面元素相应的页面子图像；

确定各所述页面子图像各自对应的图像类型；

按照与各自对应的图像类型相匹配的识别方式识别各页面子图像，得到各所述页面子图像相应的识别结果。

一种图像识别装置，所述装置包括：

获取模块，用于获取待识别的页面图像；

划分模块，用于根据所述页面图像中各页面元素所在区域，将所述页面图像划分为各所述页面元素相应的页面子图像；

确定模块，用于确定各所述页面子图像各自对应的图像类型；

识别模块，用于按照与各自对应的图像类型相匹配的识别方式识别各页面子图像，得到各所述页面子图像相应的识别结果。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得所述处理器执行以下步骤：

获取待识别的页面图像；

根据所述页面图像中各页面元素所在区域，将所述页面图像划分为各所述页面元素相应的页面子图像；

确定各所述页面子图像各自对应的图像类型；

按照与各自对应的图像类型相匹配的识别方式识别各页面子图像，得到各所述页面子图像相应的识别结果。

一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：

获取待识别的页面图像；

根据所述页面图像中各页面元素所在区域，将所述页面图像划分为各所述页面元素相应的页面子图像；

确定各所述页面子图像各自对应的图像类型；

按照与各自对应的图像类型相匹配的识别方式识别各页面子图像，得到各所述页面子图像相应的识别结果。

上述图像识别方法、装置、存储介质和计算机设备，在获取待识别的页面图像后，自动根据页面图像中各页面元素所在区域，将页面图像划分为若干页面子图像，然后确定每个页面子图像的图像类型，再对每个页面子图像，按照与该页面子图像的图像类型相匹配的识别方式进行识别，得到各页面子图像相应的识别结果，这样由于每个页面子图像中包括的内容大大减少，使得图像识别的效率大大增加，而且，每个页面子图像包括一种页面元素，类型单一，避免了识别过程中其他类型的页面元素的影响，进一步提高了图像识别的效率。

附图说明

图1为一个实施例中图像识别方法的应用环境图；

图2为一个实施例中图像识别方法的流程示意图；

图3为一个实施例中页面子图像与识别结果的对照示意图；

图4为一个实施例中待识别的页面图像的示意图；

图5为一个实施例中根据页面图像中各页面元素所在区域，将页面图像划分为各页面元素相应的页面子图像的步骤的流程示意图；

图6为一个实施例中确定各页面子图像各自对应的图像类型的步骤的流程示意图；

图7为一个实施例中图像识别过程的逻辑关系图；

图8为一个实施例中测试过程的流程示意图；

图9为另一个实施例中图像识别方法的流程示意图；

图10为一个实施例中图像识别装置的结构框图；

图11为另一个实施例中图像识别装置的结构框图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。

图1为一个实施例中图像识别方法的应用环境图。参照图1，该图像识别方法应用于图像识别系统。该图像识别系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是固定终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120具体可以是独立的物理服务器，也可以是物理服务器集群。终端110和服务器120均可用于执行该图像识别方法。终端110可获取待识别的页面图像，根据页面图像中各页面元素所在区域，将页面图像划分为各页面元素相应的页面子图像，再确定各页面子图像各自对应的图像类型，按照与各自对应的图像类型相匹配的识别方式识别各页面子图像，得到各页面子图像相应的识别结果。服务器120可接收终端110发送的待识别的页面图像，从而获取待识别的页面图像，根据页面图像中各页面元素所在区域，将页面图像划分为各页面元素相应的页面子图像，再确定各页面子图像各自对应的图像类型，按照与各自对应的图像类型相匹配的识别方式识别各页面子图像，得到各页面子图像相应的识别结果。

图2为一个实施例中图像识别方法的流程示意图。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2，该图像识别方法具体包括如下步骤：

s202，获取待识别的页面图像。

其中，页面是呈现文字和/或图片等信息的可视化信息载体。页面可以是网页页面，也可以是客户端页面。页面图像是由页面生成的图像。页面图像可以是根据页面资源绘制得到的图像，也可以是对页面截图得到的图像，还可以是拍摄页面得到的图像。待识别的页面图像是需要对页面中呈现的信息进行识别的图像。

在一个实施例中，终端获取的待识别的页面图像，可以是本终端对目标页面进行截图得到的页面图像。具体地，终端可通过操作系统提供的截图接口进行截图操作，也可通过目标页面所属的应用提供的截图接口进行截图操作，得到目标页面的截图。目标页面可以是触发截图操作时终端当前展示的网页或者应用界面，也可以是触发截图操作时指定的需要跳转至的网页或者应用界面。终端可在检测到预设触发操作时触发截图操作，也可以定时触发截图操作，还可以在发生指定的自发事件时触发截图操作。

在一个实施例中，终端获取的待识别的页面图像，也可以是本终端之外的计算机设备对目标页面进行截图得到的页面图像。具体地，本终端之外的计算机设备可通过操作系统提供的截图接口进行截图操作，也可通过目标页面所属的应用提供的截图接口进行截图操作，得到目标页面的截图，并将该截图由本终端之外的计算机设备发送至本终端。

在一个实施例中，终端获取的待识别的页面图像，还可以是拍摄目标页面得到的页面图像。具体地，目标页面可以是本终端呈现的页面，也可以是本终端之外的计算机设备呈现的页面。

在一个实施例中，终端在获得待识别的页面图像后，可将获取的待识别的页面图像发送至服务器，从而使得服务器获取待识别的页面图像，以执行候选的图像处理步骤。

s204，根据页面图像中各页面元素所在区域，将页面图像划分为各页面元素相应的页面子图像。

其中，页面元素是组成页面且反映完整信息的独立单元。页面元素可包括规定了大小、风格和颜色等基础信息的控件，也可包括文字、表格、视频、音频等呈现在页面上的信息。页面子图像是由页面图像划分得到的包含页面元素的图像。页面元素所在区域是该页面元素在页面图像中显示的坐标位置。在本实施例中，每个页面子图像包含且仅包含一个页面元素。页面元素所在区域可以是像素坐标范围。

具体地，页面均是按照相应设置的页面布局绘制而成的。页面布局是对页面上待呈现的内容进行设置。页面布局可定义页面元素样式或者页面元素结构等。页面元素样式至少包括了本步骤中所涉及的页面元素所在区域。页面元素样式还可以包括页面元素的颜色或背景图像等其它样式。页面布局通常通过文件的形式来记录按照某种布局协议编写的布局数据，如页面布局文件。终端可按照页面布局，确定页面图像中各页面元素所在区域，在根据这些区域划分，将页面图像划分为各页面元素相应的页面子图像。

在一个实施例中，终端可获取页面图像相应的页面所对应的页面布局文件，页面布局文件中可直接定义页面元素在页面中的显示位置，也就是页面图像中页面元素所在区域。终端可直接从布局文件中读取页面元素的显示位置。具体地，页面元素的显示位置具体可以是居中显示或者置顶显示等。比如，页面布局文件中可定义页面元素左侧边缘与终端屏幕左侧的距离为终端屏幕宽度与组件宽度之差的二分之一，页面元素上侧边缘与终端屏幕上侧的距离为终端屏幕高度与组件高度之差的二分之一以实现页面元素居中显示。

在一个实施例中，页面布局文件中可定义页面元素与某参考目标的相对位置。该参考目标可以是触发事件所针对的控件，也可以是当前页面的其他目标。终端可查找布局文件中定义的参考目标和页面元素与该参考目标的相对位置。终端可再获取该参考目标在当前页面的展示位置，并根据获取的参考目标的展示位置和查找的页面元素与该参考目标的相对位置，计算得到页面元素的显示位置。其中，参考目标可以是页面中心位置或者页面四角位置等。

在一个实施例中，终端可直接在页面图像上进行图像切分，得到若干页面子图像。终端也可从页面图像中读取各页面元素所在区域的像素点，根据读取的像素点生成新的包括页面元素的页面子图像。

s206，确定各页面子图像各自对应的图像类型。

其中，图像类型是图像中呈现的信息所属的类型。图像类型可以是文本图像类型、图片图像类型或者控件图像类型等。例如，包括文本的页面子图像对应的图像类型为文本图像类型，包括图标的页面子图像对应的图像类型为图片图像类型等。

在一个实施例中，终端上可存储有训练图像库。训练图像包括文本图像、图片图像和控件图像等。终端具体可根据用户指令从训练图像库中选择若干训练图像作为样本，将样本按照图像类型进行分类，并为每一类样本标记图像类型。终端可再对每一类样本中的图像提取反映图像类型的图像特征，将提取的图像特征作为该类样本所对应的图像类型的图像特征。

进一步地，终端在将页面图像划分为各页面元素相应的页面子图像，可提取划分得到的页面子图像的图像特征，并计算提取的图像特征与各图像类型的图像特征的相似度，从而按照相似度大小将图像类型进行排序，选取排在首位的图像类型得到页面子图像对应的图像类型。

其中，反映图像类型的图像特征，是表示相应样本区别于其它图像类型的样本的特性。相似度可采用余弦相似度或者图像间各自感知哈希值的汉明距离。

在一个实施例中，终端可将样本或页面子图像输入到卷积神经网络模型后，获取该卷积神经网络模型中输入层和输出层之间的某卷积层或者全连接层所输出的数据，作为样本或页面子图像的图像特征。

s208，按照与各自对应的图像类型相匹配的识别方式识别各页面子图像，得到各页面子图像相应的识别结果。

其中，识别方式是识别页面子图像时采用的技术手段。识别方式与图像类型相匹配。也就是说图像的图像类型对应不同的识别方式。例如，识别文本图像类型的图像采用识别文本的识别方式，识别图片图像类型的图像采用识别图片的识别方式等。

具体地，终端上可存储有图像类型与识别方式间的对应关系。终端在确定各页面子图像各自对应的图像类型之后，可查找与该图像类型存在对应关系的识别方式，通过该识别方式识别相应的页面子图像得到识别结果。

在一个实施例中，终端可以通过ocr(opticalcharacterrecognition，光学字符识别)技术从属于文本图像类型的页面子图像中识别出文本序列。

在一个实施例中，终端也可采用机器学习模型从图片图像类型的页面子图像中识别出图像内容。机器学习模型可以是神经网络模型，具体可采用cnn(convolutionalneuralnetworks，卷积神经网络)模型或者fcnn(fullyconvolutionalneuralnetworks，全卷积神经网络)模型。

在一个实施例中，终端还可通过图像对比，将属于控件图像类型的页面子图像，与控件模板图像进行对比，识别出属于控件图像类型的页面子图像中包含的控件。

其中，识别结果是页面子图像中包括的内容。图3示出了一个实施例中页面子图像与识别结果的对照示意图。参考图3，文本图像类型的页面子图像301的识别结果可以是识别出的文本序列“今天天气真好”，图片图像类型的页面子图像302的识别结果可以是识别出的图片中的内容“高山”，控件图像类型的页面子图像303的识别结果可以是识别出的控件的名称“表情按钮”。

上述图像识别方法，在获取待识别的页面图像后，自动根据页面图像中各页面元素所在区域，将页面图像划分为若干页面子图像，然后确定每个页面子图像的图像类型，再对每个页面子图像，按照与该页面子图像的图像类型相匹配的识别方式进行识别，得到各页面子图像相应的识别结果，这样由于每个页面子图像中包括的内容大大减少，使得图像识别的效率大大增加，而且，每个页面子图像包括一种页面元素，类型单一，避免了识别过程中其他类型的页面元素的影响，进一步提高了图像识别的效率。

在一个实施例中，步骤s202包括：获取针对当前页面的识别指令；响应于识别指令，按照当前页面所对应的页面布局信息，对当前页面中各页面元素添加页面区域标记，得到待识别的页面图像。步骤s204包括：按照页面区域标记划分页面图像，得到各页面元素相应的页面子图像。

其中，识别指令是触发进行识别动作的计算机可读指令。终端可在检测到预设触发操作时触发识别指令，也可以定时触发识别指令，也可以在发生指定的自发事件时触发识别指令。识别指令所针对的当前页面，可以是触发识别指令时正在显示的页面。当前页面可以是网页或者应用界面。

页面布局信息是反映页面元素布局的数据。页面布局信息可以是页面在绘制时所依据的由开发人员设置的页面布局数据。

具体地，终端在获取到识别指令后，响应于该识别指令，获取当前页面所对应的页面布局信息。该页面布局信息可由运行于终端上的用于渲染当前页面的应用获取，也可由终端上的操作系统获取。

终端在获取到当前页面所对应的页面布局信息后，按照页面布局信息中记录的各页面元素在当前页面的显示区域范围，对当前页面中各页面元素添加页面区域标记，得到待识别的页面图像。其中，页面区域标记是用于区分不同页面元素所在区域的标记。比如，为页面元素添加边框或者为不同的页面元素添加不同的背景颜色等。进一步地，终端可再按照页面区域标记进行区域划分，得到各页面元素相应的页面子图像。

在一个实施例中，终端可按照页面布局信息中记载的各页面元素在绘制时所占用的像素坐标位置，为各页面元素添加预设像素颜色值的边框，得到每个页面元素所在区域被预设像素颜色值的像素点所包围的图像。终端可再通过识别该图像上连续的预设像素颜色值的像素点，沿着这些连续的像素点所在的位置进行区域划分，得到各页面元素相应的页面子图像。

举例说明，假设采用坐标(x，y)表示页面图像上的像素点位置，并通过像素颜色值a来进行边框标记。其中，以页面图像左上角为坐标起点(0，0)，x表示页面图像的横坐标，y表示页面图像的纵坐标。识别连续的颜色值为a的像素点围成的区域，并以x和y的取值范围来标识，比如，50≤x≤100，50≤y≤100。

图4示出了一个实施例中待识别的页面图像的示意图。参考图4，该示意图包括页面元素410和页面区域标记420。从该图中可以看出，页面图像中的各页面元素410，均通过页面区域标记420进行区域标记，终端可沿页面区域标记420划分得到各页面元素相应的页面子图像。

上述实施例中，在需要进行页面识别时，按照页面所对应的页面布局信息，对当前页面中各页面元素添加页面区域标记，通过页面区域标记可快速定位页面图像的划分位置，极大地提高了将页面图像划分为若干页面子图像的效率，从而提高了图像识别的效率。

如图5所示，在一个实施例中，步骤s204具体包括以下步骤：

s502，获取页面图像所对应的页面布局信息。

其中，页面布局信息可以是页面在绘制时所依据的由开发人员设置的页面布局数据，也可以是在页面绘制时另外记录的各页面元素像素区域范围的数据，还可以是封装在图像文件中的页面布局数据。

在一个实施例中，步骤s502包括：获取与页面图像的页面标识对应、且独立于页面图像的页面布局信息；或，在页面图像所对应的图像文件中，获取预设的页面布局信息字段处的页面布局信息。

在一个实施例中，终端在绘制页面时，可记录每个页面元素像素区域范围，具体可以通过对应的像素点坐标范围来表示，并将记录的页面元素像素区域范围对应于页面标识存储在文件或者数据库中。在实施例中，终端具体可以列表的形式记录页面元素像素区域范围。其中，记录的页面元素像素区域范围独立于页面图像的图像文件而存储。

在一个实施例中，终端在生成待识别的页面图像时，将页面图像的页面布局信息或者记录的页面元素像素区域范围，写入图像文件中的页面布局信息字段处，通过图像文件本身记录各页面元素的像素区域范围。在本实施例中，页面图像所对应的图像文件可以是exchangeableimagefile(exif可交换图像文件)。

上述实施例中，提供了多种获取页面图像所对应的页面布局信息的方式，丰富了页面布局信息的途径。

s504，确定页面布局信息中指定的各页面元素所在的页面区域。

具体地，终端可读取页面布局信息中记录的各页面元素的像素区域范围，从而得到各页面元素所在的页面区域。比如，页面布局信息中记载了页面元素q，并对应记载了q的像素区域范围为50≤x≤100，50≤y≤100。那么，在页面图像中，像素坐标位置满足50≤x≤100，50≤y≤100的像素点所在的区域即为页面元素q所在的页面区域。

s506，按照各页面区域划分页面图像，得到各页面元素相应的页面子图像。

具体地，终端可沿确定的页面区域的边界，将页面图像切分为若干页面子图像。终端也可读取各页面区域包括的像素点，输出到新的图像文件，得到各页面元素所在的页面区域。

上述实施例中，以页面图像所对应的页面布局信息为依据，对页面图像进行划分，使得划分得到的页面子区域更准确，更符合按照页面元素划分的要求，在极大程度上保证了每个页面子图像中仅包括单一的独立的页面元素，从而是的在对页面子图像识别时，可尽量避免其他类型的页面元素的影响，提高了图像识别的效率与准确率。

如图6所示，在一个实施例中，步骤s206具体包括以下步骤：

s602，将各页面子图像分别输入图像分类器，得到各页面子图像分类到每个图像类型相对应的概率。

具体地，终端可将各页面子图像分别输入图像分类器，图像分类器对每个页面子图像进行处理后可得到与图像类型对应数目的输出，每个输出分别表示此页面子图像属于每个图像类型所对应的概率。

在一个实施例中，终端可收集文本图像、图片图像和控件图像等图像作为训练样本构建训练图像库，将训练图像库中的训练样本按照所属的图像类型进行分类，并为每一类训练样本标记图像类型，在通过标记图像类型后的训练样本训练图像分类器。

图像分类器是一种将图像映射到相应标记的图像类型的函数关系。根据标记图像类型后的训练样本训练图像分类器，就是利用已知映射到相应标记的图像类型的训练样本，调整图像分类器内部的参数，使得图像分类器在训练完成后，能够预测新的输入图像所映射到的图像类型，以达到识别页面子图像所对应的图像类型的效果。图像分类器可采用svm(支持向量机)或者各种神经网络。

s604，确定各页面子图像得到的概率中的最大概率。

在一个实施例中，终端可通过将页面子图像分类到每个图像类型所对应的概率进行逐一比较，确定上述概率中的最大概率。

s606，将最大概率对应的图像类型作为相对应的页面子图像的图像类型。

具体地，终端可在确定最大概率后，获取该最大概率对应的图像类型，从而将该图像类型作为相对应的页面子图像的图像类型。

上述实施例中，通过图像分类器对图像进行图像类型识别，并选择最大概率对应的输出作为页面子图像的图像类型，保证了识别结果的准确性。

图7示出了一个实施例中图像识别过程的逻辑关系图。参考图7，终端可根据页面布局在终端界面上绘制页面，其中页面中包括多个页面元素。终端可检测针对当前页面的识别指令，响应于该识别指令，终端可按照当前页面所对应的页面布局信息，对当前页面中各页面元素添加页面区域标记，得到待识别的页面图像；也可直接截取当前页面得到待识别的页面图像；还可根据当前页面数据与页面布局信息生成写入页面布局信息字段的可交换图像文件。

若待识别的页面图像中包括页面区域标记，终端则按照该页面区域标记划分页面图像，得到各页面元素相应的页面子图像。若待识别的页面图像的图像文件中包括页面布局信息字段，终端则按照页面布局信息字段处的页面布局信息确定页面布局信息各页面元素所在的页面区域，再按照各页面区域划分页面图像，得到各页面元素相应的页面子图像。若待识别的页面图像中既不包括页面区域标记，所对应的图像文件中也不包括页面布局信息字段，则在本地查找当前页面标识对应的、独立于页面图像的页面布局信息，确定页面布局信息各页面元素所在的页面区域，再按照各页面区域划分页面图像，得到各页面元素相应的页面子图像。

终端在得到各页面子图像后，对各页面子图像进行定性识别，识别出各页面子图像各自对应的图像类型，再读取图像类型与识别方式的对应关系，选择页面子图像对应的图像类型所对应的识别方式，对页面子图像进行精准识别，得到识别结果。

如图8所示，在一个实施例中，该图像识别方法还包括页面测试的步骤。参考图8，该页面测试的步骤包括：

s802，获取与待测试页面元素匹配的识别结果所对应的页面子图像。

其中，待测试页面元素是待进行功能测试的页面元素。

具体地，终端可事先设置测试任务，在测试任务中指定待测试页面元素，在对页面图像中包括的页面元素进行识别后，将待测试页面元素与识别结果进行匹配，选取与测试页面元素匹配的识别结果所对应的页面子图像，判定该页面子图像中包括的页面元素即为待测试的页面元素。

例如，测试任务中指定对表情按钮进行测试，那么终端可获取识别结果为“表情按钮”的页面子图像，认为该页面子图像中包括的页面元素即为表情按钮。

s804，在页面图像中，确定选取的页面子图像的页面元素区域。

具体地，终端可从页面图像对应的页面布局信息中读取选取的页面子图像中页面元素所在的像素坐标区域。例如，“表情按钮”的像素坐标区域。

s806，在页面图像相应的目标页面中，生成针对页面元素区域的操作指令。

其中，页面图像相应的目标页面，即得到页面图像的页面。页面图像中页面元素的布局与目标页面中页面元素的布局一致。因此，终端可以将页面元素在页面图像中的位置作为页面元素在目标页面中的位置。

具体地，操作指令是触发进行操作动作的计算机可读指令。终端在确定测试页面元素在目标页面的位置后，即可根据测试任务，生成针对页面元素区域的操作指令，以进行自动化测试。

s808，响应于操作指令执行相应于操作指令的模拟用户操作。

其中，模拟用户操作是指根据生成的操作指令模拟用户行为的操作。具体地，终端响应于操作指令，确定该操作指令指定的模拟用于操作，并执行该模拟用户操作。如针对“表情按钮”的操作指令，即在获取“表情按钮”的像素坐标区域后，在该坐标区域执行模拟用户的点击操作。

在本实施例中，在得到对页面图像中包括的各页面元素的识别结果后，根据与待测试页面元素匹配的识别结果所对应的页面子图像，确定待测试元素在目标页面中的位置，从而可针对该待测试元素执行模拟用户操作，实现自动化测试。

在一个实施例中，该图像识别方法还包括：根据各页面子图像相应的识别结果，及各页面子图像的页面元素区域，生成页面元素描述信息；将页面元素描述信息转化为语音输出。

其中，页面元素描述信息是用于描述页面元素的数据。页面元素描述信息可包括页面元素的在页面图像中所在的区域以及页面元素的名称。比如，“当前页面的xx位置上有一个xx按钮”等。

具体地，对于每个划分得到的页面子图像，终端可将结合该页面子图像的识别结果，及页面子图像的页面元素区域，生成页面元素描述信息，再通过文本转语音技术将生成的页面元素描述信息转化为语音输出。

在本实施例中，将页面元素的识别结果与页面元素所在的页面位置通过语音输出，可帮助视力不好的用户快速定位意图操作的对象，实现终端操作，从而使得终端的适用人群得到扩展。

如图9所示，在一个具体的实施例中，图像识别方便具体包括以下步骤：

s902，获取针对当前页面的识别指令；响应于识别指令，按照当前页面所对应的页面布局信息，对当前页面中各页面元素添加页面区域标记，得到待识别的页面图像。

s904，按照页面区域标记划分页面图像，得到各页面元素相应的页面子图像。

s906，获取待识别的页面图像，并获取与页面图像的页面标识对应、且独立于页面图像的页面布局信息。

s908，获取待识别的页面图像，并从页面图像所对应的图像文件中，获取预设的页面布局信息字段处的页面布局信息。

s910，确定页面布局信息中指定的各页面元素所在的页面区域；按照各页面区域划分页面图像，得到各页面元素相应的页面子图像。

s912，将各页面子图像分别输入图像分类器，得到各页面子图像分类到每个图像类型相对应的概率；确定各页面子图像得到的概率中的最大概率；将最大概率对应的图像类型作为相对应的页面子图像的图像类型。

s914，按照与各自对应的图像类型相匹配的识别方式识别各页面子图像，得到各页面子图像相应的识别结果。

s916，获取与待测试页面元素匹配的识别结果所对应的页面子图像；在页面图像中，确定选取的页面子图像的页面元素区域；在页面图像相应的目标页面中，生成针对页面元素区域的操作指令；响应于操作指令执行相应于操作指令的模拟用户操作。

s918，根据各页面子图像相应的识别结果，及各页面子图像的页面元素区域，生成页面元素描述信息；将页面元素描述信息转化为语音输出。

本实施例中，在获取待识别的页面图像后，自动根据页面图像中各页面元素所在区域，将页面图像划分为若干页面子图像，然后确定每个页面子图像的图像类型，再对每个页面子图像，按照与该页面子图像的图像类型相匹配的识别方式进行识别，得到各页面子图像相应的识别结果，这样由于每个页面子图像中包括的内容大大减少，使得图像识别的效率大大增加，而且，每个页面子图像包括一种页面元素，类型单一，避免了识别过程中其他类型的页面元素的影响，进一步提高了图像识别的效率。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图10所示，在一个实施例中，提供了一种图像识别装置1000。参照图10，该图像识别装置1000包括获取模块1001、划分模块1002、确定模块1003和识别模块1004。

获取模块1001，用于获取待识别的页面图像。

划分模块1002，用于根据页面图像中各页面元素所在区域，将页面图像划分为各页面元素相应的页面子图像。

确定模块1003，用于确定各页面子图像各自对应的图像类型。

识别模块1004，用于按照与各自对应的图像类型相匹配的识别方式识别各页面子图像，得到各页面子图像相应的识别结果。

上述图像识别装置1000，在获取待识别的页面图像后，自动根据页面图像中各页面元素所在区域，将页面图像划分为若干页面子图像，然后确定每个页面子图像的图像类型，再对每个页面子图像，按照与该页面子图像的图像类型相匹配的识别方式进行识别，得到各页面子图像相应的识别结果，这样由于每个页面子图像中包括的内容大大减少，使得图像识别的效率大大增加，而且，每个页面子图像包括一种页面元素，类型单一，避免了识别过程中其他类型的页面元素的影响，进一步提高了图像识别的效率。

在一个实施例中，获取模块1001还用于获取针对当前页面的识别指令；响应于识别指令，按照当前页面所对应的页面布局信息，对当前页面中各页面元素添加页面区域标记，得到待识别的页面图像。划分模块1002还用于按照页面区域标记划分页面图像，得到各页面元素相应的页面子图像。

在本实施例中，在需要进行页面识别时，按照页面所对应的页面布局信息，对当前页面中各页面元素添加页面区域标记，通过页面区域标记可快速定位页面图像的划分位置，极大地提高了将页面图像划分为若干页面子图像的效率，从而提高了图像识别的效率。

在本实施例中，划分模块1002还用于获取页面图像所对应的页面布局信息；确定页面布局信息中指定的各页面元素所在的页面区域；按照各页面区域划分页面图像，得到各页面元素相应的页面子图像。

在本实施例中，以页面图像所对应的页面布局信息为依据，对页面图像进行划分，使得划分得到的页面子区域更准确，更符合按照页面元素划分的要求，在极大程度上保证了每个页面子图像中仅包括单一的独立的页面元素，从而是的在对页面子图像识别时，可尽量避免其他类型的页面元素的影响，提高了图像识别的效率与准确率。

在一个实施例中，划分模块1002还用于获取与页面图像的页面标识对应、且独立于页面图像的页面布局信息；或，在页面图像所对应的图像文件中，获取预设的页面布局信息字段处的页面布局信息。

在本实施例中，提供了多种获取页面图像所对应的页面布局信息的方式，丰富了页面布局信息的途径。

在一个实施例中，确定模块1003还用于将各页面子图像分别输入图像分类器，得到各页面子图像分类到每个图像类型相对应的概率；确定各页面子图像得到的概率中的最大概率；将最大概率对应的图像类型作为相对应的页面子图像的图像类型。

在本实施例中，通过图像分类器对图像进行图像类型识别，并选择最大概率对应的输出作为页面子图像的图像类型，保证了识别结果的准确性。

在一个实施例中，图像识别装置1000还包括：测试模块，用于获取与待测试页面元素匹配的识别结果所对应的页面子图像；在页面图像中，确定选取的页面子图像的页面元素区域；在页面图像相应的目标页面中，生成针对页面元素区域的操作指令；响应于操作指令执行相应于操作指令的模拟用户操作。

如图11所示，在一个实施例中，图像识别装置1000还包括：测试模块1005和输出模块1006。

测试模块1005，用于获取与待测试页面元素匹配的识别结果所对应的页面子图像；在页面图像中，确定选取的页面子图像的页面元素区域；在页面图像相应的目标页面中，生成针对页面元素区域的操作指令；响应于操作指令执行相应于操作指令的模拟用户操作。

输出模块1006，用于根据各页面子图像相应的识别结果，及各页面子图像的页面元素区域，生成页面元素描述信息；将页面元素描述信息转化为语音输出。

图12为一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图12，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中，处理器包括中央处理器和图形处理器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器实现图像识别方法。该中央处理器用于提供计算和控制能力，支撑整个计算机设备的运行，该图形处理器用于执行图形处理指令。该内存储器中也可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行图像识别方法。本领域技术人员可以理解，图12出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的图像识别装置1000可以实现为一种计算机程序的形式，计算机程序可在如图12的计算机设备上运行，计算机设备的非易失性存储介质可存储组成该应用程序处理装置的各个程序模块，比如，图10的获取模块1001、划分模块1002、确定模块1003和识别模块1004等。各个程序模块中包括计算机可读指令，计算机可读指令用于使计算机设备执行本说明书中描述的本申请各个实施例的应用程序处理方法中的步骤。

例如，计算机设备可以通过如图10所示的图像识别装置1000中的获取模块1001获取待识别的页面图像；通过划分模块1002根据页面图像中各页面元素所在区域，将页面图像划分为各页面元素相应的页面子图像；通过确定模块1003确定各页面子图像各自对应的图像类型；通过识别模块1004按照与各自对应的图像类型相匹配的识别方式识别各页面子图像，得到各页面子图像相应的识别结果。

在一个实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机可读指令，该计算机可读指令被处理器执行时，使得处理器执行以下步骤：获取待识别的页面图像；根据页面图像中各页面元素所在区域，将页面图像划分为各页面元素相应的页面子图像；确定各页面子图像各自对应的图像类型；按照与各自对应的图像类型相匹配的识别方式识别各页面子图像，得到各页面子图像相应的识别结果。

在一个实施例中，获取待识别的页面图像，包括：获取针对当前页面的识别指令；响应于识别指令，按照当前页面所对应的页面布局信息，对当前页面中各页面元素添加页面区域标记，得到待识别的页面图像。根据页面图像中各页面元素所在区域，将页面图像划分得到各页面元素相应的页面子图像，包括：按照页面区域标记划分页面图像，得到各页面元素相应的页面子图像。

在一个实施例中，根据页面图像中各页面元素所在区域，将页面图像划分得到各页面元素相应的页面子图像，包括：获取页面图像所对应的页面布局信息；确定页面布局信息中指定的各页面元素所在的页面区域；按照各页面区域划分页面图像，得到各页面元素相应的页面子图像。

在一个实施例中，获取页面图像所对应的页面布局信息，包括：获取与页面图像的页面标识对应、且独立于页面图像的页面布局信息；或，在页面图像所对应的图像文件中，获取预设的页面布局信息字段处的页面布局信息。

在一个实施例中，确定各页面子图像各自对应的图像类型，包括：将各页面子图像分别输入图像分类器，得到各页面子图像分类到每个图像类型相对应的概率；确定各页面子图像得到的概率中的最大概率；将最大概率对应的图像类型作为相对应的页面子图像的图像类型。

在一个实施例中，计算机可读指令还使得处理器执行以下步骤：获取与待测试页面元素匹配的识别结果所对应的页面子图像；在页面图像中，确定选取的页面子图像的页面元素区域；在页面图像相应的目标页面中，生成针对页面元素区域的操作指令；响应于操作指令执行相应于操作指令的模拟用户操作。

在一个实施例中，计算机可读指令还使得处理器执行以下步骤：根据各页面子图像相应的识别结果，及各页面子图像的页面元素区域，生成页面元素描述信息；将页面元素描述信息转化为语音输出。

上述存储介质，在获取待识别的页面图像后，自动根据页面图像中各页面元素所在区域，将页面图像划分为若干页面子图像，然后确定每个页面子图像的图像类型，再对每个页面子图像，按照与该页面子图像的图像类型相匹配的识别方式进行识别，得到各页面子图像相应的识别结果，这样由于每个页面子图像中包括的内容大大减少，使得图像识别的效率大大增加，而且，每个页面子图像包括一种页面元素，类型单一，避免了识别过程中其他类型的页面元素的影响，进一步提高了图像识别的效率。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行以下步骤：获取待识别的页面图像；根据页面图像中各页面元素所在区域，将页面图像划分为各页面元素相应的页面子图像；确定各页面子图像各自对应的图像类型；按照与各自对应的图像类型相匹配的识别方式识别各页面子图像，得到各页面子图像相应的识别结果。

上述计算机设备，在获取待识别的页面图像后，自动根据页面图像中各页面元素所在区域，将页面图像划分为若干页面子图像，然后确定每个页面子图像的图像类型，再对每个页面子图像，按照与该页面子图像的图像类型相匹配的识别方式进行识别，得到各页面子图像相应的识别结果，这样由于每个页面子图像中包括的内容大大减少，使得图像识别的效率大大增加，而且，每个页面子图像包括一种页面元素，类型单一，避免了识别过程中其他类型的页面元素的影响，进一步提高了图像识别的效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：樊林
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。