指定区域识别方法、装置、电子设备及存储介质与流程

文档序号：34060673发布日期：2023-05-06 03:05阅读：25来源：国知局

本技术的实施方式涉及视觉识别领域，更具体地，本技术的实施方式涉及指定区域识别方法、装置、电子设备及存储介质。

背景技术：

1、本部分旨在为权利要求书中陈述的本技术的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本技术的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

2、目前，在一些智能设备上能够实现用户通过用于指示的物体例如手指或者笔尖等指点书本任意位置就能够听到智能设备朗读对应位置内容的功能，此功能一般通过指尖触发模块、段落识别模块和语音合成(tts)模块进行实现。但这些智能设备对于所朗读的段落仅通过简单的规则进行区分，例如利用指点位置前后的标识，如标点、缩进空格、箭头和下划线等来确定所需朗读段落，但这种处理方式只适用于部分场景，无法处理非句子段落或者无缩进段落等；又例如利用预存的模板进而根据指点位置直接播放对应位置的模板内容，但需要预先逐页录入文本内容，操作繁琐复杂；还例如利用额外的输入信息，如语音信息或者多次点击信号来确定所需朗读段落，但需要增加一个接收额外信息的模块，增加设备系统复杂度。而在实际应用场景中，所需朗读的段落在不同场景下的定义是不一致的，因此容易造成这些智能设备不能够准确朗读所需的段落，导致用户体验感不佳。

3、有鉴于此，亟需提供一种能够准确识别用户指定内容的指定区域识别方法，以能够将用户指定内容准确反馈给用户，以提升用户使用体验感。

技术实现思路

1、为克服相关技术中存在的问题，本技术的实施方式期望提供一种指定区域识别方法、装置、电子设备及存储介质，该指定区域识别方法，能够实现对用户指定的区域之中所涵盖的内容进行识别，能够将用户指定内容准确反馈给用户，提升用户使用体验感。

2、在本技术实施方式的第一方面中，提供了一种指定区域识别方法，包括：

3、获取待识别图像，待识别图像包含若干元素区域以及用户指定物图像，若干元素区域包含文本区域和图案区域；

4、对待识别图像中的每一元素区域进行定位分割，得到每一元素区域对应的区域位置信息以及区域类别信息；

5、根据区域位置信息以及用户指定物图像确定指定区域；

6、根据指定区域的区域类别信息识别指定区域中的元素内容。

7、在一个实施例中，对待识别图像中的每一元素区域进行定位分割，包括：

8、通过实例分割模型对待识别图像中的每一元素区域进行定位分割；实例分割模型为基于对象检测模型和实例分割卷积网络构建的模型。

9、在一个实施例中，通过实例分割模型对待识别图像中的每一元素区域进行定位分割，包括：

10、将待识别图像输入实例分割模型，至少得到分割特征图、元素区域置信度、区域类别向量、元素区域范围位置以及分割参数；

11、基于分割特征图、元素区域置信度、区域类别向量、元素区域范围位置以及分割参数对待识别图像中的每一元素区域进行定位分割。

12、在一个实施例中，基于分割特征图、元素区域置信度、区域类别向量、元素区域范围位置以及分割参数对待识别图像中的每一元素区域进行定位分割，包括：

13、基于元素区域置信度以及预设置信度阈值确定有效元素区域；

14、基于分割特征图以及分割参数形成元素区域分割图；

15、基于元素区域分割图以及元素区域范围位置确定区域位置信息；

16、基于区域类别向量确定区域类别信息，区域类别向量为n维向量，每一维度向量代表一个类别信息。

17、在一个实施例中，根据区域位置信息以及用户指定物图像确定指定区域，包括：

18、根据用户指定物图像确定指定物位置和指定物指向；

19、根据指定物位置、指定物指向以及区域位置信息确定指定区域。

20、在一个实施例中，根据指定区域的区域类别信息识别指定区域中的元素内容，包括：

21、若指定区域为文本区域，则通过文字识别技术检测文本区域中的每一文本行；

22、分别根据每一文本行重叠面积与对应的文本行面积的面积比例确定文本区域的有效文本行；文本行重叠面积为文本行与文本区域的重叠面积；

23、基于有效文本行、指定物位置和指定物指向确定文字识别结束位置；

24、根据区域类别信息确定识别补偿策略；识别补偿策略包括预设字符补偿策略、书写字体补偿策略、古诗词补偿策略以及断句补偿策略；

25、基于文字识别结束位置以及识别补偿策略确定元素内容。

26、在一个实施例中，根据区域类别信息确定识别补偿策略，包括：

27、若区域类别信息为文本段落类别，则确定识别补偿策略为预设字符补偿策略，预设字符补偿策略为去除预设字符后进行识别的策略，预设字符包含拼音字符、小语种字符以及英语末尾连字符；

28、若区域类别信息为非手写类别，则确定识别补偿策略为书写字体补偿策略，书写字体补偿策略为若手写字体和印刷体字体同时存在则去除手写字体对应的内容后进行识别的策略；

29、若区域类别信息为古诗词类别，则确定识别补偿策略为古诗词补偿策略，古诗词补偿策略为在古诗标题和古诗作者后添加断句符的策略；

30、若区域类别信息为文本段落类别，则确定识别补偿策略为断句补偿策略，断句补偿策略为根据标点符号进行断句的策略。

31、在一个实施例中，基于文字识别结束位置以及识别补偿策略确定元素内容之后，还包括：

32、根据元素内容进行语音合成转换，得到语音朗读音频；

33、播放语音朗读音频。

34、在一个实施例中，获取待识别图像之后，还包括：

35、对待识别图像进行图像旋转矫正。

36、在本技术实施方式的第二方面中，提供了一种指定区域识别装置，用于执行如第一方面中任一项的指定区域识别方法，包括：

37、图像获取模块，用于获取待识别图像，待识别图像包含若干元素区域以及用户指定物图像，若干元素区域包含文本区域和图案区域；

38、定位分割模块，用于对待识别图像中的每一元素区域进行定位分割，得到每一元素区域对应的区域位置信息以及区域类别信息；

39、指定区域确定模块，用于根据区域位置信息以及用户指定物图像确定指定区域；

40、识别模块，用于根据指定区域的区域类别信息识别指定区域中的元素内容。

41、在一个实施例中，定位分割模块用于：

42、通过实例分割模型对待识别图像中的每一元素区域进行定位分割；实例分割模型为基于对象检测模型和实例分割卷积网络构建的模型。

43、在一个实施例中，定位分割模块用于：

44、将待识别图像输入实例分割模型，至少得到分割特征图、元素区域置信度、区域类别向量、元素区域范围位置以及分割参数；

45、基于分割特征图、元素区域置信度、区域类别向量、元素区域范围位置以及分割参数对待识别图像中的每一元素区域进行定位分割。

46、在一个实施例中，定位分割模块用于：

47、基于元素区域置信度以及预设置信度阈值确定有效元素区域；

48、基于分割特征图以及分割参数形成元素区域分割图；

49、基于元素区域分割图以及元素区域范围位置确定区域位置信息；

50、基于区域类别向量确定区域类别信息，区域类别向量为n维向量，每一维度向量代表一个类别信息。

51、在一个实施例中，指定区域确定模块用于：

52、根据用户指定物图像确定指定物位置和指定物指向；

53、根据指定物位置、指定物指向以及区域位置信息确定指定区域。

54、在一个实施例中，识别模块用于：

55、若指定区域为文本区域，则通过文字识别技术检测文本区域中的每一文本行；

56、分别根据每一文本行重叠面积与对应的文本行面积的面积比例确定文本区域的有效文本行；文本行重叠面积为文本行与文本区域的重叠面积；

57、基于有效文本行、指定物位置和指定物指向确定文字识别结束位置；

58、根据区域类别信息确定识别补偿策略；识别补偿策略包括预设字符补偿策略、书写字体补偿策略、古诗词补偿策略以及断句补偿策略；

59、基于文字识别结束位置以及识别补偿策略确定元素内容。

60、在一个实施例中，识别模块用于：

61、若区域类别信息为文本段落类别，则确定识别补偿策略为预设字符补偿策略，预设字符补偿策略为去除预设字符后进行识别的策略，预设字符包含拼音字符、小语种字符以及英语末尾连字符；

62、若区域类别信息为非手写类别，则确定识别补偿策略为书写字体补偿策略，书写字体补偿策略为若手写字体和印刷体字体同时存在则去除手写字体对应的内容后进行识别的策略；

63、若区域类别信息为古诗词类别，则确定识别补偿策略为古诗词补偿策略，古诗词补偿策略为在古诗标题和古诗作者后添加断句符的策略；

64、若区域类别信息为文本段落类别，则确定识别补偿策略为断句补偿策略，断句补偿策略为根据标点符号进行断句的策略。

65、在一个实施例中，指定区域识别装置还包括：语音合成转换模块；

66、语音合成转换模块用于：

67、根据元素内容进行语音合成转换，得到语音朗读音频；

68、播放语音朗读音频。

69、在一个实施例中，指定区域识别装置还包括：图像矫正模块；

70、图像矫正模块用于：对待识别图像进行图像旋转矫正。

71、本技术第三方面提供一种电子设备，包括：

72、处理器；以及

73、存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

74、本技术第四方面提供一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

75、本技术提出的指定区域识别方法、装置、电子设备及存储介质，通过获取待识别图像，其中待识别图像包含若干元素区域以及用户指定物图像，若干元素区域包含文本区域和图案区域，进而对待识别图像中的每一元素区域进行定位分割，得到每一元素区域对应的区域位置信息以及区域类别信息，根据区域位置信息以及用户指定物图像确定指定区域，从而能够明确用户的指定物指向的元素区域以及该元素区域所对应的区域类别信息，进而根据指定区域的区域类别信息识别指定区域中的元素内容，从而实现对用户指定的区域之中所涵盖的内容进行识别，能够将用户指定内容准确反馈给用户，以提升用户使用体验感。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李翌昕董士琪黄佳玉林辉段亦涛
技术所有人：网易有道信息技术（北京）有限公司
我是此专利的发明人

上一篇：一种冷冻箱及操作方法与流程
上一篇：一种大跨度钢桁架桥梁整体顶推施工方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。