空间识别方法、装置、电子设备和存储介质与流程

文档序号:31457589发布日期:2022-09-07 15:03阅读:68来源:国知局
空间识别方法、装置、电子设备和存储介质与流程

1.本技术涉及数据处理技术领域,尤其涉及一种空间识别方法、装置、电子设备和存储介质。


背景技术:

2.随着计算机技术的发展,市面上出现了诸多绘图工具,其中应用最为广泛的就是计算机辅助设计(computer aided design,cad),在建筑、机械等行业,cad绘图起着至关重要的作用。
3.设计师在使用cad绘制完毕,得到图纸后,在进行cad图纸翻模或者其他图纸管理相关工作时,可能需要对图纸进行分割,以便于后续操作。
4.对图纸进行分割时,往往先对图纸中的空间进行识别后,按照空间轮廓分割图纸。相关技术中,识别图纸中的空间区域的方式,往往依赖工作人员,通过工作经验,进行切割。采用人工识别图纸中的空间区域,不仅对人员要求高,而且,随着人员工作时长的加长,可能会造成识别区域不够精准的情况。


技术实现要素:

5.本技术提供了一种空间识别方法、装置、电子设备和存储介质,用以解决现有技术中,采用人工识别图纸中的空间区域的方式,识别区域不够精准的问题。
6.第一方面,本技术实施例提供了一种空间识别方法,包括:
7.获取待识别图像,所述待识别图像中包括目标空间所在区域;
8.确定所述待识别图像的图像属性信息和文本属性信息;
9.将所述图像属性信息和所述文本属性信息进行融合,得到融合属性信息;
10.基于所述融合属性信息,确定所述待识别图像中所述目标空间所在的区域。
11.可选的,所述基于所述融合属性信息,确定所述待识别图像中所述目标空间所在的区域,包括:
12.将所述融合属性信息输入预先训练的识别模型中,通过所述识别模型对所述融合属性信息进行上采样,得到上采样结果,所述上采样结果为与所述待识别图像大小相同的图像,确定所述上采样结果中像素值一致的区域为所述目标空间所在的区域。
13.可选的,所述对所述融合属性信息进行上采样,包括:
14.对所述融合属性特征信息进行特征映射,得到预设维度的特征矩阵;对所述特征矩阵进行反卷积,得到所述上采样结果。
15.可选的,训练所述识别模型的过程包括:
16.获取训练样本集合,所述训练样本集合中包括至少一个训练样本,所述训练样本中包括至少一个样本融合属性信息,以及每个所述样本融合属性信息对应的样本真实结果;所述样本融合属性信息是基于样本图像的图像属性信息和文本属性信息融合后得到的;
17.对所述训练样本执行以下训练过程:
18.将所述训练样本中的所述样本融合属性信息输入初始网络模型中,通过所述初始网络模型,对所述样本融合属性信息进行上采样,得到样本上采样结果;
19.基于所述样本上采样结果和所述样本真实结果计算损失函数,根据所述损失函数,优化所述初始网络模型的参数后,从所述训练样本集合中获取下一训练样本,重复执行所述训练过程,直至所述损失函数满足预设训练条件,将所述初始网络模型作为最终的所述识别模型。
20.可选的,所述获取待识别图像,包括:
21.获取包括所述目标空间的工程图纸;
22.识别所述工程图纸中的文本数据,所述文本数据包括所述目标空间的空间名称信息;
23.确定所述图纸中包括所述空间名称信息预设范围的图像为所述待识别图像。
24.可选的,所述确定所述待识别图像的图像属性信息,包括:
25.提取所述待识别图像中的图像特征信息;
26.对所述待识别图像进行位置编码,得到第一编码信息;
27.确定所述图像特征信息和所述第一编码信息为所述图像属性信息。
28.可选的,所述对所述待识别图像进行位置编码,得到第一编码信息,包括:
29.获取所述待识别图像中每个像素点的第一位置信息;
30.基于正弦位置编码算法计算每个所述第一位置信息,得到第一编码结果;
31.确定所有所述第一编码结果的集合为所述第一编码信息。
32.可选的,确定所述待识别图像的文本属性信息,包括:
33.识别所述待识别图像中的文本内容;
34.将所述文本内容转化为词向量,得到文本特征信息;
35.对所述文本内容进行位置编码,得到第二编码信息;
36.确定所述文本特征信息和所述第二编码信息为所述文本属性信息。
37.可选的,所述对所述文本内容进行位置编码,得到第二编码信息,包括:
38.获取所述文本内容的第二位置信息;
39.基于正弦位置编码算法计算所述第二位置信息,得到所述第二编码信息。
40.可选的,所述基于所述融合属性信息,确定所述待识别图像中所述目标空间所在的区域后,还包括:
41.基于所述目标空间所在的区域对所述待识别图像进行分割。
42.第二方面,本技术实施例提供了一种空间识别装置,包括:
43.获取模块,用于获取待识别图像,所述待识别图像中包括目标空间所在区域;
44.确定模块,用于确定所述待识别图像的图像属性信息和文本属性信息;
45.融合模块,用于将所述图像属性信息和所述文本属性信息进行融合,得到融合属性信息;
46.识别模块,用于基于所述融合属性信息,确定所述待识别图像中所述目标空间所在的区域。
47.第三方面,本技术实施例提供了一种电子设备,包括:处理器、通信接口、存储器和
通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
48.所述存储器,用于存储计算机程序;
49.所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的空间识别方法。
50.第四方面,本技术实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的空间识别方法。
51.本技术实施例提供的上述技术方案与现有技术相比具有如下优点:本技术实施例提供的该方法,通过获取待识别图像,所述待识别图像中包括目标空间所在区域;确定所述待识别图像的图像属性信息和文本属性信息;将所述图像属性信息和所述文本属性信息进行融合,得到融合属性信息;基于所述融合属性信息,确定所述待识别图像中所述目标空间所在的区域。如此,由于空间的表示不仅有图像特征,还会有文本信息进行表示,从而需要对空间进行识别时,不仅基于图像中的图像属性,还结合了文本属性,基于二者的融合属性信息,识别待识别图像中的目标空间,提高了待识别图纸中目标空间识别的准确性。
附图说明
52.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
53.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
54.图1为本技术一实施例提供的空间识别方法的应用场景图;
55.图2为本技术一实施例提供的空间识别方法的流程图;
56.图3为本技术一实施例提供的空间识别装置的结构图;
57.图4为本技术一实施例提供的电子设备的结构图。
具体实施方式
58.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
59.根据本技术一实施例提供了一种空间识别方法。可选地,在本技术实施例中,上述空间识别方法可以应用于如图1所示的由终端101和服务器102所构成的硬件环境中。如图1所示,服务器102通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器102提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101并不限定于pc、手机、平板电脑等。
60.本技术实施例的空间识别方法可以由服务器102来执行,也可以由终端101来执行,还可以是由服务器102和终端101共同执行。其中,终端101执行本技术实施例的空间识别方法,也可以是由安装在其上的客户端来执行。
61.以终端执行本技术实施例的空间识别方法为例,图2是根据本技术实施例的一种可选的空间识别方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
62.步骤201、获取待识别图像,所述待识别图像中包括目标空间所在区域的图像。
63.一些实施例中,待识别图像可以是由用户通过相关系统上传的,或者可以是从本地数据库中得到的,还可以是从工程图纸中截取得到的。
64.在图纸中往往具有多个空间。例如,图纸为房屋建筑图纸时,空间可以是卧室、客厅、卫生间等。在需要对某部分的空间进行识别时,可以从图纸中将包含目标空间所在区域的图像裁剪下来,得到待识别图像。
65.在一个具体实施例中,所述获取待识别图像,包括:
66.获取包括所述目标空间的工程图纸;识别所述工程图纸中的文本数据,所述文本数据包括所述目标空间的空间名称信息;确定所述图纸中包括所述空间名称信息预设范围的图像为所述待识别图像。
67.一些实施例中,在工程图纸中包括了不同空间的名称信息,在获取到工程图纸后,可以通过识别工程图纸中的文本数据,确定文本数据中目标空间的空间名称信息,将空间名称信息所在位置预设范围的图像进行裁剪,得到待识别图像。
68.其中,由于只通过空间名称信息进行裁剪可能会发生目标空间缺失或者得到的待识别图像中包括较多的干扰,因此,在对工程图纸进行裁剪时,可以将空间名称信息所在位置预设范围的图像进行裁剪,从而避免裁多或者裁少的情况。
69.其中,预设范围可以是空间名称信息所在位置外3-5厘米。
70.其中,识别工程图纸中的文本数据的方式有多种,例如,可以通过文字识别算法进行识别,或者通过关键字查找的方式确定空间名称信息。
71.步骤202、确定所述待识别图像的图像属性信息和文本属性信息。
72.一些实施例中,在获取到待识别图像后,确定所述待识别图像的图像属性信息和文本属性信息的方式有多种。例如,可以通过特征提取以及位置编码等方式得到。
73.其中,图像属性信息中包括图像特征信息和图像位置编码信息;文本属性信息包括文本特征信息和文本位置编码信息。
74.在一个可选实施例中,确定所述待识别图像的图像属性信息,包括:
75.提取所述待识别图像中的图像特征信息;对所述待识别图像进行位置编码,得到第一编码信息;确定所述图像特征信息和所述第一编码信息为所述图像属性信息。
76.一些实施例中,提取图像特征信息的方式可以是边界特征法,该方法通过对边界特征的描述来提取待识别图像的形状参数;利用卷积神经网络进行特征提取;傅里叶形状描述符法,采用傅里叶形状描述符用物体边界的傅里叶变换作为形状描述,利用区域边界的封闭性和周期性,将二维问题转化为一维问题;几何参数法,通过形状的表达和匹配采用更为简单的区域特征描述方法。
77.通过在图像属性信息中加入位置编码,使得空间中的图像特征具有了位置关系,从而能够提高空间识别的准确性。
78.在一个可选实施例中,所述对所述待识别图像进行位置编码,得到第一编码信息,包括:
79.获取所述待识别图像中每个像素点的第一位置信息;基于正弦位置编码算法计算
每个所述第一位置信息,得到第一编码结果;确定所有所述第一编码结果的集合为所述第一编码信息。
80.一些实施例中,在待识别图像中每个像素点均具有各自的第一位置信息,通过获取该第一位置信息,利用正弦位置编码算法,对每个第一位置信息进行计算,得到每个像素点的位置编码,即第一编码结果,进而将所有像素点的第一编码结果进行整合,得到第一编码信息。
81.其中,通常图像特征信息以特征向量的形式表示,第一编码信息以位置坐标点的形式表示,从而,在得到图像特征信息和第一编码信息后,可以将二者进行首尾相接,合并后的向量作为图像属性信息。
82.在一个可选实施例中,确定所述待识别图像的文本属性信息,包括:
83.识别所述待识别图像中的文本内容;将所述文本内容转化为词向量,得到文本特征信息;对所述文本内容进行位置编码,得到第二编码信息;确定所述文本特征信息和所述第二编码信息为所述文本属性信息。
84.一些实施例中,在获取到待识别图像后,可以通过识别该待识别图像中的文本内容,并可以通过预训练模型提取文本内容的词向量特征,即文本特征信息。进一步的,由于文本内容在图纸中往往具有位置信息,因此可以利用正弦位置编码算法,对文本内容进行位置编码,得到第二编码信息,进而将文本特征信息和第二编码信息进行整合,得到文本属性信息。
85.其中,识别待识别图像中文本内容的方式有多种,例如,采用机器学习的方式,训练网络模型,通过文本识别模型,识别文本内容;或者可以采用paddleocr的方式,对待识别图像进行检测和识别。
86.在一个可选实施例中,所述对所述文本内容进行位置编码,得到第二编码信息,包括:
87.获取所述文本内容的第二位置信息;基于正弦位置编码算法计算所述第二位置信息,得到所述第二编码信息。
88.一些实施例中,在工程图纸中将文本标注在空间所在区域,从而文本内容的第二位置信息可以是从工程图纸中得到的。在得到第二位置信息后,采用正弦位置编码算法,对第二位置信息进行计算,聪的得到第二编码信息。
89.步骤203、将所述图像属性信息和所述文本属性信息进行融合,得到融合属性信息。
90.一些实施例中,在得到图像属性信息和文本属性信息后,由于二者均为特征向量,因此,可以采用拼接的方式将二者融合,得到融合属性信息。
91.步骤204、基于所述融合属性信息,确定所述待识别图像中所述目标空间所在的区域。
92.一些实施例中,在得到融合属性信息后,由于其携带了目标空间的图像特征、图像位置编码、文本特征以及文本位置编码,因此,通过融合属性信息,能够识别出待识别图像中的目标空间所在区域。
93.在一个可选实施例中,所述基于所述融合属性信息,确定所述待识别图像中所述目标空间所在的区域,包括:
94.将所述融合属性信息输入预先训练的识别模型中,通过所述识别模型对所述融合属性信息进行上采样,得到上采样结果,所述上采样结果为与所述待识别图像大小相同的图像,确定所述上采样结果中像素值一致的区域为所述目标空间所在的区域。
95.一些实施例中,融合属性信息通常为一维向量,将融合属性信息输入识别模型后,通过该识别模型对其进行上采样,在上采样的过程中,通过识别模型在上采样的过程中对采样点赋以像素值,使得目标空间所在区域为同一像素值,进而根据上采样结果中的像素值确定目标空间所在的区域。
96.在一个可选实施例中,所述对所述融合属性信息进行上采样,包括:
97.对所述融合属性特征信息进行特征映射,得到预设维度的特征矩阵;对所述特征矩阵进行反卷积,得到所述上采样结果。
98.一些实施例中,对融合属性信息进行上采样的方式有多种,例如,反卷积(转置卷积),双线性插值与卷积共同实施,反池化等。本实施例中,先对融合属性特征信息经过多层感知机进行特征映射,得到预设维度的特征矩阵,进一步对特征矩阵进行反卷积,从而得到上采样结果。
99.在一个可选实施例中,训练所述识别模型的过程包括:
100.获取训练样本集合,所述训练样本集合中包括至少一个训练样本,所述训练样本中包括至少一个样本融合属性信息,以及每个所述样本融合属性信息对应的样本真实结果;所述样本融合属性信息是基于样本图像的图像属性信息和文本属性信息融合后得到的;
101.对所述训练样本执行以下训练过程:
102.将所述训练样本中的所述样本融合属性信息输入初始网络模型中,通过所述初始网络模型,对所述样本融合属性信息进行上采样,得到样本上采样结果;基于所述样本上采样结果和所述样本真实结果计算损失函数,根据所述损失函数,优化所述初始网络模型的参数后,从所述训练样本集合中获取下一训练样本,重复执行所述训练过程,直至所述损失函数满足预设训练条件,将所述初始网络模型作为最终的所述识别模型。
103.一些实施例中,在得到训练样本后,将训练样本输入到初始网络模型中。由于训练样本中携带了样本真实结果,即样本真实结果中同一空间所在区域的像素值相同,而不属于该空间为位置的区域像素值为其他值。基于此,对初始网络模型进行训练、优化该模型的参数,从而,在损失函数满足预设训练条件后,将其作为识别模型。
104.其中,损失函数满足预设训练条件可以是损失函数趋于稳定,或者损失函数小于预设损失值。
105.可以理解的是,上述的步骤202和步骤203也可以作为特征提取层和特征融合层加入识别模型中,从而,在训练待识别模型时,将特征提取和特征融合的步骤共同训练。
106.在一个具体实施例中,本技术的空间识别方法,包括:
107.第一、将cad图框矢量数据光栅化得到cad图像数据(即待识别图像);
108.第二、将cad图像数据使用卷积神经网络进行特征提取,得到图像的特征向量(即图像特征信息),同时使用正弦位置编码算法(sin-cos方式)对图像进行位置编码(position embedding)得到第一编码信息;
109.第三、使用paddleocr对cad图像中的文本数据进行检测和识别,得到文本内容和
位置;
110.第四、将文本内容使用预训练模型得到词向量特征(即文本特征信息),同时对文本位置也进行位置编码,得到第二编码信息;
111.第五、将上述步骤中得到的图像特征和文本特征进行concat融合;
112.其中,图像特征和文本特征提取后均为向量形式,将两个向量进行计算,从而实现融合;
113.第六、融合后的特征再进行decoder解码,decoder解码先将特征经过多层感知机(mlp)进行特征映射后reshape然后unsample得到最终的输出mask,即分割结果。
114.本实施例中,通过将图像特征和文本特征融合,加强特征的语义信息,能够提高图纸中空间识别的准确性,进而,在进行图纸分割时,有助于提高模型分割效果。
115.基于同一构思,本技术实施例中提供了一种空间识别装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图3所示,该装置主要包括:
116.获取模块301,用于获取待识别图像,所述待识别图像中包括目标空间所在区域;
117.确定模块302,用于确定所述待识别图像的图像属性信息和文本属性信息;
118.融合模块303,用于将所述图像属性信息和所述文本属性信息进行融合,得到融合属性信息;
119.识别模块304,用于基于所述融合属性信息,确定所述待识别图像中所述目标空间所在的区域。
120.基于同一构思,本技术实施例中还提供了一种电子设备,如图4所示,该电子设备主要包括:处理器401、存储器402和通信总线403,其中,处理器401和存储器402通过通信总线403完成相互间的通信。其中,存储器402中存储有可被处理器401执行的程序,处理器401执行存储器402中存储的程序,实现如下步骤:
121.获取待识别图像,所述待识别图像中包括目标空间所在区域;
122.确定所述待识别图像的图像属性信息和文本属性信息;
123.将所述图像属性信息和所述文本属性信息进行融合,得到融合属性信息;
124.基于所述融合属性信息,确定所述待识别图像中所述目标空间所在的区域。
125.上述电子设备中提到的通信总线403可以时外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线403可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
126.存储器402可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器401的存储装置。
127.上述的处理器401可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等,还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
128.在本技术的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的空间识别方法。
129.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本技术实施例所述的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如dvd)或者半导体介质(例如固态硬盘)等。
130.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
131.以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1