基于聚类分析的图纸文本读取方法及系统与流程

文档序号:11458859阅读:194来源:国知局
基于聚类分析的图纸文本读取方法及系统与流程

本发明涉及文字排版领域,具体涉及基于聚类分析的图纸文本读取方法及系统。



背景技术:

随着国际合作日益加强,无论是中国公司还是外国公司,在国际工程与国际科研的立项及开展过程中,都需要通过图纸文件与对方进行交流。由于多次修改、手动排版等原因,图纸经常会出现本来应该是完整的一句话,被拆分为多个文本框手动放到了互相靠近的位置。而由于图纸文件自身的特性(文本框在文件中是依据写入时间依次往后写的),所以图纸上看起来相邻的文本框在保存内容上并不一定相邻,有些甚至可能隔得非常远,这使得提取图纸文本时,连续的内容被解析到相隔非常远的地方,这就对提取图纸文本并进行翻译造成了巨大的困扰。



技术实现要素:

本发明所要解决的技术问题是提取图纸文本时,连续的内容被解析到相隔非常远的地方,导致提取图纸文本并进行翻译不便,目的在于提供基于聚类分析的图纸文本读取方法及系统,解决上述问题。

本发明通过下述技术方案实现:

基于聚类分析的图纸文本读取方法,包括以下步骤:s1:将图纸上的文本框根据其角度进行角度分类;s2:提取同一角度类型的文本框的坐标特征值;s3:对同一角度类型的文本框进行聚类分析,使得坐标特征值相似的文本框被聚到同一类中,并根据聚类结果对文本框进行排序;s4:将排序后的文本框根据该文本框的角度类型进行文字输出。

由于多次修改、手动排版等原因,图纸经常会出现本来应该是完整的一句话,被拆分为多个文本框手动放到了互相靠近的位置。而由于图纸文件自身的特性(文本框在文件中是依据写入时间依次往后写的),所以图纸上看起来相邻的文本框在保存内容上并不一定相邻,有些甚至可能隔得非常远,这使得提取图纸文本时,连续的内容被解析到相隔非常远的地方,这就对提取图纸文本并进行翻译造成了巨大的困扰。

本发明应用时,先对图纸上的文本框根据其角度进行角度分类,将文本框分入多个不同的角度类型,如cad图纸中常出现的:0°、90°、180°和270°;然后提取同一角度类型的文本框的坐标特征值,这种坐标特征值是标识每一个文本框独有位置的坐标值;再然后,对同一角度类型的文本框进行聚类分析,使得坐标特征值相似的文本框被聚到同一类中,并根据聚类结果对文本框进行排序;最后,将排序后的文本框根据该文本框的角度类型进行文字输出。以cad图纸为例:如文本框的角度为0°,则文字输出的顺序为从左到右;如文本框的角度为90°,则文字输出的顺序为从下到上;如文本框的角度为180°,则文字输出的顺序为从右到左;如文本框的角度为270°,则文字输出的顺序为从上到下。本发明通过将文本框聚类,使得内容相近的文本框被聚到同一个类,然后输出文字,避免了连续的内容被解析到相隔非常远的地方,使得提取图纸文本并进行翻译更加方便。

进一步的,所述坐标特征值采用文本框左上角的坐标值、左下角的坐标值、右上角的坐标值、右下角的坐标值或中心点的坐标值。

本发明应用时,坐标特征值采用文本框左上角的坐标值、左下角的坐标值、右上角的坐标值、右下角的坐标值或中心点的坐标值,由于坐标特征值是标识每一个文本框独有位置的坐标值,上述五种坐标值均可以表达该文本框的独有位置,有效提高了本发明聚类的准确性。

进一步的,所述聚类采用optics算法;所述optics算法通过读取有序文本框组中文本框的坐标特征值来确定文本框之间的相对距离;所述坐标特征值相似的标准为相对距离小于或等于阈值。

本发明应用时,由于图纸上的文本框具有规则但是不规整的特点,发明人通过创造性劳动发现,由于文本框不规则,所以很难准确确定聚类参数,而采用optics算法时,聚类参数发生合理变化时,聚类结果变化不大。而在本发明应用的optics算法中,通过读取有序文本框组中文本框的坐标特征值来确定文本框之间的相对距离,然后以这个相对距离作为optics算法所需要数据,这种方式可以有效的确定文本框是否聚集,并将不聚集的文本框分到不同的类中。在本发明optics算法中,坐标特征值相似的标准为相对距离小于阈值,该阈值在本发明用应用为密度值,只需要规定合理的密度值,即可将文本框合理的聚类,有效降低聚类误差。

进一步的,步骤s3还包括以下子步骤:聚类完成后,根据文本框的坐标特征值对每一个类中文本框构成的形状进行判断;如果文本框构成的形状为预设形状,则对该类执行s4;如果文本框构成的形状不为预设形状,则对该类调整聚类参数并执行s3。

本发明应用时,以土木施工cad图纸为例:土木施工cad图纸中文本框的特点为,如果文本框的角度为0°,则第一行文本框的水平坐标相同或相似,同时,第一列文本框的纵向坐标相同或相似,所以预设形状采用第一行文本框的水平坐标相同或相似同时第一列文本框的纵向坐标相同或相似的形状。而在聚类分析中,有时会出现聚类后的文本框构成的形状为“t”型或者圆形,这时,认定该形状不为预设形状,并对该类调整聚类参数并再次聚类。本发明通过对文本框构成的形状的判断,有效的提高了聚类的准确性。

基于聚类分析的图纸文本读取系统,包括用于将图纸上的文本框根据其角度进行角度分类的分类模块;用于提取同一角度类型的文本框的坐标特征值的提取模块;用于对同一角度类型的文本框进行聚类分析,使得坐标特征值相似的文本框被聚到同一类中,并根据聚类结果对文本框进行排序的聚类模块;用于将排序后的文本框根据该文本框的角度类型进行文字输出的输出模块。

本发明应用时,分类模块先对图纸上的文本框根据其角度进行角度分类,将文本框分入多个不同的角度类型,如cad图纸中常出现的:0°、90°、180°和270°;然后提取模块提取同一角度类型的文本框的坐标特征值,这种坐标特征值是标识每一个文本框独有位置的坐标值;再然后,聚类模块对同一角度类型的文本框进行聚类分析,使得坐标特征值相似的文本框被聚到同一类中,并根据聚类结果对文本框进行排序;最后,输出模块将排序后的文本框根据该文本框的角度类型进行文字输出。以cad图纸为例:如文本框的角度为0°,则文字输出的顺序为从左到右;如文本框的角度为90°,则文字输出的顺序为从下到上;如文本框的角度为180°,则文字输出的顺序为从右到左;如文本框的角度为270°,则文字输出的顺序为从上到下。本发明通过将文本框聚类,使得内容相近的文本框被聚到同一个类,然后输出文字,避免了连续的内容被解析到相隔非常远的地方,使得提取图纸文本并进行翻译更加方便。

进一步的,所述坐标特征值采用文本框左上角的坐标值、左下角的坐标值、右上角的坐标值、右下角的坐标值或中心点的坐标值。

本发明应用时,坐标特征值采用文本框左上角的坐标值、左下角的坐标值、右上角的坐标值、右下角的坐标值或中心点的坐标值,由于坐标特征值是标识每一个文本框独有位置的坐标值,上述五种坐标值均可以表达该文本框的独有位置,有效提高了本发明聚类的准确性。

进一步的,所述聚类采用optics算法;所述optics算法通过读取有序文本框组中文本框的坐标特征值来确定文本框之间的相对距离;所述坐标特征值相似的标准为相对距离小于或等于阈值。

本发明应用时,由于图纸上的文本框具有规则但是不规整的特点,发明人通过创造性劳动发现,由于文本框不规则,所以很难准确确定聚类参数,而采用optics算法时,聚类参数发生合理变化时,聚类结果变化不大。而在本发明应用的optics算法中,通过读取有序文本框组中文本框的坐标特征值来确定文本框之间的相对距离,然后以这个相对距离作为optics算法所需要数据,这种方式可以有效的确定文本框是否聚集,并将不聚集的文本框分到不同的类中。在本发明optics算法中,坐标特征值相似的标准为相对距离小于阈值,该阈值在本发明用应用为密度值,只需要规定合理的密度值,即可将文本框合理的聚类,有效降低聚类误差。

进一步的,聚类模块还用于在聚类完成后,根据文本框的坐标特征值对每一个类中文本框构成的形状进行判断;如果文本框构成的形状为预设形状,则将该类发送给输出模块;如果文本框构成的形状不为预设形状,则对该类调整聚类参数并再次聚类。

本发明应用时,以土木施工cad图纸为例:土木施工cad图纸中文本框的特点为,如果文本框的角度为0°,则第一行文本框的水平坐标相同或相似,同时,第一列文本框的纵向坐标相同或相似,所以预设形状采用第一行文本框的水平坐标相同或相似同时第一列文本框的纵向坐标相同或相似的形状。而在聚类分析中,有时会出现聚类后的文本框构成的形状为“t”型或者圆形,这时,认定该形状不为预设形状,并对该类文本框中区别于预设形状的部分再次聚类。本发明通过对文本框构成的形状的判断,有效的提高了聚类的准确性。

本发明与现有技术相比,具有如下的优点和有益效果:

1、本发明基于聚类分析的图纸文本读取方法,通过将文本框聚类,使得内容相近的文本框被聚到同一个类,然后输出文字,避免了连续的内容被解析到相隔非常远的地方,使得提取图纸文本并进行翻译更加方便;

2、本发明基于聚类分析的图纸文本读取方法,采用的坐标特征值均可以表达该文本框的独有位置,有效提高了本发明聚类的准确性;

3、本发明基于聚类分析的图纸文本读取方法,采用optics算法,对聚类参数不敏感,可以有效降低聚类误差;

4、本发明基于聚类分析的图纸文本读取方法,通过对文本框构成的形状的判断,有效的提高了聚类的准确性;

5、本发明基于聚类分析的图纸文本读取系统,通过将文本框聚类,使得内容相近的文本框被聚到同一个类,然后输出文字,避免了连续的内容被解析到相隔非常远的地方,使得提取图纸文本并进行翻译更加方便;

6、本发明基于聚类分析的图纸文本读取系统,采用的坐标特征值均可以表达该文本框的独有位置,有效提高了本发明聚类的准确性;

7、本发明基于聚类分析的图纸文本读取系统,采用optics算法,对聚类参数不敏感,可以有效降低聚类误差;

8、本发明基于聚类分析的图纸文本读取系统,通过对文本框构成的形状的判断,有效的提高了聚类的准确性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:

图1为本发明方法步骤示意图;

图2为本发明系统结构示意图;

图3为实施例5示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。

实施例1

如图1所示,本发明基于聚类分析的图纸文本读取方法,包括以下步骤:s1:将图纸上的文本框根据其角度进行角度分类;s2:提取同一角度类型的文本框的坐标特征值;s3:对同一角度类型的文本框进行聚类分析,使得坐标特征值相似的文本框被聚到同一类中,并根据聚类结果对文本框进行排序;s4:将排序后的文本框根据该文本框的角度类型进行文字输出。

本实施例实施时,先对图纸上的文本框根据其角度进行角度分类,将文本框分入多个不同的角度类型,如cad图纸中常出现的:0°、90°、180°和270°;然后提取同一角度类型的文本框的坐标特征值,这种坐标特征值是标识每一个文本框独有位置的坐标值;再然后,对同一角度类型的文本框进行聚类分析,使得坐标特征值相似的文本框被聚到同一类中,并根据聚类结果对文本框进行排序;最后,将排序后的文本框根据该文本框的角度类型进行文字输出。以cad图纸为例:如文本框的角度为0°,则文字输出的顺序为从左到右;如文本框的角度为90°,则文字输出的顺序为从下到上;如文本框的角度为180°,则文字输出的顺序为从右到左;如文本框的角度为270°,则文字输出的顺序为从上到下。本发明通过将文本框聚类,使得内容相近的文本框被聚到同一个类,然后输出文字,避免了连续的内容被解析到相隔非常远的地方,使得提取图纸文本并进行翻译更加方便。

实施例2

本实施例在实施例1的基础上,所述坐标特征值采用文本框左上角的坐标值、左下角的坐标值、右上角的坐标值、右下角的坐标值或中心点的坐标值。

本实施例实施时,坐标特征值采用文本框左上角的坐标值、左下角的坐标值、右上角的坐标值、右下角的坐标值或中心点的坐标值,由于坐标特征值是标识每一个文本框独有位置的坐标值,上述五种坐标值均可以表达该文本框的独有位置,有效提高了本发明聚类的准确性。

实施例3

本实施例在实施例1的基础上,所述聚类采用optics算法;所述optics算法通过读取有序文本框组中文本框的坐标特征值来确定文本框之间的相对距离;所述坐标特征值相似的标准为相对距离小于或等于阈值。

本实施例实施时,由于图纸上的文本框具有规则但是不规整的特点,发明人通过创造性劳动发现,由于文本框不规则,所以很难准确确定聚类参数,而采用optics算法时,聚类参数发生合理变化时,聚类结果变化不大。而在本发明应用的optics算法中,通过读取有序文本框组中文本框的坐标特征值来确定文本框之间的相对距离,然后以这个相对距离作为optics算法所需要数据,这种方式可以有效的确定文本框是否聚集,并将不聚集的文本框分到不同的类中。在本发明optics算法中,坐标特征值相似的标准为相对距离小于阈值,该阈值在本发明用应用为密度值,只需要规定合理的密度值,即可将文本框合理的聚类,有效降低聚类误差。

实施例4

本实施例在实施例1的基础上,步骤s3还包括以下子步骤:聚类完成后,根据文本框的坐标特征值对每一个类中文本框构成的形状进行判断;如果文本框构成的形状为预设形状,则对该类执行s4;如果文本框构成的形状不为预设形状,则对该类调整聚类参数并执行s3。

本实施例实施时,以土木施工cad图纸为例:土木施工cad图纸中文本框的特点为,如果文本框的角度为0°,则第一行文本框的水平坐标相同或相似,同时,第一列文本框的纵向坐标相同或相似,所以预设形状采用第一行文本框的水平坐标相同或相似同时第一列文本框的纵向坐标相同或相似的形状。而在聚类分析中,有时会出现聚类后的文本框构成的形状为“t”型或者圆形,这时,认定该形状不为预设形状,并对该类调整聚类参数再次聚类。本发明通过对文本框构成的形状的判断,有效的提高了聚类的准确性。

实施例5

如图3所示,本实施例在实施例1至4的基础上,对图3中的图纸文字进行处理。

本实施例实施时,

先将图纸上的文本框根据其角度进行角度分类,图纸上所有的文本框为0°;然后提取同一角度类型的文本框的坐标特征值,本实施例将坐标特征值定义为文本框左上角坐标值。

文本框提取效果如下:

3637:一:[坐标为:x=1447657412.032166y=926543984.4671117]

3638:1[坐标为:x=1447657587.564081y=926543984.4671117]

3639:、本工程±[坐标为:x=1447657618.814081y=926543984.4671117]

3640:0.000[坐标为:x=1447658040.20888y=926543984.4671117]

3641:以上墙体[坐标为:x=1447658233.95888y=926543984.4671117]

3642:200[坐标为:x=1447658585.02271y=926543984.4671117]

3643:厚混凝土砖,[坐标为:x=1447658716.27271y=926543984.4671117]

3644:二:工程做法[坐标为:x=1447661758.77883y=926544012.7807627]

3645:强度等级为[坐标为:x=1447657709.707235y=926543795.2022269]

3646:mu10[坐标为:x=1447658148.537022y=926543795.2022269]

3647:,采用[坐标为:x=1447658329.787022y=926543795.2022269]

3648:m5[坐标为:x=1447658593.084894y=926543795.2022269]

3649:混合砂浆砌筑,墙体厚度及立柱尺寸[坐标为:x=1447658693.084895y=926543795.2022269]

3650:外墙[坐标为:x=1447661936.167565y=926543783.6524901]

3651:1[坐标为:x=1447662111.69948y=926543783.6524901]

3652::[坐标为:x=1447662142.94948y=926543783.6524901]

3653:1:1[坐标为:x=1447662373.119285y=926543783.6524901]

3654:白水泥擦缝[坐标为:x=1447662454.369285y=926543783.6524901]

3655:详平面及剖面图。±[坐标为:x=1447657703.398538y=926543593.179681]

3656:0.000[坐标为:x=1447658475.857167y=926543593.179681]

3657:以下墙体详结施。[坐标为:x=1447658669.607167y=926543593.179681]

3658:8-10[坐标为:x=1447662373.119285y=926543599.0564725]

3659:厚浅灰色外墙面砖,在砖粘贴面上随贴随涂刷一遍混凝土界面剂,强粘贴力[坐标为:x=1447662535.619285y=926543599.0564725]

3660:2[坐标为:x=1447657568.554384y=926543382.6952552]

3661:、围墙每隔[坐标为:x=1447657612.304384y=926543382.6952552]

3662:40[坐标为:x=1447658051.134172y=926543382.6952552]

3663:米设一伸缩缝,缝宽[坐标为:x=1447658144.884172y=926543382.6952552]

3664:30mm.[坐标为:x=1447658934.777789y=926543382.6952552]

3665:3[坐标为:x=1447657558.485019y=926543184.2143952]

3666:、墙身防潮层:在地坪下[坐标为:x=1447657602.235019y=926543184.2143952]

3667:-0.060[坐标为:x=1447658567.660551y=926543184.2143952]

3668:处做[坐标为:x=1447658805.160551y=926543184.2143952]

3669:20[坐标为:x=1447658980.692466y=926543184.2143952]

3670:厚[坐标为:x=1447659068.192466y=926543184.2143952]

3671:1:2[坐标为:x=1447659155.958423y=926543184.2143952]

3672:水泥砂浆内加相当于[坐标为:x=1447659249.708423y=926543184.2143952]

3673:水泥重量[坐标为:x=1447657722.28492y=926542961.0158562]

3674:5%[坐标为:x=1447658073.34875y=926542961.0158562]

3675:的聚合物砂浆(在此标高为钢筋混凝土构造时不做)。[坐标为:x=1447658185.84875y=926542961.0158562]

3676:4[坐标为:x=1447657558.485019y=926542757.3695289]

3677:、过水洞两间一个,洞内壁抹[坐标为:x=1447657608.485019y=926542757.3695289]

3678:20[坐标为:x=1447658749.442466y=926542757.3695289]

3679:厚[坐标为:x=1447658836.942466y=926542757.3695289]

3680:1:2[坐标为:x=1447658924.708423y=926542757.3695289]

3681:水泥砂浆加[坐标为:x=1447659018.458423y=926542757.3695289]

3682:5%[坐标为:x=1447659457.288211y=926542757.3695289]

3683:防水剂。[坐标为:x=1447659569.788211y=926542757.3695289]

3684:5[坐标为:x=1447657558.485019y=926542575.1381977]

3685:、铁艺围栏由专业厂家制作安装,其颜色及花式有甲方自定。[坐标为:x=1447657602.235019y=926542575.1381977]

3686:6[坐标为:x=1447657558.485019y=926542375.0185961]

3687:、施工过程中图纸上有不明之处,应及时与设计单位联系协商解决。[坐标为:x=1447657602.235019y=926542375.0185961]

3688:施工中均应按现行建筑安装工程验收规范和有关标准、规范、规定执行。[坐标为:x=1447657725.294654y=926542188.788369]

3690:6[坐标为:x=1447662373.119285y=926543404.5512771]

3691:厚[坐标为:x=1447662416.869285y=926543404.5512771]

3692:1:2.5[坐标为:x=1447662504.635242y=926543404.5512771]

3693:水泥砂浆(掺建筑胶)[坐标为:x=1447662660.885242y=926543404.5512771]

3694:12[坐标为:x=1447662357.412471y=926543231.9392951]

3695:厚[坐标为:x=1447662432.412471y=926543231.9392951]

3696:1[坐标为:x=1447662520.178428y=926543231.9392951]

3697::[坐标为:x=1447662551.428428y=926543231.9392951]

3698:3[坐标为:x=1447662639.194386y=926543231.9392951]

3699:水泥砂浆打底扫毛[坐标为:x=1447662682.944385y=926543231.9392951]

3700:基层墙体[坐标为:x=1447662391.443578y=926543056.9064493]

最前面为文本框的编号,中间为文本框内容,最后为文本框左上角坐标。由上述内容可见,在读取图纸文本框以后,第3644号等大量本应属于右侧的文本框被插入了左侧文本框中。然后对文本框进行聚类分析,使得坐标特征值相似的文本框被聚到同一类中,并根据聚类结果调整文本框排序顺序;聚类算法采用optics算法,optics算法的密度值取图纸尺寸的百分之一。

聚类以后的效果如下:

类1:

3637:一:[坐标为:x=1447657412.032166y=926543984.4671117]

3638:1[坐标为:x=1447657587.564081y=926543984.4671117]

3639:、本工程±[坐标为:x=1447657618.814081y=926543984.4671117]

3640:0.000[坐标为:x=1447658040.20888y=926543984.4671117]

3641:以上墙体[坐标为:x=1447658233.95888y=926543984.4671117]

3642:200[坐标为:x=1447658585.02271y=926543984.4671117]

3643:厚混凝土砖,[坐标为:x=1447658716.27271y=926543984.4671117]

3645:强度等级为[坐标为:x=1447657709.707235y=926543795.2022269]

3646:mu10[坐标为:x=1447658148.537022y=926543795.2022269]

3647:,采用[坐标为:x=1447658329.787022y=926543795.2022269]

3648:m5[坐标为:x=1447658593.084894y=926543795.2022269]

3649:混合砂浆砌筑,墙体厚度及立柱尺寸[坐标为:x=1447658693.084895y=926543795.2022269]

3655:详平面及剖面图。±[坐标为:x=1447657703.398538y=926543593.179681]

3656:0.000[坐标为:x=1447658475.857167y=926543593.179681]

3657:以下墙体详结施。[坐标为:x=1447658669.607167y=926543593.179681]

3660:2[坐标为:x=1447657568.554384y=926543382.6952552]

3661:、围墙每隔[坐标为:x=1447657612.304384y=926543382.6952552]

3662:40[坐标为:x=1447658051.134172y=926543382.6952552]

3663:米设一伸缩缝,缝宽[坐标为:x=1447658144.884172y=926543382.6952552]

3664:30mm.[坐标为:x=1447658934.777789y=926543382.6952552]

3665:3[坐标为:x=1447657558.485019y=926543184.2143952]

3666:、墙身防潮层:在地坪下[坐标为:x=1447657602.235019y=926543184.2143952]

3667:-0.060[坐标为:x=1447658567.660551y=926543184.2143952]

3668:处做[坐标为:x=1447658805.160551y=926543184.2143952]

3669:20[坐标为:x=1447658980.692466y=926543184.2143952]

3670:厚[坐标为:x=1447659068.192466y=926543184.2143952]

3671:1:2[坐标为:x=1447659155.958423y=926543184.2143952]

3672:水泥砂浆内加相当于[坐标为:x=1447659249.708423y=926543184.2143952]

3673:水泥重量[坐标为:x=1447657722.28492y=926542961.0158562]

3674:5%[坐标为:x=1447658073.34875y=926542961.0158562]

3675:的聚合物砂浆(在此标高为钢筋混凝土构造时不做)。[坐标为:x=1447658185.84875y=926542961.0158562]

3676:4[坐标为:x=1447657558.485019y=926542757.3695289]

3677:、过水洞两间一个,洞内壁抹[坐标为:x=1447657608.485019y=926542757.3695289]

3678:20[坐标为:x=1447658749.442466y=926542757.3695289]

3679:厚[坐标为:x=1447658836.942466y=926542757.3695289]

3680:1:2[坐标为:x=1447658924.708423y=926542757.3695289]

3681:水泥砂浆加[坐标为:x=1447659018.458423y=926542757.3695289]

3682:5%[坐标为:x=1447659457.288211y=926542757.3695289]

3683:防水剂。[坐标为:x=1447659569.788211y=926542757.3695289]

3684:5[坐标为:x=1447657558.485019y=926542575.1381977]

3685:、铁艺围栏由专业厂家制作安装,其颜色及花式有甲方自定。[坐标为:x=1447657602.235019y=926542575.1381977]

3686:6[坐标为:x=1447657558.485019y=926542375.0185961]

3687:、施工过程中图纸上有不明之处,应及时与设计单位联系协商解决。[坐标为:x=1447657602.235019y=926542375.0185961]

3688:施工中均应按现行建筑安装工程验收规范和有关标准、规范、规定执行。[坐标为:x=1447657725.294654y=926542188.788369]

类2:

3644:二:工程做法[坐标为:x=1447661758.77883y=926544012.7807627]

3650:外墙[坐标为:x=1447661936.167565y=926543783.6524901]

类3:

3651:1[坐标为:x=1447662111.69948y=926543783.6524901]

3652::[坐标为:x=1447662142.94948y=926543783.6524901]

3653:1:1[坐标为:x=1447662373.119285y=926543783.6524901]

3654:白水泥擦缝[坐标为:x=1447662454.369285y=926543783.6524901]

3658:8-10[坐标为:x=1447662373.119285y=926543599.0564725]

3659:厚浅灰色外墙面砖,在砖粘贴面上随贴随涂刷一遍混凝土界面剂,强粘贴力[坐标为:x=1447662535.619285y=926543599.0564725]

3690:6[坐标为:x=1447662373.119285y=926543404.5512771]

3691:厚[坐标为:x=1447662416.869285y=926543404.5512771]

3692:1:2.5[坐标为:x=1447662504.635242y=926543404.5512771]

3693:水泥砂浆(掺建筑胶)[坐标为:x=1447662660.885242y=926543404.5512771]

3694:12[坐标为:x=1447662357.412471y=926543231.9392951]

3695:厚[坐标为:x=1447662432.412471y=926543231.9392951]

3696:1[坐标为:x=1447662520.178428y=926543231.9392951]

3697::[坐标为:x=1447662551.428428y=926543231.9392951]

3698:3[坐标为:x=1447662639.194386y=926543231.9392951]

3699:水泥砂浆打底扫毛[坐标为:x=1447662682.944385y=926543231.9392951]

3700:基层墙体[坐标为:x=1447662391.443578y=926543056.9064493]

从聚类后的效果可以看到,属于右侧的文本框被聚到了类2和类3中,而属于左侧的文本框被聚到了类1中。

最后,将调整顺序后的文本框根据该文本框的角度类型进行文字输出。

输出后的内容如下:

一:1、本工程±0.000以上墙体200厚混凝土砖,强度等级为mu10,采用m5混合砂浆砌筑,墙体厚度及立柱尺寸详平面及剖面图。±0.000以下墙体详结施。2、围墙每隔40米设一伸缩缝,缝宽30mm3、墙身防潮层:在地坪下-0.060处做20厚1:2水泥砂浆内加相当于水泥重量5%的聚合物砂浆(在此标高为钢筋混凝土构造时不做)。4、过水洞两间一个,洞内壁抹20厚1:2水泥砂浆加5%防水剂。5、铁艺围栏由专业厂家制作安装,其颜色及花式有甲方自定。6、施工过程中图纸上有不明之处,应及时与设计单位联系协商解决。施工中均应按现行建筑安装工程验收规范和有关标准、规范、规定执行。二:工程做法外墙1:1:1白水泥擦缝8-10厚浅灰色外墙面砖,在砖粘贴面上随贴随涂刷一遍混凝土界面剂,强粘贴力6厚1:2.5水泥砂浆(掺建筑胶)12厚1:3水泥砂浆打底扫毛基层墙体

从上文可以看出,输出后的内容符合阅读逻辑,避免了连续的内容被解析到相隔非常远的地方,使得提取图纸文本并进行翻译更加方便。

实施例6

如图2所示,本发明基于聚类分析的图纸文本读取系统,包括用于将图纸上的文本框根据其角度进行角度分类的分类模块;用于提取同一角度类型的文本框的坐标特征值的提取模块;用于对同一角度类型的文本框进行聚类分析,使得坐标特征值相似的文本框被聚到同一类中,并根据聚类结果对文本框进行排序的聚类模块;用于将排序后的文本框根据该文本框的角度类型进行文字输出的输出模块。

本实施例实施时,分类模块、提取模块和输出模块优选为arm7处理器,聚类模块优选为cortex-a7处理器。分类模块先对图纸上的文本框根据其角度进行角度分类,将文本框分入多个不同的角度类型,如cad图纸中常出现的:0°、90°、180°和270°;然后提取模块提取同一角度类型的文本框的坐标特征值,这种坐标特征值是标识每一个文本框独有位置的坐标值;再然后,聚类模块对同一角度类型的文本框进行聚类分析,使得坐标特征值相似的文本框被聚到同一类中,并根据聚类结果对文本框进行排序;最后,输出模块将排序后的文本框根据该文本框的角度类型进行文字输出。以cad图纸为例:如文本框的角度为0°,则文字输出的顺序为从左到右;如文本框的角度为90°,则文字输出的顺序为从下到上;如文本框的角度为180°,则文字输出的顺序为从右到左;如文本框的角度为270°,则文字输出的顺序为从上到下。本发明通过将文本框聚类,使得内容相近的文本框被聚到同一个类,然后输出文字,避免了连续的内容被解析到相隔非常远的地方,使得提取图纸文本并进行翻译更加方便。

实施例7

本实施例在实施例6的基础上,所述坐标特征值采用文本框左上角的坐标值、左下角的坐标值、右上角的坐标值、右下角的坐标值或中心点的坐标值。

本实施例实施时,坐标特征值采用文本框左上角的坐标值、左下角的坐标值、右上角的坐标值、右下角的坐标值或中心点的坐标值,由于坐标特征值是标识每一个文本框独有位置的坐标值,上述五种坐标值均可以表达该文本框的独有位置,有效提高了本发明聚类的准确性。

实施例8

本实施例在实施例6的基础上,所述聚类采用optics算法;所述optics算法通过读取有序文本框组中文本框的坐标特征值来确定文本框之间的相对距离;所述坐标特征值相似的标准为相对距离小于或等于阈值。

本实施例实施时,由于图纸上的文本框具有规则但是不规整的特点,发明人通过创造性劳动发现,由于文本框不规则,所以很难准确确定聚类参数,而采用optics算法时,聚类参数发生合理变化时,聚类结果变化不大。而在本发明应用的optics算法中,通过读取有序文本框组中文本框的坐标特征值来确定文本框之间的相对距离,然后以这个相对距离作为optics算法所需要数据,这种方式可以有效的确定文本框是否聚集,并将不聚集的文本框分到不同的类中。在本发明optics算法中,坐标特征值相似的标准为相对距离小于阈值,该阈值在本发明用应用为密度值,只需要规定合理的密度值,即可将文本框合理的聚类,有效降低聚类误差。

实施例9

本实施例在实施例6的基础上,聚类模块还用于在聚类完成后,根据文本框的坐标特征值对每一个类中文本框构成的形状进行判断;如果文本框构成的形状为预设形状,则将该类发送给输出模块;如果文本框构成的形状不为预设形状,则调整聚类参数对该类再次聚类。

本实施例实施时,以土木施工cad图纸为例:土木施工cad图纸中文本框的特点为,如果文本框的角度为0°,则第一行文本框的水平坐标相同或相似,同时,第一列文本框的纵向坐标相同或相似,所以预设形状采用第一行文本框的水平坐标相同或相似同时第一列文本框的纵向坐标相同或相似的形状。而在聚类分析中,有时会出现聚类后的文本框构成的形状为“t”型或者圆形,这时,认定该形状不为预设形状,并调整聚类参数对该类再次聚类。本发明通过对文本框构成的形状的判断,有效的提高了聚类的准确性。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1