基于区域尺寸和弯曲度的化学分子结构图分割方法

文档序号:6489328阅读:385来源:国知局
基于区域尺寸和弯曲度的化学分子结构图分割方法
【专利摘要】本发明公开了一种基于区域尺寸和弯曲度的化学分子结构图分割方法,其步骤如下:选择待处理的二维化学分子结构的BMP图;进行图像预处理,包括二值化、去噪等操作;采用8连通判别算法进行边界跟踪,给每个连通区域进行标记;根据连通区域尺寸大小,将化学分子结构图分割成两部分:一部分是由化学键组成的所有大尺寸连通区域的组合,另一部分是杂原子、基团和单化学键等小尺寸区域的组合;根据弯曲度将小尺寸组合图中的表示化学键的单线段和类线段提取出;最后根据位置等信息将类线段和单线段进行区分,将单线段的化学键和大尺寸连通区组合,完成了化学键与杂原子、基团的分离。该方法在进行图像分割时具有很好的分割效果。
【专利说明】基于区域尺寸和弯曲度的化学分子结构图分割方法
【技术领域】
[0001]本发明属于数字图像处理领域,具体地说是涉及一种基于区域尺寸和弯曲度的化学分子结构图分割方法。
【背景技术】
[0002]化学分子结构图一般使用ChemDraw、ISIS/Draw、DrawIt 和 ACD/ChemSketch 软件绘制。绘制不仅生成静态的化学分子结构图片,同时绘制软件将图的结构描述信息翻译成计算机可读的文件格式,如ISIS,MOLfile, SMILES,称为动态结构式格式,以文本的形式描述原子、化学键以及原子之间的连接关系。目前,分子结构检索操作一般都是基于动态结构式格式,例如,《化合物结构检索系统的设计及在维吾尔药资源库上的实现》,冯红君,新疆大学,2008年硕士毕业论文;《CIS0C-ChMS:药物化学信息管理系统》,沈天翔,李丰,姚建华,2007年出版的期刊《计算机与应用化学》;《计算机存储药物化学结构的格式及其相互转化》,孔德信,2007年出版,期刊《计算机与应用化学》;《化合物结构的网络检索》,李创业,河北工业大学,2007年硕士毕业论文;《药物化学结构二维子结构检索的开发》刘冰,周家驹,2003年出版的期刊《过程工程学报》。这些方法一般通过提取生成文件的信息,获得该化合物的结构信息,用系统命名法、碎片码、线性码、拓扑指数码、连接表描述。由于动态结构式格式没有形成统一的标准,不同的化学结构文件所包含的信息项不同,在任两个化学软件之间毫无损失地传递化学结构信息仍比较困难,可能会造成信息的丢失。
[0003]在化学学科、专利说明、科学杂志以及互联网领域中分子间的交流大多数是基于化学分子结构静态图像的,主要有BMP、TIFF、PNG、GIF数字图像格式。静态图片表示的化学分子结构式具有直观、可视,不受系统的限制优势。目前,化学结构图形检索技术已经在ISI公司的Chemistry Server (该检索的网站的网址是:http://www.1sinet.com/)、英国剑桥的 ChemFinder (该检索的网站的网址是:http://chemfinder.cambrigesoft.com/)一些著名的化学文献和结构数据库中得到应用。但是这些检索系统在进行图形检索操作前,都需要用专业的绘图软件将被检索的拓扑结构重新绘制,生成SDF格式的动态结构式文件,其检索实质上还是基于动态结构式文件。
[0004]另外,国内外还有很多基于图论的化学分子子结构匹配算法和实际应用,这种方法的理论基础是将化学结构看作一种带有属性(权值)的无向图,其中结点代表原子,结点的属性代表原子类型以及其他相关信息如原子量,边代表化学键,而边的属性则代表键的类型以及其他相关信息如键长、键角,其他权值可以存储一些其他的结构信息如分子量、原子总数。由此将化学结构表示成为一个无向连通图,利用图论的知识来解决结构检索问题。主要是基于Ullmann算法,参考文献的题目为:An Algorithm for Subgraph Isomorphism(该文作者是:U1 lmann J R,1976 年出版的期刊:Journal of the ACM (JACM) ), Ullmann算法的中心思想就是将分子结构表示成无向图,然后对此无向图进行遍历。在1995年之前Ullmann算法是公认的效率执行最高的子结构查询算法,而1995年后由Cordelia L P提出的VF通用算法,参考文献的题目为:An EffiTransfonnational Model (该文作者是:Cordelia L P, Foggia P, Sansone C, 1996年出版在Proc.0f the 13th InternationalConference on Pattern Recognition),参考文献的题目为:Subgraph Transformationsfor the Inexact Matching of Attributed Relational Graphs (该文作者是:CordeliaL P, Foggia P, Sansone C, 1998年出版的期刊:Computing),参考文献的题目为:AnImproved Algorithm for Matching Large Graphs (该文作者是:Foggia P, Sansone C,Vento M , 2001 出版在 The 3rd IAPR-TC15 Workshop on Graph based Representations),实现了比Ullmann算法更高的执行效率和较低的复杂度。基于这些算法,研究人员研究了许多种实现方法,例如由Ewgenij Proschak提出的MQL( molecular querylanguage分子查询语言)就是一种基于Ullmann算法的上下文无关文法,参考文献的题目为:Molecularquery language (MQL)—a context-free grammar for substructure matching (该文作者是:Proschak E, Wegner JK, Schiiller A, Schneider G, Fechner U, 2007年出版在期刊J Chem Inf Model),该方法将化学分子结构描述成图的形式,从而运用子图匹配的方法进行化学分子结构的匹配操作。上述基于化学分子结构无向图的检索方法,都涉及到如何将化学分子结构图像转化成计算机可读一个无向连通图。一般采用的方法还是从化学分子动态格式的文件中提取原子表示结点,原子类型以及其它相关信息表示结点的属性,原子之间的化学键表示边,键的类型以及其它相关信息如键长、键角表示边的属性。
[0005]通过以上阐述,可知目前国内外的化学分子结构图检索不管是基于拓扑指数码、连接表,还是基于图形的,在检索前,都需专业绘制软件进行重绘,从绘制生成的动态结构式文件中提取化学分子结构的相关信息。而从纯图像角度,研究化学分子结构信息的提取,以及检索很少。

【发明内容】

[0006]本发明所要解决的技术问题是针对现有技术的不足,提供一种方法更为合理、可实现有效的的分割的基于区 域尺寸和弯曲度的化学分子结构图分割方法。
[0007]本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是一种基于区域尺寸和弯曲度的化学分子结构图分割方法,其特点是,其具体步骤如下:
(1)选择待处理的二维化学分子结构的图像,化学分子结构的图像的格式有BMP、TIFF、PNG、GIF ;处理前将所有的非BMP格式的图像都转化成BMP格式;
(2)进行化学分子结构图像预处理操作,所述的预处理操作为缝合、去噪、二值化、倾斜校正操作;
(3)采用8连通判别算法,进行边界跟踪,给每个连通区域进行标记,每个连通区域被表述为平面上一列坐标为整数的有序点的集合:S = Wi O(XiJi)J= 1,2,…,η};
(4)基于区域尺寸对化学分子结构图像进行分割:首先设定尺寸阈值^该值是一个随着图的变化而变化的动态值,接着基于该尺寸阈值,完成将化学分子结构图中的所有的连通区域分割成两部分操作,一部分是由有长链、环链或两者组合的区域组成,另一部分是由表示杂原子或基团的字母、数字,以及一些表示化学键的单直线段的连通区域组成;
(5)基于弯曲度对化学分子结构图像进行进一步分割:直线段和一般字母、数字的最大区别就是,直线段是直的,而一般的字母、数字具有一定的弯曲度,基于弯曲度将单线段和字母、数字分离,将分离出单线段和基于区域尺寸图像分割中化学键组合,完成了化学键和杂原子、基团的分离;
(6)区分与直线段:在化学分子结构图中化学元素碘的“I”字母、表示氯元素的“Cl”中的“1”,以及表示负电荷的显示式样与直线段类似;基于弯曲度的对图像分割,“I""1"会被当作单线段的化学键分割出“I""1"出现于杂原子或基
团中,位于化学键,也就是直线段的端点处;表示化学键的单线段主要以两种方式出现:一种在碳链中充当双键或叁键的角色;另一种位于杂原子或杂原子与基团之间;本发明基于倾斜角度、位置信息将“I""1"与直线段区分出,在判断前,暂称“I""1"、“-”和单直线段为待测直线段。
[0008]本发明所述的基于区域尺寸和弯曲度的化学分子结构图分割方法中,步骤⑷中所述基于区域尺寸对化学分子结构图像进行分割,其具体步骤如下:
(4-1)获得尺寸阈值K:由人工选定图中一个大写字母,计算该字母的宽度i和高度
【权利要求】
1.一种基于区域尺寸和弯曲度的化学分子结构图分割方法,其特征在于,其具体步骤如下: (1)选择待处理的二维化学分子结构的图像,化学分子结构的图像的格式有BMP、TIFF、PNG、GIF ;处理前将所有的非BMP格式的图像都转化成BMP格式; (2)进行化学分子结构图像预处理操作,所述的预处理操作为缝合、去噪、二值化、倾斜校正操作; (3)采用8连通判别算法,进行边界跟踪,给每个连通区域进行标记,每个连通区域被表述为平面上一列坐标为整数的有序点的集合:这={PiM ; (4)基于区域尺寸对化学分子结构图像进行分割:首先设定尺寸阈值^该值是一个随着图的变化而变化的动态值,接着基于该尺寸阈值,完成将化学分子结构图中的所有的连通区域分割成两部分操作,一部分是由有长链、环链或两者组合的区域组成,另一部分是由表示杂原子或基团的字母、数字,以及一些表示化学键的单直线段的连通区域组成; 步骤(4)中所述基于区域尺寸对化学分子结构图像进行分割,其具体步骤如下: (4-1)获得尺寸阈值^:由人工选定图中一个大写字母,计算该字母的宽度I和高度h -J = masCxj, x2,--%?)-1r皿(xh x2, ---,Xx),高度 A = HiaxO1,—麵(7ι) , k、I中较大的1.1倍作为y的值,即y=max(A,i)xl.l ; (4-2)计算所有连通区域的宽度^和高度I ,)= 1,2…’ m为连通区域的个数;将每个连通区宽度和高度中较大的值记下,用巧表示,即Li == 1,2--? ; (4-3)如& > V,则将所对应的连通区域分割出,将& > 的所有连通区域组成一新图;完成了将化学分子结构图中所有连通区域按尺寸大小可以分割成两部分:一部分是由有长链、环链或两者组合的区域;另一部分是由表示杂原子或基团的字母、数字,以及一些表示化学键的单直线段的连通区域; (5)基于弯曲度对化学分子结构图像进行进一步分割:直线段和一般字母、数字的最大区别就是,直线段是直的,而一般的字母、数字具有一定的弯曲度,基于弯曲度将单线段和字母、数字分离,将分离出单线段和基于区域尺寸图像分割中化学键组合,完成了化学键和杂原子、基团的分离; 步骤(5)中所述基于弯曲度对化学分子结构图像进行进一步分割,其具体步骤如下: (5-1)取像素点与的一个领域=(/^,.",υ4+1,.?),其中r为像素点与的领域半径,是一个常数,一般取0-15 ; (5-2)以领域Ωρ =1,2,…3 ,为子窗口在连通区域边界曲线上滑动,H的直线方程为(J7WJiW)Z--乃-rA+r) = O,利用计算公式 = |(yiw -y\)h +(?^ -&)乃+Ow‘ - jw x^-.)| /ο,计算巧点到直线 H 的距离; (5-3)如果忒=则该连通区是一条直线段,如果在计算中发现有两个以上点到H距离大于β,就可以判定该连通区域是非直线,也就是字母或数字,不需要再计算其它点; 通过该方法,实现将单线段和字母、数字分离; (6)区分与直线段:在化学分子结构图中化学元素碘的“I”字母、表示氯元素的“Cl”中的“1”,以及表示负电荷的显示式样与直线段类似;基于弯曲度的对图像分割,“会被当作单线段的化学键分割出出现于杂原子或基团中,位于化学键,也就是直线段的端点处;表示化学键的单线段主要以两种方式出现:一种在碳链中充当双键或叁键的角色;另一种位于杂原子或杂原子与基团之间;本发明基于倾斜角度、位置信息将与直线段区分出,在判断前,暂称和单直线段为待测直线段; 步骤(6)中所述完成与直线段的区分,具体步骤如下: (6-1)提取基于区域尺寸图像分割获得的大连通区域图中的交点以及端点,将其与基于弯曲度图像分割中获得的字母、数字图中的每个连通区域的矩形区域组合,用★标识交点,▲标识端点, 标识字母、数字; (6-2)首先从待测直线段的倾斜角度来进行区分,如待测直线段和水平正方向的夹角非0°或90°,断定其是直线段;因在预处理时,对图像进行了倾斜校正,所有的字母、数字均端正显示,也就是类直线的字母与水平正方向的夹角约90°,负电荷与水平正方向的夹角约0° ;而图中的表示化学键的直线段与水平正方向的夹角主要有0°、30°、90° ,120° 几种; (6-2)对于剩下的与水平正方向夹角为0°或90°左右待测线段,从其所处的位置进行判断;类直线的位于端点 处,而表示化学键的单线段位于两原子字母之间,或位于碳链中;取待测线段的两端点坐标,分别求与两端点一定距离范围内点的类型,如果只有端点,则其为非线段;如待测线段与水平正方向夹角为0°,且离其左侧端点较近的是一矩形区域,同时该线段位于该矩形区域的1/2高度以上,则该待测线段是伪线段,应该是负电荷如该线段与水平正方向的夹角是90°左右,同时,该待测线段的左侧是一矩形区域,那么它就是字母;非以上情况的,可判定为直线段。
【文档编号】G06T7/00GK103700084SQ201210366626
【公开日】2014年4月2日 申请日期:2012年9月28日 优先权日:2012年9月28日
【发明者】李存华, 管燕, 仲兆满 申请人:淮海工学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1