一种医学领域图像语义相似度矩阵的生成方法_3

文档序号：9433125阅读：来源：国知局

相关。
[0090] 本步骤中只考虑相邻节点（a，b)间的相似度计算，语义距离等于a节点的上层父类节点属性集合与a节点的特征集合之间求并集。标注词节点的直接子节点数量愈多，对其细化的标注词语义描述就越具体，即其所含子类节点之间的语义相似度就愈大。该标注词节点属性信息量影响因子为：
[0092] 式中，〇 (C1, C2)表示标注词节点（cl, c2)并运算的共有属性集合。&〇_:κ2.)与表示标注词节点（cl，c2)的差异属性量。λ、α表示公式调节参数，避免分式无意义。
[0093] S42:基于标注词纵向节点深度属性，计算图像间语义距离并作加和。
[0094] 任意一组标注词在语义树中的节点深度之和愈大，该标注词表达的图像属性愈具体，语义相似度距离愈小，相似度愈高，本发明通过指数函数来描述节点层次的语义相似度。该标注词的节点层次影响因子（也称层次因子）为：
[0096] S43 :由节点层次影响因子计算获得非对称因子：基于标注词节点非对称属性，在标注词语义树中，标注词节点间的语义相似度在一定程度上具有非对称性，即语义相似度距离匹配带有方向性。标注词节点与祖先节点的相似度值大于其祖先与子节点的相似度取值，若概念A为概念B的祖先，sim(A, Β)要小于sim(B, Α)。节点对（cl，c2)语义距离非对称属性影响因子为：
[0098] S44 :用线性方法加权的方法将节点属性信息量影响因子、非对称属性影响因子进行整合，形成基于多角度的语义距离相似度矩阵：
[0099] 我们发现，基于标注词横向节点属性相似度计算方法没有考虑到节点共有属性量相同、深度不同的标注词节点相似度的计算误差问题。基于基于标注词纵向节点深度属性相似度计算方法无法区分深度相同、共有属性量不同的问题。为优化上述模型，本发明提出一种新的标注词线性加权模型：
[0100] 通过标注词线性加权模型
[0101] SinKc1, C2) = ε SimCh，C2) + (1-ε )SimDy (C1, C2)将节点属性信息量影响因子、非对称属性影响因子进行整合，形成基于多角度的语义距离相似度矩阵，实现语义标注词之间相似度距离度量的基本特征：
[0102] 公式中，ε表示权重因子，调整标注词节点共有属性量和深度对语义距离度量的影响。
[0103] 本公式对（cl，c2)语义相似度距离度量范围是0到1闭区间，值愈大，语义距离愈近。
[0104] 本公式对（cl, c2)是相同一节点时，语义相似度值为1。
[0105] 本公式对（cl, c2)在标注词语义树中的共有部分越大，即共有属性越集中，语义距离愈近。
[0106] 本公式对（cl，c2)在标注词语义树中位置愈深，属性愈聚向，语义距离愈近。
[0107] 参见图2,进一步说，在步骤1中，通过人机交互的方式，将影像报告中医生对于医学图像库中相应图像的描述作为语义内容，根据医学分类知识，提取出标注词集合，定义此集合为描述图像语义信息的特征向量。即将领域图像中的"图像+语义标注词"作为一组元素。
[0108] 步骤1中的始化关键词标注，是将语义标注用可数字化的权重值表示，初始赋值为〇,构成包含语义标注词的目标列表。
[0109] 在步骤1中，利用待比较语义与图像库中的分类信息概念做检索，对检索出的图像进行标记：
[0110] 所述的"分类信息"是基于医生对于不同科室的影像的分类描述信息，与待比较的语义标注词做相似性检索，检索中该图像每出现一次，就对出现影像的语义标注词做正向标记，同时将正向标记记数变量自加一次。
[0111] 将与主题图像无关的图像标记为检索负相关，同时将负向标记记数变量自加一次，有关联的图像标记为正相关，同时将负向标记记数变量自加一次，进而获取领域对象的横维和纵维信息，其中，横坐标对应正向标记记数变量的变化，纵坐标对应负向标记记数变量的变化。
[0112] 本步骤中，将正反馈语义所在的数组权重增加，是对正反馈语义标注词所在的数组，利用遗传算法进行权重静态优化，并将该组权重值的初始动态调节系数设为大于1的常数。
[0113] 本步骤中，将负反馈的数组权重减少，是逆向调整负反馈权重的初始动态调节系数，并将其值设为小于1的常数。
[0114] 本步骤中，判断图像属性的子集属性是否为空值后的处理方法是：若非空，添加新的语义标注的属性加入目标列表。反之，停止添加。
[0115] 将图像的语义标注词数量作为衡量该图像语义范围的依据，若图像a的语义标注词集合恰为另一图像b的语义标注词集合的真子集，则定义图像a是图像b的子集。
[0116] 本步骤中，采用分水岭算法对目标图像区域进行区域分割，计算出分割后的区域图像的条件密度函数，获取后验概率值，比较筛选出概率值最大数值的区域，并以此按照数值递减排序，对相应区域赋权重值。
[0117] 参见图3,进一步说，步骤2中所述的条件决策表，是由对象集合和条件决策熵所构成的二元关系，其中初始条件语义属性X与条件决策Y构成基于对象的等价关系，条件决策熵H(Y|X)表示已知条件语义属性X的前提下，条件决策Y的粗糙程度。条件决策表的计算方法为：
进一步说，条件决策表是一种在传统决策表的基础上，引入以条件概率为决策判断条件的符号化表示方法，本发明所使用的条件决策表由标注词集合、概率条件规则集以及操作行为集合所组成三元组，该三元组的核心是基于语义标注词集合和条件决策熵所构成的二元关系，其中条件决策熵是融合粗糙集理论中支持度的规则表示的概率百分比表示，结合置信度的关联规则条件概率化定义，构造图像的等价关系，将语义标注词相邻的图像划分为一个等价类将连续语义属性切分为若干离散属性值，构造语义属性切分边界。
[0118] 本步骤中，将语义属性按出现次数从小到大排序，并将相邻对象划分为一个等价类，基于条件语义属性，遍历出上述等价类之间的区域临界点，以此作为初始语义属性的区间端点。对每个每个离散后的图像语义属性计算其条件决策熵，并比较相邻区间中条件信息量的大小。
[0119] 所述信息量的大小的界定如下：将图像的语义标注词作为其条件语义属性，并将条件语义属性和决策语义属性的比值表示成相邻区间合并操作的条件信息量，对于给定的条件决策表，上述比值愈大，表明该条件语义属性对决策语义属性愈重要。遍历与计算每个条件语义属性的条件信息量，并按数值递减排序，若出现数值相同的情况，则按照等价类的断点数量由大到小一次排列，淘汰掉排列位置靠后的条件语义属性。本步骤中，每次遍历，保留数值最大的条件语义属性，以此作为区间合并的方向决策条件。
[0120] 由条件决策表划分最小数，同时将条件决策熵排序，并通过设定决策阈值，将条件决策熵划分为粗粒度组与细粒度组，每次挑选端点条件决策熵区间的两端点差值最小的语义属性一一将条件决策表中相邻的条件语义属性较小的取值替换为较大的数值。将条件决策表中相邻的条件语义属性数值对调，保证该领域的左端点值始终大于右端点值，以防止过度拟合。若修改结果引起数值冲突，即修改结果引起条件决策语义属性出现完全相同的领域区间，则删除此次修改，将领域区间再次对调，还原成本区间的初始状态。最后，将划分后的离散区间按其左端点由大到小排序，依次从大于0的正整数进行编码。
[0121] 参见图4,进一步说，定义在步骤2中，未被划入语义标注词集合A的剩余标注词所构成的集合，为语义标注子集B。
[0122] 对信息表数据进行特征离散化，是利用双向指针的二叉树对集合A-B进行差别语义属性项的存储，降低数据的存储空间，并通过步骤2中的条件决策表，将连续的语义属性划分成按权值由大到小排序的离散区间。
[0123] 初次抽样步长，是人工输入的初次抽样系数，用以抽取分割信息表数据，构建子信息表的条件语义属性等价关系集，建立可辨识差别矩阵分类集合簇元素，构成多阶方阵，即构造可辨识差别矩阵。由可辨识差别矩阵求解可辨识差别矩阵的核。查找可辨识矩阵的条件语义属性的差别属性项，是搜索出所有与条件语义属性等价类的核不相关的属性项，将该属性项存储于单独的二叉树中，并为每个决策语义属性建立一个属性剪枝关联二叉树。
[0124] 可辨识矩阵的条件语义属性的差别属性项，是求解维度最简的约简集判断依据：通过遍历属性剪枝关联二叉树的标注词节点中权值小于2的个数，求和节点数量，同时使用抽样未使用到的剩余对象做分类不一致性判断。
[0125] 参见图5,进一步说，在步骤4中，根据图像与标注词间的划分关系将其二元化，BP 利用二元关系构造标注词语义树。根据语义标注词在语义树中的层次结构来确定属性特征集合。其中，所述层次结构，是该二叉树的每一层语义标注词节点与条件语义属性一一对应。属性特征集合，通过遍历，判断某节点的上层节点右孩子若为空，则此条件语义属性必存在一个非空的属性剪枝关联二叉树。
[0126] 随后，从节点属性信息量、节点层次以及节点非对称性三个方面对语义距离度量进行扩展，其中，
[0127] 节点属性信息量指标注词语义树外延标注词节点c所包含的直接子类节点数量，记做〇 (C)。节点属性信息量影响因子为
[0128] 式中，degree (anc12)表示概念节点1、2子节点数量。degree (fc)表示基于该节点所在层内格结构中的各兄弟节点度的最大值。
[0129] 节点层次指在基于所表达的标注词语义树中，若存在具有偏序集的二元关系标注词层次格结构，则树中外延标注词节点与根节点的最短路径中所包含的边数之和。每个横向层次标注词节点均是对上层节点的细化表达，节点所在的层级愈大

完整全部详细技术资料下载

当前第3页1 2 3 4 5