一种基于lda的生物医疗图像的标注系统及方法

文档序号：6542122阅读：214来源：国知局

一种基于lda的生物医疗图像的标注系统及方法
【专利摘要】本发明公开了一种基于LDA的生物医疗图像的标注系统，包括LDA训练模块、主题词抽取模块、主题词精炼模块、索引上下文句子模块、上下文生成模块、标注产生模块，LDA训练模块对LDA模型进行训练；主题词抽取模块对图像的说明文字进行LDA建模并抽取主题词；主题词精炼模块对主题词集合进行优化；索引上下文句子模块索引出与主题词关联的句子集；上下文生成模块选取最密切的句子构成图像的上下文；标注产生模块对图像的上下文进行建模，通过计算选取前几个单词作为生物医疗图像的标注词。本发明同时公开了一种基于LDA的生物医疗图像的标注方法。本发明一次能生成多个标注词语，准确性高，使用关键词索引来查找相关图像，方便快捷，更符合人们文本检索习惯。
【专利说明】—种基于LDA的生物医疗图像的标注系统及方法
【技术领域】
[0001]本发明涉及图像处理【技术领域】，具体涉及一种基于LDA的生物医疗图像的标注系统及方法。
【背景技术】
[0002]随着数字影像技术的发展和数码相机等可拍照设备的日益普及，各种各样的图像数量呈现几何级的飞速增长。而同时互联网的快速发展也使得图像传播与共享变得更加快捷。为了有效地组织、查询与浏览如此大规模的图像资源，图像检索技术应运而生，成为计算机视觉领域的研究重点。
[0003]现有的图像检索方法主要分为两种:基于内容的图像检索(Content-Based ImageRetrieval)和基于文本的图像检索(Text-Based Image Retrieval)。基于内容的图像检索需要用户提供一幅图像作为查询，系统提取图像的底层视觉特征，如颜色、纹理和形状等，为图像建立视觉索引，然后根据数据库中图像与查询间的视觉相似性找出匹配项，实现检索的目的。由于图像底层视觉特征与高层语义概念之间存在不一致性，即所谓的“语义鸿沟(Semantic Gap)”，基于内容的图像检索的性能难以令人满意。基于文本的图像检索，需要对图像事先建立文本索引，用户检索时只要提交文本作为查询，系统根据文本的相关性匹配找出相似的图像返回，这样对图像的检索就转化为对文本关键词的检索。
[0004]与基于内容的图像检索相比，基于文本的图像检索只需要用户提交文本关键词，方便快捷，更受广大用户的青睐，由此也成为主流商业化图像搜索引擎的主要方式。但是这种方式需要对图像建立文本索引，也就是实现图像的语义标注，这是基于文本的图像检索技术中极具挑战的一项工作。实现图像的语义标注，已成为基于文本的图像检索技术的重中之重。一种传统的方式是进行人工标注，但是这种方式耗时费力，尤其是面对大规模的网络图像时，它显然已经无法胜任。因此，如何摆脱人工干预，并快速、有效地实现对图像的自动语义标注，变得十分重要。
[0005]为了实现图像的自动化标注，现有技术已有的一种方法是将图像进行分类，然后把分类的结果当作图像的标注。具体而言，将每个语义关键词看成一个类别标记(Label)，并基于语料库训练一些分类器，然后用这些分类器对未标注图像进行分类，所分类别即为该图像的标注。目前已有许多成熟的分类算法，例如支持向量机，隐形马尔科夫模型等等。
[0006]然而，虽然采用分类的方法进行图像标注，依赖于分类算法的准确性，目前的分类算法虽然准确性比较高，但仍然会有一定的误差。另外，现有的分类算法大多是二元分类器，例如支持向量机，那么对于有多重标注的图像，就需要设计多个分类器，并对图像进行多次分类，效率也不高。
[0007]因此，有必要提供一种基于LDA的生物医疗图像的标注系统及方法来满足现有需求。

【发明内容】
[0008]本发明的目的是提供一种准确性高、方便快捷的基于LDA的生物医疗图像的标注系统及方法。
[0009]因此，本发明提供了一种基于LDA的生物医疗图像的标注系统，包括LDA训练模块、主题词抽取模块、主题词精炼模块、索引上下文句子模块、上下文生成模块、标注产生模块，所述LDA训练模块用于对LDA模型进行训练；所述主题词抽取模块用于对每幅生物医疗图像的说明文字进行LDA建模，然后从所建模型中抽取所有的主题词；所述主题词精炼模块对所述主题词抽取模块所产生的主题词集合进行优化；所述索引上下文句子模块用于从生物医疗图像的文本文件中索引出与主题词关联的句子集；所述上下文生成模块从每个主题词所对应的句子集中选取一个最密切的句子，然后集合所有最密切的句子，构成生物医疗图像的上下文；所述标注产生模块通过LDA训练模块得到的LDA模型对生物医疗图像的上下文进行建模，得到生物医疗图像的主题分布和单词分布，然后将主题-单词分布中每个单词的概率乘以对应主题的概率，所得结果作为这个单词的权值，再按照权值从大到小的顺序将所有单词排序，选取前几个单词作为生物医疗图像的标注词。
[0010]较佳地，所述LDA模型的数据集是所有生物医疗图像的说明文字，从每幅生物医疗图像所对应的文本文件中抽取节点的说明文字，将所有图像的说明文字集合构成了 LDA模型的训练数据集。
[0011 ] 较佳地，所述训练模块采用Gibbs采样方法对LDA模型进行训练，先抽样出每个单词所对应主题的分布，然后根据这个分布推算出文档-主题分布和主题-单词分布。
[0012]较佳地，所述主题词精炼模块对主题词集合的优化过程包括:在LDA模型对生物医疗图像的说明文字建模的结果中，如果主题-单词分布中某个主题单词的概率为零，将该单词从主题词集合中剔除；如果生物医疗图像的说明文字中不包含某个主题词，将该单词从主题词集中剔除；如果主题词集合中含有重复的单词，将重复的单词剔除，只保留一个。
[0013]较佳地，所述索引上下文句子模块利用LUCENE检索工具对主题词集合中的每一个单词，将其作为查询条件，检索出所有包含该主题词的句子。
[0014]较佳地，所述最密切的句子选取过程包括:遍历包含其中一个主题词的每个句子，如果这个句子含有其他的主题词，其得票数就相应的增加，一个主题词贡献一票，然后选取得票数最高的句子作为这个主题词的最密切句子；集合所有主题词的最密切句子构成上下文。
[0015]本发明同时提供了一种基于LDA的生物医疗图像的标注方法，包括以下步骤:步骤1:选取一部分生物医疗图像构成训练集，并从每幅生物医疗图像的文本文件中提取节点中的说明文字，组成LDA模型的训练数据集；步骤2:对LDA模型进行训练，先抽样出单词对应的主题的分布，然后进一步计算文档-主题分布和主题-单词分布；步骤3:对一副未标注图像，利用训练的LDA模型进行建模，选取所有的主题词，组成主题词集合；步骤4:对主题词集合进行优化，去除其中重复的单词、概率为零的单词和不在说明文字中单词，从而得到精炼主题词集合；步骤5:对一个主题词，从图像的文本文件中检索出包含该单词的所有句子，组成一个句子集，记作该主题词的对应句子集；步骤6:从每个主题词的对应句子集中选取最密切的句子，组成该图像的上下文；步骤7:用训练的LDA模型对上下文进行建模，然后将主题-单词分布中的每个单词的概率乘以对应主题的概率，得到的结果作为单词的权值；按降序排序所有单词，选取前几个作为图像的最终标注。
[0016]与现有技术相比，本发明充分利用了数据集中图像所关联的说明文字和文本文件来挖掘图像的标注词语，准确性高，并且一次能生成多个标注词语。实现生物医疗图像的准确标注后，可以使用关键词索引来查找相关的图像，方便快捷，更符合人们文本检索习惯。
【专利附图】

【附图说明】
[0017]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
[0018]图1是本发明基于LDA的生物医疗图像的标注系统的结构示意图；
[0019]图2是本发明基于LDA的生物医疗图像的标注方法的流程图；
[0020]图3是本发明实施例的基于LDA的生物医疗图像的标注方法的流程图。
【具体实施方式】
[0021]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
[0022]如上所述，本发明针对生物医疗图像进行标注，在生物医疗图像语料库中，每张图像都有一个对应的文本文件。结合这种特殊性，提出了一种基于LDA (Latent DirichletAllocation，潜在狄利克雷分配)的生物医疗图像的标注方法，利用LDA从图像的说明文字(caption)中提取主题词，然后根据这些主题词从图像对应的文本文件中抽取上下文，最后再利用LDA对上下文进行建模，所得到的主题词就作为生物医疗图像的最终标注。
[0023]具体地，参考图1，本发明提供了一种基于LDA的生物医疗图像的标注系统，包括LDA训练模块、主题词抽取模块、主题词精炼模块、索引上下文句子模块、上下文生成模块、标注产生模块。
[0024]LDA训练模块用于对LDA模型进行训练；LDA模型是通过一定的训练数据集对LDA模型进行训练，以生成文档-主题分布和主题-单词分布。本发明中LDA模型的数据集是所有生物医疗图像的说明文字。从每幅生物医疗图像所对应的文本文件(XML格式)中抽取caption节点的内容，即该图像的说明文字，所有图像的说明文字集合在一起，构成了 LDA模型的训练数据集。同时我们将主题个数、文档-主题分布和主题-单词分布的狄利克雷先验参数设置为经验值。LDA训练模块采用Gibbs采样方法对LDA模型进行训练，先抽样出每个单词所对应主题的分布，然后根据这个分布推算出文档-主题分布和主题-单词分布。
[0025]主题词抽取模块用于对每幅生物医疗图像的说明文字进行LDA建模，然后从所建模型(主题分布和单词分布)中抽取所有的主题词；对于一副未标注图像，利用训练模块所产生的LDA模型对该图像的说明文字(caption)进行建模，然后从建模的结果(主题分布和单词分布)中抽取所有的单词作为该图像的主题词，加入到主题词集合中。
[0026]主题词精炼模块对所述主题词抽取模块所产生的主题词集合进行优化，得到最精简、最有效的主题词集合。在LDA模型对图像的说明文字(caption)建模的结果中，如果主题-单词分布中某个主题单词的概率为零，将该单词从主题词集合中剔除；如果图像的说明文字中不包含某个主题词，将该单词从主题词集中剔除；如果主题词集合中含有重复的单词，将重复的单词剔除，只保留一个。经过这些优化操作，从而得到更精炼的主题词集合。通过主题词精炼处理，去掉重复的主题词，同时去掉LDA建模结果中概率为零的主题词，以及去掉图像说明文字(caption)中不包含的句子
[0027]索引上下文句子模块用于从生物医疗图像的文本文件中索引出与主题词关联的句子集；索引模块利用LUCENE作为检索工具，对精炼主题词集合中的每一个单词，将其作为查询条件，检索出所有包含该主题词的句子。索引过程完成后，对于每一个主题词，都有一个句子集与之关联。可以理解地，在索引上下文句子模块，本发明实施例是采用LUCENE来实现文本检索，目前也有其他的文本检索工具，可以代替LUCECE实现同样的功能。
[0028]上下文生成模块从每个主题词所对应的句子集中选取一个最密切的句子，然后集合所有最密切的句子，构成生物医疗图像的上下文(context)，即所有密切句子组成的集合就是上下文。较佳地，所述最密切的句子选取过程包括:遍历包含其中一个主题词的每个句子，如果这个句子含有其他的主题词，其得票数就相应的增加，一个主题词贡献一票，然后选取得票数最高的句子作为这个主题词的最密切句子；集合所有主题词的最密切句子构成上下文。
[0029]标注产生模块通过LDA训练模块得到的LDA模型对生物医疗图像的上下文进行建模，得到生物医疗图像的主题分布和单词分布，然后将主题-单词分布中每个单词的概率乘以对应主题的概率，所得结果作为这个单词的权值，再按照权值从大到小的顺序将所有单词排序，选取前几个单词作为生物医疗图像的标注词。
[0030]参考图2，相应地，本发明同时提供了一种基于LDA的生物医疗图像的标注方法，包括以下步骤:
[0031]步骤SOl:选取一部分生物医疗图像构成训练集，并从每幅生物医疗图像的文本文件中提取节点中的说明文字，组成LDA模型的训练数据集；
[0032]步骤S02:对LDA模型进行训练，先抽样出单词对应的主题的分布，然后进一步计算文档-主题分布和主题-单词分布；
[0033]步骤S03:对一副未标注图像，利用训练的LDA模型进行建模，选取所有的主题词，组成主题词集合；
[0034]步骤S04:对主题词集合进行优化，去除其中重复的单词、概率为零的单词和不在说明文字中单词，从而得到精炼主题词集合；
[0035]步骤S05:对一个主题词，从图像的文本文件中检索出包含该单词的所有句子，组成一个句子集，记作该主题词的对应句子集；
[0036]步骤S06:从每个主题词的对应句子集中选取最密切的句子，组成该图像的上下文；
[0037]步骤S07:用训练的LDA模型对上下文进行建模，然后将主题_单词分布中的每个单词的概率乘以对应主题的概率，得到的结果作为单词的权值；按降序排序所有单词，选取前几个作为图像的最终标注。
[0038]配合参考图3，作为本发明一实施例的基于LDA的生物医疗图像标注方法的具体操作步骤如下:
[0039]第I步，开始
[0040]第2步，选取一部分生物医疗图像构成训练集，并从每幅图像的文本文件中提取CAPTION节点中的说明文字，组成LDA模型的训练数据集；同时，给定主题数、文档_主题分布的先验参数、主题-单词分布的先验参数。
[0041]第3步，采用Gibbs采样算法对LDA模型进行训练；先抽样出单词对应的主题的分布，然后进一步计算文档-主题分布和主题-单词分布。
[0042]第4步，对一副未标注图像，利用训练的LDA模型进行建模，选取所有的主题词，组成主题词集合。
[0043]第5步，对主题词集合进行优化，去除其中重复的单词、概率为零的单词和不在说明文字中单词，从而得到精炼主题词集合。
[0044]第6步，对一个主题词，用LUCECE从图像的文本文件中检索出包含该单词的所有句子，组成一个句子集，记作该主题词的对应句子集。
[0045]第7步，如果所有的主题词都有对应句子集，则进入第8步，否则进入第6步。
[0046]第8步，利用上下文生成算法，从每个主题词的对应句子集中选取最密切的句子，组成该图像的上下文。
[0047]第9步，用第3步训练的LDA模型对上下文进行建模，然后将主题_单词分布中的每个单词的概率乘以对应主题的概率，得到的结果作为单词的权值；按降序排序所有单词，选取前几个作为图像的最终标注。
[0048]第10步，所有未标注图像都进行了标注，进入第11步，否则跳到第4步。
[0049]第11步，结束。
[0050]与现有技术相比，本发明充分利用了生物医疗图像的说明文字和所对应的文本信息，从说明文字中挖掘图像的主题词，并回溯到图像所在的文本信息，生成一段上下文，进而提取出图像的标注词。这种方式大大提高了标注的准确性，并能够一次性生成图像所关联的多个标注。本发明充分利用了数据集中图像所关联的说明文字和文本文件来挖掘图像的标注词语，准确性高，并且一次能生成多个标注词语。实现生物医疗图像的准确标注后，可以使用关键词索引来查找相关的图像，方便快捷，更符合人们文本检索习惯。
[0051]以上对本发明实施例所提供的基于LDA的生物医疗图像的标注系统及方法，进行了详细介绍，本发明中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在【具体实施方式】及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
【权利要求】
1.一种基于LDA的生物医疗图像的标注系统，其特征在于，包括LDA训练模块、主题词抽取模块、主题词精炼模块、索引上下文句子模块、上下文生成模块、标注产生模块，所述LDA训练模块用于对LDA模型进行训练；所述主题词抽取模块用于对每幅生物医疗图像的说明文字进行LDA建模，然后从所建模型中抽取所有的主题词；所述主题词精炼模块对所述主题词抽取模块所产生的主题词集合进行优化；所述索引上下文句子模块用于从生物医疗图像的文本文件中索引出与主题词关联的句子集；所述上下文生成模块从每个主题词所对应的句子集中选取一个最密切的句子，然后集合所有最密切的句子，构成生物医疗图像的上下文；所述标注产生模块通过LDA训练模块得到的LDA模型对生物医疗图像的上下文进行建模，得到生物医疗图像的主题分布和单词分布，然后将主题-单词分布中每个单词的概率乘以对应主题的概率，所得结果作为这个单词的权值，再按照权值从大到小的顺序将所有单词排序，选取前几个单词作为生物医疗图像的标注词。
2.如权利要求1所述的基于LDA的生物医疗图像的标注系统，其特征在于，所述LDA模型的数据集是所有生物医疗图像的说明文字，从每幅生物医疗图像所对应的文本文件中抽取节点的说明文字，将所有图像的说明文字集合构成了 LDA模型的训练数据集。
3.如权利要求1所述的基于LDA的生物医疗图像的标注系统，其特征在于，所述训练模块采用Gibbs采样方法对LDA模型进行训练，先抽样出每个单词所对应主题的分布，然后根据这个分布推算出文档-主题分布和主题-单词分布。
4.如权利要求1所述的基于LDA的生物医疗图像的标注系统，其特征在于，所述主题词精炼模块对主题词集合的优化过程包括:在LDA模型对生物医疗图像的说明文字建模的结果中，如果主题-单词分布中某个主题单词的概率为零，将该单词从主题词集合中剔除；如果生物医疗图像的说明文字中不包含某个主题词，将该单词从主题词集中剔除；如果主题词集合中含有重复的单词，将重复的单词剔除，只保留一个。
5.如权利要求1所述的基于LDA的生物医疗图像的标注系统，其特征在于，所述索引上下文句子模块利用LUCENE检索工具对主题词集合中的每一个单词，将其作为查询条件，检索出所有包含该主题词的句子。
6.如权利要求1所述的基于LDA的生物医疗图像的标注系统，其特征在于，所述最密切的句子选取过程包括:遍历包含其中一个主题词的每个句子，如果这个句子含有其他的主题词，其得票数就相应的增加，一个主题词贡献一票，然后选取得票数最高的句子作为这个主题词的最密切句子；集合所有主题词的最密切句子构成上下文。
7.一种基于LDA的生物医疗图像的标注方法，其特征在于，包括以下步骤: 步骤1:选取一部分生物医疗图像构成训练集，并从每幅生物医疗图像的文本文件中提取节点中的说明文字，组成LDA模型的训练数据集；步骤2:对LDA模型进行训练，先抽样出单词对应的主题的分布，然后进一步计算文档-主题分布和主题-单词分布；步骤3:对一副未标注图像，利用训练的LDA模型进行建模，选取所有的主题词，组成主题词集合；步骤4:对主题词集合进行优化，去除其中重复的单词、概率为零的单词和不在说明文字中单词，从而得到精炼主题词集合；步骤5:对一个主题词，从图像的文本文件中检索出包含该单词的所有句子，组成一个句子集，记作该主题词的对应句子集；步骤6:从每个主题词的对应句子集中选取最密切的句子，组成该图像的上下文；步骤7:用训练的LDA模型对上下文进行建模，然后将主题-单词分布中的每个单词的概率乘以对应主题的概率，得到的结果作为单词的权值；按降序排序所有单词，选取前几个作为图像的最终标注。
【文档编号】G06F17/27GK103942274SQ201410120529
【公开日】2014年7月23日申请日期:2014年3月27日优先权日:2014年3月27日
【发明者】林谋广, 姜涛, 薛凯军, 肖剑申请人:东莞中山大学研究院, 中山大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林谋广;姜涛;薛凯军;肖剑
技术所有人：东莞中山大学研究院;中山大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。