基于内容和结构的生物医疗流程图检索的系统及方法

文档序号:6506794阅读:254来源:国知局
基于内容和结构的生物医疗流程图检索的系统及方法
【专利摘要】本发明公开了一种基于内容和结构的生物医疗流程图检索的系统及方法,该系统包括:结构提取模块、OCR文字识别模块、存储模块、LUCENE检索模块、相似性度量模块、手绘流程图输入模块、显示模块等。实施本发明,一是采用文字识别技术,提取出流程图中的文字,避免了传统的人工标注图像的方式,实施方便、快捷、错误率低;二是充分利用流程图的结构信息,将流程图特有的结构信息作为检索条件,提高流程图检索的准确性。
【专利说明】基于内容和结构的生物医疗流程图检索的系统及方法
【技术领域】
[0001]本发明涉及计算机领域,具体涉及一种基于内容和结构的生物医疗流程图检索的系统及方法。
【背景技术】
[0002]随着社会的发展和计算机技术的进步,图形图像已经渗透到社会生活的方方面面,例如,人们因摄影爱好而拍摄的大量风景图、人物图、动物图等等;工业设计所产生的设计图形;艺术专业人士绘制的许多图像;医院检查病情所拍摄的大量CT、胸透、X光片,以及医院确定的疾病诊断、治疗流程图等等。
[0003]这些数量日益庞大的图像,种类繁多,是人们日常生活和工作中不可或缺的资源。人们可以找出一些风景图来确定旅游计划,可以借鉴已有的工业设计来改进出更完善的产品,可以根据医疗图像来判断自己的病情和治疗方法。因此,人们需要从庞大的图像库中查找出有用的图像集,图像检索已经成为人们关注的焦点。
[0004]从20世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文档的图像检索技术,利用文本描述的方式描述图像特征,如绘画作品的作者、年代、流派等。到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索。
[0005]在生物医疗图像领域,依然可以利用文本来描述图像,或者根据图像的颜色、纹理等内容进行检索。对于生物医疗流程图而言,它主要是指用流程图的方式来记录疾病的变化过程,或治疗步骤,由于其图像的特殊性,可以研究出一些更有针对性的检索方法,以提高检索的准确性。
[0006]生物医疗流程图,它以文字流程图的方法描述了疾病的变化阶段和治疗步骤,给医生确诊疾病、制定治疗方法提供了有用的参考信息。这样,结合医生的临床经验和医疗流程图的辅助,大大提高了疾病确诊的准确性,并制定出有效地治疗计划。对于生物医疗流程图的检索,由于它是文字图片而无法采用基于内容的检索,目前有一种解决方案是:利用疾病的名称等关键字来描述流程图,然后用关键字进行检索,从而查找出所需的医疗流程图。
[0007]采用关键字描述和检索医疗流程图,是一种基本的检索方法,其检索结果的准确性依赖于文本描述流程图的准确性。目前主要是以人工方式来赋予关键字,由于主观性和人工失误,因此这种方法的准确性有待提高。此外,由于流程图本身的特殊性,流程图本身的结构是非常重要的信息,仅依靠关键字来描述医疗流程图,就忽略了其结构信息,降低了检索结果的准确性。

【发明内容】

[0008]本发明提供了一种基于内容和结构的生物医疗流程图的检索系统及方法,利用微软提出的OCR文字识别技术,识别出医疗流程图中的文字,从而准确地表示流程图的内容,提高了图像标识的准确性;另一方面,提取出流程图的结构信息,并将这种结构信息作为检索时进行相似性判断的重要依据。通过结合生物医疗流程图的文字内容和结构信息,大大提高流程图系统检索的准确性。
[0009]相应的,本发明实施例提供了一种基于内容和结构的生物医疗流程图检索的系统,包括:
[0010]结构提取模块,用于负责对流程图进行切割,提取出其中的每个节点;
[0011]OCR文字识别模块,用于负责识别出流程图中的具体文字;
[0012]存储模块,用于将流程图的信息,包括名称、出处、类别信息合理地存储到数据库中;
[0013]LUCENE检索模块,用于利用文本检索方式对数据库中的流程图进行检索,查找出内容相似的流程图;
[0014]相似性度量模块,用于计算两个流程图之间的结构相似性,并量化这种相似性;
[0015]手绘流程图输入模块,用于提供给用户的输入界面,用户根据自己的需求,手动绘制一些流程图作为查询条件,系统接收用户输入,同时也要调用OCR文字识别模块、结构提取模块对查询条件进行解析,然后再进行系统检索;
[0016]显示模块,用于将系统检索的结果返回给用户,检索结果必须是内容相关,然后按照流程图结构相似性从高到低的顺序排列。
[0017]相应的,本发明实施例还提供了一种基于内容和结构的生物医疗流程图检索的方法,包括如下步骤:
[0018]对生物医疗流程图集合中的图像进行去噪等预处理;
[0019]对流程图切割,提取出节点,并记录结构信息;
[0020]OCR识别出每个流程图中的文字;
[0021]将流程图的文字和结构信息,以XML格式存储到数据库中;
[0022]用户在输入界面手绘医疗流程图,作为系统的查询条件;
[0023]手绘流程图的预处理;
[0024]提取手绘流程图的节点结构信息;
[0025]提取手绘流程图中的文字;
[0026]以手绘流程图中的文字作为查询条件,利用LUCENE在数据库中检索出具有匹配内容的流程图;
[0027]如果检索到内容匹配的流程图,利用存储的流程图结构信息和手绘流程图的结构信息进行对比,计算出相似性度量分数;
[0028]按照相似性分数从高到低的顺序输出,显示给用户;
[0029]如果检索不到内容匹配的医疗流程图,结束此次检索。
[0030]本发明具有如下有益效果,本发明有两个关键点,一是采用文字识别技术,提取出流程图中的文字,避免了传统的人工标注图像的方式,实施方便、快捷、错误率低;二是充分利用流程图的结构信息,将流程图特有的结构信息作为检索条件,提高流程图检索的准确性。
【专利附图】

【附图说明】
[0031]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0032]图1是本发明实施例中的基于内容和结构的生物医疗流程图检索的系统结构示意图;
[0033]图2是本发明实施例中的基于内容和结构的生物医疗流程图检索的方法流程图。【具体实施方式】
[0034]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0035]本发明提供了一种基于内容和结构的生物医疗流程图检索的系统,利用微软提出的OCR文字识别技术,识别出医疗流程图中的文字,从而准确地表示流程图的内容,提高了图像标识的准确性;另一方面,提取出流程图的结构信息,并将这种结构信息作为检索时进行相似性判断的重要依据。通过结合生物医疗流程图的文字内容和结构信息,大大提高流程图系统检索的准确性。
[0036]图1示出了本发明实施例中基于内容和结构的生物医疗流程图检索的系统结构示意图,该系统主要包括结构提取模块、OCR文字识别模块、存储模块、LUCENE检索模块、相似性度量模块、显示模块、手绘流程图输入模块等,其中:
[0037]结构提取模块负责对流程图进行切割,提取出其中的每个节点。流程图是由多个节点,例如矩形框、椭圆形框,以及指向性的箭头或连线组成,因此可以按节点对流程图进行切割,每个节点是一个小的单元,同时也记录节点之间的相对位置关系。
[0038]OCR文字识别模块负责识别出流程图中的具体文字。相比传统的人工方式进行图像关键字标注,利用OCR文字识别技术,可以有效提取出流程图的内容,省时省力且准确性高。在构建本检索系统时,需要采用OCR文字识别模块预先对数据集中的每一张流程图进行文字提取。
[0039]存储模块是将流程图的信息,包括名称、出处、类别,特别是图中文字及其节点的结构信息,需要将这些信息合理地存储到数据库中。例如,对于名称、出处、类别等基本信息,可以简单存成数据库表项,而流程图节点中的文字及节点之间的关系可以存储成XML结构,用XML节点来存放流程图节点的内容,用XML节点的属性来存储流程图节点的位置关系O
[0040]LUCENE检索模块是利用文本检索方式对数据库中的流程图进行检索,查找出内容相似的流程图。内容匹配是本系统检索的第一步,只有内容相关的流程图才具有可比性。LUCENE是一个开源的全文检索引擎工具包,检索效率高,利用LUCENE进行文本检索,查找出内容相关的流程图,然后再利用相似性度量模块进行相似性计算。
[0041]相似性度量模块是计算两个流程图之间的结构相似性,并量化这种相似性,例如给定一个分数值。LUCENE检索模块得到的结果集是内容相关的流程图,在此基础上,计算出查询条件与LUCENE结果集中每张流程图的相似性,并按相似程度从高到低的顺序排列。[0042]手绘流程图输入模块是提供给用户的输入界面,用户根据自己的需求,手动绘制一些流程图作为查询条件,系统接收用户输入,同时也要调用OCR文字识别模块、结构提取模块对查询条件进行解析,然后再进行系统检索。
[0043]显示模块是将系统检索的结果返回给用户,检索结果必须是内容相关,然后按照流程图结构相似性从高到低的顺序排列。
[0044]图2示出了本发明实施例中的基于内容和结构的生物医疗流程图检索方法,该方法具体流程如下:
[0045]第I步,对生物医疗流程图集合中的图像进行去噪等预处理。
[0046]第2步,对流程图切割,提取出节点,并记录结构信息。
[0047]第3步,OCR识别出每个流程图中的文字。
[0048]第4步,将流程图的文字和结构信息,以XML格式存储到数据库中。
[0049]第5步,用户在输入界面手绘医疗流程图,作为系统的查询条件。
[0050]第6步,手绘流程图的预处理。
[0051]第7步,提取手绘流程图的节点结构信息。
[0052]第8步,提取手绘流程图中的文字。
[0053]第9步,以手绘流程图中的文字作为查询条件,利用LUCENE在数据库中检索出具有匹配内容的流程图。
[0054]第10步,如果检索到内容匹配的流程图,利用存储的流程图结构信息和手绘流程图的结构信息进行对比,计算出相似性度量分数。
[0055]第11步,按照相似性分数从高到低的顺序输出,显示给用户。
[0056]第12步,如果检索不到内容匹配的医疗流程图,结束此次检索。
[0057]本发明具有如下有益效果,本发明有两个关键点,一是采用文字识别技术,提取出流程图中的文字,避免了传统的人工标注图像的方式,实施方便、快捷、错误率低;二是充分利用流程图的结构信息,将流程图特有的结构信息作为检索条件,提高流程图检索的准确性。
[0058]本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
[0059]以上对本发明实施例所提供的一种基于智能盒的智能家居管理系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【权利要求】
1.一种基于内容和结构的生物医疗流程图检索的系统,其特征在于,包括: 结构提取模块,用于负责对流程图进行切割,提取出其中的每个节点; OCR文字识别模块,用于负责识别出流程图中的具体文字; 存储模块,用于将流程图的信息,包括名称、出处、类别信息合理地存储到数据库中;LUCENE检索模块,用于利用文本检索方式对数据库中的流程图进行检索,查找出内容相似的流程图; 相似性度量模块,用于计算两个流程图之间的结构相似性,并量化这种相似性; 手绘流程图输入模块,用于提供给用户的输入界面,用户根据自己的需求,手动绘制一些流程图作为查询条件,系统接收用户输入,同时也要调用OCR文字识别模块、结构提取模块对查询条件进行解析,然后再进行系统检索; 显示模块,用于将系统检索的结果返回给用户,检索结果必须是内容相关,然后按照流程图结构相似性从高到低的顺序排列。
2.一种基于内容和结构的生物医疗流程图检索的方法,其特征在于,包括如下步骤: 对生物医疗流程图集合中的图像进行去噪等预处理; 对流程图切割,提取出节点,并记录结构信息; OCR识别出每个流程图中的文字; 将流程图的文字和结构信息,以XML格式存储到数据库中; 用户在输入界面手绘医疗流程图,作为系统的查询条件; 手绘流程图的预处理; 提取手绘流程图的节点结构信息; 提取手绘流程图中的文字; 以手绘流程图中的文字作为查询条件,利用LUCENE在数据库中检索出具有匹配内容的流程图; 如果检索到内容匹配的流程图,利用存储的流程图结构信息和手绘流程图的结构信息进行对比,计算出相似性度量分数; 按照相似性分数从高到低的顺序输出,显示给用户; 如果检索不到内容匹配的医疗流程图,结束此次检索。
【文档编号】G06K9/20GK103440261SQ201310330216
【公开日】2013年12月11日 申请日期:2013年7月31日 优先权日:2013年7月31日
【发明者】罗笑南, 姜涛, 薛凯军, 张伟忠 申请人:东莞中山大学研究院, 中山大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1