基于权值的结构化搜索系统及其搜索方法与流程

文档序号:12124761阅读:206来源:国知局
基于权值的结构化搜索系统及其搜索方法与流程

本发明涉及医疗信息领域,更具体地,涉及一种基于权值的结构化搜索系统及其搜索方法。



背景技术:

随着信息技术的发展和医疗信息化的建设,现在医院及各种医疗机构早已实施了各类信息化系统软件,如“HIS(医院信息管理系统)”、“EMR(电子病历系统)”、“PACS(医学影像存档及传输系统)”、“RIS(影像信息管理系统)”等。随着信息化系统遍布各个医疗领域,多年以来,生成并积攒了大批数据,各系统产生的数据主要有如下两类:

1结构化数据:如患者姓名、性别等人口学信息。信息系统通常将该类每项信息都单独保存在数据库不同的字段中,可以方便的获取查询等。

2非结构化数据:如患者的主诉、病史、影像学报告等。该部分通常为描述性语言,大段的自由语言文本。由于该类信息为医生录入或是患者口述,所以语言极不规范,信息系统通常将其作为一个整体保存。

对于上述结构化数据的搜索早已比较成熟,信息系统可以很简单采用结构化查询语言(SQL)等数据库工具来进行搜索,但是对于像患者的影像学表现及诊断等非结构化数据,虽然其中包含极其有价值的信息,却并没有特别有效的方法来精确的搜索并应用,现有的软件对于非结构化数据的搜索方法主要有如下两种:

1利用数据库工具按“关键字”进行搜索:如用关系数据库的结构化查询语言(SQL)来进行匹配查询(like),即查找所有包含该“关键字”的数据,但是存在很多弊端,无法得到准确可信的搜索结果,例如:

1.1无法处理同义词:比如要查询包含“第5胸椎”的描述,在实际应用中,医生会使用“胸椎5”、“胸5椎体”、“T5”、“T5椎”等语言,均为同一意思。

1.2只能定义简单关键词,无法进行多词精确查询:例如要查询所有“第5胸椎骨折”的患者,由于汉语语言的复杂性,实际描述会诸如“胸椎5可见骨折”、“T5发现骨折”、“骨折出现在第5胸椎上”等等,所以搜索结果的有效性极低。

1.3无法对范围值进行查询:例如搜索“肿瘤直径介于2-3CM之间”等。

2自然语言搜索引擎:类似百度、谷歌等搜索引擎。相对于上面的方法,该方法虽然有一定的改善,比如对于同义词的处理,但是由于医疗领域的特殊性,仍然无法得到精确的搜索结果,主要缺陷有三点:

2.1关键词没有逻辑相关性,故无法进行多词精确查询:例如要查询“第5胸椎骨折”,实际上系统会按“第5胸椎”、“骨折”两个词或是“第5”、“胸椎”、“骨折”三个词来进行搜索,由于只是按关键词分别搜索,所以会找出很多不符合的内容,例如如下描述“第5胸椎增生,第7胸椎骨折”,而很多真正符合的内容而由于关键字不匹配而无法搜索到,例如如下描述“第3-6胸椎骨折”(第3-6胸椎实际包含第3、第4、第5、第6胸椎);

2.2同样无法对于范围值进行查询:例如搜索“肿瘤直径介于2-3CM之间”等;

2.3搜索结果相关性没有量化指标:搜索完通常会列出大量的搜索结果,但是该结果与实际用户相要的结果是否完全相符?如果不相符,匹配度多少?没有一个量化指标,需要用户一一进行筛选判断。

因此以上无论何种方法,都无法精确有效的进行搜索。随着医疗信息系统的普及及深入应用,越来越多的非结构化数据正在产生,其中蕴含着大量极其有价值的信息,因此如何帮助医生及其他用户方便准确的搜索到感兴趣数据也日益迫切。



技术实现要素:

有鉴于此,本发明的主要目的在于提供一种基于权值的结构化搜索系统及其搜索方法,能够解决现有技术中存在的搜索手段的局限性,由于搜索结果有效性低而无法得到精确的搜索结果的问题。

为达到上述目的,本发明的技术方案是这样实现的:

一方面,本发明提供了一种基于权值的结构化搜索系统,包括数据存储模块、结构树模块、搜索树模块、分析模块和显示模块,其中,数据存储模块,与结构树模块相连,用于存储非结构化数据;结构树模块,分别与数据存储模块和分析模块相连,用于对每条非结构化数据进行分词处理,将非结构化数据拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该非结构化数据的文本结构树;搜索树模块,与分析模块相连,用于接收来自于客户端的搜索表达式,对搜索表达式进行分词处理,将搜索表达式拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该搜索表达式的搜索树;分析模块,分别与搜索树模块和结构树模块相连,用于将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值;显示模块,与分析模块相连,用于将匹配值以分值从大到小进行排序,去除所有零分项,并将搜索结果显示到客户端。

优选地,该系统还包括:同义词转换模块,分别与结构树模块和搜索树模块相连,用于对关键词词汇进行同义词转换,根据同义词字典进行同义词归一。

优选地,该系统还包括:范围值识别模块,分别与结构树模块和搜索树模块相连,用于识别关键词词汇的范围值。

优选地,搜索树模块还包括运算符处理单元,用于对搜索表达式中的逻辑运算符进行识别与处理。

优选地,对每个关键词词汇定义权值,是根据非结构化数据文本的基础知识的相关性和特定特征的重要性来确定。

优选地,显示模块还包括星级显示单元,用于根据匹配值来确定星的个数,并将星的个数以及匹配值同时显示到客户端。

另一方面,本发明还提供了一种基于权值的结构化搜索系统的搜索方法,包括:结构树模块对数据存储模块中的每条非结构化数据进行分词处理,将非结构化数据拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该非结构化数据的文本结构树;搜索树模块接收来自于客户端的搜索表达式,对搜索表达式进行分词处理,将搜索表达式拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该搜索表达式的搜索树;分析模块将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值;显示模块将匹配值以分值从大到小进行排序,去除所有零分项,并将搜索结果显示到客户端。

优选地,在建立文本结构树或搜索树之前,该方法还包括:同义词转换模块对关键词词汇进行同义词转换,根据同义词字典进行同义词归一。

优选地,在建立文本结构树或搜索树之前,该方法还包括:范围值识别模块识别关键词词汇的范围值。

优选地,在建立搜索树之前,该方法还包括:运算符处理单元对搜索表达式中的逻辑运算符进行识别与处理。

优选地,对每个关键词词汇定义权值,是根据非结构化数据文本的基础知识的相关性和特定特征的重要性来确定。

优选地,该方法还包括:星级显示单元根据匹配值来确定星的个数,并将星的个数以及匹配值同时显示到客户端。

本发明的技术效果:

1.由于本发明中设置了结构树模块和搜索树模块,将非结构化的自由文本以及搜索表达式进行分词,并进行结构化重构,形成文本结构树和搜索树,定义每一个关键词词汇及分支的权值,分析模块将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值,以使得搜索结果准确可信;

2.由于本发明设置了同义词转换模块和范围值识别模块,对关键词词汇进行了同义词转换,使得同义词归一,并可以识别关键词词汇的范围值,能够解决现有技术中存在的无法处理同义词以及范围值的问题,使搜索结果更加精确,不会落下有价值的信息;

3.基于自然语言的搜索条件,由于本发明设置了运算符处理单元,对搜索表达式中的逻辑运算符进行识别与处理,使得搜索结果更加全面,并方便了用户操作;

4.由于本发明还设置了星级显示单元,搜索结果根据匹配度进行权值评分,并给予星级评价,评分最高的显示在最前面,无需用户一一筛选判断,搜索结果一目了然,非常直观,提高了搜索效率,使之更加人性化。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1示出了根据本发明实施例一的基于权值的结构化搜索系统结构示意图;

图2示出了根据本发明实施例一的基于权值的结构化搜索系统的文本结构树示意图;

图3示出了根据本发明实施例一的基于权值的结构化搜索系统的搜索树示意图;

图4示出了根据本发明实施例一的基于权值的结构化搜索系统中分析模块计算的搜索树与每个文本结构树的匹配值示意图;

图5示出了根据本发明实施例一的基于权值的结构化搜索系统的文本结构树示意图;

图6示出了根据本发明实施例一的基于权值的结构化搜索系统的搜索树示意图;

图7示出了根据本发明实施例一的基于权值的结构化搜索系统中分析模块计算的搜索树与每个文本结构树的匹配值示意图;

图8示出了根据本发明实施例一的基于权值的结构化搜索系统的搜索结果显示示意图;

图9示出了根据本发明实施例二的基于权值的结构化搜索系统结构示意图;

图10示出了根据本发明实施例三的基于权值的结构化搜索系统结构示意图;

图11示出了根据本发明实施例四的基于权值的结构化搜索系统结构示意图;

图12示出了根据本发明实施例五的基于权值的结构化搜索系统结构示意图;

图13示出了根据本发明实施例五的基于权值的结构化搜索系统的搜索结果显示示意图;

图14示出了根据本发明实施例五的基于权值的结构化搜索系统的搜索结果显示示意图;

图15示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法流程图;

图16示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中文本结构树示意图;

图17示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中搜索树示意图;

图18示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中分析模块计算的搜索树与每个文本结构树的匹配值示意图;

图19示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中文本结构树示意图;

图20示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中搜索树示意图;

图21示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中分析模块计算的搜索树与每个文本结构树的匹配值示意图;

图22示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中搜索结果显示示意图;

图23示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中搜索结果显示示意图;

图24示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中搜索结果显示示意图。

具体实施方式

下面将参考附图并结合实施例,来详细说明本发明。

实施例一

图1示出了根据本发明实施例一的基于权值的结构化搜索系统结构示意图;如图1所示,该系统包括:数据存储模块10、结构树模块20、搜索树模块30、分析模块40和显示模块50,其中,

数据存储模块10,与结构树模块20相连,用于存储非结构化数据;

这里所提及的非结构化数据为医生录入或是患者口述,如患者主诉、病史、影像学报告等等;

结构树模块20,分别与数据存储模块10和分析模块40相连,用于对每条非结构化数据进行分词处理,将非结构化数据拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该非结构化数据的文本结构树;

图2示出了根据本发明实施例一的基于权值的结构化搜索系统的文本结构树示意图;如图2所示,结构树模块根据语义学将语句拆分成单独的关键词词汇;

搜索树模块30,与分析模块40相连,用于接收来自于客户端的搜索表达式,对搜索表达式进行分词处理,将搜索表达式拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该搜索表达式的搜索树;

图3示出了根据本发明实施例一的基于权值的结构化搜索系统的搜索树示意图;如图3所示,搜索树模块针对用户输入的搜索表达式来对搜索条件进行结构化重构;

其中,上述对每个关键词词汇定义权值,是根据非结构化数据文本的基础知识的相关性和特定特征的重要性来确定;

分析模块40,分别与搜索树模块20和结构树模块30相连,用于将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值;

图4示出了根据本发明实施例一的基于权值的结构化搜索系统中分析模块计算的搜索树与每个文本结构树的匹配值示意图;如图4所示;

显示模块50,与分析模块40相连,用于将匹配值以分值从大到小进行排序,去除所有零分项,并将搜索结果显示到客户端。

下面以一个例子来具体说明本实施例:

图5示出了根据本发明实施例一的基于权值的结构化搜索系统的文本结构树示意图;图6示出了根据本发明实施例一的基于权值的结构化搜索系统的搜索树示意图;图7示出了根据本发明实施例一的基于权值的结构化搜索系统中分析模块计算的搜索树与每个文本结构树的匹配值示意图;图8示出了根据本发明实施例一的基于权值的结构化搜索系统的搜索结果显示示意图;如图5、图6、图7、图8所示,

例如医生书写了如下描述:

“食管下段管壁明显不均匀增厚,并见软组织肿块影形成,最厚层面约2.8厘米”

系统将其进行结构化重构后生成如图5所示的文本结构树;

若用户搜索如下搜索表达式:

“肿块影最厚大于约2.6厘米”

系统将其进行结构化重构后生成如图6所示的搜索树;

分析模块将搜索树与文本结构树进行匹配,计算得出匹配度,得到分值为10分,如图7、图8所示。

本发明的实施例设置了结构树模块和搜索树模块,将非结构化的自由文本以及搜索表达式进行分词,并进行结构化重构,形成文本结构树和搜索树,定义每一个关键词词汇及分支的权值,分析模块将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值,以使得搜索结果准确可信。

实施例二

图9示出了根据本发明实施例二的基于权值的结构化搜索系统结构示意图;如图9所示,该系统还包括:同义词转换模块60,分别与结构树模块20和搜索树模块30相连,用于对关键词词汇进行同义词转换,根据同义词字典进行同义词归一。

例如要查询包含“第5胸椎”的描述,在实际应用中,医生会使用“胸椎5”、“胸5椎体”、“T5”、“T5椎”等语言,均为同一意思,此时,同义词转换模块根据同义词字典进行同义词归一,来解决同义词问题,提高了搜索结果的有效性。

实施例三

图10示出了根据本发明实施例三的基于权值的结构化搜索系统结构示意图;如图10所示,该系统还包括:范围值识别模块70,分别与结构树模块20和搜索树模块30相连,用于识别关键词词汇的范围值。

例如面积、长度、体积、容量等,解决现有技术中无法搜索范围值区间的问题,诸如搜索“肿瘤直径介于2-3CM之间”等。

本发明的实施例设置了范围值识别模块,可以识别关键词词汇的范围值,能够解决现有技术中存在的无法处理范围值的问题,使搜索结果更加精确,不会落下有价值的信息。

实施例四

图11示出了根据本发明实施例四的基于权值的结构化搜索系统结构示意图;如图11所示,搜索树模块30还包括运算符处理单元302,用于对搜索表达式中的逻辑运算符进行识别与处理。

例如并且、包含、或者、大于等等。

本发明的实施例基于自然语言的搜索条件,由于本发明设置了运算符处理单元,对搜索表达式中的逻辑运算符进行识别与处理,使得搜索结果更加全面,并方便了用户操作。

实施例五

图12示出了根据本发明实施例五的基于权值的结构化搜索系统结构示意图;图13示出了根据本发明实施例五的基于权值的结构化搜索系统的搜索结果显示示意图;如图12、图13所示,显示模块50还包括星级显示单元502,用于根据匹配值来确定星的个数,并将星的个数以及匹配值同时显示到客户端。

从0-10最高5星,可以分10级,如下:

图14示出了根据本发明实施例五的基于权值的结构化搜索系统的搜索结果显示示意图;

例如,实施例一中的搜索“肿块影最厚大于约2.6厘米”的搜索结果显示如图14所示。

由于本发明的实施例还设置了星级显示单元,搜索结果根据匹配度进行权值评分,并给予星级评价,评分最高的显示在最前面,无需用户一一筛选判断,搜索结果一目了然,非常直观,提高了搜索效率,使之更加人性化。

实施例六

图15示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法流程图,如图15所示,该方法包括以下步骤:

步骤S601,结构树模块对数据存储模块中的每条非结构化数据进行分词处理,将非结构化数据拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该非结构化数据的文本结构树;图16示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中文本结构树示意图(如图16所示)

这里所提及的非结构化数据为医生录入或是患者口述,如患者主诉、病史、影像学报告等等;

步骤S602,搜索树模块接收来自于客户端的搜索表达式,对搜索表达式进行分词处理,将搜索表达式拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该搜索表达式的搜索树;图17示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中搜索树示意图(如图17所示)

其中,上述对每个关键词词汇定义权值,是根据非结构化数据文本的基础知识的相关性和特定特征的重要性来确定;

步骤S603,分析模块将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值;图18示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中分析模块计算的搜索树与每个文本结构树的匹配值示意图(如图18所示)

步骤S604,显示模块将匹配值以分值从大到小进行排序,去除所有零分项,并将搜索结果显示到客户端。

下面以一个例子来具体说明本实施例:

例如医生书写了如下描述:

“食管下段管壁明显不均匀增厚,并见软组织肿块影形成,最厚层面约2.8厘米”

系统将其进行结构化重构后生成如图19所示的文本结构树;图19示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中文本结构树示意图;

若用户搜索如下搜索表达式:

“肿块影最厚大于约2.6厘米”

系统将其进行结构化重构后生成如图20所示的搜索树;图20示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中搜索树示意图;

分析模块将搜索树与文本结构树进行匹配,计算得出匹配度,得到分值为10分;图21示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中分析模块计算的搜索树与每个文本结构树的匹配值示意图;图22示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中搜索结果显示示意图;如图21、图22所示。

其中,在建立文本结构树或搜索树之前,该方法还包括:同义词转换模块对关键词词汇进行同义词转换,根据同义词字典进行同义词归一。

如要查询包含“第5胸椎”的描述,在实际应用中,医生会使用“胸椎5”、“胸5椎体”、“T5”、“T5椎”等语言,均为同一意思,此时,同义词转换模块根据同义词字典进行同义词归一,来解决同义词问题,提高了搜索结果的有效性。

在建立文本结构树或搜索树之前,该方法还包括:范围值识别模块识别关键词词汇的范围值。

例如面积、长度、体积、容量等,解决现有技术中无法搜索范围值区间的问题,诸如搜索“肿瘤直径介于2-3CM之间”等。

在建立搜索树之前,该方法还包括:运算符处理单元对搜索表达式中的逻辑运算符进行识别与处理。例如并且、包含、或者、大于等等。

该方法还包括:星级显示单元根据匹配值来确定星的个数,并将星的个数以及匹配值同时显示到客户端。图23示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中搜索结果显示示意图(如图23所示)。

从0-10最高5星,可以分10级,如下:

图24示出了根据本发明实施例六的基于权值的结构化搜索系统的搜索方法中搜索结果显示示意图;

例如,搜索“肿块影最厚大于约2.6厘米”的搜索结果显示如图24所示。

本发明的实施例设置了结构树模块和搜索树模块,将非结构化的自由文本以及搜索表达式进行分词,并进行结构化重构,形成文本结构树和搜索树,定义每一个关键词词汇及分支的权值,分析模块将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值,以使得搜索结果准确可信;设置了同义词转换模块和范围值识别模块,对关键词词汇进行了同义词转换,使得同义词归一,并可以识别关键词词汇的范围值,能够解决现有技术中存在的无法处理同义词以及范围值的问题,使搜索结果更加精确,不会落下有价值的信息;基于自然语言的搜索条件,由于本发明设置了运算符处理单元,对搜索表达式中的逻辑运算符进行识别与处理,使得搜索结果更加全面,并方便了用户操作;本发明的实施例还设置了星级显示单元,搜索结果根据匹配度进行权值评分,并给予星级评价,评分最高的显示在最前面,无需用户一一筛选判断,搜索结果一目了然,非常直观,提高了搜索效率,使之更加人性化。

从以上描述中,可以看出,本发明的上述实施例实现了如下技术效果:本发明的实施例设置了结构树模块和搜索树模块,将非结构化的自由文本以及搜索表达式进行分词,并进行结构化重构,形成文本结构树和搜索树,定义每一个关键词词汇及分支的权值,分析模块将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值,以使得搜索结果准确可信;设置了同义词转换模块和范围值识别模块,对关键词词汇进行了同义词转换,使得同义词归一,并可以识别关键词词汇的范围值,能够解决现有技术中存在的无法处理同义词以及范围值的问题,使搜索结果更加精确,不会落下有价值的信息;基于自然语言的搜索条件,由于本发明设置了运算符处理单元,对搜索表达式中的逻辑运算符进行识别与处理,使得搜索结果更加全面,并方便了用户操作;本发明的实施例还设置了星级显示单元,搜索结果根据匹配度进行权值评分,并给予星级评价,评分最高的显示在最前面,无需用户一一筛选判断,搜索结果一目了然,非常直观,提高了搜索效率,使之更加人性化。

显然,本本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1