基于关键词网络相关性分析的异常检查报告自动识别方法与流程

文档序号:12364358阅读:330来源:国知局
基于关键词网络相关性分析的异常检查报告自动识别方法与流程

本发明涉及一种基于关键词网络相关性分析的异常检查报告自动识别方法。



背景技术:

检查报告一般包括检查所见和检查结论两部分,检查所见是通过医疗设备检查人体器官所反映出来的各种现象和所见的描述和说明;检查结论(意见)是医师主观判断,一般是文字性的。目前检查报告主要是通过医生经验判断是否正常,其中对于图像报告,有一些通过对图像进行分析以判断是否正常的研究。但是对于文字报告,还是以人工判读为主,计算机无法识别。临床医务人员看到一般就知道是否正常,从而识别异常检查报告。此处的异常检查报告是指在检查结论中有异常的情况。

在医疗信息化的过程中,随着临床决策支持应用的越来越广泛,通过计算机自动判读报告是否异常进而对医疗过程进行相应的决策支持的应用的需求也越来越迫切,特别是在医疗质量的监控应用上。同时,在医疗信息向患者公开应用的过程中也需要对一份报告是否正常进行自动识别,报告医师给出来的检查所见与结论一般用的是医疗专业术语,没有医学专业知识背景的患者很难解读,而作为患者来说,往往最先想了解的就是这份报告是否正常。通过自动判读的检查报告进而对患者有针对性地进行健康宣教,提升全民的健康素养。



技术实现要素:

本发明针对现有技术的不足,提出一种基于关键词网络相关性分析的异常检查报告自动识别技术,可有效综合考虑多方面检查结果,自动、高效地识别文字类型的异常检查报告。

本发明的技术方案为:

一种基于关键词网络相关性分析的异常检查报告自动识别方法,包括以下步骤:将检查报告R中的检查结果逐条与异常关键词网络数据库DB中的异常检查结果进行匹配,若存在匹配成功的检查结果,则识别检查报告R为异常检查报告;

所述异常关键词网络数据库DB包含由异常报告中的异常检查结果生成的关键词网络。

所述的基于关键词网络相关性分析的异常检查报告自动识别方法,具体包括以下步骤:

步骤1:预处理;

将电子形式的检查报告R分割成若干独立的句子,记为R={S1,S2,…,Si,…,Sm1},其中,m1表示该检查报告中句子总数,每个句子包含完整的独立的检查结果;

通过这个步骤,检查报告转化为独立句子,每个句子描述了相应检查结果。

规范检查报告的格式有助于提高预处理效率。

步骤2:关键词提取与配对;

针对检查报告R中每一个句子Si,提取其中的关键词,记为Si={KWi1,KWi2,…,KWim},其中KWim表示句子Si中的关键词总数;

关键词包括属性关键词和属性值关键词;属性指检查的项目,例如白细胞、血小板等,而属性值则是检查结果,例如光滑、均匀等,也可能是某个数值。每个句子中均包含属性和属性值。

将关键词与属性数据库和属性值数据库进行匹配,以区分关键字中的属性关键词和属性值关键词;

将同一个句子中的属性关键词和属性值关键词进行配对,得到关键词对集合:

{(KWi11,KW12),…,(KWin1,KWin2)}

其中,in1,in2分别表示句子Si中第n个关键词对中属性关键词和属性值关键词的下标;

每个关键词对描述了一个检查结果;例如关键词对(血管,清晰),描述了对血管的检查结果。

步骤3:构建关键词网络;

关键词对中,有很多属性关键词是相同的,也有的属性值是关键词相同的,将检查报告的关键词对进行合并,得到关键词网络。由于关键词对内部有顺序,因此该网络是一个有向网络;

根据关键词对集合构建有向网络GR=(VR,ER),其中VR为检查报告R中的关键词集合,VR={KWj},j=1,2,…,m2,其中,m2为检查报告R中的关键词总数;ER为边集,ER={ejk},j,k=1,2,…,m2,其中边ejk连接关键词KWj和KWk,如果KWj和KWk是关键词对,则它们之间有一条边相连,边ejk的权值wjk=1;

步骤4:相似度计算与异常检查报告识别;

设异常关键词网络数据库DB中存在关键词网络Gt

计算GR与Gt(Gt∈DB,Gt=(Vt,Et))的相似度;

<mrow> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>G</mi> <mi>R</mi> </msub> <mo>,</mo> <msub> <mi>G</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>e</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>&Element;</mo> <msub> <mi>V</mi> <mi>R</mi> </msub> <mo>&cap;</mo> <msub> <mi>V</mi> <mi>t</mi> </msub> </mrow> </munder> <msubsup> <mi>w</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> <mrow> <mo>(</mo> <mi>R</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>w</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </mrow>

其中,表示GR中边ejk的权值,表示Gt中边ejk的权值,ejk为GR与Gt中的公共边,即ejk∈VR∩Vt;对于属性值关键词为数值的关键词对,只要属性值关键词的大小偏差在5%范围内,均认为关键词对是相同的,例如,异常数据库中有关键词对(血压,180),而GR中相应的关键词对为(血压,175),在计算相似度过程中认为两个关键词对对应的两条边是公共边;

如果相似度S(GR,Gt)大于阈值λ,则认为检查报告R中存在异常检查结果,检查报告R为异常检查报告;否则,检查报告R为正常检查报告。

针对每一个异常检测报告,提取其中的异常检查结果,生成一个关键词网络;由m3个异常检测报告得到m3个关键词网络;得到相应的异常关键词网络数据库为:DB={G1,G2,…,Gm3},其中,Gm3表示第m3个关键词网络。

所述步骤4中,计算GR与DB中所有关键词网络的相似度;若相似度之和大于阈值λ,则认为检查报告R中存在异常检查结果,检查报告R为异常检查报告。

所述阈值λ=1。

所述步骤1中,基于标点符号将检查报告R分割成若干独立的句子,即在每个逗号和句号处进行断句。

所述步骤1中,对于纸质形式的检查报告,先将纸质形式的检查报告转化为电子形式的检查报告R。

通过文字识别工具或人工识别录入将纸质形式的检查报告转化为电子形式的检查报告R。

所述步骤2中,采用Keygraph算法提取句子中的关键词。

所述步骤3中的属性数据库和属性值数据库,根据经验由人工建立;属性数据库中包含所有检查报告中可能出现的属性,属性值数据库中则包含所有检查报告中可能出现的属性值。

有益效果:

自动识别医学检查报告中的异常情况有助于自动提醒医生及时进行相关的诊疗活动,辅助患者了解报告所代表的自己的身体状况,并辅助管理人员进行医疗质量控制。本发明提出的一种基于关键词网络相关性的异常检查报告自动识别技术。通过对报告中的结论进行分句、分词,提取关键词,建立关键词网络,将其与历史异常报告数据库中的关键词网络进行对比,计算相关性,从而自动判断报告是否正常。

本发明可有效综合考虑多方面检查结果,自动、高效地识别文字类型的检查报告是否存在异常检查结果,在临床上有以下几个方面的价值:

1)自动提醒医生及时进行相关的诊疗活动,以免耽误病情;

2)辅助患者理解报告,并可以通过关联知识库,推送相关的通俗易懂的专业知识给患者,以便其进一步理解或了解报告所代表的自己的身体状况;

3)辅助医疗质量控制人员进行医疗质量控制,如有异常报告,但临床医师未有相关对应的医疗措施,这时,医疗质量控制人员可以及时地进行干预。

附图说明

图1为本发明流程图;

图2为关键词网络示例;

图3为实施案例中的关键词网络。

具体实施方式

以下结合附图和具体实施方式对本发明进行进一步具体说明。

如图1所示,本发明公开了一种基于关键词网络相关性分析的异常检查报告自动识别方法,包括以下步骤:将检查报告R中的检查结果逐条与异常关键词网络数据库DB中的异常检查结果进行匹配,若存在匹配成功的检查结果,则识别检查报告R为异常检查报告;

所述异常关键词网络数据库DB包含由异常报告中的异常检查结果生成的关键词网络。

所述的基于关键词网络相关性分析的异常检查报告自动识别方法,具体包括以下步骤:

步骤1:预处理;

对于纸质形式的检查报告,先通过文字识别工具或人工识别录入将纸质形式的检查报告转化为电子形式的检查报告R;对于电子形式的检查报告,则不必进行转化处理;

将电子形式的检查报告R分割成若干独立的句子,记为R={S1,S2,…,Si,…,Sm1},其中,m1表示该检查报告中句子总数,每个句子包含完整的独立的检查结果;

基于标点符号,检查报告转化为独立句子,即在每个逗号和句号处进行断句;每个句子描述了相应检查结果。

规范检查报告的格式有助于提高预处理效率。

步骤2:关键词提取与配对;

针对检查报告R中每一个句子Si,提取其中的关键词(如采用Keygraph算法),记为Si={KWi1,KWi2,…,KWim},其中KWim表示句子Si中的关键词总数;

关键词包括属性关键词和属性值关键词;属性指检查的项目,例如白细胞、血小板等,而属性值则是检查结果,例如光滑、均匀等,也可能是某个数值。每个句子中均包含属性和属性值。

将关键词与属性数据库和属性值数据库进行匹配,以区分关键字中的属性关键词和属性值关键词;所述属性数据库和属性值数据库是根据经验由人工建立的;属性数据库中包含所有检查报告中可能出现的属性,属性值数据库中则包含所有检查报告中可能出现的属性值。

将同一个句子中的属性关键词和属性值关键词进行配对,得到关键词对集合:

{(KWi11,KW12),…,(KWin1,KWin2)}

其中,in1,in2分别表示句子Si中第n个关键词对中属性关键词和属性值关键词的下标;

每个关键词对描述了一个检查结果;例如关键词对(血管,清晰),描述了对血管的检查结果。

步骤3:构建关键词网络;

关键词对中,有很多属性关键词是相同的,也有的属性值是关键词相同的,将检查报告的关键词对进行合并,得到关键词网络。由于关键词对内部有顺序,因此该网络是一个有向网络;

根据关键词对集合构建有向网络GR=(VR,ER),其中VR为检查报告R中的关键词集合,VR={KWj},j=1,2,…,m2,其中,m2为检查报告R中的关键词总数;ER为边集,ER={ejk},j,k=1,2,…,m2,其中边ejk连接关键词KWj和KWk,如果KWj和KWk是关键词对,则它们之间有一条边相连,边ejk的权值wjk=1;例如,图2所示的关键词网络是由关键词对:(KWi1,KWi3),(KWi1,KWi4),(KWi1,KWi5),(KWi2,KWi3)生成;

步骤4:相似度计算与异常检查报告识别;

设异常关键词网络数据库DB中存在关键词网络Gt

计算GR与Gt(Gt∈DB,Gt=(Vt,Et))的相似度;

<mrow> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>G</mi> <mi>R</mi> </msub> <mo>,</mo> <msub> <mi>G</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>e</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>&Element;</mo> <msub> <mi>V</mi> <mi>R</mi> </msub> <mo>&cap;</mo> <msub> <mi>V</mi> <mi>t</mi> </msub> </mrow> </munder> <msubsup> <mi>w</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> <mrow> <mo>(</mo> <mi>R</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>w</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </mrow>

其中,表示GR中边ejk的权值,表示Gt中边ejk的权值,ejk为GR与Gt中的公共边,即ejk∈VR∩Vt;对于属性值关键词为数值的关键词对,只要属性值关键词的大小偏差在5%范围内,均认为关键词对是相同的,例如,异常数据库中有关键词对(血压,180),而GR中相应的关键词对为(血压,175),在计算相似度过程中认为两个关键词对对应的两条边是公共边;

如果相似度S(GR,Gt)大于阈值λ(λ=1),则认为检查报告R中存在异常检查结果,检查报告R为异常检查报告;否则,检查报告R为正常检查报告。

针对每一个异常检测报告,提取其中的异常检查结果,生成一个关键词网络;由m3个异常检测报告得到m3个关键词网络;得到相应的异常关键词网络数据库为:DB={G1,G2,…,Gm3},其中,Gm3表示第m3个关键词网络。

所述步骤4中,计算GR与DB中所有关键词网络的相似度;若相似度之和大于阈值λ,则认为检查报告R中存在异常检查结果,检查报告R为异常检查报告。

实施例1:

数据库中包含异常检查结果R:左下肺野见团块影,主动脉见钙化影。其关键词对为:(左下肺野,团块),(主动脉,钙化)。

有一名患者,检查结果R1:肺野清晰,肺纹理无增粗、紊乱。心脏大小、形态正常。双膈平滑,肋膈角锐利,主动脉见钙化影

首先分句,得到S1:肺野清晰,S2:肺纹理无增粗、紊乱,S3:心脏大小、形态正常,S4:双膈平滑,S5:肋膈角锐利,S6:主动脉见钙化影

随后,提取每个句子关键字,形成关键字对:(肺野,清晰),(肺纹理,无增粗),(肺纹理,紊乱),(心脏大小,正常),(心脏形态,正常),(双膈,平滑),(肋膈角,锐利),(主动脉,钙化)。

将关键词对进行融合得到如图3的关键词网络:

最后计算相似度。由于VR∩VR1=(主动脉,钙化),其相似度S(GR,GR1)=1,如果阈值λ=1,表示使用该数据库进行检查,患者报告异常。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1