非结构化中文乳腺超声文本的结构化处理方法与流程

文档序号:12123892阅读:289来源:国知局
本发明涉及一种针对中文超声诊断文本结构化处理方法,属于自然语言处理领域。
背景技术
:伴随大数据分析处理技术的进步和医疗行业信息化,医疗信息呈爆炸式增长。随着医疗和科学技术的发展,人们对医疗诊断的效率和准确度更加关注。目前医院累积了大量非结构化的数据,并且每天仍在持续增长。为了方便管理数据并从中得到有用的信息,结构化处理成为了必不可少的手段。自然语言处理是当今技术发展的热门。现有的技术多为句法分析、词频统计,聚类等。但是如何合理的运用这些方法并优化,以期更高效的处理数据就成为了结构化处理的难题。技术实现要素:本发明的目的是提供一种中文乳腺超声文本的结构化处理方法。为了达到上述目的,本发明的技术方案是提供了一种非结构化中文乳腺超声文本的结构化处理方法,其特征在于,包括以下步骤:步骤1、对乳腺超声文本内容按照描述规则,分别切分为描述双、左、右侧乳腺的文本短句;步骤2、利用自定义的同义词替换词典对切分后的文本短句进行同义词替换;步骤3、对替换后的文本短句分别进行句法分析,以{关键字key:值value}的形式输出结果,其中,关键字key及值value均为根据自定义的词语属性在步骤2得到的文本短句中找到的单个词或词语;步骤4、提取乳腺超声的特征及特征值,其中,针对步骤3得到的关键字key及步骤2得到的文本短句中的名词,结合同义词替换词典中的相关词语,提取自定义的特征,再根据特征提取特征值。优选地,在所述步骤1中,通过字符匹配法或语句截取法,将所述乳腺超声文本内容切分为描述双、左、右侧乳腺的文本短句。优选地,双乳腺的文本短句位于第一列,左侧乳腺的文本短句位于第二列,右侧乳腺的文本短句位于第三列,则所述字符匹配法包括如下步骤:针对标点符号,将所述乳腺超声文本内容划分为不同的短句,再匹配字符‘左’是否在短句中,若存在,则将短句存入第二列;若不存在,判断字符‘右’是否在短句中,若存在,则将短句存入第三列;否则将短句存入第一列中;所述语句截取法包括如下步骤:提取双乳腺的文本短句时,首先判断字符‘双’是否在语句中,若存在,判断字符‘左’是否在语句中,若存在,截取字符‘双’和字符‘左’间的短句,将其存在第一列;若不存在,判断字符‘右’是否在语句中,若存在,截取字符‘双’和字符‘右’间的短句,将其存在第一列,若‘左’和‘右’均不存在,则将整句存入第一列;提取左侧乳腺的文本短句时,提取字符‘左’和字符‘双’或‘右’间的短句,将其存入第二列;而提取右侧乳腺的文本短句时,提取字符‘右’和字符‘双’或‘左’间的短句,将其存入第三列。优选地,所述步骤2具体包括如下步骤:首先针对检查结果进行分词操作,然后自动切分语句,同时标注词语的属性,提取其中的名词,将所需的词语写入自定义的同义词替换词典中,再在同义词替换词典中填写可能出现的其他描述情况,再根据同义词替换词典将步骤1得到的文本短句进行同义词替换。优选地,所述步骤3具体包括如下步骤:先肉眼判断检查结果中的语句结构,再调用hanlp字典将整句话划分为单个词或词语,按照树的形式排列,从根节点开始广度优先遍历;然后肉眼自定义何种词语属性作为自己的关键字key,何种词语属性作为自己的值value;再在上述树中深度优先遍历找出符合自定义的关键字key和值value;最后按照{关键字key:值value}的形式输出结果。优选地,所述步骤(4)中的特征值提取通过正则匹配或语句截取操作。优选地,所述正则匹配:根据特征所处句子的位置及句子结构,自定义正则表达式,不同的特征可匹配不同的正则表达式;所述语句截取:根据标点符号进行语句切分,再提取特征到分句末尾之间的短句。本发明相较于现有技术提取效果更好。特征的提取是自动形成,节省了部分的人力,且可以针对不同医院的超声数据。同时可以将特征存储在一起,制成数据字典,并随时更新数据字典里的内容,方便下次使用。附图说明图1:本发明的流程图图2:本发明中涉及的乳腺超声文本层次结构图;图3:切分双、左、右侧方法一的数据流图;图4:切分双、左、右侧方法二的数据流图;图5:同义词替换的数据流图;图6:句法分析的数据流图;图7:特征提取的数据流图;图8:特征值提取的数据流图;图9:特征值输出的数据流图;图10:表格信息整理的数据流图。具体实施方式下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。本发明针对乳腺超声文本进行下述结构化步骤:(1)对乳腺超声文本内容按照描述规则,分别切分为描述双、左、右侧乳腺的文本短句;(2)对切分后的文本短句进行同义词替换;(3)对替换后的文本短句分别进行句法分析;(4)乳腺超声特征、特征值提取。以下对各个步骤分别予以详细说明:乳腺超声文本包含以下信息,如表1所示:表1中文乳腺超声样本数据案例从上表可知,医生书写超声文本一般会遵循一定的规范,即在每个检查项目之前均会着重提出检查部位,因此先将整条文本根据标点符号划分,具体模式如下:部位1:特征名1特征值1,特征名2特征值2。...部位n:特征名n特征值n。1)双、左、右侧切分:由于乳腺的特殊性,患者在医院检查时医生针对检测结果会分为双、左和右侧描述,三种描述可能会存在不同,因此在提取特征之前要先区分出乳腺位置。医生在书写文本时一般不会乱写,针对不同的乳腺位置会用标点符号隔开,且会在短句中标明左、右。因此切分时目标明确。我们的目标是将文本中的检查结果切分为3列,分别代表双侧、左侧和右侧。本发明采用两种方法,第一种是词语匹配。首先将检查结果针对标点符号‘。’划分为不同的短句,再匹配字符‘左’是否在短句中,若存在,则将短句存入第二列;若不存在,判断字符‘右’是否在短句中,若存在,则将短句存入第三列;否则将短句存入第一列中,从而将检查结果分成了三列。这种方法主要针对文本的标点符号标准的情况。但当标点符号混乱时,会造成切分错误,因此可以使用下述的第二种方法。第二种是语句截取。首先判断字符‘双’是否在语句中,若存在,判断字符‘左’是否在语句中,若存在,截取字符‘双’和字符‘左’间的短句,将其存在第一列;若不存在,判断字符‘右’是否在语句中,若存在,截取字符‘双’和字符‘右’间的短句,将其存在第一列,但是若‘左’和‘右’同时存在,不可出现语句覆盖,需要同时存在第一列中;若‘左’和‘右’均不存在,则将整句存入第一列。同理,提取左侧时,提取字符‘左’和字符‘双’或‘右’间的短句,将其存入第二列;而提取右侧时,提取字符‘右’和字符‘双’或‘左’间的短句,将其存入第三列。本种方法的缺点是当语句中不存在字符‘双’时,语句切分会出现问题。针对上述两种方法运行表1中的实验数据可得以下结果(用英文‘,’划分列):至此完成了乳腺位置的划分,针对新形成的文本进行下述操作。2)同义词替换:医生书写的文本一般是按照一定的格式,但是不同的医生会有不同的语句表达习惯和用词习惯,这会导致在后续自动生成结果时出现遗漏的现象,因此在提取特征之前需要整理文本。首先针对检查结果进行分词操作,此步骤需要调用jieba分词的包,然后自动切分语句,同时标注词语的属性,提取其中的名词,将所需的词语写入自定义的同义词替换词典中,再在词典中填写可能出现的其他描述情况,涵盖面要求尽量广,同时上网搜索同一个词语可能出现的其他描述方式,将结果一同写入词典中。再根据自定义的词典将乳腺超声文本中的多条语句进行同义词替换。使得文本中特征描述大致相同。由于上一步进行了乳腺位置的切分,因此同义词替换对双、左、右侧均要进行,同义词替换词典可以使用同一个,也可分开制作。文本中有时会出现语句结构混乱的情况,由于不方便机械更改,因此有时需要手动完成,本部分可能会浪费一定的人力。针对表1中的实验数据,可建立同义词替换词典如下:其中‘,’前面的词语为替换后的词语表达,后面的词语为待替换的词语。此时完成文本整理的工作,结合第一步的双、左、右侧切分,构成结构化文本的预处理阶段。下面进行结构化的后续步骤。3)句法分析:根据预处理后的检查结果,对其进行句法分析。句法分析方法为,先肉眼判断检查结果中的语句结构,是定中关系|主谓关系|状中结构,还是并列关系;再调用hanlp字典将整句话划分为单个词或词语,按照树的形式排列,从根节点开始广度优先遍历;然后肉眼自定义何种词语属性作为自己的关键字key(如认定语句中的名词为关键字key),何种词语属性作为自己的值value(如认定语句中的形容词或副词为值value);再在上述树中深度优先遍历找出符合自定义的关键字key和值value;最后按照{关键字key:值value}的形式输出结果。将得到的关键字key作为后续特征提取的参考。与同义词替换相同,句法分析双侧、左侧、右侧也均要进行。对上述结果进行句法分析,可得如下结果:由上述结果可知:句法分析针对语句表达准确且格式符合标准的短句分析结果较好,但是对于语句表达不明确或不符合一般规定的语句分析出的结果并不理想。4)特征提取:针对句法分析得到的关键字key和分词得到的名词,结合同义词词典中的相关词语,提出自定义的特征,再在网上搜索相关病症的主要检查项目检查自定义的特征是否准确,是否有遗漏,而多出来的特征则可以继续操作。如上述检查结果中可提取特征‘腺体回声’,‘腺体表面’,‘腺管’,‘腺体形状’,‘乳腺组织厚度’,‘CFI’等,注意在资料中显示‘低回声’、‘无回声’和‘强回声’是后续疾病检查的主要检查项目,因此在提取特征时要区分回声类型,将回声类型作为特征值提取的区分大类,并针对不同的回声类型进行特征提取。如针对无回声,可以提取‘大小’,‘回声位置’,‘形状’,‘边界’,‘表面’‘囊壁’,‘后方回声状态’,‘内部回声状态’和‘CDFI’,同时针对低回声可能特征会有区别,定要注意区分,以免出错。而强回声由于在文本中数目较少,不会对最后的结果造成影响,因此不需要提取,以提高后续步骤的准确率。5)特征值提取:针对上述步骤得出的特征,可自动提取指标值。本步骤可采用两种方法:第一种是截词,先将每列中的短句根据标点符号‘,’切分为短句,再截取特征和标点符号‘,’之间的短句,使其成为此特征相对应的特征值。如表1中的短句‘腺体表面尚光整,’,‘腺体表面’为特征,则可提取‘尚光整’为特征值。注意提取时区分双、左、右侧。第二种是正则表达式匹配,同样先切分成短句,再肉眼观察特征所在的短句的语句结构,自定义正则表达式,提取特征值,本种方法的缺点是需要检查所有的语句结构,较麻烦,所以使用第一种方法较多。由于乳腺的检查结果分为双、左、右侧的特殊性,因此在自动生成结果时也要考虑其中。例如在提取一条数据时,要区分检查位置,当针对同一个特征时,双侧提取的结果需要同时分给左侧和右侧,即此时两侧描述相同,但是当双侧和左侧同时存在特征值时,需要将左侧的特征值覆盖原本的双侧特征值,同理,右侧也要视情况改变。在输出特征值时,同一个患者会有左侧和右侧两行数据,并以数字0和1区分位置,最终以表格的形式输出结果根据表1中的数据,最终输出结果如下其中‘位置’列自定义‘0’代表左侧,‘1’代表右侧。至此乳腺超声文本结构化完成,最终结果以表格的形式输出,但是此时提取的特征值会存在很多种情况,因此若想进行后续统计,需要进行表格信息的整合。6)表格信息整合:第一步去除空值:由于某些患者的检查项目在提取特征值时会有全部空值的情况,此时需要去掉这一部分的数据,以免影响后续整理。方法为检查本条数据空值的总个数,当其等于特征总数时,即可删除本行数据。或判断是否所有列均为空值,若是则删除本行数据。第二步信息整理:提取特征值时会导致同一个特征下的描述结果有很多种,这会影响后续操作,因此需要在SQLServer中手动处理,这一部分会浪费一定的人力,需要进一步改进。至此,乳腺超声文本结构化全部结束。不难发现,本发明在提取结果时实现了半自动化,节省了部分的人力,但依然存在浪费人力的现象,还有改进的地方。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1