非结构化中文乳腺超声文本的结构化处理方法与流程

文档序号:12123892阅读:来源:国知局

技术特征:

1.一种非结构化中文乳腺超声文本的结构化处理方法,其特征在于,包括以下步骤:

步骤1、对乳腺超声文本内容按照描述规则,分别切分为描述双、左、右侧乳腺的文本短句;

步骤2、利用自定义的同义词替换词典对切分后的文本短句进行同义词替换;

步骤3、对替换后的文本短句分别进行句法分析,以{关键字key:值value}的形式输出结果,其中,关键字key及值value均为根据自定义的词语属性在步骤2得到的文本短句中找到的单个词或词语;

步骤4、提取乳腺超声的特征及特征值,其中,针对步骤3得到的关键字key及步骤2得到的文本短句中的名词,结合同义词替换词典中的相关词语,提取自定义的特征,再根据特征提取特征值。

2.根据权利要求1所述的非结构化中文乳腺超声文本的结构化处理方法,其特征在于,在所述步骤1中,通过字符匹配法或语句截取法,将所述乳腺超声文本内容切分为描述双、左、右侧乳腺的文本短句。

3.根据权利要求2所述的非结构化中文乳腺超声文本的结构化处理方法,其特征在于,双乳腺的文本短句位于第一列,左侧乳腺的文本短句位于第二列,右侧乳腺的文本短句位于第三列,则所述字符匹配法包括如下步骤:

针对标点符号,将所述乳腺超声文本内容划分为不同的短句,再匹配字符‘左’是否在短句中,若存在,则将短句存入第二列;若不存在,判断字符‘右’是否在短句中,若存在,则将短句存入第三列;否则将短句存入第一列中;

所述语句截取法包括如下步骤:

提取双乳腺的文本短句时,首先判断字符‘双’是否在语句中,若存在,判断字符‘左’是否在语句中,若存在,截取字符‘双’和字符‘左’间的短句,将其存在第一列;若不存在,判断字符‘右’是否在语句中,若存在,截取字符‘双’和字符‘右’间的短句,将其存在第一列,若‘左’和‘右’均不存在,则将整句存入第一列;提取左侧乳腺的文本短句时,提取字符‘左’和字符‘双’或‘右’间的短句,将其存入第二列;而提取右侧乳腺的文本短句时,提取字符‘右’和字符‘双’或‘左’间的短句,将其存入第三列。

4.根据权利要求1所述的中文乳腺超声文本的结构化处理方法,其特征在于,所述步骤2具体包括如下步骤:

首先针对检查结果进行分词操作,然后自动切分语句,同时标注词语的属性,提取其中的名词,将所需的词语写入自定义的同义词替换词典中,再在同义词替换词典中填写可能出现的其他描述情况,再根据同义词替换词典将步骤1得到的文本短句进行同义词替换。

5.根据权利要求1所述的中文乳腺超声文本的结构化处理方法,其特征在于,所述步骤3具体包括如下步骤:

先肉眼判断检查结果中的语句结构,再调用hanlp字典将整句话划分为单个词或词语,按照树的形式排列,从根节点开始广度优先遍历;然后肉眼自定义何种词语属性作为自己的关键字key,何种词语属性作为自己的值value;再在上述树中深度优先遍历找出符合自定义的关键字key和值value;最后按照{关键字key:值value}的形式输出结果。

6.根据权利要求1所述的中文乳腺超声文本的结构化处理方法,其特征在于,所述步骤(4)中的特征值提取通过正则匹配或语句截取操作。

7.根据权利要求6所述的中文乳腺超声文本的结构化处理方法,其特征在于,所述正则匹配:根据特征所处句子的位置及句子结构,自定义正则表达式,不同的特征可匹配不同的正则表达式;所述语句截取:根据标点符号进行语句切分,再提取特征到分句末尾之间的短句。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1