非结构化中文乳腺超声文本的结构化处理方法与流程

文档序号：12123892阅读：来源：国知局

技术特征：

1.一种非结构化中文乳腺超声文本的结构化处理方法，其特征在于，包括以下步骤：

步骤1、对乳腺超声文本内容按照描述规则，分别切分为描述双、左、右侧乳腺的文本短句；

步骤2、利用自定义的同义词替换词典对切分后的文本短句进行同义词替换；

步骤3、对替换后的文本短句分别进行句法分析，以{关键字key：值value}的形式输出结果，其中，关键字key及值value均为根据自定义的词语属性在步骤2得到的文本短句中找到的单个词或词语；

步骤4、提取乳腺超声的特征及特征值，其中，针对步骤3得到的关键字key及步骤2得到的文本短句中的名词，结合同义词替换词典中的相关词语，提取自定义的特征，再根据特征提取特征值。

2.根据权利要求1所述的非结构化中文乳腺超声文本的结构化处理方法，其特征在于，在所述步骤1中，通过字符匹配法或语句截取法，将所述乳腺超声文本内容切分为描述双、左、右侧乳腺的文本短句。

3.根据权利要求2所述的非结构化中文乳腺超声文本的结构化处理方法，其特征在于，双乳腺的文本短句位于第一列，左侧乳腺的文本短句位于第二列，右侧乳腺的文本短句位于第三列，则所述字符匹配法包括如下步骤：

针对标点符号，将所述乳腺超声文本内容划分为不同的短句，再匹配字符‘左’是否在短句中，若存在，则将短句存入第二列；若不存在，判断字符‘右’是否在短句中，若存在，则将短句存入第三列；否则将短句存入第一列中；

所述语句截取法包括如下步骤：

提取双乳腺的文本短句时，首先判断字符‘双’是否在语句中，若存在，判断字符‘左’是否在语句中，若存在，截取字符‘双’和字符‘左’间的短句，将其存在第一列；若不存在，判断字符‘右’是否在语句中，若存在，截取字符‘双’和字符‘右’间的短句，将其存在第一列，若‘左’和‘右’均不存在，则将整句存入第一列；提取左侧乳腺的文本短句时，提取字符‘左’和字符‘双’或‘右’间的短句，将其存入第二列；而提取右侧乳腺的文本短句时，提取字符‘右’和字符‘双’或‘左’间的短句，将其存入第三列。

4.根据权利要求1所述的中文乳腺超声文本的结构化处理方法，其特征在于，所述步骤2具体包括如下步骤：

首先针对检查结果进行分词操作，然后自动切分语句，同时标注词语的属性，提取其中的名词，将所需的词语写入自定义的同义词替换词典中，再在同义词替换词典中填写可能出现的其他描述情况，再根据同义词替换词典将步骤1得到的文本短句进行同义词替换。

5.根据权利要求1所述的中文乳腺超声文本的结构化处理方法，其特征在于，所述步骤3具体包括如下步骤：

先肉眼判断检查结果中的语句结构，再调用hanlp字典将整句话划分为单个词或词语，按照树的形式排列，从根节点开始广度优先遍历；然后肉眼自定义何种词语属性作为自己的关键字key，何种词语属性作为自己的值value；再在上述树中深度优先遍历找出符合自定义的关键字key和值value；最后按照{关键字key：值value}的形式输出结果。

6.根据权利要求1所述的中文乳腺超声文本的结构化处理方法，其特征在于，所述步骤(4)中的特征值提取通过正则匹配或语句截取操作。

7.根据权利要求6所述的中文乳腺超声文本的结构化处理方法，其特征在于，所述正则匹配：根据特征所处句子的位置及句子结构，自定义正则表达式，不同的特征可匹配不同的正则表达式；所述语句截取：根据标点符号进行语句切分，再提取特征到分句末尾之间的短句。

完整全部详细技术资料下载

当前第2页1 2 3