一种中文病理文本结构化处理方法

文档序号：8922627阅读：562来源：国知局

一种中文病理文本结构化处理方法
【技术领域】
[0001] 本发明涉及自然语言处理技术领域，特别是涉及一种中文病理文本结构化处理方法。
【背景技术】
[0002] 随着互联网的迅速发展和国内医疗行业信息化进程的逐渐推进，医疗行业的信息量也在呈指数式爆炸增长。同时，伴随着生活水平的提高，人们也逐渐从最基本的能看病，转向关注医疗诊断的效率和准确度。传统医疗方式下积累的以及现阶段每天实时增加的大量非结构化的病理数据，不仅不易于存储管理，而且不能满足如今的病理分析需求。
[0003] 如何从非结构化的病理数据中获取有用的信息成为当前的研宄热点之一。现有的自然语言处理技术和数据挖掘技术，如分词、聚类分类、信息抽取等，已经能在很大程度上解决这一问题，但如何高效且准确地从非结构化的中文病理文本中获取有用的信息仍是一大难题。

【发明内容】

[0004] 本发明所要解决的技术问题是提供一种中文病理文本结构化处理方法，能够将非结构化的中文病理文本结构化。
[0005] 本发明解决其技术问题所采用的技术方案是：提供一种中文病理文本结构化处理方法，包括以下步骤：
[0006] (1)从病理报告文本数据的样本与指标的层次结构中提取出各个样本所对应的模板信息；
[0007] (2)对模板信息进行提取，包括短句切分和指标名提取；短句分类；
[0008] (3)对每个样本结合分类结果集合CLUSTER和短句集CLAUSE，计算指标名列表中的每个指标名在短句语料中的TF值、IDF值和C-value值，筛选出TF值、IDF值和C-value 值阈值的指标名，作为最终模板中的成分。
[0009] 所述步骤（2)中短句切分是采用正则匹配的方法，当病理报告文本数据中检测到符合正则表达式时进行断句，从而将病理报告文本数据切分成若干短句。
[0010] 所述步骤（2)的指标名提取具体包括：(A)样本名的提取：利用开源的分词工具，结合人体组织器官词库以及样本名出现在短句的第一个文本片段中的规律，对无关文本进行过滤筛选，提取出每个短句对应的样本名；(B)指标名的提取：将短句按标点符号切分成若干语义上独立的文本片段，将每个文本片段先用特殊词库匹配和数量词匹配进行筛选，再对匹配失败的文本片段用统计方法进行处理；最后通过将经过上述操作得到的键值对中的指标名去重合并，得到每个短句对应的若干指标名。
[0011] 所述步骤（2)中的短句分类包括：
[0012] 先对短句集合CLAUSE进行初步分类，将样本名完全相同的短句归为一类，归类后的每个子类的指标名列表为其所包含的所有短句的指标名列表的去重合并，最后得到经过初步分类的子类集合CLAUSE_PC;
[0013] 将初步分类后的每个子类的样本名sn跟组织器官词典DIC中的词word两两计算相似度，并放到一个二维数组Array中，其中，Arra yij的值是编号为i的子类的样本名和编号为j的组织器官词典中的词的样本名相似度；
[0014] 优先处理样本名相似度完全相同的子类：将该子类中的所有短句都被归入组织器官词word下，将分类信息写入分类结果集合CLUSTER，并将该子类从子类集合中移除；
[0015] 处理样本名相似度值近似的子类：每个子类都能找到零个到多个组织器官词 word满足要求，对那些能够找到至少一个满足要求的组织器官词word的子类，计算该子类的指标名列表和与其对应的每个组织器官word的指标名列表的指标名相似度，找到指标名相似度最大的组织器官词word'，将该子类c就归入相似度最大的组织器官词word'下，将分类信息写入分类结果集合CLUSTER，更新相似度最大的组织器官词word'在MATCHED集合中的指标值列表，同时将该子类c从子类集合中移除；
[0016] 对子类集合中余下的子类，直接采用初步分类的结果将短句分类，将分类信息写入分类结果集合CLUSTER，同时，将每个子类的样本名和指标值列表信息写入UNMATCHED集合中；
[0017] 输出分类结果集合CLUSTER，以及MATCHED集合和UNMATCHED集合。
[0018] 有益效果
[0019] 由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明中的模板是从训练数据集里提取出来的，因此对此类文本结构化的准确率较现有的通用方法要高；本发明中提取的模板会被定期优化，以适应最新的数据结构化需求。
【附图说明】
[0020] 图1是本发明中病理文本层次结构图；
[0021] 图2是样本名提取的数据流图；
[0022] 图3是指标名提取的数据流图；
[0023] 图4是短句切分和指标名提取的顶层数据流图；
[0024] 图5是短句初步分类的数据流图；
[0025] 图6是模板提取的数据流图；
[0026] 图7是模板应用的数据流图。
【具体实施方式】
[0027] 下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。
[0028] 本发明的实施方式涉及一种中文病理文本结构化处理方法，包括以下步骤：（1) 从病理报告文本数据的样本与指标的层次结构中提取出各个样本所对应的模板信息；（2) 对模板信息进行提取，包括短句切分和指标名提取；短句分类；（3)对每个样本结合分类结果集合CLUSTER和短句集CLAUSE，计算指标名列表中的每个指标名在短句语料中的TF值、 IDF值和C-value值，筛选出TF值、IDF值和C-value值满足阈值的指标名，作为最终模板中的成分。
[0029] 病理报告文本数据主要包含如下信息（见表1):病人基本信息、肉眼所见、镜下所见、病理诊断。本方法是针对病理文本数据中的"肉眼所见"部分。
[0030] 表1病理文本数据样例
[0033] 医生书写的病理文本一般都会遵循一定的书写规范。如在病理文本的"肉眼所见" 字段中，一般会包含若干个样本，针对其中某个样本，又会有若干个指标来描述，从而构成样本与指标的层次结构（见图1)。
[0034]以表1中的病理文本数据为例，该例中的样本名有十二指肠、肿块、管壁样物、胆总管、胆囊、结节等；其中，十二指肠的指标名有长度、周径、粘膜等。
[0035] 通过本方法的处理，可以从病理文本数据的"肉眼所见"字段中提取出若干样本分别对应的模板信息。仍以表1中的病理文本数据为例，部分样本的模板样例如表2所示。
[0036]
[0037] 表2样本的模板样例
[0038] 模板提取主要包括3个关键步骤，具体有：
[0039] 第一步为短句切分和指标名提取。首先根据总结的规则，将一句病理文本切分成若干句语义上独立的短句。这里采用正则匹配的方法，当病理文本中检测到符合正则表达式时进行断句，从而将病理文本切分成若干短句。正则表达式为：
[0040]。另送，|，另送|另送|N[0|o]. {0，10}:|，找到I找到I。I.另送I ;|，另见I另见I见
[0041] 指标名提取可以细分为两个阶段：
[0042] 第一阶段为样本名的提取，如图2所示，由于医学病理报告的书写规范要求，样本名一般出现在短句的第一个文本片段中。根据这个特性，再利用开源的分词工具，结合人体组织器官词库以及总结的规律，对无关文本进行过滤筛选，可以提取出每个短句对应的样本名。
[0043] 第二阶段为指标名的提取，如图3所示，结合医学病理报告的书写特点，可以整理出4个特殊的词库：颜色库、质地库、形状库、状态库。将短句按标点符号（这里主要为冒号和逗号）切分成若干语义上独立的文本片段（每个文本片段包含一个"〈指标名，指标值 >"键值对或"〈null，指标值 >"（指标名缺省）键值对），将每个文本片段先用特殊词库匹配和数量词匹配进行筛选，再对匹配失败的文本片段用统计方法进行处理。最后，通过将经过上述操作得到的键值对中的指标名去重合并，可以得到每个短句对应的若干指标名。 [0044] 同时，为了后期处理方便，此处给每个短句添加一个唯一的编号。
[0045] 经过以上两个阶段，每个短句从纯文本描述表示转变为"〈唯一短句编号c#，样本名sn，指标名列表list〉"表示。图4为短句切分和指标名提取的顶层数据流图。
[0046] 第二步为短句分类。为使样本的模板尽可能全面地覆盖可能会出现的描述内容，需要先对短句进行分类，将描述同一样本的短句放到同一个分类中。短句分类算法的基本思想是尽可能地将每个短句归类到跟它有关联的人体组织器官词库中的某一组织器官词下。同时，该算法有个"副产品"，就是最后被匹配上的组织器官词都会有一个指标名列表，未匹配上词库的样本名也会汇总为相应的指标名列表。
[0047] 算法具体步骤如下：
[0048] 1)先

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈德华;冯洁莹;朱立峰;乐嘉锦;刘茜茜;薛瑞东;
技术所有人：东华大学;上海交通大学医学院附属瑞金医院;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。