一种中文手术操作信息的自动编码方法及系统的制作方法_6

文档序号:9350055阅读:来源:国知局
充术语; 若所述待编码名称为第二类型子字符串,则: 对第二类型子字符串和本体词典中的每个本体进行第一维度的解析,得到第二类型子 字符串的若干第一维度解析结果,以及每个本体的若干第一维度解析结果; 将所述第二类型子字符串的各第一维度解析结果与所述本体词典中每个本体的各第 一维度解析结果进行匹配,判断是否存在各第一维度解析结果均与所述第二类型子字符串 的各第一维度解析结果相匹配的本体; 如果存在各第一维度解析结果均与所述第二类型子字符串的各第一维度解析结果相 匹配的本体,则将该本体确定为所述第二类型子字符串相匹配的本体; 如果不存在各第一维度解析结果均与所述第二类型子字符串的各第一维度解析结果 相匹配的本体,则选取所述第二类型子字符串的全部第一维度解析结果中的部分第一维度 解析结果与所述本体词典中每个本体的全部第一维度解析结果中的部分第一维度解析结 果进行匹配,并判断是否存在所述部分第一维度解析结果与所述第二类型子字符串的所述 部分第一维度解析结果相匹配的本体; 若存在所述部分第一维度解析结果与所述第二类型子字符串的所述部分第一维度解 析结果相匹配的本体,则将该本体确定为所述第二类型子字符串相匹配的本体; 若不存在所述部分第一维度解析结果与所述第二类型子字符串的所述部分第一维度 解析结果相匹配的本体,则对所述第二类型子字符串和所述本体词典中的每个本体进行第 二维度的解析,得到所述第二类型子字符串的若干第二维度解析结果,以及所述本体词典 中每个本体的若干第二维度解析结果; 基于所述第二类型子字符串的若干第二维度解析结果,以及所述本体的若干第二维度 解析结果,计算所述第二类型子字符串与每个本体的匹配程度; 根据所述第二类型子字符串与各个本体的匹配程度,确定一个或多个本体作为所述第 二类型子字符串相匹配的本体; 将所述第二类型子字符串相匹配的本体,确定为所述待编码名称相匹配的标准术语或 扩充术语。11. 根据权利要求10所述的中文手术操作信息的自动编码方法,其中,所述第二类型 子字符串\所述本体的各第一维度解析结果分别是: 所述第二类型子字符串\所述本体中的方位术语; 所述第二类型子字符串\所述本体中的等级术语; 所述第二类型子字符串\所述本体中括号内的字符; 所述第二类型子字符串\所述本体中破折号后的字符;以及, 所述第二类型子字符串\所述本体中除方位术语、等级术语、括号内的字符、破折号后 的字符以外的字符; 所述第二类型子字符串\所述本体的全部第一维度解析结果中的部分第一维度解析 结果包括:所述二类型子字符串中\所述本体中除方位术语、等级术语、括号内的字符、破 折号后的字符以外的字符;以及,以下各项中的一项或多项: 所述第二类型子字符串\所述本体中的方位术语、等级术语; 所述第二类型子字符串\所述本体中括号内的字符; 所述第二类型子字符串\所述本体中破折号后的字符。12. 根据权利要求10所述的中文手术操作信息的自动编码方法,其中,所述第二类型 子字符串\所述本体的各第二维度解析结果分别是: 所述第二类型子字符串\所述本体的每个汉字; 所述第二类型子字符串\所述本体的每个汉字的声母; 所述第二类型子字符串\所述本体的每个汉字的韵母; 所述第二类型子字符串\所述本体的首字符; 所述第二类型子字符串\所述本体的首字符的拼音;以及, 所述第二类型子字符串\所述本体中的非汉字字符。13. 根据权利要求10所述的中文手术操作信息的自动编码方法,其中,所述基于所述 第二类型子字符串的若干第二维度解析结果,以及所述本体的若干第二维度解析结果,计 算所述第二类型子字符串与每个本体的匹配程度的步骤包括: 按照如下公式计算所述第二类型子字符串与每个本体的相似度:其中,M表示相似度; t表示第二类型子字符串的各第二维度解析结果; q表示第二类型子字符串; t in q表示第二类型子字符串的各第二维度; d表示本体; tf(t in d)表示在相同的第二维度上,第二类型子字符串的第二维度解析结果与本体 的第二维度解析结果相匹配的频次;,其中,T表示本体词典中本体的总数,T(t)表示各第二维度解析结果 均与第二类型子字符串的各第二维度解析结果相匹配的本体的总数; t. getBoostO表示各第二维度的预设权值; norm(t, d)表示本体的长度归一化因子; 将计算得到的相似度确定为所述第二类型子字符串与各个本体的匹配程度。14. 根据权利要求10所述的中文手术操作信息的自动编码方法,其中,所述基于所述 第二类型子字符串的若干第二维度解析结果,以及所述本体的若干第二维度解析结果,计 算所述第二类型子字符串与每个本体的匹配程度的步骤包括: 确定所述第二类型子字符串中的每个汉字; 按照如下公式计算所述第二类型子字符串与其相匹配的各个本体的余弦置信度:按照如下公式计算所述第二类型子字符串与其相匹配的各个本体的总置信度: S = MXa+NXb 其中,N表示余弦置信度; V表示第二类型子字符串及其相匹配的本体所包含的汉字总数; Q表示第二类型子字符串; d'表示与第二类型子字符串相匹配的本体; Wtu表示每个汉字在第二类型子字符串中出现的频次; wd\ ,表示每个汉字在第二类型子字符串相匹配的本体中出现的频次; j表示第二类型子字符串及其相匹配的本体所包含的汉字的序号; S表不总置信度; M表示相似度; a表示相似度M对应的预设权值; b表示余弦置信度N对应的预设权值; 并日,相似庠 M桉照如下公式计筧:其中,t表示第二类型子字符串的各第二维度解析结果; q表示第二类型子字符串; t in q表示第二类型子字符串的各第二维度; d表示本体; tf(t in d)表示在相同的第二维度上,第二类型子字符串的第二维度解析结果与本体 的第二维度解析结果相匹配的频次;其中,T表示本体词典中本体的总数,T(t)表示各第二维度解析结果 均与第二类型子字符串的各第二维度解析结果相匹配的本体的总数; t. getBoostO表示各第二维度的预设权值; norm(t, d)表示本体的长度归一化因子; 将计算得到的总置信度确定为所述第二类型子字符串与各个本体的匹配程度。15. 根据权利要求10所述的中文手术操作信息的自动编码方法,其中,所述的根据所 述第二类型子字符串与各个本体的匹配程度,确定一个或多个本体作为所述第二类型子字 符串相匹配的本体的步骤,包括: 按照与所述第二类型子字符串的匹配程度的大小对全部本体排序,并将其中排序靠前 的预设数量的本体确定为所述第二类型子字符串相匹配的本体; 或者, 将与所述第二类型子字符串的匹配程度达到预设阈值的一个或多个本体,确定为所述 第二类型子字符串相匹配的本体。16. -种中文手术操作信息的自动编码系统,包括: 导入模块,用于输入中文手术操作信息; 自然语言处理模块,用于对所述中文手术操作信息进行自然语言处理,得到一个或多 个待编码名称; 匹配赋码模块,用于基于预先建立的标准术语库和扩充术语库,查找与所述待编码名 称相匹配的标准术语或扩充术语,并将匹配成功的标准术语或扩充术语的编码,确定为所 述待编码名称的编码; 其中,所述标准术语库包括若干标准术语及其编码,所述标准术语是国际疾病分类ICD 中规定的手术操作名称,所述标准术语的编码是国际疾病分类ICD中规定的相应手术操作 名称的编码; 所述扩充术语库包括若干扩充术语及其编码,所述扩充术语是与所述标准术语具有同 义关系的词语或具有属种关系的词语; 所述扩充术语与具有同义关系或属种关系的所述标准术语对应的编码一致。17. 根据权利要求16所述的中文手术操作信息的自动编码系统,其中, 所述匹配模块,还用于基于预先建立的假定分类术语库,查找与所述待编码名称相匹 配的假定分类术语;并将匹配成功的假定分类术语的编码,确定为所述待编码名称的编 码; 所述假定分类术语库包括若干假定分类术语及其编码; 所述假定分类术语表示特定型治疗手段,所述特定型治疗手段对应于多种切除手术类 型,所述多种切除手术类型为所述标准术语; 所述假定分类术语的编码与所述多种切除手术类型中的器官全切除手术类型或部分 切除手术类型的编码一致。18. 根据权利要求16所述的中文手术操作信息的自动编码系统,其中, 所述匹配模块,还用于基于预先建立的多编码术语库,查找与所述待编码名称相匹配 的多编码术语;并将匹配成功的多编码术语的编码,确定为所述待编码名称的编码; 所述多编码术语库包括若干多编码术语及其编码; 所述多编码术语为特定型手术操作类型;所述特定型手术操作类型执行的前提是另一 种手术操作类型;所述特定型手术操作类型及所述另一种手术操作类型为所述标准术语或 所述扩充术语; 所述多编码术语的编码为所述特定型手术操作类型的编码及所述另一种手术操作类 型的编码的组合。19. 根据权利要求16所述的中文手术操作信息的自动编码系统,还包括: 合并处理模块,用于基于预先建立的合并术语库,对所述一个或多个待编码名称进行 预处理; 所述合并术语库包括若干合并术语及其编码;其中,所述合并术语为国际疾病分类 ICD规定的可以替代至少两个同时出现的其他标准术语的单个标准术语;所述至少两个同 时出现的其他标准术语为该合并术语的合并对象;所述合并术语库还包括每一个合并术语 的全部合并对象; 所述合并处理模块,具体用于判断所述一个或多个待编码名称中,是否包含任意一个 或多个合并术语的全部合并对象,若包含,则将所述任意一个或多个合并术语的全部合并 对象替换成对应的合并术语。20. 根据权利要求16所述的中文手术操作信息的自动编码系统,还包括: 省略处理模块,用于基于预先建立的省略术语库,对所述一个或多个待编码名称进行 预处理; 所述省略术语库包括若干省略术语及其编码;其中,所述省略术语为国际疾病分类 ICD规定的可以替代至少两个同时出现的标准术语的单个标准术语;所述省略术语是所述 至少两个同时出现的标准术语中的一个;所述至少两个同时出现的标准术语为该省略术语 的省略对象;所述省略术语库还包括每一个省略术语的全部省略对象; 所述省略处理模块,具体用于对所述一个或多个待编码名称进行预处理的步骤,包括: 判断所述一个或多个待编码名称中,是否包含任意一个或多个省略术语的全部省略对象, 若包含,则将所述任意一个或多个省略术语的全部省略对象替换成对应的省略术语。
【专利摘要】本发明的实施方式提供了一种中文手术操作信息的自动编码方法及系统,该方法包括:对输入的中文手术操作信息进行自然语言处理,得到待编码名称;查找与待编码名称相匹配的标准术语或扩充术语,并将匹配成功的标准术语或扩充术语的编码,确定为待编码名称的编码;标准术语是国际疾病分类ICD中规定的手术操作名称,标准术语的编码是国际疾病分类ICD中规定的相应手术操作名称的编码;扩充术语是与标准术语具有同义关系的词语或具有属种关系的词语;扩充术语与具有同义关系或属种关系的标准术语对应的编码一致。本发明可自动、快速、准确地识别出手术操作名称并对其编码,整个过程无需人工参与,具有编码速度快、成本低、准确率高等优点。
【IPC分类】G06F17/30
【公开号】CN105069123
【申请号】CN201510496500
【发明人】金以东, 陈志永, 朱华玲
【申请人】易保互联医疗信息科技(北京)有限公司
【公开日】2015年11月18日
【申请日】2015年8月13日
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1