一种中文手术操作信息的自动编码方法及系统的制作方法_3

文档序号:9350055阅读:来源:国知局
以 及本体一一对应的编码,标准术语或扩充术语被视作本体词典中的本体。
[0135] 需要说明的是,当本发明提供的中文手术操作信息的自动编码方法中使用到了前 述的假定分类术语库和/或多编码术语库时,本体词典也应当包括假定分类术语库和/或 多编码术语库(此时,假定分类术语和/或多编码术语、省略术语也被视作本体词典中的本 体),以使得切分出的第一类型子字符串或第二类型子字符串作为待编码名称时能够与假 定分类术语或多编码术语或省略术语相匹配。
[0136] 方位词典包括若干方位术语,方位术语是用于描述手术操作项目所针对的方位的 词语。例如,方位术语可以是:单侧、双侧、左侧、右侧、两侧、一侧等。
[0137] 等级词典包括若干等级术语,等级术语是用于描述手术操作项目的级别、类型的 词语。例如,等级术语可以是:A级、B级、C级、特级等。
[0138] 步骤S72的目的是将中文手术操作信息切分成具有独立语义的子字符串(第一类 型子字符串或第二类型子字符串),以有效避免将具有关联关系的多个字符分别进行识别 从而导致识别错误的问题。
[0139] 将切分出的第一类型子字符串和第二类型子字符串确定为待编码名称之后,在后 续利用实施例三中的合并术语库或实施例四中的省略术语库对待编码名称进行预处理时, 由于第一类型子字符串和第二类型子字符串对应的本体可能是扩充术语,而合并术语库中 的合并对象以及省略术语库中的省略对象均为标准术语,因此,需将第一类型子字符串和 第二类型子字符串所对应的扩充术语转换为相应的标准术语,然后再利用合并术语库或省 略术语库进行预处理。
[0140] 如图9所示,步骤S72具体包括:
[0141] 步骤S80,判断预处理后的中文手术操作信息字符串是否包含符号;如果包含符 号,则执行步骤S81 ;如果未包含符号,则执行步骤S82。
[0142] 步骤S81,将预处理后的中文手术操作信息字符串中每相邻两个符号之间的字符 作为整体与本体词典中的本体进行匹配;若匹配成功,则执行步骤S811 ;若匹配失败,则执 行步骤S812。
[0143] 步骤S811,将该相邻两个符号之间的字符切分出来作为第一类型子字符串。
[0144] 步骤S812,该相邻两个符号及其之间的字符确定为暂不切分字符串,然后执行步 骤 S83〇
[0145] 步骤S81、步骤S811、步骤S812依据的处理规则是:将相邻符号之间的全部字符作 为整体与本体进行匹配,只有匹配时才切分,否则暂时不予切分。
[0146] 例如表7所示对"心脏排出量监测,用氧耗技术,脑室穿刺,经植入导管"的切分, 其中,"心脏排出量监测,用氧耗技术"、"脑室穿刺,经植入导管"均为符号之间的全部字符, 并且可以查找到相匹配的本体,因此,分别被切分出来。
[0147] 表 7
[0148]
[0149] 步骤S82,采用机械分词法将预处理后的中文手术操作信息字符串与本体词典中 的本体进行匹配;若预处理后的中文手术操作信息字符串中的所有字符均能够与本体匹 配,则执行步骤S821 ;若预处理后的中文手术操作信息字符串中存在未能与本体匹配的单 个字符或多个连续的字符,则执行步骤S822。
[0150] 步骤S821,依据所匹配的本体将预处理后的中文手术操作信息字符串中的字符切 分出来作为第一类型子字符串。
[0151] 步骤S822,判断未能与本体匹配的单个字符或多个连续的字符是否是方位术语 或等级术语;如果是方位术语或等级术语,则执行步骤S8221 ;如果不是方位术语或等级术 语,则执行步骤S8222。
[0152] 步骤S82、步骤S821、步骤S822依据的处理规则是:采用机械分词法将预处理后的 中文手术操作信息字符串中的字符与本体进行匹配,只有全部字符都能查找到相匹配的本 体时才切分,否则暂时不予切分。
[0153] 例如表8所示为对"脑电图24小时血压监测"的切分,采用机械分词法可分别查 找到"脑电图"和"24小时血压监测"相匹配的本体,因此,分别被切分出来。
[0154] 表 8
[0155]
[0156] 步骤S82采用的机械分词法可以是正向最大匹配型,逆向最大匹配型,或最少切 分型。具体的切分过程,本实施例不再赘述。
[0157] 步骤S8221,根据未能与本体匹配的单个字符或多个连续的字符在预处理后的中 文手术操作信息字符串中的位置,将未能与本体匹配的单个字符或多个连续的字符与其之 前或之后能够与本体匹配的单个字符或多个连续的字符合并切分出来作为第二类型子字 符串,并将其余的能够与本体匹配的单个字符或多个连续的字符切分出来作为第一类型子 字符串。
[0158] 步骤S8222,将预处理后的中文手术操作信息字符串整体切分出来作为第二类型 子字符串。
[0159] 步骤S8221、步骤S8222依据的处理规则是:如果未能与本体匹配的单个字符或多 个连续的字符是方位术语或等级术语,则执行切分,并且切分时是将其与其之前或之后的 字符合并切分出来。
[0160] 例如表9所示为对"肺减容手术右侧肺修补术"的切分,采用机械分词法可分别查 找到"肺减容手术"、"肺修补术"相匹配的本体,其中的"右侧"为方位术语,因此,将"右侧" 与"肺修补术"合并切分出来,"肺减容手术"单独切分出来。
[0161] 表 9
[0162]
[0163] 步骤S83,判断暂不切分字符串中是否包含预设的特殊符号;如果暂不切分字符 串中包含特殊符号,则执行步骤S831 ;如果暂不切分字符串中不包含特殊符号,则执行步 骤 S833。
[0164] 步骤S831,查找暂不切分字符串所属的字符模型,并根据该所属的字符模型对应 的切分规则对暂不切分字符串进行切分;其中,字符模型由一预先建立的字符模型库提供, 且字符模型具有一一对应的切分规则。
[0165] 步骤S832,将切分出来的字符与本体词典中的本体进行匹配,若匹配成功,则将该 切分出来的字符确定为第一类型子字符串,若匹配失败,则将该切分出来的字符确定为第 二类型子字符串;
[0166] 步骤S833,将暂不切分字符串直接确定为第二类型子字符串。
[0167] 步骤S83、步骤S831、步骤S832、步骤S833依据的处理规则是:当暂不切分字符串 中包含预设的特殊符号时,根据暂不切分字符串所属的字符模型进行切分,否则直接切分 出来;而且将基于字符模型切分出的字符再次与本体进行匹配,将其中能够与本体直接匹 配的作为第一类型子字符串,不能够直接匹配的作为第二类型子字符串。
[0168] 例如预设的特殊符号可以包括但不限于句号、冒号、加号、分号、斜杠线等等。
[0169] 例如以下为字符模型库中的部分字符模型及其切分规则:
[0170] (1)字符模型:XAY型,A为加号、冒号;
[0171] 切分规则:将XAY作为整体切分出来;
[0172] (2)字符模型:⑶E型,且C、E之一为汉字,D为句号、分号;
[0173] 切分规则:将C、E中的汉字切分出来;
[0174] (3)字符模型:STU型,且S和/或U为单个汉字,T为斜杠线;
[0175] 切分规则:将STU作为整体切分出来。
[0176] 例如对"血脂(P)。肾脏功能检测(P) "进行切分,经查找字符模型库可知属于⑶E 型,则将"血脂⑵"、"肾脏功能检测(P) "单独切分出来。
[0177] 例如对"胸腔镜下肺修补术+肺大泡切除术"进行切分,经查找字符模型库可知属 于XAY型,则将"胸腔镜下肺修补术+肺大泡切除术"整体切分出来。
[0178] 例如对"3/4喉切除术及喉功能重建术"进行切分,经查找字符模型库可知属于 STU型,则将"3/4喉切除术及喉功能重建术"整体切分出来。
[0179] 步骤S73,将切分出的第一类型子字符串和第二类型子字符串确定为待编码名称。
[0180] 本实施例在对中文手术操作信息进行自然语言处理的过程中,充分考虑了手术医 师输入的中文手术操作信息属于自然语言、格式复杂多样、没有统一的标准等特点,利用预 先所建立的多种词典对中文手术操作信息字符串进行切分和匹配,以此将手术操作项目名 称识别出来作为待编码名称。
[0181] 实施例七
[0182] 如图10所示,为适用于本发明示例性方法的一种查找与待编码名称相匹配的标 准术语或扩充术语的【具体实施方式】,包括:
[0183] 步骤S90,若待编码名称为第一类型子字符串,则将该第一类型子字符串相匹配的 本体,确定为与该待编码名称相匹配的标准术语或扩充术语,若待编码名称为第二类型子 字符串,则对第二类型子字符串和本体词典中的每个本体进行第一维度的解析,得到第二 类型子字符串的若干第一维度解析结果,以及每个本体的若干第一维度解析结果;
[0184] 该步骤将第二类型子字符串和本体分别作为解析对象,可选地,对解析对象进行 第一维度的解析可以包括但不限于:
[0185] (1)确定解析对象中包含的方位术语,如果其中不包含方位术语,则该项解析结果 为空;
[0186] (2)确定解析对象中包含的等级术语,如果其中不包含等级术语,则该项解析结果 为空;
[0187] (3)确定解析对象中括号内的字符,如果其中不包含括号,则该项解析结果为空;
[0188] (4)确定解析对象中破折号后的字符,如果其中不包含破折号,则该项解析结果为 空;以及,
[0189] (5)确定解析对象中除方位术语、等级术语、括号内的字符、破折号后的字符以外 的字符(以下简称本体中的剩余字符),一般为解析对象的核心词干。
[0190] 当解析对象为第二类型子字符串时,其各个第一维度解析结果可以包括但不限 于:第二类型子字符串中的方位术语、第二类型子字符串中的等级术语、第二类型子字符串 中括号内的字符、第二类型子字符串中破折号后的字符、第二类型子字符串中的剩余字符。
[0191] 当解析对象为本体时,其各个第一维度解析结果可以包括但不限于:本体中的方 位术语、本体中的等级术语、本体中括号内的字符、本体中破折号后的字符、本体中的剩余 字符。
[0192] 步骤S91,将第二类型子字符串的各第一维度解析结果与本体词典中每个本体的 各第一维度的解析结果进行匹配,查找是否存在某个本体的各第一维度解析结果均与第二 类型子字符串的各第一维度解析结果相匹配;如果存在这样的本体,则执行步骤S92,如果 不存在这样的本体,则执行步骤S93。
[0193] 步骤S92,将查找到的本体确定为第二类型子字符串相匹配的本体。
[0194] 步骤S93,选取第二类型子字符串的全部第一维度解析结果中的部分第一维度解 析结果与本体词典中每个本体的全部第一维度解析结果中的部分第一维度解析结果进行 匹配,并查找是否存在某个本体的该部分第一维度解析结果与第二类型子字符串的该部分 第一维度解析结果相匹配;如果存在这样的本体,则执行步骤S931 ;如果不存在这样的本 体,则执行步骤S932。
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1