基于分词编码自动构建医学术语映射关系的方法以及系统的制作方法

文档序号:9810630阅读:614来源:国知局
基于分词编码自动构建医学术语映射关系的方法以及系统的制作方法
【技术领域】
[0001] 本发明涉及医疗系统数据处理方法,尤其涉及不同标准之间的医学术语转换或映 射方法以及映射系统。
【背景技术】
[0002] 医学术语是医学领域里的专业用语,用来指称医学领域里的各种事物、现象、特 性、关系和过程等(如疾病、药物、手术操作、检查检验等)。这些术语是临床信息系统表达医 学信息的必要成分。
[0003] 国际上,在很多标准化机构和组织如世界卫生组织(World Health Organization,·?)、美国国立医学图书馆(The National Library Of Medicine,NLM)、国 际医学术语标准化与研发组织(International Health Terminology Standards Development Organization,IHTSD0)等共同努力下,形成了一系列医学术语标准及术语 集,包括《国际疾病分类与代码》(ICD-10)、临床药物标准命名法(RxNorm)、《医学术语系统 命名-临床术语》(SN0MED-CT)、《观测指标标识符逻辑命名预编码系统》(L0INC)、《统一医学 语言系统》(UMLS)等,并且这些术语集得到了很好的应用,为医学信息的共享提供了必要条 件。
[0004] 国内医学术语相关标准匮乏,体系尚不完整,且大多数医学术语标准是为医疗收 费或保险而服务,如《全国医疗服务价格项目规范》、《国家基本医疗保险和工伤保险药品目 录》等。这些术语标准中的术语在粒度和表达上与临床实际应用场景中的术语都存在很大 差异,很难直接应用于临床信息系统中。而国际上成熟的相关术语集,由于语言壁皇也难以 直接应用到中文领域。因此,我国大部分医疗机构的医学信息系统创建了自己的私有术语 字典,甚至由于医疗信息系统厂商众多,同一机构的不同系统的同类术语字典(如药品术 语字典)都存在差异。这些原因导致各个临床信息系统中术语名称和编码的异构现象十分 严重,使得医疗信息系统之间无法互操作,医疗数据难以共享。对此,不同医疗信息系统之 间的信息交换则需要将不同系统的术语字典进行映射匹配。目前,这项枯燥耗时的工作只 能依赖人为努力,并且出错率比较高,成为医疗数据集成、分析和再利用的瓶颈环节。
[0005] 现有技术中公开号为CN102495895A的中国专利文献公开了一种异构数据源标准 化的方法、装置及系统,该方法包括:接收到私有术语的标准化处理请求后,获取所述标准 术语与所述私有术语的映射关系、所述标准术语所处业务场景的标准结构;采集所述私有 术语系统中的私有术语;将所述私有术语所处的业务场景的私有结构按照所述标准术语所 处相应业务场景的标准结构进行标准化;轮询结构标准化后的私有术语中每一项数据,将 每一项数据按照所述标准术语与所述私有术语的映射关系进行标准化。该技术应用于分布 式私有术语系统中。标准术语将被集中存储于标准术语系统中心中,而每家医疗机构的私 有术语集将保留在院内,标准术语系统中心与院内私有术语间的关联关系被维护在院内, 同时标准术语系统中心将会标准术语同步到院内,从而实现集中统一发布与院内个性化处 理的统一。但其都是围绕异构数据源标准化。其中获取标准术语与所述私有术语的映射关 系的方法主要是靠人工填写。
[0006] 现有技术中公开号为CN101452503的中国专利文献公开一种异构临床医疗信息共 享系统及方法,所述系统包括:术语集模块、文档模板生成模块、文档管理模块、存储临床数 据的数据库;所述术语集模块、文档模板生成模块、文档管理模块、数据库依次连接。术语集 模块,用于规范共享文档中所使用的术语;文档模板生成模块,用于定义标准临床数据文档 的组成元素及个元素之间的关系并自动生成文档模板,收集管理元数据;文档管理模块,用 于文档管理,用户通过该文档管理模块对医疗文档进行管理,进行录入、修改、查询操作、及 文档的传输和共享。该系统可以自动生成语义完整的可用于临床文档传输和共享的标准临 床文档。该系统的术语集模块涉及到将用户注册的方言术语映射到标准化的临床术语集 合,但是并没有明确说明映射的方法。

【发明内容】

[0007] 本发明提出了一种构建医学术语映射关系的方法,解决了人工术语映射效率低, 难以形成医疗信息共享的问题。
[0008] -种基于分词编码构建医学术语映射关系的方法,包括在字典A术语和字典B术语 之间建立映射关系,具体步骤为:
[0009] (1)选取样本术语,将每条样本术语划分为若干字段,并将每个字段的语汇分别进 行编码,每条样本术语中的字段包括一个主字段,其余为属性字段;
[0010] (2)将步骤(1)得到的主字段和编码存入数据库建立主字段表;
[0011] 将常用汉字以及步骤(1)中得到的属性字段的语汇建立分词字典,对分词字典中 的每个单字或词汇都标注词性、词频;
[0012] (3)基于所述分词字典对所述主字段表中的语汇进行中文分词,得到词汇以及对 应的词汇权重;
[0013] (4)基于所述分词字典对字典A术语进行中文分词,得到词汇以及对应的词性和词 汇权重以及词频,依照词性将分词结果划为分别隶属于主字段和属性字段的两部分;
[0014] (5)利用步骤(3)、步骤(4)的结果计算样本术语主字段和字典A术语主字段的两两 相关度;
[0015] (6)按照相关度的高低对样本术语主字段和字典A术语进行匹配,对字典A术语依 照匹配结果赋以相应的编码;
[0016] (7)针对字典B术语重复步骤(4)~步骤(6 ),得到字典B术语的编码;针对字典A和 字典B中具有相同编码的术语构建映射关系。
[0017] 关于中文分词:
[0018] 步骤(3)、步骤(4)中所述的中文分词,就是将一段连续的中文文字序列按照一定 的规则切分成词序列的过程,例如将"术语的映射方法"切分为"术语\的\映射\方法"。目前 中文分词算法大致可分为基于字符串匹配的分词方法、基于统计学的分词方法和基于知识 理解的分词方法3种类型。鉴于术语的特点,即单条文本长度短、本身就是词组短语形式以 及词汇范围相对稳定,本发明采用基于字符串匹配的中文分词方法就可以满足需求。
[0019] 基于字符串匹配的中文分词方法这种方法需要事先准备一个词典,称为分词字 典,然后将待分词的文本按一定扫描规则与分词字典中的词条进行匹配,匹配成功,即进行 词汇切分,否则按照其他规则处理。
[0020] 基于字符串匹配的中文分词可以采用现有中文分词工具软件,在设置分词权重后 即可以进行软件自动分词。
[0021] 步骤(1)中,样本术语可以通过收集整理我国现行的医学术语标准等作为来源。
[0022] 针对样本术语,从术语名称的表达特点着手,参照其命名规则,将术语名称划分为 若干概念字段(以下简称"字段")。
[0023] 不同字段之间并按照表达习惯进行排序,得到编码顺序。
[0024] 再将每个字段的语汇分别进行编码,注意编码位数是固定的,表达同一概念的两 个语汇要编码相同。另外,将术语中表达术语核心意义,且编码数目特别多或表达特别复杂 的字段作为主字段,其余字段作为属性字段(以下简称"属性")。
[0025]作为举例说明,药品术语的编码结构如表1所示:
[0026]表 1
[0029] 步骤(2)的主要目的是建立主字段表和自定义的分词字典。
[0030] 其中常用汉字用于将主字段分词为若干单字,分词字典中的每个单字或词汇都包 含词性和词频信息。词性可以作为主字段和属性字段的划分依据。
[0031] 这里常用汉字的词频都设为0,属性字段的词汇的词频即为步骤(1)中各个属性词 汇的编码。
[0032] 本发明在步骤(3)中采用中文分词软件进行自动分词,分词前需设定权重,而后基 于步骤(2)中分词字典对主字段表中的语汇进行分词,分词结果包含词汇和词汇权重。
[0033] 步骤(4)中,针对待映射的字典A术语和字典B术语,取一者(例如字典A术语)使用 中文分词工具,基于步骤(2)的分词字典进行分词。
[0034] 步骤(5)中计算两两相关度公式为:
[0036] 式中:
[0037] ai为字典A术语主字段中的词汇;
[0038] bj为样本术语主字段中的词汇;
[0042]步骤(6)中需要对字典A术语进行结构化编码,每一字典A术语均会找到与其主字 段相关度最高的样本术语,即步骤(6)中字典A术语的主字段采用相匹配的样本术语主字段 的编码;
[0043]当然相关度可以设置阈值,低于阈值时视为匹配失败,可以手动将该字典A术语的 主字段段补充到所述主字段表中,这样重复之前步骤,自然可以寻找到相匹配的主字段。
[0044] 以上仅是主字段的编码,字典A术语的属性字段的编码采用属性词汇的词频。
[0045] 术语分词结果的形式如下表所示:
[0046]
[0047] 而后结字典A术语中各字段采用步骤(1)中的编码顺序进行编码,得到编码结果。 [0048]下表是药品术语"小儿对乙酰氨基酚灌肠液"的编码示例:
[0050] 步骤(7)中首先按照字典A术语的处理方式获得字典B术语的编码结果,对于字典A 术语和字典B术语编码相同的术语认为是匹配的,否则,两
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1