一种疾病名称标准化规范方法及规范系统与流程

文档序号:16123448发布日期:2018-11-30 23:28阅读:305来源:国知局

本发明涉及医疗信息化技术领域,尤其涉及一种疾病名称标准化规范方法及规范系统。

背景技术

目前,由于医疗人员的医疗任务繁重无法对诊断结果进行疾病标准化名称标注或编码,而且不同的医疗人员由于个人习惯等原因对同一种疾病的描述不同甚至对诊断结果进行缩写等,导致同一种疾病的名称在不同的医疗机构或不同的医疗人员之间往往呈现的内容是不同的,这给需要使用诊断结果的机构或人员带来了负担,若要求医疗人员对疾病标准化,这对于医疗人员也是一种负担。

国际疾病分类(internationalclassificationofdiseases,icd),是依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统。然而,国际疾病分类为是疾病的疾病标准化名称与疾病编号码的对应关系表。对于疾病的疾病口语化名称不适用。

随着信息技术的迅猛发展,互联网数据迸发、海量互联网小文件的实时存储与处理成为越来越多互联网应用所面临的难题。相对于大文件而言,海量小文件的实时存取会给文件系统带来巨大的压力,传统的文件系统很难快速地存取海量小文件,这严重影响到互联网应用的实时性。内存数据库技术凭借其在数据处理速度上的优势,为海量互联网小文件的实时存储与处理提供了新的方法。关系数据库的局限性导致其性能受到很大限制,并发性低,难以满足公众日益增长的需求。因此,提高矢量数据服务的实时响应速度,满足其高并发、高吞吐量要求是一个迫切需要解决的关键问题。

互联网孕育了庞大的信息海洋,而各个信息实体具有来源广、更新快、结构多样化、形式多样化等特点,这些特性也给基于web信息挖掘的搜索技术带来各种复杂和困难的问题。关于如何找出对用户来说尽可能全面同时也尽可能高价值信息的问题,各个通用搜索引擎各寻其径,总结来说大致是从网页去噪、全文相关度匹配、页面重要程度排序等方面进行优化。相关成果如提出了pagerank,hits等算法。但是随着用户信息过载的现象越来越严重,用户也表现出了只访问自己真正感兴趣的页面的倾向。google等通用搜索引擎强调面向所有用户的搜索,其搜索来源很广,主题繁杂不一,必然在搜索结果上容易出现主题相关度不高、结果繁杂等问题。

实时接收到的医疗数据可以用海量来形容,如何高效、快速、准确的获取到相应匹配的数据,是目前面对医疗数据匹配急需解决的最为关键的问题。

因此,需要一种疾病名称标准化规范方法及规范系统。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的疾病名称标准化规范方法及规范系统,能够将疾病的疾病口语化名称转换成疾病标准化名称,并且实时响应速度快、高并发、高吞吐量。

根据本发明的一个方面,提供一种疾病名称标准化规范方法,包括以下步骤:

根据查询请求中的疾病名称查询元素查找对应的疾病标准化名称;

调用疾病名称标准化规范数据库,并将疾病名称查询元素与疾病名称标准化规范数据库中预存的疾病口语化名称进行匹配;

根据与疾病名称查询元素匹配的疾病口语化名称,提取出对应的疾病标准化名称,并发送至终端。

疾病名称标准化规范数据库包括单一疾病标签总库,该单一疾病标签总库包括多个单一疾病子库标签名称;分别与各单一疾病子库标签名称链接的多个单一疾病子库,各单一疾病子库均包括疾病口语化名称存储区、疾病标准化名称存储区和疾病名称标准化翻译区,疾病口语化名称存储区用于存储多个疾病口语化名称,疾病标准化名称存储区用于存储一个疾病标准化名称,每个疾病口语化名称均与该疾病标准化名称在疾病名称标准化翻译区关联,将疾病名称查询元素与疾病口语化名称存储区中预存的疾病口语化名称进行匹配;当存在与疾病名称查询元素匹配的疾病口语化名称时,在疾病名称标准化翻译区根据该疾病口语化名称提取出对应的疾病标准化名称,并发送至终端;当不存在与疾病名称查询元素匹配的疾病口语化名称时,在同义词搜索装置上查找疾病名称查询元素的同义词,将该同义词与疾病口语化名称存储区中预存的疾病口语化名称进行匹配,并在疾病名称标准化翻译区根据与疾病名称查询元素匹配的疾病口语化名称提取出对应的疾病标准化名称,发送至终端。

上述疾病名称标准化规范方法,还包括:

对疾病名称查询元素进行最大化分词,对分词进行同义词关联,并对关联到的同义词生成同义词族,将同义词族中各元素与疾病口语化名称存储区中预存的疾病口语化名称进行匹配。

上述疾病名称标准化规范方法,还包括:

对疾病名称查询元素进行停用词的去除。

上述疾病名称标准化规范方法,还包括:

接收待查询疾病名称,与相应的标准化名称一起存储,为下一次查询提供参考。

根据本发明的另一方面,提供一种疾病名称标准化规范系统,包括:

疾病名称查询模块,用于根据查询请求中的疾病名称查询元素查找对应的疾病标准化名称;疾病名称匹配模块,用于调用疾病名称标准化规范数据库,并将疾病名称查询元素与疾病名称标准化规范数据库中预存的疾病口语化名称进行匹配;疾病名称提取模块,根据与疾病名称查询元素匹配的疾病口语化名称,提取出对应的疾病标准化名称,并发送至终端。

上述疾病名称标准化规范系统,还包括:同义词搜索装置,用于在不存在与疾病名称查询元素匹配的疾病口语化名称时,查找疾病名称查询元素的同义词,

疾病名称标准化规范数据库包括单一疾病标签总库,该单一疾病标签总库包括多个单一疾病子库标签名称;多个分别与各单一疾病子库标签名称链接的单一疾病子库,各单一疾病子库均包括疾病口语化名称存储区、疾病标准化名称存储区和疾病名称标准化翻译区,疾病口语化名称存储区用于存储多个疾病口语化名称,疾病标准化名称存储区用于存储一个疾病标准化名称,每个疾病口语化名称均与该疾病标准化名称在疾病名称标准化翻译区关联,

疾病名称匹配模块还用于将疾病名称查询元素与疾病口语化名称存储区中预存的疾病口语化名称进行匹配,将该同义词与疾病口语化名称存储区中预存的疾病口语化名称进行匹配;

疾病名称提取模块还用于在存在与疾病名称查询元素匹配的疾病口语化名称时,在疾病名称标准化翻译区根据该疾病口语化名称提取出对应的疾病标准化名称发送至终端,并在疾病名称标准化翻译区根据与疾病名称查询元素匹配的疾病口语化名称提取出对应的疾病标准化名称发送至终端。

疾病名称匹配模块还用于对疾病名称查询元素进行最大化分词,对分词进行同义词关联,并对关联到的同义词生成同义词族,将同义词族中各元素与疾病名称标准化规范数据库中预存的疾病口语化名称进行匹配。

疾病名称查询模块还用于对疾病名称查询元素进行停用词的去除。

上述疾病名称标准化规范系统,还包括:疾病名称缓存模块,用于接收待查询疾病名称,与相应的标准化名称一起存储,为下一次查询提供参考。

本发明与现有技术相比,具有以下优点:

1.本发明的疾病名称标准化规范方法及规范系统通过疾病名称标准化规范数据库将疾病名称的疾病口语化名称转换成疾病标准化名称,为医疗信息的一致性服务提供了有效支撑,确保高效、快速、准确的查询。

2.本发明的疾病名称标准化规范方法及规范系统对疾病名称查询元素进行停用词的去除,以防止由于停用词导致无法查到对应的疾病标准化名称。

3.本发明的疾病名称标准化规范方法及规范系统接收待查询疾病名称,与相应的标准化名称一起存储,为下一次查询提供参考,使得疾病名称标准化规范数据库能够确保实时更新,为标准化名称的查询提高效率。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的设置。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本发明的疾病名称标准化规范方法步骤图;

图2为本发明的疾病名称标准化规范方法系统框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所设置。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。

图1为本发明的疾病名称标准化规范方法步骤图,如图1所示,本发明提供的疾病名称标准化规范方法,包括以下步骤:根据查询请求中的疾病名称查询元素查找对应的疾病标准化名称;调用疾病名称标准化规范数据库,并将疾病名称查询元素与疾病名称标准化规范数据库中预存的疾病口语化名称进行匹配;根据与疾病名称查询元素匹配的疾病口语化名称,提取出对应的疾病标准化名称,并发送至终端。本发明的疾病名称标准化规范方法通过疾病名称标准化规范数据库将疾病名称的疾病口语化名称转换成疾病标准化名称,为医疗信息的一致性服务提供了有效支撑,确保高效、快速、准确的查询。

疾病名称标准化规范数据库包括单一疾病标签总库,该单一疾病标签总库包括多个单一疾病子库标签名称;多个分别与各单一疾病子库标签名称链接的单一疾病子库,各单一疾病子库均包括疾病口语化名称存储区、疾病标准化名称存储区和疾病名称标准化翻译区,疾病口语化名称存储区用于存储多个疾病口语化名称,疾病标准化名称存储区用于存储一个疾病标准化名称,每个疾病口语化名称均与该疾病标准化名称在疾病名称标准化翻译区关联,将疾病名称查询元素与疾病口语化名称存储区中预存的疾病口语化名称进行匹配;当存在与疾病名称查询元素匹配的疾病口语化名称时,在疾病名称标准化翻译区根据该疾病口语化名称提取出对应的疾病标准化名称,并发送至终端;当不存在与疾病名称查询元素匹配的疾病口语化名称时,在同义词搜索装置上查找疾病名称查询元素的同义词,将该同义词与疾病口语化名称存储区中预存的疾病口语化名称进行匹配,并在疾病名称标准化翻译区根据与疾病名称查询元素匹配的疾病口语化名称提取出对应的疾病标准化名称,发送至终端。本发明的疾病名称标准化规范方法中,当不存在与疾病名称查询元素匹配的疾病口语化名称时,在同义词搜索装置上查找疾病名称查询元素的同义词,将该同义词与疾病口语化名称存储区中预存的疾病口语化名称进行匹配,并在疾病名称标准化翻译区根据与疾病名称查询元素匹配的疾病口语化名称提取出对应的疾病标准化名称,发送至终端,为疾病口语化名称的标准化提供更大的可能性。同义词搜索装置可以是第三方搜索引擎。

疾病名称标准化规范数据库的建立方法包括:根据疾病种类例如icd10中的疾病种类建立单一疾病标签总库,该单一疾病标签总库包括多个单一疾病子库标签名称,每一个单一疾病子库标签名称对应一个单一疾病子库;分别建立疾病口语化名称存储区、疾病标准化名称存储区和疾病名称标准化翻译区,并聚合成单一疾病子库夹;将多个疾病口语化名称填入疾病口语化名称存储区,将一个疾病标准化填入疾病标准化名称存储区,并将映射关联模型填入疾病名称标准化翻译区,以生成单一疾病子库。

疾病名称标准化规范数据库的建立方法,还包括:实时接收未存储的疾病口语化名称,并将该疾病口语化名称纳入对应的疾病口语化名称存储区中,以实时更新单一疾病子库。

疾病名称标准化规范数据库的建立方法,还包括:对各单一疾病子库中的描述数据进行垂直拆分,并依据时间维度使用sqoop(sqoop是一款开源的工具,主要用于在hadoop(hive)与传统的数据库(mysql、postgresql...)间进行数据的传递)工具对数据进行分片存储。

利用hivepartitioning(hive分区)对数据进行分片存储。

疾病名称标准化规范数据库的建立方法,还包括:对各单一疾病子库中的描述数据进行去重处理。

疾病名称标准化规范数据库的建立方法,还包括:对各单一疾病子库中的描述数据进行统一格式处理。

疾病名称标准化规范数据库的建立方法,还包括:对各单一疾病子库中的描述数据进行全角半角转换处理。

全角半角转换使用unicode(统一码)值,全角空格和半角空格差值是12256,其他全角和半角unicode差值为65248。

疾病名称标准化规范数据库的建立方法,还包括:对疾病口语化名称进行nlp训练,使得疾病口语化名称与分词对应关联。

nlp(naturallanguageprocessing),自然语言处理,又称nlu(naturallanguageunderstanding)自然语言理解,是语言信息处理的分支,也是人工智能的核心课题,简单来说就是让计算机理解自然语言。

nlp研究的内容和范围都很多,主要研究如下的一些方面。

机器翻译(machinetranslation,mt):用机器把一种语言的文字翻译成为另外一种语言;自动生成文摘(automaticsummarizing):对原来的文本的内容和含义先理解,然后总结和概括,最后用简短的话语表述出来;对相关信息进行检索(informationretrieval):用计算机系统从海量文本中找到符合用户需求的相关文本,如果面向两种及两种以上的语言则称为跨语言信息检索;文本分类(documentcategorization):对于给定的一个文本,使用计算机对它按照一定的原则划分为相应的类别;回答问题系统(question-answeringsystem):对于提出的问题,用计算机进行获取,理解问题的意思,再找到问题的答案,并进行回答;对信息进行过滤(informationfiltering):主要对网络中的不良信息进行过滤和识别;信息抽取(informationextraction):从文本中抽取特定事件或事实信息,信息抽取系统通常以信息检索系统的输出为输入,而且能提高信息检索系统的性能;文本挖掘(textmining):也叫数据挖掘,是从文本中获得高质量信息的过程;舆情分析(publicopinionanalysis):是群众在网络上围绕某个社会事件或言论对管理这所抱有的政治态度,是一项十分复杂,涉及面众多的综合性技术;隐喻计算(metaphoricalcomputation):用某事物或其某些特征来描述另一事物的语言现象;自动纠错和自动校对(automaticproofreading):进行文本内容的核对,以及纠正错误;作文自动评分:自动对作文的质量和写作的水平进行评价和打分;光读字符辨识(opiticalcharacterrecognition,ocr):将手写的或印刷的文字进行识别,然后再将它们变换成电子文本;使用相应的技术转换为对应的书面语表示,也称自动语音识别(asr);文本-语言转换(text-to-speechconvension):把文字的数据转换成为语音数据;语音的识别/验证/认证(speakerrecognition/identification/verification):声学分析说话者的语音样本,从而对说话者的身份进行判断。

以上研究内容覆盖面十分广泛,一般会涉及自然语言的形态学、语法学,语用学及语义学等多个方面。归根到底,实现自然语言处理最关键要解决的就是歧义消解问题和未知语法现象的处理。

上述疾病名称标准化规范方法,还包括:对疾病名称查询元素进行最大化分词,对分词进行同义词关联,并对关联到的同义词生成同义词族,将同义词族中各元素与疾病口语化名称存储区中预存的疾病口语化名称进行匹配。

上述疾病名称标准化规范方法,还包括:对疾病名称查询元素进行停用词的去除。本发明的疾病名称标准化规范方法对疾病名称查询元素进行停用词的去除,以防止由于疾病名称查询元素中有空格或由于格式等问题导致无法查到对应的疾病标准化名称。

上述疾病名称标准化规范方法,还包括:接收待查询疾病名称,与相应的标准化名称一起存储,为下一次查询提供参考。本发明的疾病名称标准化规范方法接收待查询疾病名称,与相应的标准化名称一起存储,为下一次查询提供参考,使得疾病名称标准化规范数据库能够确保实时更新,为同一个标准化名称实时更新最新的疾病口语化名称,为标准化名称的查询提高概率。

图2为本发明的疾病名称标准化规范方法系统框图,如图2所示,本发明提供的疾病名称标准化规范系统,包括:疾病名称查询模块,用于根据查询请求中的疾病名称查询元素查找对应的疾病标准化名称;疾病名称匹配模块,用于调用疾病名称标准化规范数据库,并将疾病名称查询元素与疾病名称标准化规范数据库中预存的疾病口语化名称进行匹配;疾病名称提取模块,根据与疾病名称查询元素匹配的疾病口语化名称,提取出对应的疾病标准化名称,并发送至终端。本发明的疾病名称标准化规范系统通过疾病名称标准化规范数据库将疾病名称的疾病口语化名称转换成疾病标准化名称,为医疗信息的一致性服务提供了有效支撑,确保高效、快速、准确的查询。

上述疾病名称标准化规范系统,还包括:同义词搜索装置,用于在不存在与疾病名称查询元素匹配的疾病口语化名称时,查找疾病名称查询元素的同义词,疾病名称标准化规范数据库包括单一疾病标签总库,该单一疾病标签总库包括多个单一疾病子库标签名称;多个分别与各单一疾病子库标签名称链接的单一疾病子库,各单一疾病子库均包括疾病口语化名称存储区、疾病标准化名称存储区和疾病名称标准化翻译区,疾病口语化名称存储区用于存储多个疾病口语化名称,疾病标准化名称存储区用于存储一个疾病标准化名称,每个疾病口语化名称均与该疾病标准化名称在疾病名称标准化翻译区关联,疾病名称匹配模块还用于将疾病名称查询元素与疾病口语化名称存储区中预存的疾病口语化名称进行匹配,将该同义词与疾病口语化名称存储区中预存的疾病口语化名称进行匹配;疾病名称提取模块还用于在存在与疾病名称查询元素匹配的疾病口语化名称时,在疾病名称标准化翻译区根据该疾病口语化名称提取出对应的疾病标准化名称发送至终端,并在疾病名称标准化翻译区根据与疾病名称查询元素匹配的疾病口语化名称提取出对应的疾病标准化名称发送至终端。本发明的疾病名称标准化规范系统中,当不存在与疾病名称查询元素匹配的疾病口语化名称时,在同义词搜索装置上查找疾病名称查询元素的同义词,将该同义词与疾病口语化名称存储区中预存的疾病口语化名称进行匹配,并在疾病名称标准化翻译区根据与疾病名称查询元素匹配的疾病口语化名称提取出对应的疾病标准化名称,发送至终端,为疾病口语化名称的标准化提供更大的可能性。

疾病名称匹配模块还用于对疾病名称查询元素进行最大化分词,对分词进行同义词关联,并对关联到的同义词生成同义词族,将同义词族中各元素与疾病名称标准化规范数据库中预存的疾病口语化名称进行匹配。例如,将用户输入的关键词进行分词、同义词匹配处理,为了能够建立全文索引所需要的分词,在完成对关键词的解析之后,需要对关键词进行分词、同义词的处理,其中,中文分词器基于最大正向匹配算法进行分词,将得到的分词词条发送至疾病名称缓存模块。

疾病名称查询模块还用于对疾病名称查询元素进行停用词的去除。例如,在查询模块中,提取用户输入的关键词时,通过自然语义处理技术,结合医疗专业术语的语义结构,按照医学逻辑对用户输入的文字进行有效信息提取,如去停用词是指那些在文本中出现次数较多,但是对文本分类没有指导意义的词,例如“型”、“性”、“征”等名词,“一期”、“二期”等数量词,“()”、“[]”等标点符号,这些词在后续分类选取特征之前都应该去掉,防止对分类结果造成影响。本发明的疾病名称标准化规范系统对疾病名称查询元素进行停用词的去除,以防止由于疾病名称查询元素中有空格或由于格式等问题导致无法查到对应的疾病标准化名称。

上述疾病名称标准化规范系统,还包括:疾病名称缓存模块,用于接收待查询疾病名称,与相应的标准化名称一起存储,为下一次查询提供参考。本发明的疾病名称标准化规范系统接收待查询疾病名称,与相应的标准化名称一起存储,为下一次查询提供参考,使得疾病名称标准化规范数据库能够确保实时更新,为同一个标准化名称实时更新最新的疾病口语化名称,为标准化名称的查询提高概率。例如,在疾病名称缓存模块中,先从疾病名称标准化规范数据库中搜索分词,如果搜到,则发送至终端,该疾病名称缓存模块主要是针对用户输入的关键词解析得到分词进行查询,把解析后的分词搜索请求发到各个分片上进行分布式查询。其中,存储系统使用的是第三方的redis。查询的标准化名称集发送到终端,未查到标准化名称的分词集发送到同义词搜索装置。

redis是于2009年首次发布的开源key-value模型的内存数据库,它使用c语言写成,但其支持多种语言接口,如c++、c#、java、javascript、python等。redis把整个数据库系统加载到内存中进行操作的同时,定期通过异步操作把数据flush到硬盘上进行保存,服务器重启后,数据不会丢失。

在同义词搜索装置中,如果未查到标准化名称,分词合并去重后,遍历未查到标准化名称的分词集进行搜索,同义词搜索装置对疾病名称缓存模块中未查到标准化名称的分词进行数据搜集处理,并把这些词汇加入到疾病名称标准化规范数据库的词库中增加新分词的功能,为实现在多个索引列上支持一个或多个分词检索,采用多域搜索生成query对象,在各个es节点进行分布式检索索引文件,将各节点中符合条件的结果进行合并、排序,其中全文检索引擎使用的是第三方的elasticsearch。将该结果集与分词建立对应关系,设置于redis进行填充,并将该结果集发送至结果输出模块。

同义词搜索装置采用垂直搜索引擎。

垂直搜索引擎主要是为了满足特定领域、特定人群或者特定需求而产生的。垂直搜索引擎的搜索策略很严谨,在通用搜索引擎技术的基础上突出其专业化、便捷化、个性化的特点。

相比通用搜索引擎,垂直搜索引擎有以下一些特点和优势:垂直搜索引擎只关注特定领域的资源,以至于可以深入的挖掘资源,寻找资源的相互关系和潜在价值;同样的,因为注重于在特定领域的检索,垂直搜索引擎面对的用户往往具有很多的行业共性,因此垂直搜索引擎可以更好的理解用户的搜索语句和搜索期望;用户在领域内能够有明确的搜索过程、搜索历史,并能够产生一定的用户粘性,基于这种用户粘性,垂直搜索引擎可以更好的理解和发现用户的真实搜索意图;在结果反馈上,结合通用搜索引擎的pagerank以及hits权威模型等策略,垂直搜索引擎在进行结果排序的过程中更专注主题相关度、用户在领域内的特性以及用户选择反馈的影响。

在垂直搜索引擎中,核心是领域内主题相关的丰富数据。这些数据的来源主要依靠两个途径获取,一是依靠本身的数据积累,一是依靠从互联网中各种各样的信息中抓取相关的数据。

其中,elasticsearch是一个可用于构建搜索引擎的软件工具,它一个支持分布式、多租户、restful设计的基于lucene的开源搜索引擎,让全文搜索变得简单。更重要的是,它分布式的实时文件存储,每个字段都被索引并可被搜索并且可以扩展到上百台服务器,处理pb级结构化或非结构化数据。当实时建立索引并检索时,elasticsearch的检索速度明显优势显著。其基本特征如下:

索引:elasticsearch将它的数据存储在一个或多个索引(index)中,用sql领域的术语来类比,索引就像数据库,可以向索引写入文档或者从索引中读取文档,并通过在elasticsearch内部使用lucene将数据写入索引或从索引中检索数据,elasticsearch中的索引可能由一个或多个lucene索引构成,具体细节由elasticsearch的索引分片(shard)、复制(replica)机制及其配置决定;文档:文档(document)是elasticsearch世界中的主要实体(对lucene来说也是如此),对所有使用elasticsearch的案例来说,它们最终都可以归结为对文档的搜索,文档由字段构成,每个字段有它的字段名以及一个或多个字段值(在这种情况下,该字段被称为是多值的,即文档中有多个同名字段),文档之间可能有各自不同的字段集合,且文档并没有固定的模式或强制的结构;映射:所有文档在写入索引前都需要先进行分析,用户可以设置一些参数,来决定如何将输入文本分割为词条,哪些词条应该被过滤掉,或哪些附加处理是有必要被调用的(如移除html标签),此外,elasticsearch也提供了各种特性,如排序时所需的字段内容信息;类型:elasticsearch中每个文档都有与之对应的类型(type)定义,存储多种文档类型,并为不同文档类型提供不同的映射;节点:单个的elasticsearch服务实例称为节点(node),很多时候部署一个elasticsearch节点就足以应付大多数简单的应用,但是容错性或在数据膨胀到单机无法应付这些状况时,会更倾向于使用多节点的elasticsearch集群。

由于海量互联网小文件实时存取所面临的另一个难题是海量小文件的实时检索问题。首先,由于面向互联网应用,数据库需要不断存储新的互联网文件,这给索引结构的更新维护带来了压力,如果索引结构维护的开销过大,将对系统的性能造成影响。另外,redis是典型的键值数据库,在处理基于主键的查询操作上具有突出的性能优势。因此,本申请提出将elasticsearch搜索引擎与redis数据库结合的的轻量级检索策略。

上述疾病名称标准化规范方法系统,还包括:结果输出模块,用于合并疾病名称缓存模块和同义词搜索装置得到的结果集,并按照规则进行排序后,发送至终端。

上述疾病名称标准化规范方法系统,还包括:疾病名称纠正模块,用于检查用户的输入是否有错别字,若有,则纠正该错别字。例如,将用户输入的原始自然语言表达分析处理为结构化的可用数据,通过这一阶段对已知医学分词的数据集的处理,针对专科医疗领域的专业词汇,需要根据新词算法进行自动化的纠正功能。

通过本发明的疾病名称标准化规范方法及规范系统智能提取标准化名称,并且能够允许医疗人员自由选择标准化名称,以防止诊断结果有笔误或查看诊断结果的人员无法判断疾病的类型。

通过使用本发明的疾病名称标准化规范方法及规范系统极大的提高了诊断结果识别效率,例如一家保险公司,需要判断的疾病种类少则上千、多则上万,如果每次判断都需要把保险公司的工作人员通过人工查找疾病的标准化名称,会浪费很多时间,让疾病的标准化名称变成了复杂的劳动,而且由于是非专业人员,很容易出现判断错误的现象,但采用本发明的疾病名称标准化规范方法及规范系统查询疾病的标准化名称,极大提高了保险公司的工作人员的效率。

在本发明中,即通过运用云端大数据分析、智能切分词、完整专业词库、快速搜索引擎等先进技术,自动完成标准化名称匹配工作,代替人工识别诊断结果和查表。因此,本发明能够帮助识别诊断结果,而且准确率高。

实施例一

当本发明处理对外api(applicationprogramminginterface,应用程序编程接口)时,具体过程如下:

s11:获取用户输入的关键词,并处理关键词中的特殊符号和空格,生成keyword;

s12:对处理过的关键词进行纠正处理,将错别字纠正成正确拼写,例如将keywood修改成keyword;

s13:对纠正后的关键词进行分词,使用最大化分词,并对分词进行同义词关联,关联到的同义词生成同义词族,对关键词进行分词后,得到多个分词集,标记为keyword1,keywork2...keywordn;

s14:分好词之后,遍历分词集,在疾病名称标准化规范数据库中搜索,如果搜到标准化名称,则返回结果输出模块,分词结果标记成result1,result2...resultn,未搜到标准化名称,则保存到未搜到集中,标记为nothit1,nothit2...nothitn,待进入同义词搜索装置;

s15:同义词搜索装置,未搜到的关键词在elasticsearch中进行搜索,即对nothit1,nothit2...nothitn进行遍历,得到结果result1,result2...resultn;

s16:将得到的结果集中的result1,result2...resultn进行遍历,缓存至redis中,并设置过期时间,以免缓存溢满。

实施例二

将dmⅱ输入名称查询模块,名称纠正模块将dmⅱ的格式统一成标准格式例如无空格半角格式,名称匹配模块将标准格式的dmⅱ与疾病名称标准化规范数据库中预存的疾病口语化名称,例如在各单一疾病子库中进行匹配,在包括糖尿病二型、ndm、dmⅱ等疾病口语化名称和标准化名称e71.000的单一疾病子库中找到与疾病名称查询元素dmⅱ匹配的疾病口语化名称dmⅱ,名称提取模块将标准化名称e71.000提取出来发送至终端。

因此,在本发明的方法中,获取实时疾病诊断信息;应用层使用redis作为应用层数据集缓存,然后基于最大正向匹配算法进行分词处理,基于elasticsearch进行分词搜索来供前端应用程序使用,经过预设的单一疾病库的疾病识别模型对所获实时用户输入的关键词特征进行分析,以确定所获实时疾病名称的诊断内容是否为规范、标准化疾病名;若确认所获实时疾病名称的诊断内容不规范,则发送到第三方识别系统进行再次识别及归类。本发明能够及时将检索的关键词通过分层处理,准确辨识及处理疾病诊断的规范化,数据相对独立,容错性高,数据可追溯性也比较强,可以兼顾高并发数据处理和前端应用的低延迟交互需求。

本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1