病历数据处理方法、装置、计算机设备和存储介质与流程

文档序号：16636851发布日期：2019-01-16 07:06阅读：166来源：国知局

本申请涉及计算机应用技术领域，特别是涉及一种病历数据处理方法、装置、计算机设备和存储介质。

背景技术：

随着计算机应用技术的发展，基于计算机实现临床辅助决策在医疗领域得到越来越多的应用。

目前临床辅助决策系统多借助于庞大医学知识库及繁杂的医学规则实现，然而，由于临床辅助决策推送的诊疗方案难以预测最终的治疗结果，缺乏真实数据验证，医生选择时缺乏可供参考的依据，只能根据自身经验进行判断，不仅效率低下，而且由于各个医生的经验、学历学平等不同，导致整体的准确性并不高。

技术实现要素：

基于此，有必要针对上述技术问题，提供一种能够提高临床辅助决策的效率和准确性的病历数据处理方法、装置、计算机设备和存储介质。

一种病历数据处理方法，所述方法包括：

从来源病历中提取特征词得到特征词集合，所述特征词集合中包括身份特征词以及病理特征词；

计算所述特征词集合与历史病历集合中各个历史病历对应的特征词集合的匹配度，根据计算结果从所述历史病历集合中选取参考病历，得到参考病历集合；

根据所述身份特征词采用已训练的分类模型得到所述来源病历对应的患者所属的患者类别；

获取所述患者类别对应的筛选因子，根据所述筛选因子对所述参考病历集合中各个参考病历进行排序，根据参考病历排序结果选取第一预设数量的所述参考病历作为目标参考病历；

将所述目标参考病历发送至医生终端。

在其中一个实施例中，所述从来源病历中提取特征词得到特征词集合，包括：

对所述来源病历进行分词，得到分词结果；

将所述分词结果中各个词语分别与预先建立的医疗词汇库中的词语进行匹配；

将匹配成功的词语作为所述来源病历对应的特征词。

在其中一个实施例中，所述从来源病历中提取特征词得到特征词集合之前，包括：

从预先确定的数据源获取医疗数据；

从所述医疗数据中提取每一种疾病类型对应的一个或多个医疗词汇；

将医疗词汇与其对应的疾病类型建立映射关系，根据不同类型疾病与其对应的医疗词汇的映射关系建立医疗词汇库。

在其中一个实施例中，所述计算所述特征词集合与历史病历集合中各个历史病历对应的特征词集合的匹配度，包括：

从所述来源病历对应的特征词集合中提取关键词，得到所述来源病历对应的第一关键词集合；

从所述历史病历对应的特征词集合中提取关键词，得到所述历史病历对应的第二关键词集合；

根据所述第一关键词集合及所述第二关键词集合获取与所述来源病历对应的第一词频向量；

根据所述第一关键词集合及所述第二关键词集合获取与所述历史病历对应的第二词频向量；

计算所述第一词频向量与所述第二词频向量之间的夹角余弦值得到匹配度。

在其中一个实施例中，所述从所述来源病历对应的特征词集合中提取关键词，得到所述来源病历对应的第一关键词集合，包括

计算所述来源病历对应的特征词集合中各个特征词对应的词频及逆向文件频率；

根据所述词频及所述逆向文件频率得到所述特征词对应的特征权重；

根据所述特征权重对各个所述特征词进行排序，根据特征词排序结果选取第二预设数量的特征词作为关键词，得到第一关键词集合。

在其中一个实施例中，当所述筛选因子的数量为第三预设数量时，所述根据所述筛选因子对所述参考病历集合中各个参考病历进行排序，包括：

分别获取各个筛选因子的排序权重及各个所述筛选因子的初步排序结果；

根据所述排序权重及所述初步排序结果计算各个所述参考病历对应的排序得分；

根据所述排序得分对各个所述参考病历进行排序。

一种病历数据处理装置，所述装置包括：

特征词提取模块，用于从来源病历中提取特征词得到特征词集合，所述特征词集合中包括身份特征词以及病理特征词；

匹配度计算模块，用于计算所述特征词集合与历史病历集合中各个历史病历对应的特征词集合的匹配度，根据计算结果从所述历史病历集合中选取参考病历，得到参考病历集合；

患者类别获取模块，用于根据所述身份特征词采用已训练的分类模型得到所述来源病历对应的患者所属的患者类别；

排序模块，用于获取所述患者类别对应的筛选因子，根据所述筛选因子对所述参考病历集合中各个参考病历进行排序，根据参考病历排序结果选取第一预设数量的所述参考病历作为目标参考病历；

发送模块，用于将所述目标参考病历发送至医生终端。

在其中一个实施例中，所述匹配度计算模块用于从所述来源病历对应的特征词集合中提取关键词，得到所述来源病历对应的第一关键词集合，从所述历史病历对应的特征词集合中提取关键词，得到所述历史病历对应的第二关键词集合，根据所述第一关键词集合和所述第二关键词集合分别得到所述来源病历对应的第一词频向量及所述历史病历对应的第二词频向量，计算所述第一词频向量与所述第二词频向量之间的夹角余弦值得到匹配度。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述病历数据处理方法所述的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述病历数据处理方法所述的步骤。

上述病历数据处理方法、装置、计算机设备和存储介质，首先从来源病历提取特征词，将特征词与历史病历对应的特征词进行匹配，根据匹配度来选取参考病历，然后根据特征词中的身份特征词得到来源病历对应的患者类别，进而根据患者类型对参考病历进行排序后，根据排序结果选取一定数量的参考病历作为目标参考病历，最后将这些目标参考病历发送至医生终端，由于这些目标参考病历与来源病历的相似度较大，且这些历史历对应的诊疗方案、诊疗效果都是已经确定的，因此，可作为医生临床决策时的参考数据，由于这些参考数据以事实为依据，真实可靠，相较于医生根据自身经验进行判断，不仅提高了效率，而且准确性更好。

附图说明

图1为一个实施例中病历数据处理方法的应用场景图；

图2为一个实施例中病历数据处理方法的流程示意图；

图3为一个实施例中图2中步骤s202的流程示意图；

图4为一个实施例中图2中步骤s204的流程示意图；

图5为一个实施例中病历数据处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的病历数据处理方法，可以应用于如图1所示的应用环境中。其中，医生终端102通过网络与服务器104进行通信。当需要进行辅助诊疗决策时，医生可通过医生终端将患者的病历发送至服务器104，服务器104接收到来源病历后，从来源病历中提取特征词得到特征词集合，该特征词集合包括患者的身份特征词以及病理特征词，计算该特征词集合与历史病史数据库中各个历史病历对应的特征词集合的匹配度，根据计算结果从历史病历集合中选取参考病历，得到参考病历集合，将身份特征词输入已训练的分类模型得到患者所属的患者类别，获取患者类别对应的筛选因子，根据筛选因子对参考病历集合中各个参考病历进行排序，根据参考病历排序结果选取第一预设数量的参考病历作为目标参考病历，最后将目标参考病历发送至医生终端102。

其中，医生终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种病历数据处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤s202，从来源病历中提取特征词得到特征词集合，特征词集合中包括身份特征词以及病理特征词。

具体地，来源病历指的是需要通过临床辅助决策来确定诊疗方案的患者的病历，特征词可以包含患者的身份特征词和病理特征词，身份特征词如性别、年龄、身高、体重、职业等，病理特征词可以是疾病部位、疾病名称、症状表现、过往病史、用药禁忌，等等。

从来源病历提取特征词，可以先对来源病历进行分词，然后从分词结果中提取与患者身份相关的词作为身份特征词，并提取与患者病情相关的词作为病理特征词。其中，分词结果指的是分词后得到的一个一个的词语组成的词语序列。如，“我肚子痛”分词后得到的分词结果可以为：我/肚子/痛。

在一个实施例中，从分词结果中提取与患者身份相关的词词可以是将分词结果中各个词与身份特征词对应的类目词进行匹配，当匹配成功时，获取该匹配成功的词语的下一个词得到该类目词对应的特征词。其中，类目词包括“姓名”“性别”、“年龄”“身高”“体重”等等，如，对某个来源病历进行分词得到的分词结果包括：姓名/张三/性别/男/年龄/25/身高/174cm……，则将该分词结果中各个词与类目词依次进行匹配时，首先匹配上的为“姓名”，获取“姓名”的下一次“张三”作为姓名对应的特征词，然后匹配上的为“性别”，获取性别对应的下一个词“男”作为“性别”对应的特征词，依次类推，直到所有的类目词匹配完毕，得到该患者对应的身份特征词。

在一个实施例中，从分词结果中提取与病理特征词相关的特征词，可以是将分词结果与预先建立的医疗词汇库中的词语进行匹配，将匹配成功的词作为病理特征词。

步骤s204，计算特征词集合与历史病历集合中各个历史病历对应的特征词集合的匹配度，根据计算结果从历史病历集合中选取参考病历，得到参考病历集合。

其中，匹配度用于衡量来源病历与历史病历的相似程度，匹配度越大，说明来源病历与历史病历的相似程度越高。在本实施例中，对于历史病历数据库中各个历史病历，事先也都进行了特征词提取，提取的特征词同样包括身份特征词和病理特征词，因此，可通过计算来源病历对应的特征词与历史病历对应的特征词的匹配度来得到来源病历与历史病历之间的匹配度，相较于直接计算来源病历与历史病历的匹配度，可以大大减少计算量。

进一步，计算出匹配度后，可根据匹配度计算结果从历史病历集合中选取参考病历。在一个实施例中，可根据匹配度大小对各个历史病历进行排序，根据排序结果来选取参考病历，例如，可根据匹配度大小对历史病历集合中各个历史病历进行降序排列，然后选取排序在前的预设数量的历史病历作为参考病历，其中，预设数量可根据需要进行设定和更改。在另一个实施例中，可设定一个匹配度的阈值，将匹配度大于该阈值的历史病历作为参考病历。

步骤s206，根据身份特征词采用已训练的分类模型得到来源病历对应的患者所属的患者类别。

具体地，分类模型是根据训练数据进行模型训练得到的，用于根据患者的个人信息对患者进行分类。其中，训练数据指的是患者类别已经确定的历史患者的身份特征词。

对于历史病历集合中各个历史病历对应的历史患者，可首先通过人工分类地方式对这些患者根据其对应的身份特征词进行分类，得到这些患者对应的患者类别，然后将这些历史患者对应的身份特征词映射至向量空间得到输入向量集合，将输入向量集合中各个输入向量依次作为分类模型的输入，将这些历史患者对应的患者类别映射至向量空间得到输入向量对应的输出向量集合，将输出向量集合中各个输出向量依次作为其对应的输入向量的期望的输出对分类模型进行训练，不断调整分类模型的参数，使得分类模型的实际输出等于期望的输出，最终得到训练好的分类模型。其中，分类模型包括但不限于svm(supportvectormachine,支持向量机)模型、逻辑回归模型、贝叶斯模型等等。训练的过程可采用最小二乘法和梯度下降等算法。

在本实施例中，根据患者对应的身份特征词采用已训练好的分类模型，可首先将患者的身份特征词映射至向量空间，例如，可采用word2vec将身份特征词中各个特征词映射至向量空间得到各个特征词对应的特征向量，然后将这些特征向量输入到已训练好的分类模型中，输出对应的患者类别。其中，患者类别为事先设定的多个患者类别中的其中一个。

步骤s208，获取患者类别对应的筛选因子，根据筛选因子对参考病历集合中各个参考病历进行排序，根据参考病历排序结果选取第一预设数量的参考病历作为目标参考病历。

具体地，筛选因子用于从参考病历集合筛选目标参考病历，目标参考病历用于为来源病历对应的临床辅助决策提供依据，筛选因子包括但不限于治疗价格、住院时长、预期疗效等等。对于每一个患者类别，事先根据其对应的身份特征词设定了对应的筛选因子，因此，当根据身份特征词得到对应的患者类别后，可根据患者类别查找到其对应的筛选因子。可以理解，各个患者类别对应的筛选因子可以是一个也可以是多个，当有多个筛选因子时，可对各个筛选因子设置对应的权重。

进一步，获取到筛选因子后，可根据筛选因子对参考病历集合中的各个筛选因子进行排序。具体地，当筛选因子只有一个时，可直接根据这一个筛选因子对参考病历进行排序；当有多个筛选因子时，根据各个筛选因子对应的权重对病历集合中各个参考病历进行综合排序，以得到排序结果。

在一个实施例中，可对参考病历集合中各个参考病历进行降序排列，然后选取排序在前的预设数量个参考病历作为目标参考病历。其中，预设数量可根据需要进行事先设定。

步骤s210，将目标参考病历发送至医生终端。

具体地，由于历史病历集中各个历史病历都是对历史患者的病情信息记录，因此这些历史病历中患者的诊疗方案及对应的诊疗效果都是已经确定，因此，这些数据作为医生临床决策时的参考依据。

进一步，医生终端可以对这些目标参考病历进行显示。

上述病历数据处理方法中，首先从来源病历提取特征词，将特征词与历史病历对应的特征词进行匹配，根据匹配度来选取参考病历，然后根据特征词中的身份特征词得到来源病历对应的患者类别，进而根据患者类型对参考病历进行排序后，根据排序结果选取一定数量的参考病历作为目标参考病历，最后将这些目标参考病历发送至医生终端，由于这些目标参考病历与来源病历的相似度较大，且这些历史历对应的诊疗方案、诊疗效果都是已经确定的，因此，可作为医生临床决策时的参考数据，由于这些参考数据以事实为依据，真实可靠，相较于医生根据自身经验进行判断，不仅提高了效率，而且准确性更好。

在一个实施例中，如图3所示，图2中步骤s202包括：

步骤s202a，对来源病历进行分词，得到分词结果。

其中，分词结果指的是分词后得到的一个一个的词语组成的词语序列。如，“我肚子痛”分词后得到的分词结果可以为：我/肚子/痛。

对来源病历进行分词，可首先根据标点符号将来源病历分成一条条完整的语句，再对各个切分的语句进行分词处理，如可利用字符串匹配的分词方法对各个切分的语句进行分词处理，如正向最大匹配法，把一个切分的语句中的字符串从左至右来分词；或者，反向最大匹配法，把一个切分的语句中的字符串从右至左来分词；或者，最短路径分词法，一个切分的语句中的字符串里面要求切出的词数是最少的；或者，双向最大匹配法，正反向同时进行分词匹配。还可利用词义分词法对各个切分的语句进行分词处理，词义分词法是一种机器语音判断的分词方法，利用句法信息和语义信息来处理歧义现象来分词。

步骤s202b，将分词结果中各个词语分别与预先建立的医疗词汇库中的词语进行匹配，将匹配成功的词语作为来源病历对应的特征词。

具体地，将分词结果中各个词语分别与医疗词汇库中的词语进行匹配，具体指的是计算分词结果中各个词语与医疗词汇库中的词语的相似度。

在一个实施例中，首先采用word2vec得到分词结果以及医疗专用词汇中的各个词的词向量，然后分别计算分词结果中各个词对应的词向量与医疗专用词汇中的各个词对应的词向量之间的向量距离，当分词结果中某个词对应的词向量与医疗专用词汇中的任意一个词对应的词向量之间的向量距离小于预设阈值时，则说明该词语为匹配成功的词语。

在另一个实施例，首先采用word2vec得到分词结果以及医疗专用词汇中的各个词的词向量，然后分别计算分词结果中各个词对应的词向量与医疗专用词汇中的各个词对应的词向量之间的夹角余弦值，当分词结果中某个词对应的词向量与医疗专用词汇中的任意一个词对应的词向量之间的夹角余弦值小于预设阈值时，则说明该词语为匹配成功的词语。

在另一个实施例中，将分词结果中各个词语分别与预先建立的医疗词汇库中的词语进行匹配可以是判断分词结果是否存在与医疗词汇库中任意一个词完全相同的词，若是，则该词语为匹配成功的词语，这种情况下，为了提高匹配的准确度，可对医疗专业词汇库中的各个词都设置有对应的标准用语、常用语、口语化用语以及同义词等等。

进一步，将匹配成功的词语作为来源病历对应的特征词。

在本实施例中，通过将分词结果与预先建立的医疗词汇库中的词语进行匹配来得到病理特征词，可以准确、完整的从来源病历中提取病理特征词，从而提高病历匹配时的准确性。

在一个实施例中，从分词结果中提取与诊断结果相匹配的病征信息的步骤之前，包括：从预先建立的数据源获取医疗数据；从医疗数据中提取每一种疾病类型对应的一个或多个医疗词汇；将医疗词汇与其对应的疾病类型建立映射关系，根据不同类型疾病与其对应的医疗词汇的映射关系建立医疗词汇库。

具体地，该医疗数据可以是从现有的医疗数据库中获取的各种疾病的权威解释，包括其对应的简介、症状、并发症、治疗药品、常见检查等专业信息，也可以是各种药品对应的医疗信息，如药品主治的疾病类型等信息，该医疗数据也可以是通过网络爬虫等工具实时或者定时从互联网上的开源医疗数据源(例如，各大论坛上关于不同疾病的问答、讨论等，或各种最新的医疗案例、医疗问答文本等)获取的特定类型的信息(例如，不同疾病对应的治疗方案、治疗药物、所属科室、临床表现等)。

进一步，获取到医疗数据后，对医疗数据进行分词处理，然后采用聚类分析找出每一种疾病对应的医疗词汇，并将疾病与其对应的医疗词汇建立一一对应的映射关系并保存至医疗词汇库。

在一个实施例中，如图4所示，图2中步骤s204包括：

步骤s204a，从来源病历对应的特征词集合中提取关键词，得到来源病历对应的第一关键词集合。

具体地，关键词指的是特征词集合中特征权重比较大的特征词，特征权重用于表征某个特征的重要程度，特征权重越大，说明该特征词越重要，越能够代表词整个集合。从特征词集合中提取关键词，可以首先计算各个特征词对应的特征权重，选取特征权重较大的特征词作为关键词。

在一个实施例中，可首先计算来源病历对应的特征词集合中各个特征词对应的词频及逆向文件频率，然后根据词频及逆向文件频率得到特征词对应的特征权重，最后根据特征权重对各个特征词进行排序，根据特征词排序结果选取第二预设数量的特征词作为关键词，得到第一关键词集合。

具体地，计算各个特征词的词频可参照以下公式：

其中，tfi,j为词频，ni,j为特征词ti在来源病历dj中出现的次数；

计算各个特征词的逆向文件频率可参照以下公式：

其中，idfi为逆向文件频率，|d|为历史病历库中的电子病历的总数，|{j:ti∈dj}|为包含特征词ti的电子病历的数量；

根据词频及逆向文件频率得到特征词对应的特征权重可参照以下公式：tfidfi,j＝tfi,j*idfi，其中，tfidfi,j为特征权重。

进一步，在一个实施例中，可根据特征权重对来源病历对应的特征词中特征词进行降序排列，选取排序靠前的预设数量的特征词作为关键词得到第一关键词集合。

步骤s204b，从历史病历对应的特征词集合中提取关键词，得到历史病历对应的第二关键词集合。

具体地，从特征词集合中提取关键词，可以首先计算各个特征词对应的特征权重，选取特征权重较大的特征词作为关键词。

在一个实施例中，可首先计算历史病历对应的特征词集合中各个特征词对应的词频及逆向文件频率，然后根据词频及逆向文件频率得到特征词对应的特征权重，最后根据特征权重对各个特征词进行排序，根据特征词排序结果选取第二预设数量的特征词作为关键词，得到第二关键词集合。

步骤s204c，根据第一关键词集合及第二关键词集合获取与来源病历对应的第一词频向量，根据第一关键词集合及第二关键词集合获取与历史病历对应的第二词频向量。

具体地，将第一关键词集合和第二关键词集合并得到一个并集，分别计算该并集中的各个关键词在来源病历对应的特征词集合中的词频以及历史病历对应的特征词集合中的词频，分别根据词频生成来源病历对应的第一词频向量和历史病历对应的第二词频向量。举例来说,若第一特征词集合为：咳嗽/抽烟/失眠，其对应的关键词集合为{咳嗽，抽烟}；第二特征词集合为：头痛/咳嗽/流鼻涕/降温，其对应的关键词为{头痛，流鼻涕}，将两个关键词合并得到{咳嗽，抽烟，头痛，流鼻涕}，则，该集合中各个词在第一特征词集合中的词频为：咳嗽1，抽烟1，头痛0，流鼻涕0，该集合中各个词在第二特征词集合中的词频为：咳嗽1，抽烟0，头痛1，流鼻涕1，则最后得到第一词频向量为[1,1,0,0]，第二词频向量为[1,0,1,1]。

步骤s404d，计算第一词频向量与第二词频向量之间的夹角余弦值得到匹配度。

具体地，余弦相似度的计算公式为：

其中，n(n≥2)为词频向量的维度，ai为第一词频向量，bi为第二词频向量。

进一步，将余弦相似度的计算结果作为来源病历对应的特征词集合与历史病历对应的特征词集合的匹配度，该匹配度可用于衡量来源病历与历史病历之间的相似度，匹配度越大，说明来源病历与历史病历的相似度越高，该历史病历的参考价值也就越大。

在本实施例中，通过从特征词集合中提取关键词并得到词频向量来计算两个特征词集合的余弦相似度，相比于直接计算来源病历与历史病历的相似度，节省了计算量，提高了计算效率。

在一个实施例中，当筛选因子的数量为第三预设数量时，根据筛选因子对参考病历集合中各个参考病历进行排序，包括：分别获取各个筛选因子的排序权重及各个筛选因子的初步排序结果；根据排序权重及初步排序结果计算各个参考病历对应的排序得分；根据排序得分对各个参考病历进行排序。

其中，第三预设数量为大于或者等于2的数量，排序权重用于衡量筛选因子在排序时的重要程度，排序权重越大，筛选因子在排序时的重要性越大。初步排序结果指的是用单个的筛选因子对参考病历集合中各个参考病历进行排序时得到的排序结果。排序得分为各个参考病历在每一个筛选因子对应的初步排序结果中的排序乘以对应的权值，然后累加得到。

举例说明，有3份参考病历，分别为a、b、c，筛选因子为治疗价格、住院天数，权重分别为80％、20％，按照治疗价格排序时，为a、b、c，按照住院天数排序时，为a、c、b，则a的得分为1x0.8+1x0.2＝1，b的得分为2x0.8+3x0.2＝2.2，c的得分为：3x0.8+2x0.2＝2.8，最后得到的排序结果为a、b、c。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种病历数据处理装置500，包括：

特征词提取模块502，用于从来源病历中提取特征词得到特征词集合，特征词集合中包括身份特征词以及病理特征词；

匹配度计算模块504，用于计算特征词集合与历史病历集合中各个历史病历对应的特征词集合的匹配度，根据计算结果从历史病历集合中选取参考病历，得到参考病历集合；

患者类别获取模块506，用于根据身份特征词采用已训练的分类模型得到来源病历对应的患者所属的患者类别；

排序模块508，用于获取患者类别对应的筛选因子，根据筛选因子对参考病历集合中各个参考病历进行排序，根据参考病历排序结果选取第一预设数量的参考病历作为目标参考病历；

发送模块510，用于将目标参考病历发送至医生终端。

在一个实施例中，特征词提取模块502用于对来源病历进行分词，得到分词结果；将分词结果中各个词语分别与预先建立的医疗词汇库中的词语进行匹配；将匹配成功的词语作为来源病历对应的特征词。

在一个实施例中，上述装置还包括：医疗词汇库建立模块，用于从预先确定的数据源获取医疗数据；从医疗数据中提取每一种疾病类型对应的一个或多个医疗词汇；将医疗词汇与其对应的疾病类型建立映射关系，根据不同类型疾病与其对应的医疗词汇的映射关系建立医疗词汇库。

在一个实施例中，匹配度计算模块504用于从来源病历对应的特征词集合中提取关键词，得到来源病历对应的第一关键词集合，从历史病历对应的特征词集合中提取关键词，得到历史病历对应的第二关键词集合，根据第一关键词集合及第二关键词集合获取与来源病历对应的第一词频向量，根据第一关键词集合及第二关键词集合获取与历史病历对应的第二词频向量，计算第一词频向量与第二词频向量之间的夹角余弦值得到匹配度。

在一个实施例中，匹配度计算模块504还用于计算来源病历对应的特征词集合中各个特征词对应的词频及逆向文件频率；根据词频及逆向文件频率得到特征词对应的特征权重；根据特征权重对各个特征词进行排序，根据特征词排序结果选取第二预设数量的特征词作为关键词，得到第一关键词集合。

在一个实施例中，当筛选因子的数量为第三预设数量时，排序模块508用于分别获取各个筛选因子的排序权重及各个筛选因子的初步排序结果；根据排序权重及初步排序结果计算各个参考病历对应的排序得分；根据排序得分对各个参考病历进行排序。

关于病历数据处理装置的具体限定可以参见上文中对于病历数据处理方法的限定，在此不再赘述。上述病历数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史病历数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种病历数据处理方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：从来源病历中提取特征词得到特征词集合，特征词集合中包括身份特征词以及病理特征词；计算特征词集合与历史病历集合中各个历史病历对应的特征词集合的匹配度，根据计算结果从历史病历集合中选取参考病历，得到参考病历集合；根据身份特征词采用已训练的分类模型得到来源病历对应的患者所属的患者类别；获取患者类别对应的筛选因子，根据筛选因子对参考病历集合中各个参考病历进行排序，根据参考病历排序结果选取第一预设数量的参考病历作为目标参考病历；将目标参考病历发送至医生终端。

在一个实施例中，从来源病历中提取特征词得到特征词集合，包括：对来源病历进行分词，得到分词结果；将分词结果中各个词语分别与预先建立的医疗词汇库中的词语进行匹配；将匹配成功的词语作为来源病历对应的特征词。

在一个实施例中，从来源病历中提取特征词得到特征词集合之前，处理器执行计算机程序时还实现以下步骤：从预先确定的数据源获取医疗数据；从医疗数据中提取每一种疾病类型对应的一个或多个医疗词汇；将医疗词汇与其对应的疾病类型建立映射关系，根据不同类型疾病与其对应的医疗词汇的映射关系建立医疗词汇库。

在一个实施例中，计算特征词集合与历史病历集合中各个历史病历对应的特征词集合的匹配度，包括：从来源病历对应的特征词集合中提取关键词，得到来源病历对应的第一关键词集合；从历史病历对应的特征词集合中提取关键词，得到历史病历对应的第二关键词集合；根据第一关键词集合及第二关键词集合获取与来源病历对应的第一词频向量；根据第一关键词集合及第二关键词集合获取与历史病历对应的第二词频向量；计算第一词频向量与第二词频向量之间的夹角余弦值得到匹配度。

在一个实施例中，从来源病历对应的特征词集合中提取关键词，得到来源病历对应的第一关键词集合，包括:计算来源病历对应的特征词集合中各个特征词对应的词频及逆向文件频率；根据词频及逆向文件频率得到特征词对应的特征权重；根据特征权重对各个特征词进行排序，根据特征词排序结果选取第二预设数量的特征词作为关键词，得到第一关键词集合。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：从来源病历中提取特征词得到特征词集合，特征词集合中包括身份特征词以及病理特征词；计算特征词集合与历史病历集合中各个历史病历对应的特征词集合的匹配度，根据计算结果从历史病历集合中选取参考病历，得到参考病历集合；根据身份特征词采用已训练的分类模型得到来源病历对应的患者所属的患者类别；获取患者类别对应的筛选因子，根据筛选因子对参考病历集合中各个参考病历进行排序，根据参考病历排序结果选取第一预设数量的参考病历作为目标参考病历；将目标参考病历发送至医生终端。

在一个实施例中，从来源病历中提取特征词得到特征词集合之前，计算机程序被处理器执行时还实现以下步骤：从预先确定的数据源获取医疗数据；从医疗数据中提取每一种疾病类型对应的一个或多个医疗词汇；将医疗词汇与其对应的疾病类型建立映射关系，根据不同类型疾病与其对应的医疗词汇的映射关系建立医疗词汇库。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡雪莹;王玉婷
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

上一篇：一种安全可控的数字皮试仪及其适用的自计数工作方法与流程
上一篇：一种密封结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。