一种基于大数据的血液病智能分类系统的制作方法

文档序号:14251178阅读:706来源:国知局

本发明属于医疗信息化系统领域,尤其涉及一种基于大数据的血液病智能分类系统。



背景技术:

目前,现代社会正处于大数据时代,各个领域都受益于大数据所带来的便利,然而,大数据在医学领域的应用还及其稀少,尤其因为医生的个人经验不同,所判断的病情也不尽相同,还存在误诊的可能性,对病人造成很大的影响。

综上所述,现有技术存在的问题是:大数据在医学领域应用匮乏,医生个人经验不同导致病情诊断有误,无法现代社会的需要。



技术实现要素:

针对现有技术存在的问题,本发明提供了一种基于大数据的血液病智能分类系统。

本发明是这样实现的,一种基于大数据的血液病智能分类系统设置有:

信息输入模块、服务器、数据采集模块、数据存储模块、数据分割模块、特征病理信息提取模块、数据预处理模块、特征数据生成模块、病例数据库检索模块;病例分类模块;病例生成模块、数据显示模块。

所述服务器包括数据采集模块、数据存储模块、数据分割模块、特征病理信息提取模块、数据预处理模块、特征数据生成模块、病例数据库检索模块;病例分类模块;病例生成模块。所述数据采集模块、数据存储模块、所述数据分割模块、特征病理信息提取模块、数据预处理模块、特征数据生成模块、病例数据库检索模块;病例分类模块;病例生成模块依次首尾电连接;

所述数据采集模块数据聚合方法的步骤如下:

步骤一,在面积为s=ll的部署区域内,随机分布n个同构的无线传感器节点,sink节点位于部署区域之外,节点处理整个无线传感器网络内收集到的数据;

步骤二,非均匀成簇

sink节点位于部署区域的上方;首先部署区域x轴划分为s个泳道,所有泳道有相同的宽度w,并且每个泳道的长度与部署区域的长度相等;用从1到s作为泳道的id,最左端的泳道的id为1,然后每个泳道沿着y轴划分为多个矩形网格,每个泳道中的每个网格都被定义一个水平,最下端的网格的水平为1,每个网格和每个泳道有相同的宽度w;每个泳道中网格的个数、长度与泳道到sink的距离有关;通过设置网格的长度来调整网格的大小;针对不同的泳道,距离sink越远的泳道含有的网格数目越小;针对同一泳道,距离sink越远的网格的长度越大;假设a中含有s个元素,第k个元素表示在第k个泳道中网格的数目;每个网格用一个数组(i,j)作为id,表示第i个泳道有水平j;定义s个数组表示网格的长度,第v个数组hv表示第v个泳道中网格的长度,并且hv的第w个元素hvw表示网格(v,w)的长度;网格(i,j)的边界为:

o_x+(i-1)×w<x≤o_x+i×w

非均匀网格划分好之后进行成簇阶段;算法分为很多轮进行,在每轮中选取每个网格中剩余能量最大的节点作为簇首节点,其余节点根据就近原则加入簇,然后再进行数据聚合;

步骤三,格拉布斯预处理

传感器节点需要对收集的数据进行预处理,然后再向簇首节点传输数据;采用格拉布斯预准则对传感器节点所采集到的数据进行预处理假设某个簇首节点含有个传感器节点,传感器节点收集到的数据为x1,x2,…,xn,服从正态分布,并设:

vi=xi-x0,

根据顺序统计原理,计算格拉布斯统计量:

给定显著性水平(α=0.05)之后,测量值满足gi≤g0(n,α),则认为测量值有效,测量值参与到下一层次的数据聚合;反之,则认为测量值无效,因此需要剔除,即不参与到下一层次的数据聚合;

步骤四,自适应聚合算法

通过迭代得到各个节点测量数据的无偏估计值,求取各个传感器节点的测量数据值与估计值之间的欧式距离,以归一化的欧式距离作为自适应加权融和的权值;选用簇中的传感器节点采集到的数据的最大值与最小值的平均值作为中心数据;

某个簇中有个传感器节点,用维列向量d=(d1,d2,…,dn)表示相应节点的测量值,通过计算各个节点数据与中心数据的欧式距离反应不同节点数据与中心数据之间的偏差大小,其中li的计算公式为:

根据欧式距离自适应设定相应的权值大小,距离越大权值越小,距离越小权值越大;

其中wi为相应的权值;

所述数据存储模块数据压缩方法的步骤为:

步骤一、在编码时,首先根据e1n+1=e1n+dn+1式计算出e1值,再根据式计算出拟合残差,计算这两步时,均需要对结果进行越限判断,判断e1是否越限是为了避免超过传感器数据总线上限而造成溢出;判断残差是否越限是为实现分段拟合;

步骤二、当一段输入数据的拟合残差全部计算完后,就构造出{dn,e1n,dfr3,dfr4,…dfrn}所示的数据包,通过s-huffman编码方法对进行熵编码,然后发送出去,接收端解码时,先将接收到的一组数据解码,还原出{dn,e1n,dfr3,dfr4,…dfrn}式所示的数据包,然后根据式计算并还原出所有原始数据;

所述信息输入模块可以输入病人血液信息,输入的病人信息依次进入到数据采集模块、数据存储模块、数据分割模块、特征病理信息提取模块、数据预处理模块、特征数据生成模块、病例数据库检索模块;病例分类模块;病例生成模块中,生成的病例输入到数据显示模块以自动生成病例分类;

所述病例分类模块的多源异构数据语义集成模型包括:局部本体构建模块、本体合并模块和语义查询动态扩展及规约模块;

局部本体构建模块,根据数据源特征,自适应地选择本体构建策略,从而构建出油气勘探局部本体;

本体合并模块,与局部本体构建模块连接,采用将概念匹配和属性匹配相结合的本体合并方法,利用最大信息系数(mic)方法计算概念语义相似度和概念属性的语义相似度,实现多个局部本体到领域本体的灵活合并;

语义查询动态扩展及规约模块,与局部本体构建模块连接,用于查询请求动态扩展的有效性及结果的聚合优化;

局部本体构建模块,根据数据源特征,通过自适应本体构建策略,进行局部本体的构建,具体包括:

步骤一、基于非结构化数据源构建局部本体:

首先,应用文本过滤器将不同的文件格式转成为纯文本文件格式,获得语料数据,并进行一致性检查;然后,采用逆向最大分类中文分词方法对这些语料进行初步的切分处理,得到字串集合;然后,利用最大信息系数(mic)方法计算字串的内部结合强度,获取合成词集合,并判断合成词和非合成词的领域相关性,提取出概念集合;然后,应用图上随机游走算法推理合成词概念间的分类关系,采用基于隐markov模型(hmm)的聚类算法提取非合成词概念间的分类关系;接着,运用基于关联规则挖掘的方法获取概念间的非分类关系;最后,应用本体构建工具输出owl格式的局部本体;

步骤二,基于结构化数据源构建局部本体:

首先,利用r2o技术建立数据库模式和本体模型之间的语义映射关系,从而把关系数据库中的关系映射为本体中的概念,把属性对应地映射为owl属性,并把数据库的关系表转化为本体类,把数据库中的数据转化为实例;然后,对从数据库中抽取出来的初始局部本体做一系列的规范化工作,通过与标准本体进行语义相似度计算,将符合阈值的本体信息建立语义联系,不符合阈值的本体信息进行规范化处理,从而构建出符合要求的规范化局部本体;

步骤三,基于半结构化数据源构建局部本体

由于半结构化数据是介于结构化和非结构化数据之间的、具有隐含结构但缺乏固定或严格结构的一类数据;所以,基于上述两种数据类型的本体构建技术也可以应用到半结构化数据源;首先,抽取出半结构化数据模式,给定映射规则,利用xml2rd方法,将半结构化数据转化为结构化数据;然后,按照结构化数据构建局部本体的方法构造半结构化数据源对应的局部本体;

本体合并模块合并的方法为:

采用将概念匹配和属性匹配相结合的本体合并方法,利用最大信息系数(mic)方法计算概念语义相似度和概念属性的语义相似度,然后,通过相似度评估函数对概念间的相似度进行评估,输出相似矩阵,并对相似矩阵运用领域公理约束知识进一步评估其相似性;接着,通过机器学习的方法训练学习分类器,利用学习分类器计算概念实例间的相似度;最后,通过结合iso15926油气本体和模糊形式概念分析方法,综合考虑语义相似度的对称性和传递性关系,将模糊集理论引入语义相似度的设定中,实现多个局部本体到领域本体的灵活合并;

语义查询动态扩展及规约模块实现的具体方法为:

首先,借助社会标注语义分析和本体包含的概念关系及推理能力,对查询请求进行语法及语义上的规约与扩展,生成规范的语义查询语句,解决查询请求与领域本体数据源之间由于表达形式的不同所造成的失配问题,并根据用户的查询请求自动推荐一簇语义相关标签,为实现数据源准确聚集提供导引;然后,通过计算扩展查询请求和领域本体概念间的语义相似度来量化请求与资源概念间的关联度;最后,利用社会标注和本体包含的丰富概念语义关系,对查询结果模式进行语义注释,根据社会标注的语义全局效应,引入以统计分析结果获得的最相关可信性标注所指向的数据源作为查询结果可信性评价标准之一,对结果集进行去重和聚合优化,实现可信的top-k查询。

进一步,所述特征病理信息提取模块利用计算得到的特征数值对词条进行特征表示。

进一步,所述特征病理信息提取模块用于提炼病例中的特征病理信息并与预先判定的病例信息逐一对应。

本发明通过以上系统的运行可以通过输入的病人信息自动生成病例分类,结构简单,操作简便,通过大数据库的应用,可以准确无误的对病人的疾病进行分类,大大的减少了医生的负担,而且精准度高,非常适合推广使用。

附图说明

图1是本发明实施例提供的基于大数据的血液病智能分类系统结构示意图;

图中:1、信息输入模块;2、服务器;3、数据采集模块;4、数据存储模块;5、数据分割模块;6、特征病理信息提取模块;7数据预处理模块;8、特征数据生成模块;9、病例数据库检索模块;10、病例分类模块;11、病例生成模块、12、数据显示模块。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。

下面结合附图对本发明的结构作详细的描述。

如图1所示,本发明实施例所述的基于大数据的血液病智能分类系统包括:信息输入模块1、服务器2、数据采集模块3、数据存储模块4、数据分割模块5、特征病理信息提取模块6、数据预处理模块7、特征数据生成模块8、病例数据库检索模块9;病例分类模块10;病例生成模块11、数据显示模块12。

所述服务器包括数据采集模块3、数据存储模块4、数据分割模块5、特征病理信息提取模块6、数据预处理模块7、特征数据生成模块8、病例数据库检索模块9;病例分类模块10;病例生成模块11。所述数据采集模块3、数据存储模块4、数据分割模块5、特征病理信息提取模块6、数据预处理模块7、特征数据生成模块8、病例数据库检索模块9;病例分类模块10;病例生成模块11依次首尾电连接。所述信息输入模块1可以输入病人血液信息,输入的病人信息依次进入到数据采集模块3、数据存储模块4、数据分割模块5、特征病理信息提取模块6、数据预处理模块7、特征数据生成模块8、病例数据库检索模块9;病例分类模块10;病例生成模块11中,最后生成的病例输入到数据显示模块12以自动生成病例分类。

所述数据采集模块数据聚合方法的步骤如下:

步骤一,在面积为s=ll的部署区域内,随机分布n个同构的无线传感器节点,sink节点位于部署区域之外,节点处理整个无线传感器网络内收集到的数据;

步骤二,非均匀成簇

sink节点位于部署区域的上方;首先部署区域x轴划分为s个泳道,所有泳道有相同的宽度w,并且每个泳道的长度与部署区域的长度相等;用从1到s作为泳道的id,最左端的泳道的id为1,然后每个泳道沿着y轴划分为多个矩形网格,每个泳道中的每个网格都被定义一个水平,最下端的网格的水平为1,每个网格和每个泳道有相同的宽度w;每个泳道中网格的个数、长度与泳道到sink的距离有关;通过设置网格的长度来调整网格的大小;针对不同的泳道,距离sink越远的泳道含有的网格数目越小;针对同一泳道,距离sink越远的网格的长度越大;假设a中含有s个元素,第k个元素表示在第k个泳道中网格的数目;每个网格用一个数组(i,j)作为id,表示第i个泳道有水平j;定义s个数组表示网格的长度,第v个数组hv表示第v个泳道中网格的长度,并且hv的第w个元素hvw表示网格(v,w)的长度;网格(i,j)的边界为:

o_x+(i-1)×w<x≤o_x+i×w

非均匀网格划分好之后进行成簇阶段;算法分为很多轮进行,在每轮中选取每个网格中剩余能量最大的节点作为簇首节点,其余节点根据就近原则加入簇,然后再进行数据聚合;

步骤三,格拉布斯预处理

传感器节点需要对收集的数据进行预处理,然后再向簇首节点传输数据;采用格拉布斯预准则对传感器节点所采集到的数据进行预处理假设某个簇首节点含有个传感器节点,传感器节点收集到的数据为x1,x2,…,xn,服从正态分布,并设:

vi=xi-x0,

根据顺序统计原理,计算格拉布斯统计量:

给定显著性水平(α=0.05)之后,测量值满足gi≤g0(n,α),则认为测量值有效,测量值参与到下一层次的数据聚合;反之,则认为测量值无效,因此需要剔除,即不参与到下一层次的数据聚合;

步骤四,自适应聚合算法

通过迭代得到各个节点测量数据的无偏估计值,求取各个传感器节点的测量数据值与估计值之间的欧式距离,以归一化的欧式距离作为自适应加权融和的权值;选用簇中的传感器节点采集到的数据的最大值与最小值的平均值作为中心数据;

某个簇中有个传感器节点,用维列向量d=(d1,d2,…,dn)表示相应节点的测量值,通过计算各个节点数据与中心数据的欧式距离反应不同节点数据与中心数据之间的偏差大小,其中li的计算公式为:

根据欧式距离自适应设定相应的权值大小,距离越大权值越小,距离越小权值越大;

其中wi为相应的权值;

所述数据存储模块数据压缩方法的步骤为:

步骤一、在编码时,首先根据e1n+1=e1n+dn+1式计算出e1值,再根据式计算出拟合残差,计算这两步时,均需要对结果进行越限判断,判断e1是否越限是为了避免超过传感器数据总线上限而造成溢出;判断残差是否越限是为实现分段拟合;

步骤二、当一段输入数据的拟合残差全部计算完后,就构造出{dn,e1n,dfr3,dfr4,…dfrn}所示的数据包,通过s-huffman编码方法对进行熵编码,然后发送出去,接收端解码时,先将接收到的一组数据解码,还原出{dn,e1n,dfr3,dfr4,…dfrn}式所示的数据包,然后根据式计算并还原出所有原始数据。

局部本体构建模块,根据数据源特征,通过自适应本体构建策略,进行局部本体的构建,具体包括:

步骤一、基于非结构化数据源构建局部本体:

首先,应用文本过滤器将不同的文件格式转成为纯文本文件格式,获得语料数据,并进行一致性检查;然后,采用逆向最大分类中文分词方法对这些语料进行初步的切分处理,得到字串集合;然后,利用最大信息系数(mic)方法计算字串的内部结合强度,获取合成词集合,并判断合成词和非合成词的领域相关性,提取出概念集合;然后,应用图上随机游走算法推理合成词概念间的分类关系,采用基于隐markov模型(hmm)的聚类算法提取非合成词概念间的分类关系;接着,运用基于关联规则挖掘的方法获取概念间的非分类关系;最后,应用本体构建工具输出owl格式的局部本体;

步骤二,基于结构化数据源构建局部本体:

首先,利用r2o技术建立数据库模式和本体模型之间的语义映射关系,从而把关系数据库中的关系映射为本体中的概念,把属性对应地映射为owl属性,并把数据库的关系表转化为本体类,把数据库中的数据转化为实例;然后,对从数据库中抽取出来的初始局部本体做一系列的规范化工作,通过与标准本体进行语义相似度计算,将符合阈值的本体信息建立语义联系,不符合阈值的本体信息进行规范化处理,从而构建出符合要求的规范化局部本体;

步骤三,基于半结构化数据源构建局部本体

由于半结构化数据是介于结构化和非结构化数据之间的、具有隐含结构但缺乏固定或严格结构的一类数据;所以,基于上述两种数据类型的本体构建技术也可以应用到半结构化数据源;首先,抽取出半结构化数据模式,给定映射规则,利用xml2rd方法,将半结构化数据转化为结构化数据;然后,按照结构化数据构建局部本体的方法构造半结构化数据源对应的局部本体;

本体合并模块合并的方法为:

采用将概念匹配和属性匹配相结合的本体合并方法,利用最大信息系数(mic)方法计算概念语义相似度和概念属性的语义相似度,然后,通过相似度评估函数对概念间的相似度进行评估,输出相似矩阵,并对相似矩阵运用领域公理约束知识进一步评估其相似性;接着,通过机器学习的方法训练学习分类器,利用学习分类器计算概念实例间的相似度;最后,通过结合iso15926油气本体和模糊形式概念分析方法,综合考虑语义相似度的对称性和传递性关系,将模糊集理论引入语义相似度的设定中,实现多个局部本体到领域本体的灵活合并;

语义查询动态扩展及规约模块实现的具体方法为:

首先,借助社会标注语义分析和本体包含的概念关系及推理能力,对查询请求进行语法及语义上的规约与扩展,生成规范的语义查询语句,解决查询请求与领域本体数据源之间由于表达形式的不同所造成的失配问题,并根据用户的查询请求自动推荐一簇语义相关标签,为实现数据源准确聚集提供导引;然后,通过计算扩展查询请求和领域本体概念间的语义相似度来量化请求与资源概念间的关联度;最后,利用社会标注和本体包含的丰富概念语义关系,对查询结果模式进行语义注释,根据社会标注的语义全局效应,引入以统计分析结果获得的最相关可信性标注所指向的数据源作为查询结果可信性评价标准之一,对结果集进行去重和聚合优化,实现可信的top-k查询。

本发明通过以上系统的运行可以通过输入的病人信息自动生成病例分类,结构简单,操作简便,通过大数据库的应用,可以准确无误的对病人的疾病进行分类,大大的减少了医生的负担,而且精准度高,非常适合推广使用。

以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与修饰,均属于本发明技术方案的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1