数据处理方法及装置与流程

文档序号:12013262阅读:185来源:国知局
数据处理方法及装置与流程
本发明涉及数据处理领域,具体而言,涉及一种数据处理方法及装置。

背景技术:
古代中医医案承载着数千年来历代医家的医学理论与实践经验,蕴藏着丰富的、未知的信息,是中医基础理论与临床研究的宝贵资源。如何实现古代文献资源中的中医医案的数字化存储,获取古代中医诊疗规律,是十分必要而又紧迫的任务。随着计算机信息技术在中医药领域的应用日益广泛,利用计算机技术建立古代中医医案数据存储系统,实现古代中医医案的数字化存储,获取蕴藏的、事先未知的、有价值的信息,探寻古代中医治疗特点,成为了可能,并被一些研究者尝试,在古代中医医案数据的收集、存储、管理基础上,实现了古代中医医案数据处理研究。但是,现有的研究存在着诸多问题。其一,现有的研究仅仅实现了简单的统计,数据分析仅局限于从单一角度,统计频次和频率,如:基于特定经脉的用穴频次和频率。其二,现有的数据存储只是实现数据的简单存储,在对该类数据进行复杂查询时,现有的存储系统难以实现多角度、多层次、多侧面的查询并获取准确且直观易懂的查询结果。针对现有技术中由于现有的古代中医医案数据库不完整,从而导致使用现有医案数据库查询数据的结果不准确、效率低下,以及无法实现更为复杂查询的问题,目前尚未提出有效的解决方案。

技术实现要素:
针对相关技术由于现有的古代中医医案数据库不完整,从而导致使用现有医案数据库查询数据的结果不准确、效率低下,以及无法实现更为复杂查询的问题,目前尚未提出有效的解决方案,为此,本发明的主要目的在于提供一种数据处理方法及装置,以解决上述问题。为了实现上述目的,根据本发明的一个方面,提供了一种数据处理方法,该方法包括:获取维度数据;从第一数据库中提取与维度数据对应的第一数据集合,其中,第一数据集合包括第一数据;对第一数据进行聚集计算得到度量值;建立度量值与维度数据之间的第一关联关系生成第二数据库。进一步地,对第一数据进行聚集计算得到度量值的步骤包括:从标准词汇库中读取标准词汇;按照标准词汇对第一数据进行标准化转换得到第二数据;对第二数据进行聚集计算得到度量值。进一步地,在从第一数据库中提取与维度数据对应的第一数据集合之后,数据处理方法包括:检测第一数据的完整度是否符合第一阈值,在第一数据的完整度不符合第一阈值的情况下,对第一数据进行删除或增补处理得到清理后的第一数据集合;或检测第一数据集合中是否存在与第一数据一致的第三数据,在第一数据集合中存在第三数据的情况下,删除第三数据,得到清理后的第一数据集合。进一步地,对第一数据进行删除或增补处理得到清理后的第一数据集合的步骤包括:从维度数据中提取描述数据;使用描述数掘对第一数据进行增补处理,以使得第一数掘的完整度符合第一阈值,得到清理后的第一数据集合。进一步地,维度数据包括:维度元素数据、维度元素代码数据以及维度元素数据与维度元素代码数据之间的第二关联关系,其中,建立度量值与维度数据之间的第一关联关系生成第二数据库的步骤包括:建立度量值与维度元素代码数据之间的第三关联关系;通过度量值和第二关联关系建立第一关联关系;保存维度数据、度量值、第一关联关系和第三关联关系,以生成第二数据库。进一步地,在建立度量值与维度数据之间的第一关联关系生成第二数据库之后,数据处理方法还包括:接收用户的第一多维数据分析请求;将第一多维数据分析请求转化为第二多维数据分析请求;从第二数据库中获取与第二多维数据分析请求对应的结果数据集;输出结果数据集。为了实现上述目的,根据本发明的一个方面,提供了一种数据处理装置,该装置包括:获取模块,用于获取维度数据;第一提取模块,用于从第一数据库中提取与维度数据对应的第一数据集合;计算模块,用于对第一数据集合中的第一数据进行聚集计算得到度量值;第一处理模块,用于建立度量值与维度数据之间的第一关联关系生成第二数据库。进一步地,计算模块包括:第一读取模块,用于从标准词汇库中读取标准词汇;第二处理模块,用于按照标准词汇对第一数据进行标准化转换得到第二数据;第一子计算模块,用于对第二数据进行聚集计算得到度量值。进一步地,数据处理装置还包括:第一检测模块,用于检测第一数据的完整度是否符合第一阈值;第三处理模块,用于在第一数据的完整度不符合第一阈值的情况下,对第一数据进行删除或增补处理得到清理后的第一数据集合;第二检测模块,用于检测第一数据集合中是否存在与第一数据一致的第三数据;第四处理模块,用于在第一数据集合中存在第三数据的情况下,删除第三数据,得到清理后的第一数据集合。进一步地,第三处理模块包括:第二提取模块,用于从维度数据中提取描述数据;第五处理模块,用于使用描述数据对第一数据进行增补处理,以使得第一数据的完整度符合第一阈值,得到清理后的第一数据集合。进一步地,维度数据包括:维度元素数据、维度元素代码数据以及维度元素数据与维度元素代码数据之间的第二关联关系,其中,第一处理模块包括:第一子处理模块,用于建立度量值与维度元素代码数据之间的第三关联关系;第二子处理模块,用于通过度量值和第二关联关系建立第一关联关系;第三子处理模块,用于保存维度数据、度量值、第一关联关系和第三关联关系,以生成第二数据库。采用本发明,通过获取维度数据,然后从第一数据库中提取与维度数据对应的第一数据集合,并在对第一数据集合中的第一数据进行聚集计算得到度量值之后,建立度量值与维度数据之间的第一关联关系生成第二数据库,可以通过维度数据来获取第一数据集合,在依据第一数据集合获取度量值之后,建立度量值与维度数据之间的第一关联关系,通过第一关联关系生成第二数据库,通过第一关联关系导入度量值来生成第二数据库,进而为多维数据分析提供准确的、适用的数据源,从而解决了由于现有的古代中医医案数据库不完整且数据无序,从而导致使用现有医案数据库查询数据的结果不准确、效率低下,以及无法实现更为复杂查询的问题,实现了快速准确地建立完整的古代中医医案数据库的效果,用户查询古代中医医案数据时,直接从第二数据库中查询,可以直接获取完整的查询结果,查询快速、准确,效率高。附图说明此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1是根据本发明实施例的数据处理装置的结构示意图;图2是根据图1所示实施例的数据处理装置的结构示意图;图3是根据本发明实施例的数据处理方法的流程图;图4是根据图3所示实施例的在第二数据库中查询数据的流程示意图;以及图5是根据图3所示实施例的初始多维数据库的创建方法的流程示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。图1是根据本发明实施例的数据处理装置的结构示意图。图2是根据图1所示实施例的数据处理装置的结构示意图。如图1和图2所示,该装置可以包括:获取模块10,用于获取维度数据;第一提取模块30,用于从第一数据库中提取与维度数据对应的第一数据集合;计算模块50,用于对第一数据集合中的第一数据进行聚集计算得到度量值;第一处理模块70,用于建立度量值与维度数据之间的第一关联关系生成第二数据库。采用本发明,通过获取模块获取维度数据,然后通过第一提取模块从第一数据库中提取与维度数据对应的第一数据集合,并在计算模块对第一数据集合中的第一数据进行聚集计算得到度量值之后,通过第一处理模块建立度量值与维度数据之间的第一关联关系生成第二数据库,可以通过维度数据来获取第一数据集合,在依据第一数据集合获取度量值之后,建立度量值与维度数据之间的第一关联关系,通过第一关联关系生成第二数据库,通过第一关联关系导入度量值来生成第二数据库,进而为多维数据分析提供准确的、适用的数据源,从而解决了由于现有的古代中医医案数据库不完整,从而导致使用现有医案数据库查询数据的结果不准确、效率低下,以及无法实现更为复杂查询的问题,实现了快速准确地建立完整的古代中医医案数据库的效果,用户查询古代中医医案数据时,直接从第二数据库中查询,可以直接获取完整的查询结果,查询快速、准确,效率高。具体地,本发明的上述实施例中的方案适用于不同的数据库管理系统和不同的操作系统。根据本发明的上述实施例,计算模块50可以包括:第一读取模块5l,用于从标准词汇库中读取标准词汇;第二处理模块53,用于按照标准词汇对第一数据进行标准化转换得到第二数据;第一子计算模块55,用于对第二数据进行聚集计算得到度量值。具体地,可以通过第二处理模块53按照第一读取模块51读取到的标准词汇对第一数据进行标准化转换得到第二数据。例如,朝代维度数据的名称可能存在时间、出版时间等多种形式,比如可能是:清、清朝、清代等不同的形式,那么需要根据标准词汇将其统一处理为“清代”的取值形式。在本发明的上述实施例中,装置还可以包括:第一检测模块90,用于检测第一数据的完整度是否符合第一阈值;第三处理模块110,用于在第一数据的完整度不符合第一阈值的情况下,对第一数据进行删除或增补处理得到清理后的第一数据集合;第二检测模块130,用于检测第一数据集合中是否存在与第一数据一致的第二数据;第四处理模块150,用于在第一数据集合中存在与第一数据一致的第二数据的情况下,删除第二数据,得到清理后的第一数据集合。根据本发明的上述实施例,第三处理模块110可以包括:第二提取模块,用于从维度数据中提取描述数据;第五处理模块,用于使用描述数据对第一数据进行增补处理,以使得第一数据的完整度符合第一阈值,得到清理后的第一数据集合。具体地,在该数据处理装置中,第三处理模块110还可以包括数据删除模块,用于依据所述第一数据中的数据值错误和丢失情况,进行数据清除;如:检测第一数据的完整度不符合第一阈值,则认为该第一数据缺少医案的主治病症数据,则通过数据删除模块删除该第一数据;第二检测模块130和第四处理模块150可以设置在数据合并模块中,具体地,第二检测模块130还可以检测第一数据集合中是否存在多个列存储相同数据的情况,如果存在则将多个列合并,具体地,采用删除多余列或将不同的列中的数掘修改到一列中的数据整合处理,获取清理后的第一数据集合,如:腧穴数据分别存储在主穴和配穴两列中,那么可以将两列的数据进行合并。在本发明的上述实施例中,维度数据可以包括:维度元素数据、维度元素代码数据以及维度元素数据与维度元素代码数据之间的第二关联关系,其中,第一处理模块包括:第一子处理模块,用于建立度量值与维度元素代码数据之间的第三关联关系;第二子处理模块,用于通过度量值和第二关联关系建立第一关联关系;第三子处理模块,用于保存维度数据、度量值、第一关联关系和第三关联关系,以生成第二数据库。在本发明的上述实施例中,该装置还可以包括:接收模块170,用于接收用户的第一多维数据分析请求;第一转换模块190,用于将第一多维数据分析请求转化为第二多维数据分析请求;第六处理模块210,用于从第二数据库中获取与第二多维数据分析请求对应的结果数据集;以及,输出模块230,用于输出结果数据集。具体地,在通过接收模块170接收到用户的第一多维数据分析请求之后,系统的第一转换模块190会依据第一多维数据分析请求进行请求转换得到第二多维数据分析请求,其中,依据第一多维数据分析请求进行请求转换包括对第一多维数据分析请求进行数据请求分类并生成查询语句或直接生成查询语句,然后通过第六处理模块210从第二数据库中获取与第二多维数据分析请求对应的结果数据集,然后通过输出模块230输出该结果数据集。其中,输出模块230可以根据第二多维数据分析请求中用户请求显示结果数据集的方式显示该结果数据集,其中,可以通过第二转换模块将结果数据集转换为可视化数据,并通过显示模块将结果数据集显示。其中,接收模块170和输出模块230都可以设置在系统的前端服务器上;显示结果数据集的方式包括:数据表显示形式和图形显示形式。图3是根据本发明实施例的数据处理方法的流程图,如图3所示该方法包括如下步骤:步骤s102,获取维度数据。步骤s104,从第一数据库中提取与维度数据对应的第一数据集合,其中,第一数据集合包括第一数据。步骤S106,对第一数据进行聚集计算得到度量值。步骤s108,建立度量值与维度数据之间的第一关联关系生成第二数据库。首先获取维度数据,然后从第一数据库中提取与维度数据对应的第一数据集合,并在对第一数据集合中的第一数据进行聚集计算得到度量值之后,建立度量值与维度数据之间的第一关联关系生成第二数据库,可以通过维度数据来获取第一数据集合,在依据第一数据集合获取度量值之后,建立度量值与维度数据之间的第一关联关系,通过第一关联关系生成第二数据库,通过第一关联关系导入度量值来生成第二数据库,进而为多维数据分析提供准确的、适用的数据源,从而解决了由于现有的古代中医医案数据库不完整,从而导致使用现有医案数据库查询数据的结果不准确,并且无法快速从现有的数据库获取直观易懂的分析结果的问题,实现了快速准确地建立完整的古代中医医案数据库的效果,用户查询古代中医医案数据时,直接从第二数据库中查询,可以直接获取完整的查询结果,查询快速、准确,效率高。其中,本发明的上述实施例可以应用于古代中医医案数据的处理。第一数据库中存储有医药领域标的标准词汇以及标准词汇之间的关联关系;聚集计算为对获取到的第一数据进行的统计运算,其中统计运算包括对第一数据求和、求均值和求计数的计算;度量值包括依据多个数据分析角度的观察指标值。上述的计数就是指计次数的计算,例如,出现百会穴一次就计一个数,出现两次对百会穴的计数为2,出现三次即为3。维度数据可以保存在多维数据库中的维度表中,多维数据库可以保存一组维度表和第二数据库,每个维度表中可以保存维度数据。其中,维度为数据分析的角度,维度层次为维度上的逻辑结构关系的描述,维度元素数据为用于存储维度层次上的具体数据,维度元素代码数据可以为唯一标识维度元素数据的一组字符编码,维度表中还可以保存维度上的逻辑结构关系的描述数据,而逻辑结构关系反映了维度上的不同细节程度的划分。更具体地,多维数据库中还可以包括第一数据库,第一数据可以包括数据分析角度的描述数据,并且第一数据库中还保存有第一数据与维度元素数据之间的第五关联关系,可以通过第五关联关系从第一数据库中读取与维度数据对应的第一数据集合。在本发明的上述实施例中,首先由于维度表中存储着数据分析角度的描述数据,第二数据库中存储着依据多个数据分析角度的观察指标值,其中第二数据库中存储的数据也可以使用中心表的保存形式存储在多维数据库中,依据第一关联关系和第三关联关系建立中心表与维度表之间的联系,构建古代中医医案多维数据库,为多维数据分析提供科学的、可靠的、准确适用的数据源。在上述实施例中,通过第一关联关系和第三关联关系,建立第二数据库与维度表之间的联系,以将中心表和维度表链接起来,便于多维数据分析结果的查询和显示。例如,通过维度表中的维度元素数据和维度元素代码数据,将获取到的第一多维数据分析请求中的多个维度描述数据转换为相应的维度元素代码数据组成的元素代码组合,并利用这种联系从中心表中获取元素代码组合所对应的度量值;反之,利用这种联系,将中心表中的度量值所对应的元素代码组合转换为相应的多个维度的描述数据,进而理解度量值的具体含义。在上述实施例中,执行步骤s106的方法可以包括:(1)依据所有维度之间的最低维度层次上的元素组合,利用维度表中的维度数据对第一数据集合中的第一数据进行聚集计算并生成第二数据集合,如依据经脉、人体分部、疾病、疗法、朝代五个维度之间的最低维度层次上的曲差穴、前/侧头区、半身不遂、刺法、明代的元素组合的维度数据,对第一数据集合中的第一数据进行腧穴使用频数的具体统计,并生成形如:(曲差穴元素代码、前/侧头区元素代码、半身不遂元素代码、刺法元素代码、明代元素代码、腧穴使用频数)的第二数据集合;由于某些特定维度的某一维度层次上可能存在多个同名的元素且这些元素在上一级层次上对应着不同的父元素;例如,依据中医药领域的专业知识,不同证候可能包含相同症状,即疾病维度的症状层次上可能存在多个同名的元素且这些元素在证候层次上对应着不同的父元素,如:依照本发明的实施例,半身不遂症状可以隶属于多个证候;针对上述情况,依据第一预设条件利用“分段、继承式”的模式设计维度元素代码,即借助一个层次元素代码的父元素代码段,可以实现同名元素的区分,例如,利用半身不遂元素的代码的父元素(即证候层次上的元素)进行不同证候的同名症状的区分,进而实现聚集计算;此外,针对特定穴的使用频数和使用频率统计,可以依据标准词汇库中的腧穴与特定穴之间的“所属特定穴”联系属性,在腧穴的使用频数和使用频率的统计过程中,同步地完成特定穴的使用频数和使用频率的统计。其中,第一预设条件可以依据维度层次之间的逻辑结构关系和中医标准词汇库中的中医药领域标准词汇,结合同一层次中的不同元素之间顺序关系而设定。利用“分段、继承式”模式(即若某一个元素存在父元素,则该元素的编码由该元素的父元素编码和自身编码组成,否则,该元素将被独立编码),将维度所含的维度层次上的元素进行编码,上述编码模式便于标识层次元素和上一级层次上的元素之间联系,提高数据分析处理效率;如:针对经脉维度,最顶层次上的元素(即全部)的编码为JM;一级层次上的两个元素(即正经和奇经)分别编码为:JMO和JMl,上述编码由两段组成,即元素的父元素编码值JM和相应元素在同一层次上的顺序号(0和1);在二级层次上,以正经为例,它的两个子元素(即阳经和阴经)分别编码为:JM00和JM01,上述编码由元素的正经父元素编码值JMO和相应元素在同一层次上的顺序号(0和1)组成;同理,在三级层次上,以阳经为例,它的两个子元素(手三阳经和足三阳经)分别编码为:JM000和JM001;在四级层次上,以手三阳经为例,它的三个子元素(手阳明大肠经、手少阳三焦经和手太阳小肠经)分别编码为:JMOOOLI、JMOOOSJ和JM000SI,上述编码由元素的正经父元素编码值JM000和相应元素的标准代码组成,其中,标准代码依据针灸学标准词汇参照我国权威标准(标准号为GB/T12346-2006的《腧穴名称与定位》)和针灸学领域的经典著作(如:《针灸学》、《经络学》、《腧穴学》、《经络腧穴学》、《针灸穴名国际标准手册》等);在五级层次上,以手阳明大肠经为例,它的子元素(如:商阳穴、二问穴、三问穴等)分别编码为:JMOOOLIl、JMOOOLl2、JMOOOLl3等,上述编码由元素的正经父元素编码值JM000LI和和相应元素在同一层次上的顺序号组成;其中,顺序号依据针灸学标准词汇参照我国权威标准(标准号为GB/T12346-2006的《腧穴名称与定位》)和针灸学领域的经典著作(如:《针灸学》、《=经络学》、《腧穴学》、《经络腧穴学》、《针灸穴名国际标准手册》等)(2)依据维度之间的较高维度层次上的元素组合和不同维度层次上的元素之间的父子关系,对中心表中已有的数据进行聚集计算并生成第三数据集合。如:依据经脉、人体分部、疾病、疗法、朝代五个维度之间的足太阳膀胱经、头部、半身不遂、刺法、明代的元素组合,并依据足太阳膀胱经元素和头部元素的子元素情况,对中心表中的数据进行腧穴使用频数的统计,并生成形如:(足太阳膀胱经元素代码、头部元素代码、半身不遂元素代码、刺法元素代码、明代元素代码、腧穴使用频数)的汇总数据。(3)将第二数据集合和第三数据集合中的数据导入至第二数据库。在上述实施例中,是依据古代中医医案数据分析的实际需要确定的一组维度,从而保证了数据分析的多角度性;并且依据中医药领域的专业知识,确定维度层次和维度层次上的元素,保证了数据分析的多层次性;依据多维数据分析操作类型,进行多种形式的数据分析,实现数据分析的多侧面性。在获取到第二数据库之后,多维数据库创建完成,由于多维数据库中不仅存储着预先汇总的第一数据库,而且存储着第二数据库,因此,在多维数据库中查询数据时只需在多维数据库中进行一次性访问或简单统计,便可获得多维数据分析结果,避免了对多个原始数据库的大量原始数据上的复杂、重复、大量的数据查询操作和统计操作,缩短了系统响应时间,提高了数据分析工作效率,具备快速的数据分析处理能力。在从多维数据库中读取维度数据之前,从原始数据库中读取原始数据,然后根据原始数据确定维度和度量,并依据中医药领域的专业知识,确定维度元素数据和维度层次数据,之后可以根据第一预设条件确定每个维度元素数据的唯一标识,获取维度元素代码数据。其中,原始数据库也可以保存在多维数据库中。其中,维度数据和第一数据库中的数据均可以保存在原始数据库中,原始数据库中的原始数据可以包括古代中医医案的第一基础数据、第二基础数据以及各个基础数据之间的第四关联关系,如,原始数据库中可以包括古代中医医案的症状数据、腧穴数据和刺灸方法数据等第一基础数据,第二基础数据可以包括医案名称、医案类型、病证、作者、出处、朝代等数据。根据本发明的上述实施例,对第一数据进行聚集计算得到度量值的步骤可以包括:从标准词汇库中读取标准词汇;按照标准词汇对第一数据进行标准化转换得到第二数据;对第二数据进行聚集计算得到度量值。上述实施例中的标准词汇库中存储有中医药领域的标准词汇,具体地,标准词汇可以包括中医基础理论标准词汇、中医病证标准词汇、针灸学标准词汇等。其中,中医基础理论标准词汇参照我国权威标准(如:标准号为GB/T20348-2006的《中医基础理论术语》)和相关经典著作(如:《中医基础理论》),中医病证标准词汇参照我国权威标准(如:标准号为GB/T14396-1993的《疾病分类与代码》、标准号为GB/T15657-1995的《中医病证分类与代码》、标准号为GB/T16751.1-1997的《中医临床诊疗术语疾病部分》、标准号为GB/T16751.2-1997的《中医临床诊疗术语证候部分》、标准号为GB/T16751.3-1997的《中医临床诊疗术语治法部分》等)和我国中医药领域的经典著作(如:《中医大辞典》、《中医诊断学》、《中医内科学》等),针灸学标准词汇参照世界卫生组织和我国权威标准(如:世界卫生组织发布的《针灸穴位国际标准书》、标准号为GB/T12346-2006的《腧穴名称与定位》、标准号为6812346-90的《经穴部位》等)和针灸学领域的经典著作(如:《针灸学》、《经络学》、《腧穴学》、《经络腧穴学》、《针灸穴名国际标准手册》、《中国针灸穴位通鉴》等)。此外,标准词汇库还用于存储标准词汇之间的联系属性。例如,由于腧穴与经脉之间存在着隶属联系(即一个腧穴属于一条经脉且一条经脉包含多个腧穴),因此标准词汇库中保存的腧穴与经脉之间的“所属经脉”用于表示腧穴标准词汇与经脉标准词汇之间的联系属性。标准词汇库不仅为原始数据的获取提供了依据,在对第一数据进行增补处理时,标准词汇库中存储的标准词汇之间的联系属性还可以作为增补依据;在对第一数据进行标准化转换时,标准词汇库中存储的标准词汇之间的联系属性还可以作为标准化转换的转换依据。具体地,依据标准词汇库中的标准词汇以及标准词汇之间的关联关系对第一数据中的非规范化数据进行数据转换,得到第二数据。例如,在第一数据中腧穴的数据值可能存在别名的形式,这就需要依据腧穴名称的标准词汇将别名转换为标准名称。在本发明的上述实施例中,在从第一数据库中提取与维度数据对应的第一数据集合之后,方法可以包括:检测第一数据的完整度是否符合第一阈值,在第一数据的完整度不符合第一阈值的情况下,对第一数据进行删除或增补处理得到清理后的第一数据集合;或检测第一数据集合中是否存在与第一数据一致的第二数据,在第一数据集合中存在与第一数据一致的第二数据的情况下,删除第二数据,得到清理后的第一数据集合。根据本发明的上述实施例,对第一数据进行删除或增补处理得到清理后的第一数据集合的步骤可以包括:从维度数据中提取描述数据;使用描述数据对第一数据进行增补处理,以使得第一数据的完整度符合第一阈值,得到清理后的第一数据集合。具体地,在本发明的上述实施例中,对第一数据集合中第一数据的检测,即,依据第一数据中的数据值错误和丢失情况、数据值是否由多个列存储情况、数据列设计和数据值设定情况进行的数据检测。具体到中医医案领域,在第一数据的完整度不符合第一阈值的情况下,检测第一数据的完整度是否低于第二阈值,在第一数据的完整度不低于第二阈值的情况下,根据第一数据中缺失的维度元素数据与标准词汇之间的联系属性对第一数据进行数据增补,得到清理后的第一数据集合;在第一数掘的完整度低于第二阈值的情况下,删除第一数据,得到清理后的第一数据集合。在上述实施例中,鉴于原始数据库中可能存在着数据值不规范、数据值错误和丢失、数据值是否由多个列存储、数据列设计和数据值设定等诸多情况,进而影响数据统计结果的准确性,原始数据源中还可能存在着缺少维度数据的情况,进而影响多维数据分析的可行性,本发明的上述实施例对第一数据进行删除、增补处理以对第一数据集合进行清理得到清理后的第一数据集合,从而避免了上述情况,从而保证了多维数据分析的可行度,提升了数据分析结果的准确度。在本发明的上述实施例中,维度数据可以包括:维度元素数据、维度元素代码数据以及维度元素数据与维度元素代码数据之间的第二关联关系,其中,建立度量值与维度数据之间的第一关联关系生成第二数据库的步骤可以包括:建立度量值与维度元素代码数据之间的第三关联关系;通过度量值和第二关联关系建立第一关联关系;保存维度数据、度量值、第一关联关系和第三关联关系,以生成第二数据库。在本发明的上述实施例中,在建立度量值与维度数据之间的第一关联关系生成第二数据库之后,上述方法还可以包括:接收用户的第一多维数据分析请求;将第一多维数据分析请求转化为第二多维数据分析请求;从第二数据库中获取与第二多维数据分析请求对应的结果数据集;输出结果数据集。具体地,在通过接收模块170接收到用户的第一多维数据分析请求之后,系统的第一转换模块190会依据第一多维数据分析请求进行请求转换得到第二多维数据分析请求,其中,依据第一多维数据分析请求进行请求转换包括对第一多维数据分析请求进行数据请求分类并生成查询语句或直接生成查询语句,然后通过第六处理模块210从第二数据库中获取与第二多维数据分析请求对应的结果数据集,然后通过输出模块230输出该结果数掘集。其中,输出模块230可以根据第二多维数据分析请求中用户请求显示结果数据集的方式显示该结果数据集,其中,可以通过第二转换模块将结果数据集转换为可视化数据,并通过显示模块将结果数据集显示。其中,接收模块170和输出模块230都可以设置在系统的前端服务器上;显示结果数据集的方式包括:数据表显示形式和图形显示形式。如图4所示,执行步骤S202:接收用户的第一多维数据分析请求。具体地,用户可以通过输入设备输入第一多维数据分析请求,其中,第一多维数据分析请求可以包括维度、维度顺序、维度层次、维度层次上的元素和度量。例如,对于“治疗中风病的口舌歪斜症状的古代针灸医案在正经和奇经上的腧穴使用频数”的分析请求,用户可以在系统的输入端进行疾病维度和经脉维度、“疾病→经脉”维度顺序、在疾病维度中的疾病层上的“中风病”元素→证候层上的所有元素(即中风病的所有证候)→症状层上的“口舌歪斜”元素、在经脉维度中的二级层次上的“正经”和“奇经”元素以及“腧穴使用频数”度量的选择操作,进而生成机器可以识别的第一多维数据分析请求,分析结果参照表1所示。表1在接收到第一多维数据分析请求之后,可以执行步骤S204:通过第一转换模块190将第一多维数据分析请求转化为第二多维数据分析请求。具体地,如果第一多维数据分析请求是基于已有分析结果所形成的进一步分析请求,则依据多维数据分析操作类型对第一多维数据分析请求进行分类并生成查询语句,否则直接生成查询语句;依据多维数据分析操作类型对第一多维数据分析请求进行有效地分类并生成查询语句,简化了数据分析请求的复杂度,缩短了数据分析请求的执行时间,进而提高了数据分析的处理效率。在上述实施例中的原始数据库中的原始数据可以实时更新,这样可以保证基于原始数据库中的同一数据的分析操作不会得到先后不同的结果,从而保证了数据分析结果的一致性。此外,本发明提供了分析服务和前台服务技术方案,可以便捷地生成数据分析请求和信息显示要求,在接收到第一多维数据分析请求之后,通过第一转换模块190对多维数据分析请求和已有的分析结果进行灵活直观的数据操纵,并生成更进一步的数据分析请求,降低了第一多维数据分析请求生成过程的复杂度,实现多种类型的数据分析操作,获得更为感兴趣的分析结果,并以直观易懂的形式显示结果信息,进而提高了数据分析的交互性。在上述实施例中,依据多维数据分析操作类型对第一多维数据分析请求进行有效地分类并生成查询语句的过程中,多维数据分析操作类型包括:下钻,上卷,切片,切块和旋转;下钻为增加维度数量或依据特定维度上的维度层次之间的逻辑结构关系将较高层次转变为较低层次,获取详细的度量值;上卷为减少维度数量或依据特定维度上的维度层次之间的逻辑结构关系将较低层次转变为较高层次,获取粗略的度量值;切片为在一个或多个维度上的具体元素限制下,获取其他维度上的度量值;切块为在一个或多个维度上的元素区间限制下,获取其他维度上的度量值;旋转为改变维度之间的排序,获取新的度量值。具体地,第一转换模块190可以对已有的分析结果进行深入的分析,进一步生成分析后的第二多维数据分析请求;例如,参照表1所示,用户可以单击该数据表中的“正经”显示区域,生成第二多维数据分析请求,用于获取正经元素在所处维度层次的下一级维度层次上的所有元素(即“阳经”和“阴经”)所对应的度量值,分析结果参照表2所示。表2另外,不同维度层次上的元素之间可能存在着父子关系,若一个元素所属的维度层次包含下一级层次且该元素在下一级层次上存在着与自身有逻辑关系的另一个元素,前者称为后者的父元素,后者称为前者的子元素,且一个父元素可以包含多个子元素,一个子元素只能隶属于一个父元素;参照表1所示,“正经”前面的“+”标识用于表示依据该元素所属的维度上的维度层次之间的逻辑结构关系,该元素所属的维度层次包含下一级层次且该元素在下一级层次上包含子元素且现有的分析结果尚未显示该元素在下一级层次上所对应的子元素的具体情况,用户可以在该元素上进行下钻操作;反之,“-”标识用于表示用户可以在该元素上进行上卷操作;此外,元素前面没有上述标识用于表示该元素所属的维度层次不包含下一级维度层次或该元素在下一级维度层次上不包含子元素。在获取分析结果(也即获取结果数据集)之后,输出分析结果(即结果数据集)。分析结果的输出方式可以依据用户的需求具有不同的方式。例如,可以是数据表、柱状图、饼形图等多种信息输出方式。执行第二多维数据分析请求的步骤包括:从第二数据库中获取与第二多维数据分析请求对应的多维数据,并形成结果数据集。具体的步骤如下:具体地,多维数据分析操作类型包括上卷、下钻、切片、切块和旋转五种操作,例如,参照表2所示,用户可以单击该表中的“正经”显示区域以输入第一多维数据分析请求,由于“正经”前面的标识为“-”,则表明已经分析过相对于正经的较低层次的维度数据,则可以通过上卷操作获取新的度量值(如表1所示),进而从更少的层次上获取度量值分布情况;该上卷操作的具体实现过程为:将该显示区域所对应的度量区域行上的数据进行汇总,生成新的度量值之后,进行数据表的调整,形成并显示新的分析结果数据表,如表1所示;上述过程无需多维数据库中的查询操作,提高了处理效率;此外,下钻操作是上卷操作的逆过程。进一步地,用户可以添加朝代维度,通过下钻操作获取更为详细的度量值,即如果朝代维度上的一级层次包含“明前”和“明后”两个元素(其中,“明后”元素包括明朝,此划分依据在于:明代是古代针灸医案发展的成熟期),那么可以在已有的数据分析基础上进一步获取“明前”和“明后”的度量值分布情况,进而从更多的角度获取度量值分布情况,深入了解“治疗口舌歪斜症状的古代针灸医案在正经和奇经上的、在明前和明后的腧穴使用频数”情况,获取更感兴趣、更丰富的结果。更具体地,用户还可以调整经脉维度数据和朝代维度数据的先后顺序,通过旋转操作获取新的度量值,即深入了解“治疗口舌歪斜症状的古代针灸医案在明前和明后的、在正经和奇经上的腧穴使用频数”情况,进而从新的侧面获取度量值分布情况。步骤S206:从第二数据库中获取与第二多维数据分析请求对应的结果数据集。具体地,执行上述在将第一多维数据分析请求转化为第二多维数据分析请求生成的查询语句,并生成结果数据集。其中,首先与第二数据库建立链接,之后依据语句中的查询条件,在第二数据库中进行一次性查询或简单统计,生成结果数据集。其中,第一多维数据分析请求转化成的查询语句可能需要在第二数据库中进行简单汇总统计;以表1所涉及的分析请求为例,第二数据库的中心表存储了在疾病维度中的疾病层上“中风病”元素、该元素在证候层上具体证候子元素、上述证候子元素在症状层上“口舌歪斜”子元素的“腧穴使用频数”度量值,若执行该请求的查询语句,则需要在第二数据库中查询和汇总“中风病元素所包含的证候子元素,且该子元素包含口舌歪斜子元素”的“腧穴使用频数”度量值,进而生成结果数据集。步骤S208,输出结果数据集。具体地,可以接收并显示上述实施例中的结果数据集,将其转换为可视化信息,并将其通过显示设备展示给用户。图5是根据图3所示实施例的初始多维数据库的创建方法的流程示意图。依照图5所示的实施例,具体步骤如下:步骤S302,根据第二预设条件明确数据分析角度和观察指标,以确定维度和度量。具体地,例如,腧穴是针灸医案的核心数据,医案数据分析常需要观察腧穴使用情况,腧穴使用情况可以包括腧穴使用频次和频率;此外,医案数据分析可以从症状、经脉、人体分部、疗法、朝代等角度来观察腧穴使用情况,进而获取医案中隐藏的规律;因此,维度可以确定为:朝代、经脉、人体分部、疗法和疾病五个维度,度量可以确定为:腧穴使用频次和腧穴使用频率,从而能够依据上述多个维度获取度量值,实现多角度的医案数据分析。另外,由于特定穴是具有特殊治疗作用并按特定称号归类的腧穴,在针灸学的临床应用有着极为重要的意义;因此,特定穴的使用频数和使用频率具有突出的价值,也应设定为多维数据库的度量。步骤S304,获取维度层次和维度层次上的维度元素。具体地,依据中医药领域的专业知识,确定维度层次和维度层次上的元素。例如,依据中医药领域知识,经脉维度可以包括最顶层次(即经脉本身,可称为全部)、一级层次(包括正经和奇经两个元素)、二级层次(如:上一级层次中的正经元素在该层次上包括阴经和阳经两个子元素)、三级层次(如:上一级层次中的阴经元素在该层次上包括手三阴经和足三阴经两个子元素)、四级层次(如:上一级层次中的手三阴经元素在该层次上包括手太阴经、手少阴经和手厥阴经三个子元素)和五级层次(如:上一级层次中的手太阴经在该层次上包括中府穴、云门穴、天府穴等腧穴子元素)。根据上述实施例可知:由经脉维度的最顶层次到最低层次,对经脉维度的描述程度变得越来越细;反之,描述程度变得越来越粗。用户可以依据经脉维度,以“全部一正经一阴经一手三阴经一手太阴经一中府穴”为分析路径,逐步获取越来越细或越来越粗的度量值,进而实现多层次的数据分析。另外,维度层次之间存在着概念上的逻辑结构关系,即从概念的角度上一级维度层次上的一个元素可能包含下一级维度层次上的一个或多个子元素,反之,下一级维度层次上的一个元素隶属于上一级维度层次上的某一个父元素,如:在概念上,阳经元素包含手三阳经和足三阳经两个元素,反之,手三阳经元素隶属于阳经元素。步骤S306,使用第一预设条件对维度元素进行代码化处理,获取维度元素代码数据。步骤S308,根据维度元素代码数据和维度元素生成维度表。步骤S310,根据维度元素代码数据和度量数据生成中心表。具体地,可以形成一个中心表的空表,也可以在中心表中存储一些已知的完整的维度数据和度量值。步骤S312,将维度表和中心表保存为多维数据库。具体地,在执行步骤S312之后,还可以将原始数据库中的数据导入多维数据库,以及后续可以执行将第二数据库保存在多维数据库中的操作。需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。从以上的描述中,可以看出,本发明实现了如下技术效果:首先获取维度数据,然后从第一数据库中提取与维度数据对应的第一数据集合,并在对第一数据集合中的第一数据进行聚集计算得到度量值之后,建立度量值与维度数据之间的第一关联关系生成第二数据库,可以通过维度数据来获取第一数据集合,在依据第一数据集合获取度量值之后,建立度量值与维度数据之间的第一关联关系,通过第一关联关系生成第二数据库,通过第一关联关系导入度量值来生成第二数据库,进而为多维数据分析提供准确的、适用的数据源,从而解决了由于现有的古代中医医案数据库不完整且数据无序,从而导致使用现有医案数据库查询数据的结果不准确、效率低下,以及无法实现更为复杂查询的问题,实现了快速准确地建立完整的古代中医医案数据库的效果,用户查询古代中医医案数据时,直接从第二数据库中查询,可以直接获取完整的查询结果,查询快速、准确,效率高。显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1