基于数据指标的数据质量评估方法、装置、设备及介质与流程

文档序号:26953662发布日期:2021-10-16 02:47阅读:67来源:国知局
1.本发明涉及数据分析
技术领域
:,尤其涉及一种基于数据指标的数据质量评估方法、装置、电子设备及计算机可读存储介质。
背景技术
::2.随着数据呈爆发式地增长,多数传统企业也开始走上了数字化转型的道路。在企业数字化转型过程产生的数据中蕴藏的商业价值也逐渐被人们挖掘出来,数据已被作为产生业务价值和实现业务目标的基石,因此,数据的质量,成为了人们关注的重点。3.现有的对于数据质量进行评估的方法多为基于固定的规则对数据的质量进行评估,但由于数据中,往往存在着多个不同来源或不同领域的数据,而不同的数据的质量评价标准往往不一致,因此,该方法利用固定的规则对数据的质量进行评估,会导致数据质量评估的精确度较低。技术实现要素:4.本发明提供一种基于数据指标的数据质量评估方法、装置及计算机可读存储介质,其主要目的在于解决进行数据质量评估的精确度较低的问题。5.为实现上述目的,本发明提供的一种基于数据指标的数据质量评估方法,包括:6.获取待评估数据,按照预设的分段符对所述待评估数据进行分段处理,得到分段数据段,提取每个所述分段数据段的关键语义;7.根据所述关键语义对所述分段数据段进行数据相关段落合并,得到合并数据段;8.提取每一个所述合并数据段的关键词,利用所述关键词确定每一个所述合并数据段的数据领域;9.利用所述数据领域在预设指标列表中检索得到每一个所述合并数据段对应的数据指标,计算每一个所述合并数据段对应的数据指标的指标数值;10.统计所述合并数据段中每个数据段在所述待评估数据中的占比,利用预设的权重算法,根据所述占比及所述指标数值,计算所述待评估数据的数据质量评分。11.可选地,所述提取每个所述分段数据段的关键语义,包括:12.逐个从所述分段数据段中选取其中一个分段数据段作为目标分段数据段,对所述目标分段数据段进行分词处理,得到数据分词;13.对所述数据分词进行向量转换,得到分词向量;14.构建所述分词向量的向量子集集合,利用预先构建的语义分析模型对所述向量子集集合进行特征提取,得到特征子集;15.利用预设的激活函数计算所述特征子集中的每个特征向量的输出值,选取所述输出值大于预设输出阈值的特征向量为所述目标分段数据段的关键语义。16.可选地,所述根据所述关键语义对所述分段数据段进行数据相关段落合并,得到合并数据段,包括:17.分别计算所述关键语义中每个语义之间的相似度;18.将所述相似度大于预设相似度阈值的关键语义对应的分段数据段进行合并,得到合并数据段。19.可选地,所述提取每一个所述合并数据段的关键词,包括:20.从所述合并数据段中选取其中一个合并数据段作为目标合并数据段,并从所述目标合并数据段的数据分词中选取其中一个目标分词;21.统计所述目标分词在所述目标合并数据段中出现的第一频率,以及统计所述目标分词在所有所述合并数据段中出现的第二频率;22.利用所述第一频率与所述第二频率计算所述目标分词的关键值,并返回从所述目标合并数据段的数据分词中选取其中一个目标分词的步骤,直至计算得出所述目标合并数据段中所有目标分词的关键值;23.选取所述关键值大于预设关键值的目标分词为所述目标合并数据段的关键词,并返回从所述合并数据段中选取其中一个合并数据段作为目标合并数据段的步骤,直至获取所述合并数据段中所有数据段的关键词。24.可选地,所述利用所述关键词确定每一个所述合并数据段的数据领域,包括:25.将所述合并数据段中的关键词进行向量转换,得到关键词向量;26.计算所述关键词向量与预设的标准数据领域之间的匹配值;27.选取所述匹配值大于预设的匹配阈值的标准数据领域为所述关键词对应的合并数据段的数据领域。28.可选地,所述利用所述数据领域在预设指标列表中检索得到每一个所述合并数据段对应的数据指标,包括:29.构建预设指标列表的索引;30.根据所述数据领域和所述索引在所述预设指标列表中进行检索,得到与所述数据领域对应的数据指标。31.可选地,所述计算每一个所述合并数据段对应的数据指标的指标数值之后,所述方法还包括:32.从所述合并数据段的数据指标中,选取指标数值不在预设的阈值区间内的数据指标;33.将被选取的所述数据指标对应的合并数据段汇集为数据段集;34.利用所述数据段集向预设用户进行数据质量定位预警。35.为了解决上述问题,本发明还提供一种基于数据指标的数据质量评估装置,所述装置包括:36.语义提取模块,用于获取待评估数据,按照预设的分段符对所述待评估数据进行分段处理,得到分段数据段,提取每个所述分段数据段的关键语义;37.段落合并模块,用于根据所述关键语义对所述分段数据段进行数据相关段落合并,得到合并数据段;38.数据领域确定模块,用于提取每一个所述合并数据段的关键词,利用所述关键词确定每一个所述合并数据段的数据领域;39.指标计算模块,用于利用所述数据领域在预设指标列表中检索得到每一个所述合并数据段对应的数据指标,计算每一个所述合并数据段对应的数据指标的指标数值;40.质量评估模块,用于统计所述合并数据段中每个数据段在所述待评估数据中的占比,利用预设的权重算法,根据所述占比及所述指标数值计算所述待评估数据的数据质量评分。41.为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:42.存储器,存储至少一个指令;及43.处理器,执行所述存储器中存储的指令以实现上述所述的基于数据指标的数据质量评估方法。44.为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于数据指标的数据质量评估方法。45.本发明实施例将待评估数据按照不同的数据领域进行划分,并根据待评估数据中每个部分数据的数据领域针对性的选取数据指标,利用数据指标对该部分数据进行评估,并利用每一部分数据的评估结果进行权重计算,得到待评估数据的数据质量评分,避免了利用统一的规则对所有的数据进行评估,提高了数据指标与数据的匹配性,进而提高了数据质量评估的精确性。因此本发明提出的基于数据指标的数据质量评估方法、装置、电子设备及计算机可读存储介质,可以解决进行产品推荐时的精确度较低的问题。附图说明46.图1为本发明一实施例提供的基于数据指标的数据质量评估方法的流程示意图;47.图2为本发明一实施例提供的提取关键语义的流程示意图;48.图3为本发明一实施例提供的提取关键词的流程示意图;49.图4为本发明一实施例提供的基于数据指标的数据质量评估装置的功能模块图;50.图5为本发明一实施例提供的实现所述基于数据指标的数据质量评估方法的电子设备的结构示意图。51.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式52.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。53.本技术实施例提供一种基于数据指标的数据质量评估方法。所述基于数据指标的数据质量评估方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之,所述基于数据指标的数据质量评估方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。54.参照图1所示,为本发明一实施例提供的基于数据指标的数据质量评估方法的流程示意图。在本实施例中,所述基于数据指标的数据质量评估方法包括:55.s1、获取待评估数据,按照预设的分段符对所述待评估数据进行分段处理,得到分段数据段,提取每个所述分段数据段的关键语义。56.本发明实施例中,所述待评估数据包括业务流程数据、用户信息数据、产品描述数据、系统运行日志数据等。57.本发明实施例可利用具有数据抓取功能的计算机语句(如java语句、python语句等)从预先构建的存储区域抓取存储的待评估数据,所述存储区域包括但不限于数据库、区块链节点、网络缓存等。58.本发明实施例中,可按照预设的分段符对所述待评估数据进行分段处理,得到所述待评估数据对应的多个分段数据段,所述分段符包括但不限于逗号、空格号、分号。59.例如,存在待评估数据为:fqwfcnjutrnrcerbwbv,当所述分段符为空格号时,则可按照所述待评估数据中空格号的位置将所述待评估数据分为fqwfc、njutrnr、cerbwbv三个分段数据段。60.本发明实施例中,将所述待评估数据按照预设的分段字符划分为多个第一数据字段,可减少每个第一数据字段中的数据量,提高对所述待评估数据分析的效率。61.本发明实施例中,可利用预设的语义分析模型对每一个分段数据段进行分析,以提取每一个分段数据段的关键语义,所述语义分析模型包括但不限于nlp(naturallanguageprocessing,自然语言处理)模型、hmm(hiddenmarkovmodel,隐马尔科夫模型),所述关键语义是指能够表示分段数据段的核心内容的语义。62.本发明实施例中,参图2所示,所述提取每个所述分段数据段的关键语义,包括:63.s21、逐个从所述分段数据段中选取其中一个分段数据段作为目标分段数据段,对所述目标分段数据段进行分词处理,得到数据分词;64.s22、对所述数据分词进行向量转换,得到分词向量;65.s23、构建所述分词向量的向量子集集合,利用预先构建的语义分析模型对所述向量子集集合进行特征提取,得到特征子集;66.s24、利用预设的激活函数计算所述特征子集中的每个特征向量的输出值,选取所述输出值大于预设输出阈值的特征向量为所述目标分段数据段的关键语义。67.详细地,可利用预先构建的词库对所述目标分段数据段进行分词,得到数据分词,所述词库中包含多个标准分词,将所述目标分段数据段按照不同的数据长度在所述词库中进行检索,即可得到所述目标分段数据段对应的数据分词。68.具体地,可利用预设的词向量转化模型对所述数据分词进行向量转换,得到分词向量,所述词向量转换模型包括但不限于word2vec模型、crf(conditionalrandomfield,条件随机场)模型。69.本发明实施例中,所述向量子集集合中包括所述分词向量所有的子集,构建所述分词向量的向量子集集合,有利于提高分析向量组合的多样性,进而提高生成的关键语义的精确度。70.例如,所述分词向量包括向量a、向量b和向量c,则所述分词向量的向量子集集合包括:[向量a]、[向量b]、[向量c]、[向量a,向量b]、[向量a,向量c]、[向量b,向量c]六个子集。[0071]本发明其中一个实际应用场景中,同一数据段的数据分词中,可用于表示该数据段的核心语义的分词之间存在着较强的关联性,例如,存在一个数据段对应的数据分词包括数据分词a,数据分词b和数据分词c,其中,数据分词a和数据分词b可用于表示该数据段的核心语义,则数据分词a和数据分词b之间的关联性,既大于数据分词a与2数据分词c之间的关联性,又大于数据分词b和数据分词c之间的关联性。[0072]进一步地,本发明实施例可利用预先构建的语义分析模型对所述向量子集集合的每个向量子集中分析向量之间的关联性进行分析,以根据所述关联性从所述向量子集集合中筛选出具有代表性的特征子集。[0073]例如,存在向量子集集合包括向量子集a、向量子集b和向量子集c,利用所述语义分析模型分别对向量子集a、向量子集b和向量子集c中分词向量的关联程度进行分析,得到向量子集a中分词向量的关联程度为80,向量子集b中分词向量的关联程度为70,向量子集c中分词向量的关联程度为60,则确定向量子集a为所述目标分段数据段的特征子集。[0074]详细地,在提取出所述特征子集后,可利用预设的激活函数计算所述特征子集中的每个特征向量的输出值,并选取所述输出值大于预设输出阈值的特征向量为所述目标分段数据段的关键语义,其中,所述激活函数包括但不限于sigmoid激活函数、softmax激活函数。relu激活函数。[0075]s2、根据所述关键语义对所述分段数据段进行数据相关段落合并,得到合并数据段。[0076]本发明实施例中,由于s1中仅是按照预设的分段符对所述待评估数据进行分段处理,导致得到的分段数据段中可能存在数据段的内容不完整,例如,待评估数据的分段数据段中包含数据段a、数据段b,其中,数据段a和数据段b为用于记录用户行为的数据段,若单独利用数据段a或数据段b对进行数据质量分析,会造成分析不精确的情况。[0077]因此,本发明实施例可根据所述关键语义对所述分段数据段进行段落合并,以将所述分段数据段中属于同一内容的数据段合并到一起,进而提高后续对数据进行质量分析的精确度。[0078]本发明实施例中,所述根据所述关键语义对所述分段数据段进行数据相关段落合并,得到合并数据段,包括:[0079]分别计算所述关键语义中每个语义之间的相似度;[0080]将所述相似度大于预设相似度阈值的关键语义对应的分段数据段进行合并,得到合并数据段。[0081]详细地,所述分别计算所述关键语义中每个语义之间的相似度,包括:[0082]利用如下相似度算法计算所述关键语义中每个语义之间的相似度:[0083][0084]其中,s为所述相似度,xk为所述关键语义中第k个关键语义,yj为所述关键语义中第j个关键语义,α为预设系数。[0085]本发明其他实施例中,还可利用余弦距离算法、欧式距离算法等具有相似度计算功能的算法计算所述目标语义与所述关键语义中每个语义的相似度。[0086]例如,所述关键语义中存在语义a、语义b、语义c和语义d,选取语义a为所述目标语义,分别计算所述语义a与语义b、语义c和语义d之间的相似度,得到语义a与语义b的相似度为89,语义a与语义c的相似度为76,语义a与语义d的相似度为62,当预设相似度阈值为80时,则将语义b对应的数据段与语义a对应的分段数据段进行合并,再选取语义c为目标语义,计算所述语义c与语义d的相似度,得到语义c与语义d的相似度为30,则不对语义c与语义d对应的数据段进行合并,得到合并后的合并数据段:语义a和语义b对应的数据段、语义c对应的数据段和语义d对应的数据段。[0087]本发明实施例中,可根据关键语义将所述分段数据段中相似的数据段进行合并,以使得获取的合并数据段中每个数据段语义的完整性,进而有利于提高对数据质量进行评估的精确性。[0088]s3、提取每一个所述合并数据段的关键词,利用所述关键词确定每一个所述合并数据段的数据领域。[0089]本发明其中一个实际应用场景中,在不同领域中,对所述待评估数据的评估标准重点不一致。[0090]例如,待评估数据中包含,用于记录股价变动的数据和记录用户行为的数据,其中,用于记录股价变动的数据属于市场行领域,则该数据需要更高的时效性,但用于记录用户行为的数据属于人信息领域,则该数据需要更高的精确性与完整性。[0091]对于记录股价变动的市场行情领域的数据,需要更高的时效性;但对于记录用户行为的个人信息领域数据,需要更高的完整性等。[0092]因此,本发明实施例可根据所述关键语义对所述待评估数据进行数据领域分类,以实现将所述待评估数据中的数据分类为多种不同领域的分类数据,以便于后续对不同数据领域的分类数据进行针对性地评估。[0093]本发明实施例中,参图3所示,所述提取每一个所述合并数据段的关键词,包括:[0094]s30、从所述合并数据段中选取其中一个合并数据段作为目标合并数据段;[0095]s31、从所述目标合并数据段的数据分词中选取其中一个目标分词;[0096]s32、统计所述目标分词在所述目标合并数据段中出现的第一频率,以及统计所述目标分词在所有所述合并数据段中出现的第二频率;[0097]s33、利用所述第一频率与所述第二频率计算所述目标分词的关键值;[0098]s34、判断被选取的所述目标分词的数量是否小于所述目标分段数据段的数据分词的数量;[0099]若所述目标分词的数量小于所述目标分段数据段的数据分词的数量,则执行s35、返回从所述目标合并数据段的数据分词中选取其中一个目标分词的步骤;[0100]若所述目标分词的数量大于或等于所述目标分段数据段的数据分词的数量,则执行s36、选取所述关键值大于预设关键值的目标分词为所述目标合并数据段的关键词;[0101]s37、判断被选取的所述目标分段数据段的数量是否小于所述合并数据段中数据段的数量;[0102]若被选取的所述目标分段数据段的数量小于所述合并数据段中数据段的数量,则执行s38、返回返回从所述合并数据段中选取其中一个合并数据段作为目标合并数据段的步骤;[0103]若被选取的所述目标分段数据段的数量大于或等于所述合并数据段中数据段的数量,则执行s39、得到每一个所述合并数据段的关键词。[0104]详细地,可根据如下预设关键值算法,利用所述第一频率与所述第二频率计算所述目标分词的关键值:[0105][0106]其中,k为所述关键值,m为所述第二频率,n为所述第一频率,β为预设常数。[0107]本发明实施例中,利用如上预设关键词算法计算所述目标合并数据段中每一个目标分词的关键值,并选取所述关键值大于预设关键值的目标分词为该目标合并数据段的关键词。[0108]例如,存在目标合并数据段内包含数据分词a、数据分词b和数据分词c,选取数据分词a为目标分词,利用如上预设关键词算法计算所述数据分词a的关键值为80,选取数据分词b为目标分词,利用如上预设关键词算法计算所述数据分词b的关键值为60,选取数据分词c为目标分词,利用如上预设关键词算法计算所述数据分词c的关键值为50,当所述预设关键值为70时,则选取数据分词a为该目标合并数据段的关键词。[0109]本发明其他实施例中,还可通过tf‑idf(termfrequency–inversedocumentfrequency,词频‑逆文档频率)算法、textrank算法等具有关键词提取功能的算法[0110]进一步地,本发明实施例可利用所述关键词确定每一个所述合并数据段的数据领域,例如,计算所述关键词与预设的标准数据领域之间的匹配值,并确定所述匹配值大于预设的匹配阈值的数据领域为所述关键词对应的合并数据段的数据领域。[0111]本发明实施例中,所述利用所述关键词确定每一个所述合并数据段的数据领域,包括:[0112]将所述合并数据段中的关键词进行向量转换,得到关键词向量;[0113]计算所述关键词向量与预设的标准数据领域之间的匹配值;[0114]选取所述匹配值大于预设的匹配阈值的标准数据领域为所述关键词对应的合并数据段的数据领域。[0115]详细地,所述将所述合并数据段中每一个数据段对应的关键词进行向量转换的步骤,与s1中对所述数据分词进行向量转换,得到分词向量的步骤一致,在此不做赘述。[0116]具体地,所述计算所述关键词向量与预设的标准数据领域之间的匹配值,包括:[0117]利用如下匹配值算法计算所述关键词向量与预设的标准数据领域之间的匹配值:[0118][0119]其中,p为所述匹配值,a为所述关键词向量,b为所述标准数据领域的向量表达。[0120]例如,合并数据段中存在数据段a和数据段b,其中,数据段a对应的关键词为第一关键词,数据段b对应的关键词为第二关键词;存在预设的标准数据领域:第一领域和第二领域,利用如上匹配值算法分别计算数据段a对应的第一关键词与所述第一领域和所述第二领域之间的匹配值,得到第一关键词与第一领域之间的匹配值为90,第一关键词与第二领域之间的匹配值为70,当预设的匹配阈值为80,则确定数据段a对应的数据领域为第一领域;同理,计算数据段b对应的第二关键词与所述第一领域和所述第二领域之间的匹配值,得到第二关键词与第一领域之间的匹配值为77,第二关键词与第二领域之间的匹配值为85,则确定数据段b对应的数据领域为第二领域。[0121]本发明实施例通过关键词确定每一个所述合并数据段的数据领域,可便于实现针对不同数据领域的数据进行针对性的数据质量评估,提高数据质量评估的精确性。[0122]s4、利用所述数据领域在预设指标列表中检索得到每一个所述合并数据段对应的数据指标,计算每一个所述合并数据段对应的数据指标的指标数值。[0123]本发明实施中,可利用所述数据领域在预设的指标列表中进行检索,以获取与所述数据领域相应的数据指标,所述指标列表中包括多个数据领域,以及每一个数据领域对应的数据指标,所述数据指标包括但不限于完整性指标、及时性指标、冗余性指标、精确性指标、可理解性指标等。[0124]本发明实施例中,所述利用所述数据领域在预设指标列表中检索得到每一个所述合并数据段对应的数据指标,包括:[0125]构建预设指标列表的索引;[0126]根据所述数据领域和所述索引在所述预设指标列表中进行检索,得到与所述数据领域对应的数据指标。[0127]详细地,可利用sql库中的createindex函数构建所述预设指标列表的索引。[0128]示例性地,可利用如下的createindex函数构建所述预设指标列表的索引:[0129]createindexindex‑name[0130]ontable‑name(column‑name)[0131]其中,index‑name为创建的索引的名称,可由用户预先定义,table‑name为所述预设指标列表的名称,column‑name为所述预设指标列表中需要建立索引的数据列的名称。[0132]进一步地,本发明实施例中,可根据获取的数据指标计算每一个所述合并数据段对应的数据指标的指标数值。[0133]例如,所述合并数据段中存在数据段a和数据段b,其中,数据段a的数据指标为完整性指标,数据段b的数据指标为时效性指标,则对于数据段a,可统计所述数据段a中数据的总数量,和所述数据段a中数据为空值的空值数量,将所述总数量和所述空值数量相除,并将相除的结果数值作为所述完整性指标的指标数值;[0134]对于数据段b,可统计所述数据段b中每个数据被获取时的获取时间,以及当前时间,将所述数据段b中所有数据的所述获取时间以及所述当前时间做差并求和,得到的数值作为所述数据段b的时效性指标的指标数值。[0135]本发明实施例中,利用所述数据领域在预设指标列表中检索得到每一个所述合并数据段对应的数据指标,实现了根据不同的数据领域针对性的选取数据指标,提高了数据质量评估的精确性。[0136]本发明实施例中,所述计算每一个所述合并数据段对应的数据指标的指标数值之后,所述方法还包括:[0137]从所述合并数据段的数据指标中,选取指标数值不在预设的阈值区间内的数据指标;[0138]将被选取的所述数据指标对应的合并数据段汇集为数据段集;[0139]利用所述数据段集向预设用户进行数据质量定位预警。[0140]例如,所述合并数据段中存在数据段a、数据段b和数据段c,其中,数据段a对应的数据指标的指标数值为123,数据段b对应的数据指标的指标数值为456,数据段c对应的数据指标的指标数值为789,当预设的阈值区间为(500,800)时,确定数据段a和数据段b的数据指标的指标数值不在所述阈值区间内,则说明所述合并数据段中数据段a和数据段b的部分的数据质量较差,则将数据段a与数据段b汇集为数据段集,并向预设用户发送数据段a与数据段b的质量定位预警。[0141]详细地,所述质量定位预警是指向用户推送所述合并数据段中,所述指标数值不在预设的阈值区间内的数据段相关的信息,以告知用户所述合并数据段中哪一部分数据的指标数值不在预设的阈值区间。[0142]具体地,可通过提示框、高亮标注等方式对所述合并数据段中数据的指标数值不在预设的阈值区间的数据段进行展示,以向预设用户进行数据质量定位预警。[0143]本发明实施例中,通过对用户进行数据质量预警,有利于让用户了解到所述合并数据段中可能存在数据质量问题的数据的具体位置,同时,便于用户对该数据做出修正、删除等调整,以提高所述合并数据段中数据的质量。[0144]s5、统计所述合并数据段中每个数据段在所述待评估数据中的占比,利用预设的权重算法,根据所述占比及所述指标数值计算所述待评估数据的数据质量评分。[0145]本发明实施例中,可通过统计所述合并数据段中每个数据段在所述待评估数据中的占比,并将所述占比作为预设的权重算法的参数,以计算所述待评估数据的数据质量评分。[0146]例如,统计所述合并数据段中所有数据段的数据总量,以及分别统计所述合并数据段中每个数据段的数据量,将每个数据段的数据量与所述数据总量进行相除,得到所述合并数据段中每个数据段在所述评估数据中的占比。[0147]本发明实施例中,所述利用预设的权重算法,根据所述占比计算所述待评估数据的数据质量评分,包括:[0148]利用如下权重算法根据所述占比及所述指标数值计算所述待评估数据的数据质量评分:[0149][0150]其中,g为所述数据质量评分,n为所述合并数据段中数据段的数量,qi为所述合并数据段中第i个数据段的数据指标的指标数值,pi为第i个预设的权重系数。[0151]本发明实施例中,可利用上述权重算法计算得到所述待评估数据的数据质量评分。[0152]本发明实施例将待评估数据按照不同的数据领域进行划分,并根据待评估数据中每个部分数据的数据领域针对性的选取数据指标,利用数据指标对该部分数据进行评估,并利用每一部分数据的评估结果进行权重计算,得到待评估数据的数据质量评分,避免了利用统一的规则对所有的数据进行评估,提高了数据指标与数据的匹配性,进而提高了数据质量评估的精确性。因此本发明提出的基于数据指标的数据质量评估方法,可以解决进行产品推荐时的精确度较低的问题。[0153]如图4所示,是本发明一实施例提供的基于数据指标的数据质量评估装置的功能模块图。[0154]本发明所述基于数据指标的数据质量评估装置100可以安装于电子设备中。根据实现的功能,所述基于数据指标的数据质量评估装置100可以包括语义提取模块101、段落合并模块102、数据领域确定模块103、指标计算模块104及质量评估模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。[0155]在本实施例中,关于各模块/单元的功能如下:[0156]所述语义提取模块101,用于获取待评估数据,按照预设的分段符对所述待评估数据进行分段处理,得到分段数据段,提取每个所述分段数据段的关键语义;[0157]所述段落合并模块102,用于根据所述关键语义对所述分段数据段进行数据相关段落合并,得到合并数据段;[0158]所述数据领域确定模块103,用于提取每一个所述合并数据段的关键词,利用所述关键词确定每一个所述合并数据段的数据领域;[0159]所述指标计算模块104,用于利用所述数据领域在预设指标列表中检索得到每一个所述合并数据段对应的数据指标,计算每一个所述合并数据段对应的数据指标的指标数值;[0160]所述质量评估模块105,用于统计所述合并数据段中每个数据段在所述待评估数据中的占比,利用预设的权重算法,根据所述占比及所述指标数值计算所述待评估数据的数据质量评分。[0161]详细地,本发明实施例中所述基于数据指标的数据质量评估装置100中所述的各模块在使用时采用与上述图1至图3中所述的基于数据指标的数据质量评估方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。[0162]如图5所示,是本发明一实施例提供的实现基于数据指标的数据质量评估方法的电子设备的结构示意图。[0163]所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于数据指标的数据质量评估程序。[0164]其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(centralprocessingunit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(controlunit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于数据指标的数据质量评估程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。[0165]所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(smartmediacard,smc)、安全数字(securedigital,sd)卡、闪存卡(flashcard)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于数据指标的数据质量评估程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。[0166]所述通信总线12可以是外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。[0167]所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如wi‑fi接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight‑emittingdiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。[0168]图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。[0169]例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi‑fi模块等,在此不再赘述。[0170]应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。[0171]所述电子设备1中的所述存储器11存储的基于数据指标的数据质量评估程序是多个指令的组合,在所述处理器10中运行时,可以实现:[0172]获取待评估数据,按照预设的分段符对所述待评估数据进行分段处理,得到分段数据段,提取每个所述分段数据段的关键语义;[0173]根据所述关键语义对所述分段数据段进行数据相关段落合并,得到合并数据段;[0174]提取每一个所述合并数据段的关键词,利用所述关键词确定每一个所述合并数据段的数据领域;[0175]利用所述数据领域在预设指标列表中检索得到每一个所述合并数据段对应的数据指标,计算每一个所述合并数据段对应的数据指标的指标数值;[0176]统计所述合并数据段中每个数据段在所述待评估数据中的占比,利用预设的权重算法,根据所述占比及所述指标数值计算所述待评估数据的数据质量评分。[0177]具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。[0178]进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read‑onlymemory)。[0179]本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:[0180]获取待评估数据,按照预设的分段符对所述待评估数据进行分段处理,得到分段数据段,提取每个所述分段数据段的关键语义;[0181]根据所述关键语义对所述分段数据段进行数据相关段落合并,得到合并数据段;[0182]提取每一个所述合并数据段的关键词,利用所述关键词确定每一个所述合并数据段的数据领域;[0183]利用所述数据领域在预设指标列表中检索得到每一个所述合并数据段对应的数据指标,计算每一个所述合并数据段对应的数据指标的指标数值;[0184]统计所述合并数据段中每个数据段在所述待评估数据中的占比,利用预设的权重算法,根据所述占比及所述指标数值计算所述待评估数据的数据质量评分。[0185]在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。[0186]所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。[0187]另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。[0188]对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。[0189]因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。[0190]本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。[0191]此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。[0192]最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1