基于特征缩放的数据预处理方法与流程

文档序号:25722532发布日期:2021-07-02 21:07阅读:118来源:国知局
基于特征缩放的数据预处理方法与流程

本发明涉及数据处理技术领域,具体为基于特征缩放的数据预处理方法。



背景技术:

在业务系统中,通常会有搜索匹配的业务需求,传统的搜索匹配处理过程,主要包括精准匹配和模糊匹配两类,精准匹配时,对目标数据或搜索条件进行关键词拆分,然后判断拆分的关键词与待匹配数据对应的字段是否完全一致,并返回搜索结果;模糊匹配则是进行模糊化搜索,并不要求目标数据与搜索条件完全一致,其通常是对检索条件进行解析后,根据属性的相似度形成搜索结果。为了简化用户输入,业务系统通常使用模糊匹配,以尽可能增加检全率,确保用户可以得到自己想要的结果。

但是目前的模糊匹配主要是判断待匹配数据中是否包含搜索条件,进而形成匹配结果,这种匹配方式仅仅是各个数据维度单独进行匹配,数据考虑不全面,而不从数据整体的角度进行匹配,无法匹配出数据不同,但含义相似的情况,同时针对一些参数,需要用户指定范围,如日期、数值等,增加用户操作。



技术实现要素:

本发明意在提供基于特征缩放的数据预处理方法,能够从整体上对各个维度进行匹配,解决现有技术匹配不全面的问题。

本申请提供如下技术方案:

基于特征缩放的数据预处理方法,包括以下步骤:

数据映射步骤,将待匹配数据的各个维度数据映射为数值数据;

特征缩放步骤,将各个维度映射后的数据进行特征缩放,所述特征缩放包括归一化处理、标准化处理中的一种或多种;

相似度计算步骤,计算待匹配数据与目标数据的相似度。

进一步,所述归一化处理采用min-max归一化算法或mean归一化算法。

进一步,特征缩放步骤采用以下公式进行标准化处理:

进一步,通过以下公式进行标准化处理:

其中,x为处理前的数据,x′为处理后的数据,||x||为取模。

进一步,所述相似度计算步骤包括:

将待匹配数据以及目标数据整理为数据向量;

计算待匹配数据与目标数据对应的向量的距离;

将距离映射为相似度。

进一步,将数据以及目标数据整理为数据向量步骤中,将待匹配数据整理为向量:

x=[x1,x2,x3…xn]

将目标数据整理为向量:

y=[y1,y2,y3…yn]

计算数据与目标数据对应的向量的距离采用加权欧式距离算法进行计算:

其中,d(x,y)表示向量x与向量y之间的距离,zi为第i个维度对应的权重。

本发明技术方案的有益效果为:

本发明技术方案中,按特定数据结构解析搜索条件,将不同维度的数据映射转化为数值数据,并将数据转化为向量,基于向量之间距离进行相似度的计算,结合实体的属性进行匹配,匹配的依据是以属性为维度的字段的相似度,相比现有技术中,对各个维度单一对比的情况,本发明技术方案可以从整体上对各个维度进行考量和匹配,通过特征缩放步骤,将数据进行归一化和标准化处理,避免距离计算依赖于量纲较大的维度特征,使得计算更加准确;另一方面,通过采用数据映射,并基于向量距离来计算相似度的方式,针对一些参数,如日期、数值等,会根据差值转化为相似度上的差异,无需用户指定范围,更加方便。

附图说明

图1为本申请基于特征缩放的数据预处理方法实施例中的流程图。

具体实施方式

下面通过具体实施方式对本申请技术方案进行进一步详细说明:

实施例一

如图1所示,本实施例中的基于特征缩放的数据预处理方法,包括以下步骤:

数据映射步骤,将待匹配数据的各个维度数据映射为数值数据;

特征缩放步骤,将各个维度映射后的数据进行特征缩放,特征缩放包括归一化处理、标准化处理中的一种或多种;

相似度计算步骤,计算待匹配数据与目标数据的相似度。

数据映射步骤中,将一个维度数据映射为数值数据过程包括:

判断维度数据的类型,如果是文本标签类,且文本标签之间无关联,则判断待匹配数据与目标数据的标签是否一致,若是则映射为数值0,若否则映射为数值1;

若维度数据的类型是时间类,则计算待匹配数据对应维度的数据与目标数据对应维度的数据的时间差值,并将时间差值转化为差异值,并以目标数据的数据对应的数值为0,将待匹配数据对应的维度数据转换为差异值,直接用差异值表示映射的数值大小,可以更加直观的反应差异程度。

若维度数据的类型是选择类且选项之间有关联,如时间关联或次序关联,如某时间属性共有1年、9个月、6个月、3个月、1个月五种选择,则可以将其按照时间长短排序,并设置相邻之间的数值差值为1/种类数,即1/5,若目标数据的时间属性为6个月,待匹配数据的属性为9个月,两者时间差值为1个步长,即差异值为0.2,则可以得到9个月对应的数值为0.2。

本实施中,以银行的票包数据匹配为例,需要匹配的数据的维度包括业务模式、期限、承兑人、直贴行、交易对手、额度、利率几个维度,额度以及利率本身就是数值型的数据,不需要进行映射,业务模式、承兑人、直贴行、交易对手则属于选择类的数据,但是选项之间互相独立不存在关联,因此判断待匹配数据与目标数据的对应的值是否一致,若是则应设为数值0,若否则映射为数值1;期限为时间类数据,且可选选项共有有1年、9个月、6个月、3个月、1个月五种选择,则可以将其按照时间长短排序,并设置相邻之间的步长为0.2,若目标数据的期限为1年,则数据期限为1年的,对应项数据取值0,9个月的,则取值0.2,以此类推,若目标数据的期限为6个月,则票包数据为1年的,该项数据取值0.4,3个月的取值0.2,以此类推。

归一化用于将数据映射到固定区间范围中,采用min-max归一化算法:

在本申请的其他实施例中采用mean归一化算法:

本实施例中,特征缩放步骤采用以下公式进行标准化处理:

通过标准化,将数据变换为均值为0,标准差为1的分布,统一数据标准,提高数据可比性,削弱数据解释性。

在本申请的其他实施例中,也可以结合数据特征及应用场景的需求,选择以下公式进行标准化处理:

其中,x为处理前的数据,x′为处理后的数据,||x||为取模。

所述相似度计算步骤包括:

将待匹配数据以及目标数据整理为数据向量;

计算待匹配数据与目标数据对应的向量的距离;

将距离映射为相似度。

将数据以及目标数据整理为数据向量步骤中,将待匹配数据整理为向量:

x=[x1,x2,x3…xn]

将目标数据整理为向量:

y=[y1,y2,y3…yn]

本实施例中,计算数据与目标数据对应的向量的距离采用加权欧式距离算法进行计算:

其中,d(x,y)表示向量x与向量y之间的距离,zi为第i个维度对应的权重,n为维度数。在本申请的其他实施例中,也可以结合数据特征及应用场景采用余弦相似度、皮尔逊相关系数、汉明距离、曼哈顿距离等来计算相似度。

计算出距离后,与特征缩放相似,将欧式距离映射到0%-100%的范围内,作为相似度判断结果。

实施例二

本实施例和实施例一的区别在于,本实施例中,还包括:

目标数据获取步骤,获取用户输入的目标数据;

目标数据验证步骤,通过数据验证模型判断用户输入的目标数据是否存在错误;

目标数据修正拓展步骤,根据目标数据的验证结果,生成修正目标数据和拓展目标数据;

相似度计算步骤中,还会计算待匹配数据与修正目标数据以及拓展目标数据的相似度;

还包括匹配结果生成步骤,根据相似度计算步骤的计算结果,生成匹配结果。

本实施例中,目标数据验证步骤包括:

根据各个维度数据的类型获取对应的数据校验规则;

根据数据校验规则对目标数据进行验证,判断是否存在数据错误;

获取各个维度数据之间的关联验证规则,根据关联验证规则判断各个数据之间是否存在冲突或错误;

根据匹配结果的数量是否小于预设值,判断用户输入的目标数据是否存在错误。

数据修正拓展步骤包括:

根据错误数据的数据类型、错误的类型匹配对应的数据修正模型,根据数据修正模型判断数据是否可以修正,若是则通过数据修正模型,根据数据类型、数据校验规则以及已有的待匹配数据等对错误的数据进行预测,使用预测的结果作为修正后的数据,数据修正模型可以采用基于神经网络的数据模型,通过回归分析,预测正确的数据内容。

如果数据无法修正,则根据目标数据各个维度数据的类型匹配对应的数据拓展模型,数据拓展模型对目标数据进行拓展,生成拓展目标数据,如目标数据时查询近一个月数据,则拓展对应的数据的条件为查询近一个季度的数据。

匹配结果生成步骤中根据用户输入的目标数据生成查询匹配结果,根据修正目标数据生成修正查询结果,根据拓展目标数据生成拓展查询结果,将查询匹配结果发送给用户端,同时缓存修正查询结果以及拓展查询结果。

当再次获取到用户输入的目标数据时,判断目标数据是否在修正目标数据或拓展目标数据的范围内,若是则直接选取对应的缓存数据作为查询匹配结果返回给用户。

本实施例技术方案中,通过对用户输入的目标数据的验证,能够判断用户输入的查询条件是否存在错误,并且根据用户输入的目标数据尝试进行修正和拓展并基于修正和拓展后的数据进行相似度的计算并生成对应的查询结果进行缓存,由于用户输入错误或输入的模糊匹配查询的条件不合适时,通常是无法获取到其想要的查询匹配结果,很大可能会更换查询条件进行再次的查询,本申请的技术方案通过对用户输入的目标数据(匹配搜索条件)自身错误的检测以及查询结果数量的检测,判断用户是否可能会再次修改目标数据进行查询,并预先生成可能的修正目标数据或拓展目标数据,根据这些数据生成查询结果并缓存,当用户再次查询时,可以实现快速响应,减少等待,提升用户体验。

以上的仅是本发明的实施例,该发明不限于此实施案例涉及的领域,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1