一种异常数据搜索模型的确定方法及装置与流程

文档序号:22545946发布日期:2020-10-17 02:15阅读:78来源:国知局
一种异常数据搜索模型的确定方法及装置与流程

本发明涉及金融科技(fintech)领域,尤其涉及一种异常数据搜索模型的确定方法及装置。



背景技术:

随着计算机技术的发展,越来越多的技术(例如:区块链、云计算或大数据)应用在金融领域,传统金融业正在逐步向金融科技转变,大数据技术也不例外,但由于金融、支付行业的安全性、实时性要求,也对大数据技术提出的更高的要求。

现有技术中对可疑的或高危险的异常交易数据进行抓取,是通过专业的岗位人员,基于对行业异常交易(如反洗钱)行为分析,指定用户的金融交易习惯,设计好规则,开发人员通过规则和模型组合,通过关键的规则和模型算法,筛选出可疑程度高的人群,从而确保数据搜索模型的有效性。

然而现有技术过于依赖专业人员的专业技能水平,对于新颖的异常交易,需要先经过专业人士的分析和规则的制定,再通过开发人员的开发和上线,并且在数据搜索模型生成过程中,需要严谨且长周期的进行,这种方式已经越来越满足不了现代的互联网异常数据检测了,即使要自动生成模型,也只能按照传统的训练样本生成,训练样本也是采用原先的样本,会导致检测结果不准确,仍然无法满足现代的互联网异常数据检索。



技术实现要素:

本发明实施例提供一种异常数据搜索模型的确定方法及装置,用于提升模型调整或生成周期速度,根据建立标签库,提高模型生成的准确性。

第一方面,本发明实施例提供一种异常数据搜索模型的确定方法,包括:

获取标签;所述标签是对客户的登记信息、账户性质和交易信息预处理得到的;

根据用户输入的标签和标签库中标签得到多个智能推荐标签;以使所述用户选择所述智能推荐标签;所述标签库是将所述标签进行存储得到的;

将所述用户输入的标签结合所述用户选择的所述智能推荐标签,得到标签组合;

根据所述标签组合确定数据搜索模型。

上述技术方案中,将客户的交易数据进行预处理,得到对应的标签,并将标签存储至数据库,然后根据用户输入的标签和标签库中标签,得到用于推荐给用户选择的多个智能推荐标签,然后根据用户选择的标签组合确定数据搜索模型,不再需要由用户确定出异常数据,开发人员再根据异常数据进行异常数据检索模型构建,解放开发人员的劳动力,由用户进行选择标签就可以确定数据搜索模型,提升了数据搜索模型调整或生成周期速度。

可选的,所述标签库中的标签包括标签搜索日志中的搜索标签、模型标签和案例标签;

所述根据所述用户输入的标签和所述标签库中标签得到多个智能推荐标签,包括:

将所述搜索标签、所述模型标签和所述案例标签的格式进行统一化处理,得到样本集;

将所述样本集根据所述搜索标签、所述模型标签和所述案例标签得到多个样本文件;

将所述多个样本文件根据tf-idf算法进行计算,得到所述样本集中各标签的权重;

将所述各标签结合所述各标签的权重,得到数据集;

通过k均值聚类算法将所述数据集进行聚类,并进行排序;得到簇集;

根据所述用户输入的标签与所述簇集得到多个所述智能推荐标签。

上述技术方案中,计算出标签数据库中各标签的权重,根据各标签对应的权重得到包括各标签对应的元素的簇集,通过用户输入的标签对应的元素,在簇集确定出与用户输入的标签对应的元素相关的多个元素,进而得到多个元素对应的多个智能推荐标签,以供用户进行选择,不仅提高标签推荐的准确性,也提高了用户的体验。

可选的,所述将所述多个样本文件根据tf-idf算法进行计算,得到所述样本集中各标签的权重,包括:

确定出各样本文件中每个标签的词频与逆向文件频率;

将所述词频与所述逆向文件频率的乘积确定为所述样本集中各标签的权重。

上述技术方案中,通过tf-idf算法计算出各样本文件中每个标签的词频与逆向文件频率,进而确定出各标签的权重,用以向用户推荐智能推荐标签,使得标签按权重高低顺序进行推荐,提高了标签推荐的准确性,也提高了用户的体验。

可选的,所述通过k均值聚类算法将所述数据集进行聚类,并进行排序;得到簇集,包括:

将所述数据集分k个簇,并在所述数据集中随机确定出k个第一中心元素,得到第一中心集;其中k为正整数;

确定出所述数据集中每个非第一中心元素与所述k个第一中心元素之间的距离,将距离最小的非中心元素与对应的所述第一中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第一簇集;

根据所述第一簇集得到所述第二中心集和第二簇集,再根据所述第二簇集得到所述第三中心集和第三簇集;

判断所述第二中心集与所述第三中心集是否相等,若是,则确定所述第二簇集或第三簇集为所述簇集;否则根据当前得到的所述第三簇集,得到下一中心集和下一簇集,直至确定当前得到的中心集与下一中心集相等为止。

上述技术方案中,通过k均值聚类算法,并通过元素之间的距离对各元素进行排序,得到簇集,并得到簇集中元素的簇号与序号,在通过簇集中的中心元素对簇集进行验证,进行重复的优化,直至得到符合标准的簇集,然后在簇集中将元素对应标签,通过簇集中元素的位置确定各标签在簇集中的位置,以通过计算簇集中的元素向用户推荐元素对应的智能推荐标签,使得标签按符合标准的簇集中的元素进行推荐,提高了标签推荐的准确性,也提高了用户的体验。

可选的,所述根据所述第一簇集得到所述第二中心集和第二簇集,再根据所述第二簇集得到所述第三中心集和第三簇集,包括:

计算所述第一簇集中每个簇的第一均值,确定出所述第一簇集中每个簇中的所有元素与所述第一均值之间的距离,将所述第一簇集中每个簇中元素与所述第一均值之间的距离最小的元素确定为第二中心元素,得到第二中心集,根据所述第二中心集,重新确定出所述数据集中每个非第二中心元素与k个所述第二中心元素之间的距离,将距离最小的每个非第二中心元素与对应的所述第二中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第二簇集;

计算所述第二簇集中每个簇的第二均值,确定出所述第二簇集中每个簇中的所有元素与所述第二均值之间的距离,将所述第二簇集中每个簇中元素与所述第二均值之间的距离最小的元素确定为第三中心元素,得到第三中心集,根据所述第三中心集,再确定出所述数据集中每个非第三中心元素与k个所述第三中心元素之间的距离,将距离最小的每个非第三中心元素与对应的所述第三中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第三簇集;

上述技术方案中,根据均值计算,得到第二中心集和第三中心集,以通过第二中心集和第三中心集,对簇集进行验证,以得到符合标准的簇集,提升了簇集中各元素的位置的准确性。

可选的,所述根据所述用户输入的标签与所述簇集得到多个所述智能推荐标签,包括:

将簇集中簇号小于第一阈值和/或序号小于第二阈值的各元素对应的标签随机确定为多个所述智能推荐标签;

将簇集中各元素与所述用户输入的标签对应的元素之间的距离小于距离阈值的多个元素对应的标签随机确定为多个所述智能推荐标签。

上述技术方案中,在簇集中,簇号越小的元素对应的标签权重越大,序号越小的元素对应的标签权重越大,因此根据簇集中各元素的簇号和/或序号,进行随机确定多个智能推荐标签,可以为用户推荐权重相对较大的标签,还可以根据用户输入的标签,提高了标签推荐的准确性,也提高用户的体验。

可选的,所述对客户的交易数据进行预处理得到所述标签数据,包括:

对所述交易数据进行数据清洗,得到所述标签数据。

第二方面,本发明实施例提供一种异常数据搜索模型的确定装置,包括:

获取模块,用于获取标签;所述标签是对客户的登记信息、账户性质和交易信息预处理得到的;

处理模块,根据用户输入的标签和标签库中标签得到多个智能推荐标签;以使所述用户选择所述智能推荐标签;所述标签库是将所述标签进行存储得到的;

将所述用户输入的标签结合所述用户选择的所述智能推荐标签,得到标签组合;

根据所述标签组合确定数据搜索模型。

可选的,所述标签库中的标签包括标签搜索日志中的搜索标签、模型标签和案例标签;

所述处理模块具体用于:

将所述搜索标签、所述模型标签和所述案例标签的格式进行统一化处理,得到样本集;

将所述样本集根据所述搜索标签、所述模型标签和所述案例标签得到多个样本文件;

将所述多个样本文件根据tf-idf算法进行计算,得到所述样本集中各标签的权重;

将所述各标签结合所述各标签的权重,得到数据集;

通过k均值聚类算法将所述数据集进行聚类,并进行排序;得到簇集;

根据所述用户输入的标签与所述簇集得到多个所述智能推荐标签。

可选的,所述处理模块具体用于:

确定出各样本文件中每个标签的词频与逆向文件频率;

将所述词频与所述逆向文件频率的乘积确定为所述样本集中各标签的权重。

可选的,所述处理模块具体用于:

将所述数据集分k个簇,并在所述数据集中随机确定出k个第一中心元素,得到第一中心集;其中k为正整数;

确定出所述数据集中每个非第一中心元素与所述k个第一中心元素之间的距离,将距离最小的非中心元素与对应的所述第一中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第一簇集;

根据所述第一簇集得到所述第二中心集和第二簇集,再根据所述第二簇集得到所述第三中心集和第三簇集;

判断所述第二中心集与所述第三中心集是否相等,若是,则确定所述第二簇集或第三簇集为所述簇集;否则根据当前得到的所述第三簇集,得到下一中心集和下一簇集,直至确定当前得到的中心集与下一中心集相等为止。

可选的,所述处理模块具体用于:

计算所述第一簇集中每个簇的第一均值,确定出所述第一簇集中每个簇中的所有元素与所述第一均值之间的距离,将所述第一簇集中每个簇中元素与所述第一均值之间的距离最小的元素确定为第二中心元素,得到第二中心集,根据所述第二中心集,重新确定出所述数据集中每个非第二中心元素与k个所述第二中心元素之间的距离,将距离最小的每个非第二中心元素与对应的所述第二中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第二簇集;

计算所述第二簇集中每个簇的第二均值,确定出所述第二簇集中每个簇中的所有元素与所述第二均值之间的距离,将所述第二簇集中每个簇中元素与所述第二均值之间的距离最小的元素确定为第三中心元素,得到第三中心集,根据所述第三中心集,再确定出所述数据集中每个非第三中心元素与k个所述第三中心元素之间的距离,将距离最小的每个非第三中心元素与对应的所述第三中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第三簇集;

可选的,所述处理模块具体用于:

将簇集中簇号小于第一阈值和/或序号小于第二阈值的各元素对应的标签随机确定为多个所述智能推荐标签;

将簇集中各元素与所述用户输入的标签对应的元素之间的距离小于距离阈值的多个元素对应的标签随机确定为多个所述智能推荐标签。

可选的,所述处理模块具体用于:

对客户的登记信息、账户性质和交易信息进行数据清洗,得到所述标签。

第三方面,本发明实施例还提供一种计算设备,包括:

存储器,用于存储程序指令;

处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述异常数据搜索模型的确定方法。

第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述异常数据搜索模型的确定方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种系统架构示意图;

图2为本发明实施例提供的一种异常数据搜索模型的确定方法的流程示意图;

图3为本发明实施例提供的一种确定簇集的示意图;

图4为本发明实施例提供的一种簇集的示意图;

图5为本发明实施例提供的一种结果展示的示意图;

图6为本发明实施例提供的一种不同版本的可执行脚本的示意图;

图7为本发明实施例提供的一种模型管理的示意图;

图8为本发明实施例提供的一种模型搜索的示意图;

图9为本发明实施例提供的一种异常数据搜索模型的确定装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

图1示例性的示出了本发明实施例所适用的一种系统架构,该系统架构包括离线仓库100和标签处理仓库200。

其中,离线仓库100用于采集客户的登记信息、账户性质和交易信息,并进行预处理,得到标签。并将得到的标签通过离线数据同步工具发送至标签处理仓库200。

标签处理仓库200用于将得到的标签存储至标签库中,并提供搜索引擎es(elasticsearch,全文搜索引擎),在得到用户输入的标签时,提供标签对应的数据并提供标签相应的智能推荐标签,以供用户进行选择,并在用户确定出标签组合后,确定异常数据搜索模型。其中,搜索引擎es可以由搜索应用服务器solr代替。

需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。

基于上述描述,图2示例性的示出了本发明实施例提供的一种异常数据搜索模型的确定方法的流程,该流程可由异常数据搜索模型的确定装置执行。

如图2所示,该流程具体包括:

步骤201,获取标签。

本发明实施例,标签是对客户的登记信息、账户性质和交易信息预处理得到的,其中,客户的交易数据包括每天的交易数据和数据库中的所有数据,例如,客户的消费,理财,工资等数据。又如客户信息表有信息变动时产生的实时数据。

进一步地,对所述交易数据进行数据清洗,得到所述标签。

本发明实施例,当得到客户的交易数据后,通过离线计算对交易数据进行数据清洗,得到标签。例如,利用大数据编程模型(如mapreduce)的数据仓库工具hive或计算引擎spark离线计算客户的交易数据,得到标签(如姓氏和地址等),并在底层为分布式的存储文件中进行存储。

步骤202,根据用户输入的标签和标签库中标签得到多个智能推荐标签;以使所述用户选择所述智能推荐标签。

本发明实施例,标签库是将标签进行存储得到的,具体的,在对客户的登记信息、账户性质和交易信息预处理后,得到客户对应的标签,并进行存储,得到标签库,以使用户使用标签库中的标签,并根据用户输入的标签为用户在数据库中的推荐多个智能推荐标签,以供用户进行选择。

进一步地,标签库中的标签包括标签搜索日志中的搜索标签、模型标签和案例标签;

将搜索标签的标签、模型标签的标签和案例标签的格式进行统一化处理,得到样本集;

将样本集根据搜索标签、模型标签和案例标签得到多个样本文件;

将多个样本文件根据tf-idf算法进行计算,得到样本集中各标签的权重;

将各标签结合各标签的权重,得到数据集;

通过k均值聚类算法将所述数据集进行聚类,并进行排序;得到簇集;

根据用户输入的标签与簇集得到多个智能推荐标签。

本发明实施例,将标签库中的搜索标签对应的多个标签、模型标签对应的多个标签和案例标签对应的多个标签进行数据清洗,统一化数据格式,得到标签对应的样本集,然后根据搜索标签、模型标签和案例标签将样本集分为多个样本文件。例如,将一个搜索标签中存在的多个标签(如性别+地址等)及标签对应的数量作为一个样本文件,和/或将另一个检索标签中只存在一个标签(如年收入10万元)及标签对应的数量作为一个样本文件。将模型标签中的多个标签(如反洗钱模型中的多个标签)及标签对应的数量作为一个样本文件。将案例标签中的多个标签(某地区已经确定的反洗钱案例中存在的多个标签)及标签对应的数量作为一个样本文件。每个搜索标签、模型标签和案例标签可以得到一个样本文件,然后将多个样本文件进行tf-idf计算,得到样本集中各标签的权重。其中,搜索标签指的是历史的标签搜索日志中的一个或多个标签,可以理解为一个搜索标签就是一条搜索历史日志。并且一个标签中可能存在多个标签,例如性别标签中还包括男标签和女标签。

需要说明的是,在用户输入标签时,若确定出标签库中并没有该标签时,记录输入历史,当输入历史的次数大于数量阈值时,向开发终端发出请求,以使开发人员针对标签库中没有的标签进行开发,以增加标签,优化标签库。

具体的,将多个样本文件进行tf-idf计算,得到样本集中各标签的权重的步骤为:确定出各样本文件中每个标签的词频与逆向文件频率;将词频与逆向文件频率的乘积确定为样本集中各标签的权重。

本发明实施例,根据下述公式(1)计算出每个样本文件中每个标签的词频tf,再根据下述公式2计算出每个样本文件中每个标签的逆向文件频率idf。

其中,tfij为标签的词频tf,nij为标签在不同样本文件中的次数,∑knkj为不同样本文件中所有标签的总数。

其中,idfi为逆向文件频率idf,|d|为样本文件的总数,|{j:t_i∈d_j}|为包含该标签的文件数量。

在得到标签的词频与逆向文件频率之后,将词频与逆向文件频率的乘积确定为标签的权重,即权重为tfij×idfi,按照上述公式(1)和公式(2),计算出所有标签库中所有标签的权重。

计算出每个标签的权重之后,将每个标签结合对应的权重得到对应的结果,作为数据集的元素,得到数据集,然后对数据集进行聚类计算,并将簇中的元素进行排序,确定出正确的簇集,其中,簇中的元素是标签与其对应的权重结合得到的,与标签相互对应,例如,簇中的元素有1*北京、0.9*上海和0.8*广州,北京、上海和广州是元素对应的标签。

具体的,将数据集分k个簇,并在数据集中随机确定出k个第一中心元素,得到第一中心集;其中k为正整数;

确定出数据集中每个非第一中心元素与k个第一中心元素之间的距离,将距离最小的非中心元素与对应的第一中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第一簇集;

根据第一簇集得到第二中心集和第二簇集,再根据第二簇集得到第三中心集和第三簇集;

判断第二中心集与第三中心集是否相等,若是,则确定第二簇集或第三簇集为簇集;否则根据当前得到的第三簇集,得到下一中心集和下一簇集,直至确定当前得到的中心集与下一中心集相等为止。

本发明实施例,根据随机抽取的元素作为第一中心元素,再将第一中心元素的集合作为第一中心集,根据欧式距离计算的各元素之间的距离及各元素的权重,得到第一簇集,然后对此时得到第一簇集进行均值算法优化,得到第二中心集和第二簇集,再对第二簇集进行均值算法优化,得到第三中心集和第三簇集,通过验证中心集是否一致,持续的对簇集进行优化,直至得到符合标准的簇集。

进一步地,对第一簇集进行均值算法优化,得到第二中心集和第二簇集,再对第二簇集进行均值算法优化,得到第三中心集和第三簇集的具体步骤为:确定出第一簇集中每个簇中的所有元素与第一均值之间的距离,将第一簇集中每个簇中元素与第一均值之间的距离最小的元素确定为第二中心元素,得到第二中心集,根据第二中心集,重新确定出数据集中每个非第二中心元素与k个第二中心元素之间的距离,将距离最小的每个非第二中心元素与对应的第二中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第二簇集;

计算第二簇集中每个簇的第二均值,确定出第二簇集中每个簇中的所有元素与第二均值之间的距离,将第二簇集中每个簇中元素与第二均值之间的距离最小的元素确定为第三中心元素,得到第三中心集,根据第三中心集,再确定出数据集中每个非第三中心元素与k个第三中心元素之间的距离,将距离最小的每个非第三中心元素与对应的第三中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第三簇集。

本发明实施例,根据计算簇集中每一簇的中心元素进行优化簇集,为了更好的解释上述技术方案,下面将再具体实例中进行阐述。

实例1

图3示例性的示出了一种确定簇集的示意图,如图3所示,该流程具体包括:

步骤301,随机确定出第一中心集。

将每个标签结合对应的权重,得到数据集d={x1,x2,…,xm},将数据集d进行分簇,簇的个数为k,在数据集{x1,x2,…,xm}中随机抽取k个元素,作为第一中心元素,并组成第一中心集c={c1,c2,…,ck}。

步骤302,得到第一簇集。

利用欧式距离计算公式,分别确定出数据集d中的每个非第一中心元素与每个第一中心元素之间的距离,将每个非第一中心元素与距离最小的第一中心元素确定为同一簇,再根据同一簇中每个非第一中心元素与第一中心元素之间的距离及各元素的权重,确定出同一簇中各元素的序号,得到第一簇集。例如,非第一中心元素x1,x2,x3,x4与第一中心元素c1之间的距离最小,则非第一中心元素x1,x2,x3,x4与第一中心元素c1为同一簇,又根据x2,x3与第一中心元素c1最近,且x2的权重大于x3,x1的权重大于x2,则该簇为x1,x2,c1,x3,x4。

步骤303,确定出第二中心集和第二簇集。

对第一簇集中每一簇进行均值计算,得到每一簇的均值,计算出同一簇中各元素与该簇的均值之间的距离,将距离最近的元素作为第二中心元素,得到第二中心集s={s1,s2,…,sk}。并根据步骤302得到第一簇集的方法,得到第二簇集。

步骤304,确定出第三中心集和第三簇集。

对第一簇集中每一簇进行均值计算,得到每一簇的均值,计算出同一簇中各元素与该簇的均值之间的距离,将距离最近的元素作为第二中心元素,得到第三中心集l={l1,l2,…,lk}。并根据步骤302得到第一簇集的方法,得到第三簇集。

步骤305,判断第二中心集与第三中心集是否相等,若是,则执行步骤306,否则执行步骤302。

若第二中心集s与第三中心集l并不相等,则根据第三中心集得到第四中心集和第四簇集。

步骤306,确定簇集。

在第二中心集与第三中心集相等时,确定步骤303得到的第二簇集或步骤304得到的第三簇集达到标准。

在得到簇集后,根据用户输入的标签,在簇集中计算出各元素与用户输入的标签对应的元素之间距离小于距离阈值的元素,并将小于距离阈值的元素对应的标签作为智能推荐标签,向用户进行推荐,以供用户选择。或根据簇集中簇号和/或序号小于阈值的元素对应的标签作为智能推荐标签,向用户进行推荐。

具体的,将簇集中簇号小于第一阈值和/或序号小于第二阈值的各元素对应的标签随机确定为多个智能推荐标签;簇号和序号是将数据集分簇后得到的。

将簇集中各元素与用户输入的标签对应的元素之间的距离小于距离阈值的多个元素对应的标签随机确定为多个智能推荐标签。

本发明实施例,在确定簇集后,每一簇对应一个簇号,其中,簇号是在对数据集进行k均值聚类算法时,根据权重的大小确定的各簇的簇号以及簇中的序号,例如,权重越大的元素簇号越小,序号越小。

在确定智能推荐标签时,可以将簇集中簇号小于第一阈值的所有元素对应的标签确定为智能推荐标签,如将簇集中簇号为小于2(即簇号为1,序号为m,m为正整数)的所有元素对应的标签确定为智能推荐标签。还可以将簇集中序号小于第二阈值的所有元素对应的标签确定为智能推荐标签,如将簇集中序号小于2(即序号为1,簇号为n,n为正整数)的所有元素对应的标签确定为智能推荐标签。还可以将簇号小于第一阈值且序号小于第二阈值的所有元素确定为智能推荐标签,如将簇号小于2且序号小于2的所有元素(及簇号为1且序号为1的元素)确定为智能推荐标签。

在确定智能推荐标签时,还可以根据用户输入的标签对应的元素与簇集中各元素之间的距离确定智能推荐标签。例如,根据用户输入的标签,匹配对应的元素,再根据对应的元素计算出与簇集中其他元素之间的距离,将距离小于距离阈值的多个元素对应的标签,确定为智能推荐标签。

需要说明的是,在得到确定出的智能推荐标签后,可以将所有的智能推荐标签为用户进行推荐,也可以将随机预设数量的智能推荐标签为用户进行推荐。例如,将根据簇号和/或序号确定的智能推荐标签随机5个进行推荐,将根据元素之间的距离确定的智能推荐标签随机2个进行推荐。在没有获取到用户输入的标签时,根据贡献度和关注度为用户进行推荐各元素对应的多个标签。

为了更好的阐述上述技术方案,下面将结合上述实例1,在具体实例中描述上述技术方案。

实例2

如图4所示,图4示例性的示出了一种簇集的示意图。

在图4中,每个元素对应一个标签,例如x5,2代表地址为上海,其中,5为簇号,2为第5簇中的序号,用户在输入上海标签时,会根据预设的第一阈值第二阈值将元素x1,1、x1,2、x2,1、x2,2对应的标签确定为智能推荐标签进行推荐,并将与元素x5,2之间距离小于距离阈值的x5,1、x5,3和x4,2确定为智能推荐标签进行推荐。

步骤203,将所述用户输入的标签结合所述用户选择的所述智能推荐标签,得到标签组合。

本发明实施例,在用户输入的标签后,生成智能推荐标签,供用户进行选择,用户在进行选择后,即选择了多个标签,将选择的多个标签确定为标签组合,例如,用户选择了性别男、地址上海、工作为开奶茶店和收入水平,智能推荐标签为支出水平,并且用户选择了支出水平标签,则标签组合为性别男、地址上海、工作为开奶茶店、收入水平和支出水平。

步骤204,根据所述标签组合确定数据搜索模型。

本发明实施例,在标签组合确定后,根据标签组合中对应的标签,生成对应可执行的程序,作为可执行的数据搜索模型脚本,以使用户进行修改,检测,在用户修改且检测合格后,根据用户输入的名称将模型脚本确定为可上线的数据搜索模型。

例如,用户输入的标签和选择的智能推荐标签组合为支出水平:10万+年龄:27+收入水平:12万+职业性质:白领+(居住地区1或地区2),则然后根据标签组合使用大数据的类sql程序语句,生成模型脚本为查询(客户)条件为支出水平为10万且年龄27且收入水平为12万且白领职业且(居住地区为地区1或地区2),然后通过上述模型脚本可以查出符合组合标签对应的客户的数据。

本发明实施例,通过对客户的登记信息、账户性质和交易信息预处理,得到对应的标签,并将标签存储至标签库,然后根据得到的多个智能推荐标签,向用户进行推荐,以使用户进行选择,在用户选择后,结合用户输入的标签得到标签组合,然后根据标签组合确定数据搜索模型,解放了开发人员的劳动力,由用户进行选择标签就可以确定数据搜索模型,提升了模型调整或生成周期速度,并且通过推荐智能推荐标签的技术方案,提高了用户的体验。

为了更好的阐述上述技术方案,下面将在具体实例中描述上述技术方案。

实例3

某省某村是个制毒之村,其中村民男女都为从犯人员,村民多为经营茶叶等掩人耳目的资产拥有者,其目的是销售毒品,收入资金远大于经营茶叶等同行业水平,无理财习惯,无投资习惯,这时用户输入的标签为:性别+地址(可疑高危地区)+资产信息+收入水平+理财收入+投资占比,根据用户输入的标签进行智能推荐标签推荐,引导用户选择智能推荐标签,待用户选择完毕后,确定标签组合,并根据标签组合展示结果,并保存历史结果,记录版本号。

在结果展示后,用户可以查看单独标签的信息,或标签组合中多标签的信息,以使用户对结果进行检测。图5示例性的示出了一种结果展示的示意图,如图5所示,用户在选了标签组合后(性别、地址和资产信息等),检索出对应的符合标签组合的客户的信息,然后用户通过点击标签组合中的地址标签,则进一步地展示符合地址标签的客户的信息,以供用户对结果进行检测。

在检测过程中,若需要修改,用户可以将本次的结果作为副本,再次编辑标签组合,得到多版本的结果,待用户确认结果后,将确认后的结果作为可执行的脚本,将可执行的脚本确定为数据搜索模型。若模型未上线,可以预览该脚本,并对脚本进行修改。图6示例性的示出了一种不同版本的可执行脚本的示意图。如图6所示,在版本202001011101111v1的版本上,取消性别标签,新增交易对手等标签,得到20200101010411v1标签。

在用户确定执行脚本无误后,对执行脚本定义名称(如str0001:涉毒模型)和用途(如涉黑、涉毒等),并进行上线,用于登记、作为检索条件和已命中的案例,确定出数据搜索模型。在数据搜索模型上线后,对数据搜索模型进行调整时,会将数据搜索模型设为灰度检索中状态(及暂时下线,停止使用),直到新标签组合确认完毕,替换当前模型正在使用的标签组合(及更换版本)。图7示例性的示出了一种模型管理的示意图。如图7所示,用户对确认后的执行脚本进行定义后,得到搜索编号str0001,涉黑的数据搜索模型等,用户通过点击搜索编号或模型名称,可以查看搜索编号对应的标签组合和历史版本。

在模型上线后,可以通过数据搜索模型进行检索,检索出符合模型的客户信息。图8示例性的示出了一种模型搜索的示意图。如图8所示,在案例查询平台中,搜索符合数据搜索模型编号为str0001的客户信息。

基于相同的技术构思,图9示例性的示出了本发明实施例提供的一种异常数据搜索模型的确定装置的结构,该装置可以执行异常数据搜索模型的确定方法的流程。

如图9所示,该装置具体包括:

获取模块901,用于获取标签;所述标签是对客户的登记信息、账户性质和交易信息预处理得到的;

处理模块902,根据用户输入的标签和标签库中标签得到多个智能推荐标签;以使所述用户选择所述智能推荐标签;所述标签库是将所述标签进行存储得到的;

将所述用户输入的标签结合所述用户选择的所述智能推荐标签,得到标签组合;

根据所述标签组合确定数据搜索模型。

可选的,所述标签库中的标签包括标签搜索日志中的搜索标签、模型标签和案例标签;

所述处理模块902具体用于:

将所述搜索标签、所述模型标签和所述案例标签的格式进行统一化处理,得到样本集;

将所述样本集根据所述搜索标签、所述模型标签和所述案例标签得到多个样本文件;

将所述多个样本文件根据tf-idf算法进行计算,得到所述样本集中各标签的权重;

将所述各标签结合所述各标签的权重,得到数据集;

通过k均值聚类算法将所述数据集进行聚类,并进行排序;得到簇集;

根据所述用户输入的标签与所述簇集得到多个所述智能推荐标签。

可选的,所述处理模块902具体用于:

确定出各样本文件中每个标签的词频与逆向文件频率;

将所述词频与所述逆向文件频率的乘积确定为所述样本集中各标签的权重。

可选的,所述处理模块902具体用于:

将所述数据集分k个簇,并在所述数据集中随机确定出k个第一中心元素,得到第一中心集;其中k为正整数;

确定出所述数据集中每个非第一中心元素与所述k个第一中心元素之间的距离,将距离最小的非中心元素与对应的所述第一中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第一簇集;

根据所述第一簇集得到所述第二中心集和第二簇集,再根据所述第二簇集得到所述第三中心集和第三簇集;

判断所述第二中心集与所述第三中心集是否相等,若是,则确定所述第二簇集或第三簇集为所述簇集;否则根据当前得到的所述第三簇集,得到下一中心集和下一簇集,直至确定当前得到的中心集与下一中心集相等为止。

可选的,所述处理模块902具体用于:

计算所述第一簇集中每个簇的第一均值,确定出所述第一簇集中每个簇中的所有元素与所述第一均值之间的距离,将所述第一簇集中每个簇中元素与所述第一均值之间的距离最小的元素确定为第二中心元素,得到第二中心集,根据所述第二中心集,重新确定出所述数据集中每个非第二中心元素与k个所述第二中心元素之间的距离,将距离最小的每个非第二中心元素与对应的所述第二中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第二簇集;

计算所述第二簇集中每个簇的第二均值,确定出所述第二簇集中每个簇中的所有元素与所述第二均值之间的距离,将所述第二簇集中每个簇中元素与所述第二均值之间的距离最小的元素确定为第三中心元素,得到第三中心集,根据所述第三中心集,再确定出所述数据集中每个非第三中心元素与k个所述第三中心元素之间的距离,将距离最小的每个非第三中心元素与对应的所述第三中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第三簇集;

可选的,所述处理模块902具体用于:

将簇集中簇号小于第一阈值和/或序号小于第二阈值的各元素对应的标签随机确定为多个所述智能推荐标签;

将簇集中各元素与所述用户输入的标签对应的元素之间的距离小于距离阈值的多个元素对应的标签随机确定为多个所述智能推荐标签。

可选的,所述处理模块902具体用于:

对客户的登记信息、账户性质和交易信息进行数据清洗,得到所述标签。

基于相同的技术构思,本发明实施例还提供一种计算设备,包括:

存储器,用于存储程序指令;

处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述异常数据搜索模型的确定方法。

基于相同的技术构思,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述异常数据搜索模型的确定方法。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1