数据间关联规则的确定方法、装置、设备及可读存储介质与流程

文档序号:22387513发布日期:2020-09-29 17:50阅读:142来源:国知局
数据间关联规则的确定方法、装置、设备及可读存储介质与流程

本公开涉及数据处理技术,尤其涉及一种数据间关联规则的确定方法、装置、设备及可读存储介质。



背景技术:

目前,随着网络技术的发展,网上购物已经成为了用户通常采用的购物方式。网上也存在非常多的网络商城,用户可以在其中进行购物。

现有技术中,为了发现潜在的经营风险和数据异常,通常会根据用户的购物数据进行分析,从而确定在购物数据中确定数据间的关联,并基于该关联关系,查找购物数据中是否存在异常数据。现有技术中一般采用apriori算法来分析用户在购物时产生的数据,从而在用户的购物数据中找出共性特征。

但是,apriori算法需要数据源具有相同的参数,才能够进行计算,而现有的网络商城数据来源众多,例如手机端、电脑端,还可以包括多种媒介,例如网页数据、客户端数据等,这就导致不同的数据源存在不同的参数,导致现有技术中的方法无法满足需求。



技术实现要素:

本公开提供一种数据间关联规则的确定方法、装置、设备及可读存储介质,以解决现有技术中无法同时对多种数据源中的购物数据进行分析的问题。

本公开的第一个方面是提供一种数据间关联规则的确定方法,包括:

根据数据源确定数据键对,并确定所述数据键对对应的支持度;

根据所述支持度、所述数据源对应的阈值确定所述数据键对对应的支持标签;

根据所述支持标签确定所述数据键对之间的关联规则,并根据所述关联规则构建数据树。

本公开的另一个方面是提供一种数据间关联规则的确定装置,包括:

转换模块,用于根据数据源确定数据键对;

支持度确定模块,用于确定所述数据键对对应的支持度;

标签确定模块,用于根据所述支持度、所述数据源对应的阈值确定所述数据键对对应的支持标签;

规则确定模块,用于根据所述支持标签确定所述数据键对之间的关联规则,并根据所述关联规则构建数据树。

本公开的又一个方面是提供一种数据间关联规则的确定设备,包括:

存储器;

处理器;以及

计算机程序;

其中,所述计算机程序存储在所述存储器中,并配置为由所述处理器执行以实现如上述第一方面所述的数据间关联规则的确定方法。

本公开的又一个方面是提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如上述第一方面所述的数据间关联规则的确定方法。

本公开提供的数据间关联规则的确定方法、装置、设备及可读存储介质的技术效果是:

本公开提供的数据间关联规则的确定方法、装置、设备及可读存储介质,包括:根据数据源确定数据键对,并确定数据键对对应的支持度;根据支持度、数据源对应的阈值确定数据键对对应的支持标签;根据支持标签确定数据键对之间的关联规则,并根据关联规则构建数据树。本公开提供的方法、装置、设备及可读存储介质中,采用数据键对的格式存储数据源中的数据,在对数据处理过程中,便于对数据本身的字段内容进行扩展。并且,本公开提供的方法、装置、设备及可读存储介质中,在确定关联关系之前确定数据的支持度,并将支持度转换为支持标签的离散型数据形式,即使数据中不存在共享参数,由于支持标签的存在,也可以确定数据间的关联规则。

附图说明

图1为本发明一示例性实施例示出的数据间关联规则的确定方法的流程图;

图2为本发明另一示例性实施例示出的数据间关联规则的确定方法的流程图;

图3为本发明一示例性实施例示出的数据间关联规则的确定装置的结构图;

图4为本发明另一示例性实施例示出的数据间关联规则的确定装置的结构图;

图5为本发明一示例性实施例示出的数据间关联规则的确定设备的结构图。

具体实施方式

目前,为了提高网络商城中的销售量,通常会对用户日常的购物数据进行分析,找出购物特征,例如找出用户同时购买哪些商品的概率较大,再例如订单数与营业额之间的关系等。这些都可以作为管理者确定决策的基础。现有技术中通常会采用apriori算法来挖掘出购物数据中的关联关系,而这种算法在数据源种类较多时,具有一定的局限性。

apriori算法中先构建包括内容最少的数据集合,例如订单中包括商品a,订单中包括商品b等。再计算出每个集合的支持度,然后基于支持度阈值,过滤掉一部分数据集合(也可能所有数据集合都满足支持度阈值)。对于满足支持度阈值的集合,对其进行拼接得到,例如,订单中同时包括商品a、b,此时,可以计算当前得到的数据集合的支持度,再基于支持度阈值对其进行过滤。一直重复这样的步骤,直到满足停止条件位置。在这种方式中,需要数据源中存在共享参数,从而使其能够进行拼接得到新的数据集合。当数据源种类较多时,则无法同时对这些数据源进行分析。

本发明实施例提供的方案中,将数据源中的数据转化成数据键对(key-value)的形式,并且,预先计算出数据源中数据键对的支持度,并根据支持度确定数据键对的支持标签,在确定数据间的关联关系时,不再重新计算支持度,而是根据支持标签进行确定,即使数据中不存在共享参数,由于支持标签的存在,也可以确定数据间的关联规则。

图1为本发明一示例性实施例示出的数据间关联规则的确定方法的流程图。

如图1所示,本实施例提供的数据间关联规则的确定方法包括:

步骤101,根据数据源确定数据键对,并确定数据键对应的支持度。

其中,本实施例提供的方法可以由具备计算能力的电子设备执行。该电子设备能够获取到数据源。例如,可以将电子设备与数据库进行连接,从而能够读取其中的数据源,也可以将数据源直接存储在电子设备中。

具体的,数据源可以是基于大数据统计完成的数据源,可以对用户购物数据进行处理,得到的数据源。例如,一段时间内每天的订单数量,该段时间内每天的销售额,还可以包括该段时间每个订单中包括的商品信息等。

进一步的,数据源中可以包括多条数据,具体可以是数据报表形式。例如,若数据源是一段时间内每天的订单数量,则每个日期都能对应一条数据。

实际应用时,电子设备可以将数据源中的多条数据转换为数据键对的格式,即key-value格式。其中,key是指一条数据对应的数据标识,value是指该条数据的内容。在转换过程中,key是数据的唯一标识符。

其中,还可以设置转换规则,例如,可以根据数据报表中的顺序,将第一行数据的标识设置为“标记1”,将第二行数据的标识设置为“标记2”。再例如,还可以直接按照1、2、3、4这样的顺序逐一确定数据标识。将数据报表中包括的内容,直接作为数据键对中的数据内容。例如,报表中可以包括多个字段内容,每条数据对应的这些字段内容,就可以直接作为数据键对中的value。

具体的,可以确定每条数据对应的支持度。该支持度可以是数据中的一个数据字段,例如,可以是数据中包括的当日销售额。支持度还可以是根据数据中的数据内容计算得到的,例如,可以是当日销售额与一个基数的比值,该基数可以是预先设定的,例如可以是一段时间内的平均销售额。

当存在多个数据源时,可以将每个数据源中的数据都转换为数据键对格式,还可以将其都放置在同一个报表中。通过将数据源中的数据设置成数据键对的形式,能够使数据源中的字段个数不受限制,字段内容便于扩展,能够更加灵活的使用这些数据。

步骤102,根据支持度、数据源对应的阈值确定数据键对对应的支持标签。

进一步的,还可以预先确定不同数据源对应的阈值。由于数据源不同,其对应的阈值也会不同。例如,当数据源是一段时间内每天的订单数量时,阈值可以是订单数对应的值,例如500单。当数据源是一段时间内的每天的销售额时,阈值可以是销售额对应的值,例如5万元。

实际应用时,本实施例提供的方法中,可以将支持度这一数字指标转换为支持标签这一标签指标。具体可以比对每条数据的支持度与阈值,例如,若支持度小于阈值,则可以将支持度标签确定为“否”,若支持度大于等于阈值,则可以将支持度标签确定为是“是”。此外,支持度标签还可以是“偏高”、“偏低”等,具体可以根据需求进行设置。

其中,当需要同时对多个数据源进行分析,且数据源种类不同时,无法直接根据支持度判断各个数据间的关联关系,因此,可以将支持度这一数字指标转换成支持度标签这样的离散型数据,从而在数据源不同时,其采用的支持指标数据相同,即均是支持标签。

具体的,可以将数据键对的支持度与数据键对进行绑定,例如,可以将支持标签写入数据键对的数据内容中,即value中。可以在value中增加字段“支持标签”,并将确定的支持标签写入该字段中。

步骤103,根据支持标签确定数据键对之间的关联规则,并根据关联规则构建数据树。

进一步的,本实施例提供的方法中,还可以确定各个数据键对之间的关联规则。具体可以设定规则,若满足该规则,则认为数据键对之间具有关联关系,否则,认为二者不具备关联关系。例如,可以认为两个数据键对之间的一些字段内容相同,且支持标签相同,则具备关联关系。

实际应用时,可以按照数据键对在报表中的顺序,从上到下逐一对其进行处理。例如,针对第一行数据,可以在报表中确定与其满足规则的数据键对,并认为这些数据键对与第一行数据键对具备关联关系。

其中,有可能存在多个数据键对都与该第一行数据键对存在关联关系,此时,还可以在这些选出的数据键对中确定出与第一行数据键对最匹配的子节点。例如,可以设置算法对数据键对进行排序,再根据排序结果挑选出子节点。此时,第一行数据与该子数据具备关联关系。

具体的,还可以继续以该子节点为根节点,继续确定该节点的子节点。具体可以在该子节点在报表中之后的数据中进行确定,直到确定出这一支的最后一个节点。

进一步的,可以再从报表中找出未确定关联关系的其他节点,并将其作为根节点,继续寻找子节点。通过这种方式,能够得到整个报表中数据之间的多个关联关系,且这些关联关系是具有指向信息的,例如,数据1-数据3-数据5。数据1指向数据3,数据3指向数据5。

实际应用时,可以基于得到的关联关系构建数据树。在数据树中包括多个节点,一个节点可以既是父节点,又是子节点。例如,上述例子中的数据3是数据1的子节点,而数据3又是数据5的父节点。通过数据树的结构,使得用户能够更清晰的看出数据间的关系,从而更便于其利用这些关系确定营销手段。

本实施例提供的方法用于确定数据间的关联关系,该方法由设置有本实施例提供的方法的设备执行,该设备通常以硬件和/或软件的方式来实现。

本实施例提供的数据间关联规则的确定方法,包括:根据数据源确定数据键对,并确定数据键对对应的支持度;根据支持度、数据源对应的阈值确定数据键对对应的支持标签;根据支持标签确定数据键对之间的关联规则,并根据关联规则构建数据树。本实施例提供的方法中,采用数据键对的格式存储数据源中的数据,在对数据处理过程中,便于对数据本身的字段内容进行扩展。并且,本实施例提供的方法中,在确定关联关系之前确定数据的支持度,并将支持度转换为支持标签的离散型数据形式,即使数据中不存在共享参数,由于支持标签的存在,也可以确定数据间的关联规则。

图2为本发明另一示例性实施例示出的数据间关联规则的确定方法的流程图。

如图2所示,本实施例提供的数据间关联规则的确定方法,包括:

步骤201,根据预设规则确定数据源中每条数据对应的数据标识,并根据数据标识、数据确定数据键对。

其中,在确定数据间关联规则之前,需要使电子设备能够获取到相应的数据。具体可以将包括数据的数据源存储在数据库中,电子设备可以从数据库中读取该数据源。还可以直接将包括数据的数据源存储在电子设备的磁盘中,使得电子设备的处理器能够读取到该数据源。该数据源可以包括多种类的数据源。

具体的,电子设备可以将数据源中的数据转换为数据键对的格式。可以确定每条数据对应的数据标识,并将数据本身作为该数据标识对应的数据内容,从而形成键对。可以将数据标识作为数据的唯一标识,从而在数据本身中增加字段、进行修改等操作时,不会影响对该数据的读取、分析等处理过程。

进一步的,一般的数据源可以存储为表格形式,一行的内容是一条数据。此时,可以根据数据的行标识,确定其对应的数据标识。例如,第一行数据的行标识为“标记1”,第二行数据的行标识为“标记2”等。

若存在多个不同种类的数据源,还可以将这些数据源中的数据存储在同一个表格中,并根据一定的规则对其进行排序。例如,可以按照每条数据中包括的数据生产时间进行排序,还可以按照数据中包括字段的数量进行排序等,然后再基于每条数据的排序生成相应的数据标识。实际应用时,即使将多个数据源中的数据进行重排,仍然可以标记各个数据对应的数据源信息。

此外,若不需要分析多个数据源之间的数据关联关系,只需要分析同一个数据源中的数据关联关系,则还可以同时对多个数据源中的数据进行处理,执行本实施例提供的方法。

步骤202,确定数据键对对应的支持度。

步骤201与步骤101中确定支持度的具体原理和实现方式类似,此处不再赘述。

步骤203,获取数据键对对应的数据源阈值。

其中,可以先确定数据键对对应的数据源标识。例如,数据键对是由数据a转化得到的,数据a属于数据源a,则数据源标识为a。每个数据键对都是由一条数据转换得到的,而每条数据都有其所属的数据源,因此,对于每个数据键对来说,都能够确定出其对应的数据源。

具体的,还可以预先设置支持度字典,其中存储有不同数据源对应的阈值。可以对数据源进行编码,从而确定每个数据源对应的标识,并为每个数据源标识分配匹配的阈值。在确定数据键对所属的数据源时,也可以用该数据源标识进行表示。

进一步的,可以获取数据键对对应的数据源标识,再在预设支持度字典中,获取与该标识对应的数据源阈值。

步骤204,比对支持度与数据源阈值。

步骤205,若支持度大于或等于数据源阈值,则确定数据键对对应的支持标签为是。若支持度小于数据源阈值,则确定数据键对对应的支持度标签为否。

实际应用时,可以比对数据键对对应的支持度及其对应的数据源阈值。例如,一个数据键对的支持度是500,该数据键对对应的数据源阈值为560,则支持度小于数据源阈值。

通过比对支持度及数据源阈值,可以将支持度转换为离散型的支持度标签。从而在数据源类型不同的情况下,也可以确定其中包括的数据间的关联关系。

其中,具体的转换方式可以是,若支持度大于或等于数据源阈值,则确定数据键对对应的支持标签为第一标签。若支持度小于数据源阈值,则确定数据键对对应的支持度标签为第二标签。第一标签、第二标签的具体内容可以根据需求设置,例如,第一标签可以是“是”,第二标签可以是“否”,此外,第一标签还可以是“偏高”,第二标签还可以是“偏低”。

步骤206,根据数据键对的行标识确定当前父节点。

具体的,本实施例提供的方法,可以确定数据源中的数据之间的关联关系。且该关联关系中具有方向信息。

首先,可以在数据键对中确定当前的父节点。具体可以将数据报表中第一行的数据键对作为当前父节点。在汇总多个数据源包括的数据时,可以按照一定的规则对所有数据进行排序,例如,可以将字段更少的数据排在考前的位置,从而将粒度更粗的数据作为父节点。

进一步的,可以直接将第一行的数据键对确定为当前父节点。再在其他数据键对中确定出该当前父节点的子节点。

步骤207,根据预设字段、支持标签在数据键对中确定当前父节点的备选子节点。

实际应用时,可以在其他数据键对中,确定出与当前父节点匹配的备选子节点。本实施例提供的方法中,可以预先设置一部分字段,当数据键对与父节点的这些预设字段内容相同,且支持标签也相同时,就可以认为这些数据键对是预选子节点。

其中,预设字段包括以下至少一种:日期、时间、指标名称。

具体的,可以将支持标签作为字段内容加入数据键对的数据内容中,此时,预设字段中还可以包括支持标签。

进一步的,预设字段还可以基于数据源中具体的字段内容进行确定。

步骤208,对备选子节点进行排序,根据排序结果确定当前父节点对应的子节点。

实际应用时,对于一个当前父节点来说,可能具有多个备选子节点。此时,可以在多个备选子节点中确定出当前父节点的子节点。

其中,可以对备选子节点进行排序。例如,可以基于预设函数对每个备选子节点进行计算,得到该备选子节点对应的排序,再基于该排序确定出子节点。

具体的,在一种实施方式中,排序结果可以等于(数值-7日平均数值)2/7日平均数值。其中,数值可以是数据键对中的一个字段的具体内容,例如,可以是销售额,还可以是订单数。7日平均数值则可以是该字段内容对应的7日均值,例如可以是最近7日的平均销售额,最近7日的平均订单数。

进一步的,可以根据该公式计算出每个备选子节点对对应的排序结果,并将其中排序为第一的备选子节点确定为当前父节点的子节点。

步骤209,将子节点确定为所述当前父节点。

实际应用时,在确定出子节点后,还可以基于该子节点,继续确定数据键对之间的关联关系。具体可以将当前的子节点作为当前父节点,并继续执行步骤207。

其中,可以多次执行上述循环步骤,直到在当前父节点的基础上,没有匹配的子节点为止。此时,可以在报表中按照顺序进行遍历,寻找未被确定关联关系的数据键对,并将其作为当前父节点继续执行上述步骤。在确定子节点的过程中,可以仅在未确定关联关系的数据键对中确定。

步骤210,根据父节点、子节点间的关系,构建数据树。

具体的,可以根据上述确定的父节点、子节点来构建数据树。例如,可以将子节点认为是父节点的左子树。从而构建出一颗左斜树。数据树的结构还可以包括其他类型,例如可以是霍夫曼树、满二叉树等。

进一步的,若数据源的种类较多,根据本实施例提供的方法,还可以得到多棵数据树。

下面以一个简单的例子说明本实施例提供的方案。

例如有一批数据行:

先将数据行1作为当前父节点去找子节点,按照关联规则,首先“指标名称”“支持度标签”相同,然后在数据行1的基础上+1,可以确定备选子节点为数据行2和数据行3。计算数据行2的排序结果是450,数据行3的排序结果是2400。排序后,数据行3是更靠前,所以数据行3是数据行1的子节点。迭代计算,数据行3的子节点是数据行5。数据行5没有下一级子节点了,对于数据行1的下钻迭代就停止了。输出的时候,我们给出整棵树,数据行1->数据行3->数据行5。

图3为本发明一示例性实施例示出的数据间关联规则的确定装置的结构图。

如图3所示,本实施例提供的数据间关联规则的确定装置,包括:

转换模块31,用于根据数据源确定数据键对;

支持度确定模块32,用于确定所述数据键对对应的支持度;

标签确定模块33,用于根据所述支持度、所述数据源对应的阈值确定所述数据键对对应的支持标签;

规则确定模块34,用于根据所述支持标签确定所述数据键对之间的关联规则,并根据所述关联规则构建数据树。

本实施例提供的数据间关联规则装置,包括转换模块,用于根据数据源确定数据键对;支持度确定模块,用于确定所述数据键对对应的支持度;标签确定模块,用于根据所述支持度、所述数据源对应的阈值确定所述数据键对对应的支持标签;规则确定模块,用于根据所述支持标签确定所述数据键对之间的关联规则,并根据所述关联规则构建数据树。本实施例提供的装置中,采用数据键对的格式存储数据源中的数据,在对数据处理过程中,便于对数据本身的字段内容进行扩展。并且,本实施例提供的装置中,在确定关联关系之前确定数据的支持度,并将支持度转换为支持标签的离散型数据形式,即使数据中不存在共享参数,由于支持标签的存在,也可以确定数据间的关联规则。

本实施例提供的数据间关联规则的确定装置的具体原理和实现方式均与图1所示的实施例类似,此处不再赘述。

图4为本发明另一示例性实施例示出的数据间关联规则的确定装置的结构图。

如图4所示,在上述实施例的基础上,本实施例提供的数据间关联规则的确定装置,可选的,所述转换模块31具体用于:

根据预设规则确定所述数据源中每条数据对应的数据标识,并根据所述数据标识、所述数据确定所述数据键对。

可选的,所述标签确定模块33,包括:

获取单元331,用于获取所述数据键对对应的数据源阈值;

比对单元332,用于比对所述支持度与所述数据源阈值;

确定单元333,用于若所述支持度大于或等于所述数据源阈值,则确定所述数据键对对应的所述支持标签为第一标签。

可选的,确定单元333还用于:

若所述支持度小于所述数据源阈值,则确定所述数据键对对应的所述支持度标签为第二标签。

可选的,所述规则确定模块34具体用于:

用于根据所述数据键对的行标识确定当前父节点;

根据预设字段、所述支持标签在所述数据键对中确定所述当前父节点的备选子节点;

对所述备选子节点进行排序,根据排序结果确定所述当前父节点对应的子节点;

将所述子节点确定为所述当前父节点,并继续执行确定备选子节点的步骤。

可选的,所述预设字段包括以下至少一种:

日期、时间、指标名称。

可选的,所述数据源包括多种类的数据源。

可选的,所述规则确定模块34还用于:

根据所述父节点、所述子节点间的关系,构建所述数据树。

本实施例提供的数据间关联规则的确定装置的具体原理和实现方式均与图2所示的实施例类似,此处不再赘述。

图5为本发明一示例性实施例示出的数据间关联规则的确定设备的结构图。

如图5所示,本实施例提供的数据间关联规则的确定设备包括:

存储器51;

处理器52;以及

计算机程序;

其中,所述计算机程序存储在所述存储器51中,并配置为由所述处理器52执行以实现如上所述的任一种数据间关联规则的确定方法。

本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,

所述计算机程序被处理器执行以实现如上所述的任一种数据间关联规则的确定方法。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1