评估参数的确定方法、装置、电子设备及存储介质与流程

文档序号:29910872发布日期:2022-05-06 01:21阅读:142来源:国知局
评估参数的确定方法、装置、电子设备及存储介质与流程

1.本公开涉及数据处理技术领域,尤其涉及大数据、人工智能技术领域。


背景技术:

2.相关技术中可采用评估参数对数据的冷热进行评估,但这种评估参数通常是固定不变。而在实际应用中,数据的冷热是可以随着时间发生变化的,固定不变的评估参数无法实现对数据冷热的准确评估。


技术实现要素:

3.本公开提供了一种评估参数的确定方法、装置、电子设备以及存储介质。
4.根据本公开的一方面,提供了一种评估参数的确定方法,包括:
5.获取对分片数据进行访问而得到的访问数据集;其中所述分片数据是基于历史评估参数对业务数据集中的业务数据进行划分而得到,所述历史评估参数用于衡量业务数据集中业务数据的访问特征;
6.确定所述访问数据集中目标访问数据间的目标共有特征;
7.从预设的多个评估参数中,选择与所述目标共有特征关联的评估参数作为目标评估参数;
8.基于所述目标评估参数对所述历史评估参数进行调整。
9.根据本公开的另一方面,提供了一种评估参数的确定装置,包括:
10.获取单元,用于获取对分片数据进行访问而得到的访问数据集;其中所述分片数据是基于历史评估参数对业务数据集中的业务数据进行划分而得到,所述历史评估参数用于衡量业务数据集中业务数据的访问特征;
11.确定单元,用于确定所述访问数据集中目标访问数据间的目标共有特征;
12.选择单元,用于从预设的多个评估参数中,选择与所述目标共有特征关联的评估参数作为目标评估参数;
13.调整单元,用于基于所述目标评估参数对所述历史评估参数进行调整。
14.根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,
15.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开以上的方法。
16.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本公开以上的方法。
17.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开以上的方法。
18.根据本公开可实现对评估参数的调整,以实现对业务数据的访问特征的准确评估。
19.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
20.附图用于更好地理解本方案,不构成对本公开的限定。其中:
21.图1是根据本公开评估参数的确定方法一实施例的示意图;
22.图2是根据本公开评估参数的确定方法另一实施例的示意图;
23.图3是根据本公开基于历史评估参数得到分片数据的实施例的示意图;
24.图4是根据本公开根据先验情况确定首个评估参数的示意图;
25.图5是根据本公开在搜索系统中实现评估参数确定方法的示意图;
26.图6是根据本公开根据线上业务确定用于衡量业务数据的访问特征的评估参数的示意图;
27.图7为根据本公开业务数据的分组以及组内分片的示意图;
28.图8是根据本公开评估参数的确定装置的结构组成示意图;
29.图9是用来实现本公开的评估参数的确定方法实施例的电子设备的框图。
具体实施方式
30.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
31.本公开的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
32.本公开实施例提供一种评估参数的确定方法,该方法可以应用于电子设备,该电子设备包括但不限于固定设备和/或移动设备,例如,固定设备包括但不限于服务器,服务器可以是云服务器或普通服务器。例如,移动设备包括但不限于:手机、台式机或平板电脑中的一项或是多项。如图1所示,该评估参数的确定方法包括:
33.s101:获取对分片数据进行访问而得到的访问数据集;其中该分片数据是基于历史评估参数对业务数据集中的业务数据进行划分而得到,该历史评估参数用于衡量该业务数据的访问特征;
34.历史评估参数和目标评估参数是从不同维度来衡量业务数据集中业务数据的访问特征,均可视为用于衡量业务数据的访问特征的评估参数。访问特征指的是业务数据被访问的频次,可用数据的冷热来表示。通常来讲,被频繁访问(访问频率高或次数多)的数据叫做热数据,不被访问或访问频率低或次数少的数据叫做冷数据。
35.分片数据为可被用户访问如搜索或查询的业务数据、被存储到搜索系统中。在用户从搜索系统中进行业务数据的搜索或查询的情况下,记录用户搜索或查询的业务数据,
被搜索或被查询的业务数据即为访问数据。访问数据集为记录的一段时间内被搜索或被查询的所有业务数据的集合。可通过读取或调用被记录下的业务数据的集合而得到访问数据集。
36.可以理解,分片数据本身是业务数据,对业务数据进行访问而得到的访问数据集中的访问数据是被访问到的业务数据。
37.s102:确定访问数据集中目标访问数据间的目标共有特征;
38.s103:从预设的多个评估参数中,选择与目标共有特征关联的评估参数作为目标评估参数;
39.多个评估参数是从不同的维度来对业务数据进行冷热评估的参数。历史评估参数和目标评估参数均为预设的多个评估参数中的一个或两个及以上的评估参数。
40.s104:基于目标评估参数对该历史评估参数进行调整。
41.在s101~s104中,获取访问数据集,确定访问数据集中目标访问数据间的目标共有特征,从预设的多个评估参数中,选择与目标共有特征关联的评估参数作为目标评估参数,基于目标评估参数对历史评估参数进行调整。可以理解,历史评估参数是依据用户对业务数据的历史访问情况而产生的评估参数。随着时间的推移,用户对业务数据的访问情况可能会发生变化,如历史上的冷数据变成了热数据、历史上的热数据变成了冷数据。本公开实施例的方案可依据访问情况(访问数据集)实现对衡量业务数据的访问特征的评估参数的及时且自动调整,如基于目标评估参数对历史评估参数进行调整,可实现对业务数据的访问特征的准确评估。
42.示例性地,以业务数据为商品数据为例,历史评估参数为商品价格,说明历史上从商品价格这个维度来评价商品的冷热较为准确。随着时间的推移,多数用户搜索商品时可能更在意的是商品本身的销量,那么从商品价格这个维度来评价商品的冷热已经变得不再准确,需要对用于衡量业务数据的访问特征的评估参数进行调整。如将评估参数从商品价格(可作为商品数据的历史评估参数)调整为商品销量(可作为商品数据的目标评估参数),从商品销量这个维度进行商品数据的冷热评估更加准确。如此,可实现评估参数的及时调整,且该调整适应了用户的实际搜索情况。
43.本公开实施例中,基于目标评估参数对历史评估参数进行调整的方案可通过以下其中一种来实现:
44.第一种实现方式,可通过将历史评估参数替换为目标评估参数的方式实现基于目标评估参数对历史评估参数进行调整的方案。这种实现方式为一种直接替换的方案,可实现对历史评估参数的简单、易行的调整,该调整可对业务数据的访问特征进行准确评估。
45.第二种实现方式,如图2所示,在目标评估参数与历史评估参数不一致的情况下,将历史评估参数替换为目标评估参数(s204)。
46.可以理解,在实际应用中,从预设的多个评估参数中选择出的与目标共有特征关联的目标评估参数可能与历史评估参数一致、可能与历史评估参数不一致,在不一致的情况下,将历史评估参数替换为目标评估参数,在一致的情况下不进行替换。如此,可实现精准的调整,避免本无需调整而进行了调整而带来的成本的不必要增加。
47.在图2中,s201~s203的实现请参见对s101~s103的相关说明,不赘述。
48.本公开实施例中,历史评估参数和目标评估参数均可为多个预设评估参数中的单
个评估参数。历史评估参数和目标评估参数中的至少之一可为多个预设评估参数中的两个或两个及以上的评估参数的集合,这种情况下,历史评估参数与目标评估参数只要存在一个不相同的评估参数即可视为不一致,只有在评估参数均相同的情况下方可视为一致。
49.第三种实现方式,在目标评估参数与历史评估参数不一致且第一参考量低于第二参考量的情况下,将历史评估参数替换为目标评估参数。其中,第一参考量表征为估计出的基于目标评估参数对历史评估参数进行调整而产生的成本;第二参考量表征为估计出的基于历史评估参数对业务数据进行划分所产生的成本。
50.以上实现方式中所包括的成本包括资源处理成本和经济成本中的至少之一。其中,资源处理成本包括但不仅限于对业务数据进行划分而带来的资源处理负担、对历史评估参数进行调整而带来的资源处理负担。
51.基于历史评估参数对业务数据进行划分得到的各分片数据需要存储到存储单元中。存储单元具体可以为存储器。可以理解,被划分的分片数据越多,需购买或在搜索系统中布置的存储器的数量越多,产生的经济开销或资源布置开销越大。经济成本包括但不限定于前述的经济开销、资源布置开销。
52.对前述的成本进行估计,如果将估计出的基于目标评估参数对历史评估参数进行调整而产生的成本视为第一估计成本,将估计出的基于历史评估参数对业务数据进行划分所产生的成本视为第二估计成本,则第三种实现方式相当于在在目标评估参数与历史评估参数不一致且第一估计成本低于第二估计成本的情况下实现对评估参数的调整,节省了成本。
53.此外,还可以无需考虑目标评估参数和历史评估参数是否一致,在第一参考量低于第二参考量的情况下基于目标评估参数对历史评估参数进行调整。进一步的,在第一参考量低于第二参考量的情况下,将历史评估参数替换为目标评估参数。可有效节省是否一致的比较流程和成本。
54.第四种实现方式,在目标评估参数与历史评估参数不一致、且在第三参考量和第四参考量之间的差异满足预定差异条件的情况下,将历史评估参数替换为目标评估参数;其中,第三参考量表征为访问数据集中具有目标共有特征的访问数据相对于访问数据集中所有访问数据的占比;第四参考量表征为业务数据集中具有所述目标共有特征的业务数据相对于业务数据集中所有业务数据的占比。
55.在第四种实现方式中,访问数据集中的业务数据为用户实际访问如搜索或查询的数据,从用户端来看,被用户搜索或查询的数据为被访问的数据,与业务数据集中的未被访问到的业务数据相比,被访问到的业务数据为热数据。访问数据集中具有目标共有特征的访问数据可视为在被访问到的业务数据中访问频率或次数多的业务数据,这种业务数据相对于访问数据集中所有访问数据的(第一)占比、和业务数据集中具有目标共有特征的业务数据相对于业务数据集中所有业务数据的(第二)占比之间的差异达到预定差异条件、如第一占比和第二占比之间的差异(第一占比与第二占比之差)达到20%(第一占比和第二占比均以百分比形式进行表示),则认为原来用于衡量业务数据的访问特征的历史评估参数不再能够准确地衡量出业务数据的实际冷热情况,需要对用于衡量业务数据的访问特征的评估参数进行调整或更新,以符合用户对业务数据的实际访问情况。
56.可以理解,在第一占比越大、第二占比越小的情况下,两个占比之间的差异越大。
第一占比越大,说明在访问数据集中具有目标共有特征的访问数据在实际访问情况中被访问的频率或次数越多。第二占比越小,说明在业务数据集中具有目标共有特征的业务数据相对于业务数据集中所有业务数据来说的数量越少。两个占比之间的差异越大,说明业务数据集中业务数据的冷热变化程度越大,原本在业务数据集中的占比小的业务数据在访问数据集中被频繁访问。如此,历史评估参数越不能准确地衡量业务数据的访问特征,需对历史评估参数进行调整。这种情况下,如果不对用于衡量业务数据的访问特征的历史评估参数进行调整,则无法准确衡量业务数据的实际冷热。
57.此外,还可以无需考虑目标评估参数和历史评估参数是否一致,在第三参考量和第四参考量之间的差异满足预定差异条件的情况下基于目标评估参数对历史评估参数进行调整。进一步的,在第三参考量和第四参考量之间的差异满足预定差异条件的情况下,将历史评估参数替换为目标评估参数。实现了对用于衡量业务数据的访问特征的评估参数的及时且自动调整。
58.第五种实现方式,在目标评估参数与历史评估参数不一致、第一参考量低于第二参考量、以及第三参考量和第四参考量之间的差异满足预定差异条件的情况下,将历史评估参数替换为目标评估参数。
59.第五种实现方式可视为第三和第四种实现方式的结合,即考虑到了对成本的节省,也考虑到用户对业务数据的实际访问情况,进而可实现对用于衡量业务数据的访问特征的评估参数的准确调整。
60.此外,还可以无需考虑目标评估参数和历史评估参数是否一致,在第一参考量低于第二参考量且第三参考量和第四参考量之间的差异满足预定差异条件的情况下,通过将历史评估参数替换为目标评估参数实现基于目标评估参数对历史评估参数进行调整的方案。实现了评估参数的及时且自动调整。
61.在以上的第三种至第五种实现方式中,除了考虑到目标评估参数和历史评估参数是否一致,还需要结合以上几种参考量确定是否基于目标评估参数对历史评估参数进行调整。可保证评估参数的调整精准性。
62.本公开实施例中,确定所述访问数据集中目标访问数据间的目标共有特征的方案可通过如下两种实施方案中的至少之一来实现:
63.实施方案a:确定访问数据集中访问数据间的共有特征;获取访问数据集中具有相同共有特征的访问数据的数量;基于该数量,从访问数据集中确定目标访问数据以及从共有特征中确定目标共有特征。
64.以访问数据为商品数据为例,访问数据的共有特征包括商品价格值、商品销量值中的至少之一。统计访问数据集中具有相同商品价格值和/或商品销量值的访问数据的数量,基于该数量确定目标访问数据和目标共有特征。
65.基于访问数据集中具有相同共有特征的访问数据的数量来确定访问数据集中的目标访问数据以及目标共有特征,可保证目标访问数据和目标共有特征的确定准确性,进而可实现对目标评估参数的选择准确性。
66.在实施方案a中,基于该数量从访问数据集中确定目标访问数据以及从共有特征中确定目标共有特征的方案可通过如下过程来实现:在数量满足阈值条件的情况下,将该数量对应的访问数据作为目标访问数据;从共有特征中,选择目标访问数据的共有特征作
为目标共有特征。
67.以访问数据为商品数据、共有特征为商品价格值9.9元为例,在统计出的访问数据集中具有相同商品价格值(9.9元)的访问数据的数量达到设定的第一数量阈值、和/或该数量与访问数据集中所有访问数据的数量之间的比值达到设定的第一比值阈值的情况下,将统计出该数量时使用的访问数据作为目标访问数据。该目标访问数据的共有特征即为目标共有特征。在本示例中,访问数据集中商品价格为9.9元的访问数据即为目标访问数据,这些目标访问数据均是商品价格为9.9元的商品,则目标共有特征为商品价格9.9元。在预设的商品价格、商品销量等评估参数中,与商品价格9.9关联的评估参数为商品价格这个评估参数,则可将商品价格这个评估参数作为目标评估参数。
68.其中,阈值条件包括达到第一数量阈值和第一比值阈值中的至少之一。
69.可以理解,数量满足阈值条件,说明具有相同商品价格值的目标访问数据在访问数据集中的数量较多,访问数据集是用户搜索或查询的业务数据的集合,位于访问数据集中的目标访问数据是被用户访问多的业务数据。将被用户访问多的业务数据作为目标访问数据以及将目标访问数据的共有特征作为目标共有特征,与用户的实际访问情况相适配,可为准确选择出目标评估参数提供很好的保障。
70.实施方案b:获得访问数据集中访问数据的访问参数;选择访问参数满足预设访问条件的访问数据为目标访问数据;确定目标访问数据间的共有特征;将确定出的共有特征作为所述目标共有特征。
71.访问参数为访问频率和访问次数中的至少之一。在用户对分片数据进行访问的过程中,对被访问的业务数据的访问次数进行记录、和/或计算被访问业务数据的访问频率并记录。待到需要时,通过对读取记录的信息而得到访问数据集中访问数据的访问参数。选择访问频率大、如访问频率大于预设访问频率阈值,和/或访问次数多、访问次数大于预设访问次数阈值的访问数据作为目标访问数据。目标访问数据间的共有特征即可作为目标共有特征。
72.示例性地,如目标访问数据均为商品销量大于100的业务数据,则目标共有特征为商品销量大于100。在预设的商品价格、商品销量等评估参数中,与商品销量大于100关联的评估参数为商品销量这个评估参数,则可将商品销量这个评估参数作为目标评估参数。
73.可以理解,访问参数满足预设访问条件的访问数据为访问数据集中的被用户访问多的数据,目标共有特征为访问数据集中的被访问多的数据所共有的特征,基于访问数据的访问参数确定访问数据集中的目标访问数据以及目标共有特征,可保证目标访问数据和目标共有特征的确定准确性,进而可实现对目标评估参数的准确选择。
74.本公开实施例中,如图3所示,基于历史评估参数对业务数据集中的业务数据进行划分得到分片数据的方案可通过如下方式而得到:
75.s301:基于历史评估参数对业务数据进行分组,得到分组数据;
76.s302:基于分组数据的目标属性,将分组数据进行划分,得到分片数据。
77.经对业务数据进行分组可得到至少两个分组数据,每个分组数据中包括有业务数据集中的至少一个业务数据。为避免分组导致的数据偏斜问题,即避免分组数据间中包括的业务数据的数量不均衡,有的过多,有的过少,还需要基于分组数据的目标属性,对每个分组数据进行再次划分如组内分片,每个分组数据均可被划分为两个或多个分片数据。各
分片数据用相应的存储单元进行存储。
78.这种先分组再分片的方案,可避免数据偏斜问题,使得分片数据的数据量处于可控范围内,以方便在可控范围内实现对片内数据量进行合理性扩展。
79.本公开实施例中的业务数据集中的业务数据为任何可供用户访问如搜索或查询的业务数据,如商品数据、店铺数据、评论数据、医疗数据等。
80.在实际的搜索场景中,由于搜索系统中的业务数据被搜索或未被搜索而使得业务数据具有冷热特性,本公开实施例的技术方案为一种自适应的评估参数的确定方案,能够高效、自动地将用于衡量业务数据的访问特征的评估参数准确确定出,并进行评估参数的及时调整,降低了搜索系统所处的机器的成本,优化了该机器的性能。
81.下面结合图4至图7所示,对本公开技术方案进行进一步说明。
82.(一)确定历史评估参数。
83.考虑到本方案技术方案可应用于以下三大搜索场景中,依据不同的搜索场景来确定历史评估参数。
84.本公开实施例可应用于以下三类搜索场景:
85.第一类搜索场景,为业务数据的冷热划分明确的场景。比如店铺搜索、站点搜索等场景。在这种场景中被访问的业务数据,存在有店铺id、站点id等属性,该属性能够将区分数据的冷热。例如,热点店铺id、热点站点id为热数据。
86.第二类搜索场景,为业务数据的冷热划分一般明确的场景。在这种场景中,用户的搜索需求是比较明确的。比如在医疗搜索、商品搜索等场景中,用户存在需求并搜索的内容即为热点,比如商品搜索场景中被用户搜索的“牛仔裤”、“高腰裤”等内容就是热点数据,可基于用户的搜索需求、如搜索商品的种类或者类型等数据属性将业务数据的冷热区分开。
87.又比如,医疗搜索中被用户搜索的“感冒”、“消炎”等内容就是热点数据,可基于用户的搜索需求、如疾病种类或者症状等数据属性将业务数据的冷热区分开。
88.第三类搜索场景,业务数据的冷热划分很难或无法明确的场景。例如,学习类app、如搜题app的搜索场景,这类场景中是无法获知业务数据的冷热的。
89.可以理解,每一类搜索场景下的业务数据的集合即为业务数据集。如在商品搜索场景下,不同商品数据的集合即为业务数据集。在店铺搜索场景下,不同店铺id的集合即为业务数据集。
90.对于第一类搜索场景和第二类搜索场景,可基于业务数据的属性确定出历史评估参数。以商品搜索场景为例,业务数据集为不同商品数据的集合。商品数据包括商品id、商品价格、商品销量、商品受欢迎程度等几种商品属性。为商品搜索场景预设的评估参数包括商品价格、商品销量和商品受欢迎程度等中的至少两种。
91.本公开提供的评估参数确定方案可视为一种循环方案,首次执行本方案时使用的历史评估参数可依据人工经验而定。在依据本公开所示的方案将历史评估参数替换为目标评估参数的情况下,再一次执行本方案时将上一次的目标评估参数作为下一次执行本方案时的历史评估参数,下一次选择出的目标评估参数作为下下次执行本方案时的历史评估参数,以此类推。
92.结合图4所示,首次执行本方案的过程为先验流程。在先验流程中,可依据用户对搜索系统中的业务数据的搜索需求,根据先验情况确定出首个评估参数,如依据经验,从多
个预设的评估参数中选择首个评估参数,依据首个评估参数进行分组,对分组数据进行分片得到分片数据、以及确定用于存储分片数据的存储单元的数量、类型和规格。图4所示的方案具体请参见如下说明。
93.以首次执行本方案为例,经过经验公式的计算发现从商品价格这个维度来评价商品可实现对商品数据的冷热评估。选择商品价格作为首个评估参数,为方便描述将其视为本方案中的历史评估参数,说明此时从商品价格这个维度能够实现对商品数据冷热的准确评估。
94.(二)依据历史评估参数,对业务数据集中的业务数据进行分组。
95.以业务数据为商品数据为例,采用散列分区算法,按照商品价格将商品数据进行分组,得到各分组数据。示例性地,将商品价格为1元-10元的商品划分到第一分组,将商品价格为11-20元的商品划分到第二分组,以此类推,得到各分组,位于各分组内的数据为分组数据。
96.前述的分组方式仅为一种具体举例而已,其他任何合理的分组方式均位于本公开实施例的覆盖范围内。
97.由前述内容可知,对于第三类搜索场景,在首次执行本公开所示的方案时,由于无法明确该场景下的历史评估参数,可将该场景下的业务数据如医疗数据划分到同一分组,等待后续分片处理。
98.(三)基于分组数据的目标属性,将分组数据进行划分,得到分片数据。
99.分组数据的目标属性可以为分组数据的主键。在业务数据为商品数据的应用场景中,商品数据的主键为商品id(标识),采用散列算法,依据商品id,将各分组内的(分组)数据进行划分,如进行分片的划分。如,将每个分组数据划分为两个或多个分片数据。同一分组内被划分的两个或多个分片数据可通过分片服务于用户的访问请求。分片是管理相应分片数据的服务的集合。每个分片所服务的对应业务数据即为分片数据。
100.其中,散列算法为一种哈希算法,利用哈希运算实现分片以及分片数据的划分。
101.示例性地,第一分组包括10个(分组)数据,按照前述的划分方案,得到的划分结果是将10个数据中的第1至3个业务数据划分到一起,第4至6个数据被划分到一起,第7至10个数据被划分到一起。
102.前述的分片可承载在诸如存储器、硬盘等存储单元中。图4中确定用于承载分片的存储单元的类型,可看成是选择存储器(mem)作为分片的存储单元还是选择硬盘(ssd)作为承载分片的存储单元。确定规格,可看成是为选择何种容量的存储器或硬盘可容纳下对分片数据的存储。
103.其中,选择存储器还是硬盘作为承载分片的存储单元可视由于购买或在搜索系统中布置存储器或硬盘而产生的经济开销或资源开销而定。选择何种容量视分片数据的数量而定。通常存储器或硬盘的容量需等于或大于在该存储器或硬盘中存储的分片数据所占的容量。
104.通俗来讲,基于前述技术方案,利用历史评估参数得到分片数据的情况下,如图5所示,分片1至n承载在存储单元上。其中,分片1承载在的存储单元为ssd,分片2和分片n的承载在的存储单元为mem。分片可视为服务或服务的集合,可用于服务用户对分片数据的访问。
105.用户可利用搜索系统对位于各存储单元上的分片数据进行访问如搜索或查询。在用户进行访问时其会向搜索系统中输入要搜索内容的检索表达式,搜索系统调用请求组件,通过请求组件调用要搜索内容所对应的服务,利用调用的服务从对应的存储单元上读取出要搜索的内容。
106.从图5中可看出,为避免同一分片同时服务多个访问请求如用户的搜索或查询请求而导致的数据阻塞问题,每个分片包括多个服务(服务副本)。不同的服务或服务副本用于服务不同的访问请求。
107.可以理解,哪个分片服务用户访问请求得越多,说明该分片对应的存储单元上所存储的分片数据被访问的越频繁或次数越多,则该分片的服务副本的数量越多。
108.如图5所示,假定分片1至n是按照历史评估参数-商品价格划分出的,各个分片承载到相应的存储单元中。各个存储单元用于存储的分片数据用于供访问。在后续用户访问的过程中发现用户多数访问的数据为商品销量靠前的商品数据,如商品销量大于100的数据,此时如果仍然用商品价格这个评估参数去对商品数据冷热进行评估无疑是不准确的,需要对评估参数进行调整。具体见下面所示的方案。
109.(四)收集搜索系统中被访问的业务数据,得到访问数据集。
110.可以理解,在搜索系统中,可通过用户输入的检索表达式得到其要搜索的业务数据,将一段时间内用户访问如搜索的业务数据进行记录,得到访问数据集。
111.上述(四)所示的方案为一种收集访问数据的过程。参见图6所示,线上业务指的是前述三类搜索业务,收集的过程可在离线状态下进行。以及后续的方案(五)也可在离线状态下进行,如可避免数据收集的阻塞、提高收集效率。避免与在线生效流程发生冲突,提高挖掘效率。
112.(五)对能够更好的衡量业务数据的访问特征的评估参数进行挖掘。
113.此方案可通过前述的确定访问集中目标访问数据间的目标共有特征以及从预设的多个评估参数中选择出与目标共有特征关联的评估参数作为目标评估参数的方案内容来实现。具体请参见前述的相关说明。
114.示例性地,以访问数据为商品数据为例,历史评估参数是从商品价格这个维度进行的商品数据冷热的评估。随着时间的推迟,多数用户搜索商品时可能更在意的是商品本身的销量,如搜索的多数销量多的商品数据。
115.以访问数据的共有特征为商品销量大于100为例,
116.在统计出的访问数据集中具有相同商品销量值(销量值均大于100)的访问数据的数量达到设定的第二数量阈值、和/或该数量与访问数据集中所有访问数据的数量之间的比值达到设定的第二比值阈值的情况下,将统计出该数量时使用的访问数据作为目标访问数据。该目标访问数据的共有特征即为目标共有特征。
117.在前述示例中,访问数据集中商品销量大于100的访问数据即为目标访问数据,这些目标访问数据均是商品销量大于100的商品,则目标共有特征为商品销量大于100。在预设的商品价格、商品销量等评估参数中,与商品销量大于100这个目标共有特征关联的评估参数为商品销量这个评估参数,则可将商品销量这个评估参数作为目标评估参数。
118.(六)执行业务数据的重分布以及再平衡流程。
119.简单来看,本公开中在目标评估参数与历史评估参数不一致时,将历史评估参数
替换为目标评估参数,以实现用于衡量业务数据的访问特征的评估参数的及时调整,以实现对业务数据的访问特征的准确评估。
120.示例性地,在评估参数由原来的历史评估参数(如商品价格)调整为目标评估参数(如商品销量)的情况下,按照目标评估参数对业务数据集中的商品数据重新进行分组,得到目标分组数据(新分组数据),按照目标分组数据的新目标属性,对目标分组数据进行重新划分,得到多个目标分片数据(新分片数据)。如图5中的slot1、slot2、slot3所示,为针对多个目标分片数据被重新划分出的m个新的分片。各新的分片服务于用户对目标分片数据的访问。
121.采用散列分区算法,按照商品销量将商品数据进行重新分组,如将商品销量小于100的商品划分到第一分组,将商品销量大于100小于1000的商品划分到第二分组,将商品销量大于1000小于2000的商品划分到第三分组,以此类推,得到各新分组,位于各新分组内的数据为目标分组数据。
122.在业务数据为商品数据的应用场景中,新目标属性可以为商品id,采用散列算法,依据商品id,将各目标分组内的(新分组)数据进行划分,如重新进行分片的划分。如由原来的划分为分片1至n,变成了划分为分片1至m,其中n和m均为正整数且不相等。
123.这种情况下,利用分片1至m将原来的分片1至n替换掉,分片1至n中的各分片服务于经重新划分后的目标分片数据。
124.分片1至n中的每个分片所承载在的存储单元采用硬盘还是存储器作为存储目标分片数据的存储单元视具体情况而定。硬盘或存储器的容量能够存储下相应的目标分片数据以及承载相应的分片即可。
125.前述的业务数据的重分布包括业务数据的重新分组以及重新分片。业务数据的重分布过程在在线状态下进行。业务数据的再平衡包括但不限于对分片数量的调整、存储单元规格和类型的调整、各分片的服务副本数量的调整等。业务数据的再平衡过程在离线状态下进行。再平衡过程还可包括分片调整后搜索系统重新调整到合理状态的过程。
126.图7为一种业务数据的分组以及组内分片的示意图。在图7中,基于当前评估参数(历史评估参数或目标评估参数)均可执行业务数据的分组以及组内分片的流程。其中,field表示业务数据集中的所有业务数据,f1(field)表示依据当前评估参数对所有业务数据进行分组,得到n个分组,每个分组内的业务数据为分组数据(group)。key表示业务数据的主键如商品数据的id,slot=f2(group,key)表示依据主键对各分组数据进行组内分片,得到各分组内的分片slot以及各分组内的一个或多个分片数据,如分组1中的4个分片(slot1至slot4),分组2中的4个分片(slot1至slot4)。
127.图7中的数据偏斜约束指的是对业务数据进行分组之后还需要对各组内数据进行分片。主要考虑到仅分组会导致业务数据的数量在各组间分配不均衡,有的组中的业务数据过多,有的组中的业务数据过少,存在数据偏斜,对各组内数据进行分片,使得划分的业务数据的数据量大小处于可控范围内。在线上应用时,用户查询到的数据是分片数据,并非是分组数据,可带来查询搜索时间均相差不大、为用户带来良好的搜索或查询体验,还方便在可控范围内实现对片内数据量进行合理性扩展。
128.前述方案中,涉及到在目标评估参数与历史评估参数不一致时将历史评估参数替换为目标评估参数的方案。作为该替换方案的另一种方案,在目标评估参数与历史评估参
数不一致的情况下,参见图6所示,还需要考虑到将历史评估参数替换为目标评估参数而产生的成本(线上成本)和基于历史评估参数对业务数据进行划分所产生的成本,即在前述的第一估计成本低于第二估计成本的情况下实现对评估参数调整,以节省成本。在调整完评估参数之后,实现业务数据的重分布以及再平衡,以实现对业务数据的访问特征的准确评估。
129.作为以上替换方案的其他方案可参见前述的相关说明,重复之处不赘述。
130.可以理解,本公开方案为一种循环或迭代方案,前述的目标评估参数可作为下一次执行本方案的历史评估参数,下一次选择出的目标评估参数作为下下次执行本方案时的历史评估参数,以此循环或迭代。每次循环或迭代至少可依据前述的(四)-(六)所示的方案进行。
131.通俗来讲,本公开的评估参数的确定方案可视为一种用于衡量业务数据的冷热特性的评估参数的自适应挖掘方案。该方案至少有以下优势:
132.一、通过对业务数据进行分组以及组内分片、和访问数据的收集等过程可以自适应的寻找或挖掘出用于准确衡量业务数据的当前访问冷热的评估参数。用于衡量业务数据的访问特征的评估参数可以随着业务数据的实际被访问情况的变化而自适应地进行调整,以实现对业务数据的访问特征的准确评估。
133.二、对业务数据先分组、再分片有效解决了数据偏斜问题。在对业务数据进行分组之后,对分组数据的主键进行分片,得到各分片以及各分片数据,确保每个分片所服务的分片数据的大小偏斜在一定范围内即处于可控范围内,对存储的分片数据的数据量的规模的横向扩展无影响。
134.三、成本的最优化。在线上应用(供用户查询或搜索分片数据)过程中,不断的挖掘能够衡量数据冷热特性的评估参数,并基于成本比对的结果,选择成本最优化的方式决定是否去对评估参数进行调整,挖掘过程对对业务数据的访问过程是透明的。既不影响评估参数的挖掘也不影响对业务数据的正常访问。
135.本公开的用于衡量业务数据的冷热特性的评估参数的自适应挖掘方案,解决了相关技术中评估参数无法自动调整或更新的问题。还解决了在业务数据的冷热发生变化的情况下,评估参数无法做到及时更新或调整的问题。此外,还基于先分组再分片解决了由于数据偏斜问题导致的数据规模无法扩展的问题。
136.本公开的用于衡量业务数据的冷热特性的评估参数的自适应挖掘方案采用了分组以及组内分片的方案。并基于收集到的访问数据集引入了热点数据的反馈机制,利用这种反馈机制实现对能够准确衡量业务数据的冷热特性的评估参数的准确挖掘。其中,访问数据集中的数据为被用户请求过的数据,相当于业务数据集中的其他业务数据而言,且可被视为是热点数据,基于热点数据实现对评估参数的挖掘,可保证评估参数的挖掘准确性,进而可采用准确的评估参数实现对业务数据的访问特征的评估。
137.本公开还提供一种评估参数的确定装置的实施例,如图8所示,包括:
138.获取单元801,用于获取对分片数据进行访问而得到的访问数据集;其中该分片数据是基于历史评估参数对业务数据集中的业务数据进行划分而得到,该历史评估参数用于衡量业务数据集中业务数据的访问特征;
139.确定单元802,用于确定该访问数据集中目标访问数据间的目标共有特征;
140.选择单元803,用于从预设的多个评估参数中,选择与该目标共有特征关联的评估参数作为目标评估参数;
141.调整单元804,用于基于该目标评估参数对该历史评估参数进行调整。
142.其中,该调整单元804,还用于
143.在第一参考量低于第二参考量的情况下,基于该目标评估参数对该历史评估参数进行调整;
144.其中,该第一参考量表征为估计出的基于该目标评估参数对该历史评估参数进行调整而产生的成本;该第二参考量表征为估计出的基于该历史评估参数对该业务数据进行划分所产生的成本。
145.其中,该调整单元804,还用于
146.在第三参考量和第四参考量之间的差异满足预定差异条件的情况下,基于该目标评估参数对该历史评估参数进行调整;
147.其中,该第三参考量表征为在该访问数据集中具有该目标共有特征的访问数据相对于该访问数据集中所有访问数据的占比;该第四参考量表征为该业务数据集中具有该目标共有特征的业务数据相对于该业务数据集中所有业务数据的占比。
148.其中,该调整单元804,还用于
149.在该目标评估参数与该历史评估参数不一致的情况下,将该历史评估参数替换为该目标评估参数。
150.其中,该确定单元802,还用于
151.确定该访问数据集中访问数据间的共有特征;
152.获取该访问数据集中具有相同共有特征的访问数据的数量;
153.基于该数量,从该访问数据集中确定该目标访问数据以及从该共有特征中确定该目标共有特征。
154.其中,该确定单元802,还用于
155.在该数量满足阈值条件的情况下,将该数量对应的访问数据作为该目标访问数据;
156.从该共有特征中,选择该目标访问数据的共有特征作为该目标共有特征。
157.其中,该确定单元802,还用于
158.获得访问数据集中访问数据的访问参数;
159.选择访问参数满足预设访问条件的访问数据为目标访问数据;
160.确定目标访问数据间的共有特征;
161.将目标访问数据间的该共有特征作为该目标共有特征。
162.该装置还包括划分单元(图8中未示意出),用于
163.基于该历史评估参数对该业务数据进行分组,得到分组数据;
164.基于该分组数据的目标属性,将该分组数据进行划分,得到该分片数据。
165.需要说明的是,本公开实施例的评估参数的确定装置,由于其解决问题的原理与前述的评估参数的确定方法相似,因此,评估参数的确定的实施过程及实施原理均可以参见前述方法的实施过程及实施原理描述,重复之处不再赘述。
166.本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关
法律法规的规定,且不违背公序良俗。
167.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
168.图9示出了可以用来实施本公开的特征筛选方法实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开特征筛选方法的实现。
169.如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(rom)902中的计算机程序或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序,来执行各种适当的动作和处理。在ram 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
170.设备900中的多个部件连接至i/o接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
171.计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如评估参数的确定方法的一个或多个步骤。例如,在一些实施例中,评估参数的确定方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由rom902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到ram 903并由计算单元901执行时,可以执行上文描述的评估参数的确定方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行评估参数的确定方法。
172.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
173.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
174.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、ram、rom、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
175.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声音输入、语音输入、或者触觉输入)来接收来自用户的输入。
176.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
177.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
178.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
179.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1