一种识别季节性商品的方法和装置与流程

文档序号:20048914发布日期:2020-03-03 04:18阅读:648来源:国知局
一种识别季节性商品的方法和装置与流程
本发明涉及计算机
技术领域
,尤其涉及一种识别季节性商品的方法和装置。
背景技术
:零售企业经营大量的商品,其中有一些商品的销售具有明显的季节性,也就是说在每年中,某些月份的销量明显高于其它月份。因此根据商品季节性特点制定相应的采购计划和销售计划,对节约库存成本、提高销售额具有重要意义。识别季节性商品具有很多挑战。首先是季节性商品的认定问题,制定合理的区分标准,把季节性商品和非季节性商品区分出来具有一定难度;同时季节性商品有多种类型,有单季节,也有多季节,找出季节性商品所有销量峰值区间绝非易事。此外,季节性商品的认定往往是依据历史销量数据,而新品和上柜时间比较短的商品没有历史销量数据或者仅有很少历史销量数据,因而无法通过销量数据识别其是否属于季节性商品。现在识别季节性商品主要是通过人工方式,采销人员凭借自己的经验,参照商品的历史销量数据,找出具有明显季节性规律、而且季节性规律每年能够重复出现的商品。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:现有技术中使用人工方式识别有历史销量数据的老商品(或称老品)的季节性,其不但工作量大,而且准确率低,并且还不能够识别无历史销量数据的新商品(或称新品)和历史销量数据样本不足的次新商品(或称次新品)是否属于季节性商品。零售企业往往涉及巨大数量的商品,而且每年会有大量的新品出现,仅凭借人工方式识别,显然无法满足业务需要。技术实现要素:有鉴于此,本发明实施例提供一种识别季节性商品的方法和装置,能够对现有技术中的上述识别季节性商品的方式进行改进并且给出具有较高准确性的识别方式。为实现上述目的,根据本发明实施例的第一方面,提供了一种识别季节性商品的方法。根据本发明实施例的识别季节性商品的方法,包括:对多个时段中待识别商品的特征数据进行排序,以得到特征数据序列;基于所述特征数据序列,确定出至少一个最佳切分点;根据所述至少一个最佳切分点和预设的时段数阈值,从所述特征数据序列的子序列中确定出识别子序列;根据所述识别子序列中包括的特征数据,判断所述待识别商品是否为季节性商品根据本发明的实施例,可选地,所述对多个时段中待识别商品的特征数据进行排序的步骤还包括:获取待识别商品在每个时段中的特征数据组,所述特征数据组中包括至少一个特征数据;确定每个特征数据组中特征数据的均值;对多个特征数据组的均值进行排序,以得到特征数据序列。根据本发明的实施例,可选地,基于所述特征数据序列,确定出至少一个最佳切分点的步骤包括:对于所述特征数据序列的每个切分点,确定其切分比值;所述切分比值,为该切分点对应的两个子序列中特征数据的均值之比;根据所述特征数据序列的每个切分点的切分比值,确定最佳切分点;判断所述最佳切分点对应的子序列中特征数据个数是否大于预设的个数阈值;如果大于,则根据识别需求,从所述最佳切分点对应的两个子序列中,确定出初始子序列;对于所述初始子序列的每个切分点,确定其切分比值;并根据述初始子序列的每个切分点的切分比值,确定最佳切分点,并执行上述判断。根据本发明的实施例,可选地,根据所述至少一个最佳切分点和预设的时段数阈值,从所述特征数据序列的子序列中确定出识别子序列的步骤包括:根据所述至少一个最佳切分点,从所述特征数据序列截取出多个子序列;对于截取出的每个子序列,判断该子序列中特征数据的个数是否大于预设的时段数阈值;如果大于,则将该子序列确定为识别子序列。根据本发明的实施例,可选地,根据所述识别子序列中包括的特征数据,判断所述待识别商品是否为季节性商品的步骤包括:根据时段顺序将所述识别子序列中包括的特征数据进行合并;根据预设的筛选阈值,从合并后的特征数据中筛选出识别数据;根据所述识别数据的时段均值和所述特征数据序列中特征数据的时段均值,判断所述待识别商品是否为季节性商品。根据本发明的实施例,可选地,根据所述识别数据的时段均值和所述特征数据序列中特征数据的时段均值,判断所述待识别商品是否为季节性商品的步骤包括:判断所述识别数据的时段均值,是否大于所述特征数据序列中特征数据的时段均值的预设倍数,如果大于,则所述待识别商品为季节性商品;否则,所述待识别商品为非季节性商品。根据本发明的实施例,可选地,在根据所述识别数据的时段均值和所述特征数据序列中特征数据的时段均值,判断所述待识别商品是否为季节性商品之后,还包括:确定所述识别数据对应的时段;根据是否为季节性商品的判断结果以及所述识别数据对应的时段,生成所述待识别商品的季节性信息标注向量。根据本发明的实施例,可选地,所述特征数据为商品历史销售量或者搜索量;和或,所述时段为一个月或者一个周。根据本发明实施例的另一方面,提供了一种识别季节性商品的方法。根据本发明实施例的识别季节性商品的方法,包括:获取待识别商品的描述信息;基于所述待识别商品的描述信息和识别模型,确定所述待识别商品是否为季节性商品;其中,所述识别模型是基于标注的样本数据训练得到,所述标注的样本数据是根据上述任意一项所述的方法对样本数据的季节性进行标注。根据本发明的实施例,可选地,基于所述待识别商品的描述信息和识别模型,确定所述待识别商品是否为季节性商品的步骤包括:对所述待识别商品的描述信息进行分词和去停用词处理;根据词袋模型和所述分词、去停用词处理的描述信息,生成所述描述信息的向量表示;根据所述向量表示和识别模型,确定出所述待识别商品是否为季节性商品。根据本发明实施例的再一方面,提供了一种识别季节性商品的装置。根据本发明实施例的识别季节性商品的装置,包括:序列生成模块,用于对多个时段中待识别商品的特征数据进行排序,以得到特征数据序列;切分点确定模块,用于基于所述特征数据序列,确定出至少一个最佳切分点;子序列确定模块,用于根据所述至少一个最佳切分点和预设的时段数阈值,从所述特征数据序列的子序列中确定出识别子序列;识别模块,用于根据所述识别子序列中包括的特征数据,判断所述待识别商品是否为季节性商品。根据本发明的实施例,可选地,所述序列生成模块还用于:获取待识别商品在每个时段中的特征数据组,所述特征数据组中包括至少一个特征数据;确定每个特征数据组中特征数据的均值;对多个特征数据组的均值进行排序,以得到特征数据序列。根据本发明的实施例,可选地,所述切分点确定模块还用于:对于所述特征数据序列的每个切分点,确定其切分比值;所述切分比值,为该切分点对应的两个子序列中特征数据的均值之比;根据所述特征数据序列的每个切分点的切分比值,确定最佳切分点;判断所述最佳切分点对应的子序列中特征数据个数是否大于预设的个数阈值;如果大于,则根据识别需求,从所述最佳切分点对应的两个子序列中,确定出初始子序列;对于所述初始子序列的每个切分点,确定其切分比值;并根据述初始子序列的每个切分点的切分比值,确定最佳切分点,并执行上述判断。根据本发明的实施例,可选地,所述子序列确定模块还用于,根据所述至少一个最佳切分点,从所述特征数据序列截取出多个子序列;对于截取出的每个子序列,判断该子序列中特征数据的个数是否大于预设的时段数阈值;如果大于,则将该子序列确定为识别子序列。根据本发明的实施例,可选地,所述识别模块还用于:根据时段顺序将所述识别子序列中包括的特征数据进行合并;根据预设的筛选阈值,从合并后的特征数据中筛选出识别数据;根据所述识别数据的时段均值和所述特征数据序列中特征数据的时段均值,判断所述待识别商品是否为季节性商品。根据本发明的实施例,可选地,所述识别模块还用于:判断所述识别数据的时段均值,是否大于所述特征数据序列中特征数据的时段均值的预设倍数,如果大于,则所述待识别商品为季节性商品;否则,所述待识别商品为非季节性商品。根据本发明的实施例,可选地,所述识别模块还用于:确定所述识别数据对应的时段;根据是否为季节性商品的判断结果以及所述识别数据对应的时段,生成所述待识别商品的季节性信息标注向量。根据本发明的实施例,可选地,所述特征数据为商品历史销售量或者搜索量;和或,所述时段为一个月或者一个周。根据本发明实施例的再一方面,提供了一种识别季节性商品的装置。根据本发明实施例的识别季节性商品的装置,包括:获取模块,用于获取待识别商品的描述信息;模型识别模块,用于基于所述待识别商品的描述信息和识别模型,确定所述待识别商品是否为季节性商品;其中,所述识别模型是基于标注的样本数据训练得到,所述标注的样本数据是根据第一方面提供的任意一项所述的方法对样本数据的季节性进行标注。根据本发明的实施例,可选地,所述模型识别模块还用于:对所述待识别商品的描述信息进行分词和去停用词处理;根据词袋模型和所述分词、去停用词处理的描述信息,生成所述描述信息的向量表示;根据所述向量表示和识别模型,确定出所述待识别商品是否为季节性商品。根据本发明实施例的又一方面,提供了一种识别季节性商品的电子设备。根据本发明实施例的识别季节性商品的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当该一个或多个程序被该一个或多个处理器执行,使得该一个或多个处理器实现本发明实施例第一方面和另一方面提供的识别季节性商品的方法。根据本发明实施例的又一方面,提供了一种计算机可读介质。根据本发明实施例的计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例第一方面和另一方面提供的识别季节性商品的方法。上述发明中的一个实施例具有如下优点或有益效果:对商品在多个时段中的特征数据进行排序,得到有序的数据序列之后,确定出最佳切分点。根据至少一个最佳切分点和预设的时段数阈值,从特征数据序列的子序列中确定出识别子序列,该识别子序列中包括的特征数据具有突出的代表性。并且根据该具有代表性的子序列中特征数据,进一步判断商品是否为季节性商品,例如,该代表性数据的均值大于一个预设的阈值或者所有特征数据的均值,则说明该商品为季节性商品。本发明实施例不仅能够减少工作量,还能够提升识别的准确率。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本发明,不构成对本发明的不当限定。其中:图1是示意性地示出本发明的整体构思的图示;图2是根据本发明实施例的识别季节性商品的方法的主要流程的示意图;图3是根据本发明另一实施例的识别季节性商品的方法的主要流程的示意图;图4是根据本发明又一实施例的识别季节性商品的方法的主要流程的示意图;图5是根据本发明实施例的识别季节性商品的装置的主要模块的示意图;图6是根据本发明另一实施例的识别季节性商品的装置的主要模块的示意图;图7是本发明实施例可以应用于其中的示例性系统架构图;图8是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是示意性地示出本发明的整体构思的图示。本发明的整体构思在于希望:对于有历史销量数据的老商品,能够无需人工以较高准确性识别其季节性,进而对于无历史销量数据的新商品或历史销量数据样本不足的次新商品,也能够识别其季节性。对于老商品来说,可采用其历史销量数据来识别其季节性,如图1所示,可将老商品销量数据输入到老商品季节性识别模块,从而识别出老商品的季节性。而对于无历史销量数据的新商品或历史销量数据样本不足的次新商品,本发明则考虑通过将老商品的商品描述信息、季节性标识信息输入神经网络,训练后生成新品季节性识别模型,从而通过将新品描述信息输入新品季节性识别模型,进而识别出新品季节性。图2是根据本发明实施例的识别季节性商品的方法的主要流程的示意图。如图2所示,根据本发明实施例的识别季节性商品的方法主要包括:步骤s201:对多个时段中待识别商品的特征数据进行排序,以得到特征数据序列。具体的,获取待识别商品在每个时段中的特征数据组,特征数据组中包括至少一个特征数据,并确定每个特征数据组中特征数据的均值。其中,特征数据为商品历史销售量或者搜索量,销售量和搜索量都可代表商品的受欢迎程度,在本发明实施例中,为更准确直接的确定出商品的销售旺季或淡季,将销售量作为特征数据。以及,时段为一个月或者一个周。例如,获取某个商品在2012年至2017年5年中每月的销售量,则每个月中的特征数据组中包括5个数据(分别为2012年至2017年5年该月份的销售量),并进一步计算出这5年分别在1月至12月中,每月的平均销售量。如果确定某一年的销售数据很具有代表性,也可将这一年12个月中的销售数据作为识别该商品季节性的特征数据。则对于多个特征数据,可对多个特征数据组的均值进行排序,也可对多个特征数据直接进行排序,以得到特征数据序列。其中,排序顺序可从小到大排也可从大到小排。步骤s202:基于特征数据序列,确定出至少一个最佳切分点。对于特征数据序列中任意连续两个数之间,可作为一个切分点。例如,序列s=(s1,s2,...,sn)有n-1个切分点,ssp-1与ssp之间的切分点将序列s分成两个子序列sl=(s1,s2,...,ssp-1)和sr=(ssp,ssp+1,...,s1n)。对于最佳切分点的确定,可将序列s均分为几段的切分点作为最佳切分点。例如,s=(s1,s2,...,s12),可将序列s均分为3段的切分点作为最佳切分点,该序列s存在3个最佳切分点,即s3和s4之间的切分点为最佳切分点,s6和s7之间的切分点为最佳切分点,s9和s10之间的切分点为最佳切分点。为根据最佳切分点确定出的识别子序列更能代表该特征数据序列,可通过如下方式确定最佳切分点。对于特征数据序列的每个切分点,确定其切分比值;切分比值,为该切分点对应的两个子序列中特征数据的均值之比。根据特征数据序列的每个切分点的切分比值,确定最佳切分点。由于该切分比值,能够体现出切分点对应的两个子序列中数据的关系,所以基于该切分比值确定出最佳切分点,有利于提升商品季节性识别的准确性。其中,可将切分比值最大的切分点作为最佳切分点(例如识别销售旺季),或者将切分比值最小的切分点作为最佳切分点(例如识别销售淡季)。然后,判断最佳切分点对应的子序列中特征数据个数是否大于预设的个数阈值。如果大于,则根据识别需求,从最佳切分点对应的两个子序列中,确定出初始子序列;对于初始子序列的每个切分点,确定其切分比值。并根据述初始子序列的每个切分点的切分比值,确定最佳切分点,并执行上述判断。例如:商品a在12个月中的平均销售量分别为20,22,30,90,60,40,35,28,26,120,80,30。按照从大到小的顺序排序之后,得到的序列s=(120,90,80,60,40,35,30,30,28,26,22,20),排序后的月份和对应的销售数据如下表:月份104115673128921销售数据1209080604035303028262220对于序列s=(120,90,80,60,40,35,30,30,28,26,22,20)有11个切分点,这11个切分点分别标记为1、2、3…11。切分点1将序列s分为sl=(120)和sr=(90,80,60...,20),这两个子序列为切分点1对应的子序列;切分点2将序列s分为sl=(120,90)和sr=(80,60,40...,20),这两个子序列为切分点2对应的子序列。切分点的切分比值为r=mean(sl)/mean(sr),其中mean(sl)表示子序列sl中包括的特征数据的平均值。切分点1的切分比值为120/[(90+80+60+...+20)/11],约为2.863962,同理可确定出切分点2、3…11的切分比值,具体如下表:将切分比值最大的切分点作为最佳切分点,在序列s中,最佳切分点为切分点4,切分点4对应的子序列为(120,90,80,60)和(40,35,30,30,28,26,22,20)。在本发明实施例中,预设的个数阈值为1,由上可知,切分点4对应的子序列中特征数据个数大于1,所以继续确定最佳切分点。在本发明实施例中,确定商品a的销售旺季的季节性(识别需求),则需要对销售量大的月份进一步判断,在此基础上,基于序列(120,90,80,60)进一步确定最佳切分点。该序列有3个切分点,其切分比值分别为1.57、1.50和1.61。则基于确定出的第二个最佳切分,确定的子序列为分别为(120,90,80)和(60)。此时,子序列(60)中特征数据的个数不大于1,则不继续确定最佳切分点。在本发明实施例中,基于确定出两个最佳切分点,从序列s截取出多个子序列,分别为:(120,90,80)、(60)和(40,35,30,30,28,26,22,20)。步骤s203:根据至少一个最佳切分点和预设的时段数阈值,从特征数据序列的子序列中确定出识别子序列。具体的,根据至少一个最佳切分点,从特征数据序列截取出多个子序列;对于截取出的每个子序列,判断该子序列中特征数据的个数是否大于预设的时段数阈值;如果大于,则将该子序列确定为识别子序列。根据商品销售规律或者识别准确度的需求,设置时段数阈值,如果子序列中包含的特征数据的个数大于该时段数阈值,说明子序列中包含的特征数据不够集中,不利于商品季节性的判断。例如时段数阈值设置为6,代表判定季节品时,确定的识别子序列中包含的月销量不能超过6个月的销售量。在上述示例中,基于确定出两个最佳切分点,从序列s截取出多个子序列,分别为:(120,90,80)、(60)和(40,35,30,30,28,26,22,20)。时段数阈值设置为6,则根据该时段数阈值,确定出的识别子序列为(120,90,80)和(60)。步骤s204:根据识别子序列中包括的特征数据,判断待识别商品是否为季节性商品。具体的,根据时段顺序将识别子序列中包括的特征数据进行合并,并根据预设的筛选阈值,从合并后的特征数据中筛选出识别数据。然后,根据识别数据的时段均值和特征数据序列中特征数据的时段均值,判断待识别商品是否为季节性商品。其中,判断识别数据的时段均值,是否大于特征数据序列中特征数据的时段均值的预设倍数。如果大于,则待识别商品为季节性商品;否则,待识别商品为非季节性商品。该预设倍数可根据商品是销售特征或者识别需求进行设置,例如,该预设倍数设置为2,则在识别数据的时段均值大于特征数据序列中特征数据的时段均值的2倍时,该待识别商品为季节性商品。另外,还可通过识别数据的时段均值和特征数据序列中特征数据的时段均值的比值或者差值,与相应的预设值比较,进而判断出待识别商品是否为季节性商品。识别子序列中包括的特征数据为120,90,80和60,其对应的月份分别为10月、4月、11月和5月。其中,4月和5月为连续月,10月和11月为连续月,基于该时段顺序,将子序列中包括的特征数据进行合并得到150和200。如果预设的筛选阈值为2,则从合并后的特征数据中选出两个数据为识别数据,如果预设的筛选阈值为1,则从合并后的特征数据中选出一个数据为识别数据。在上述示例中,假设预设的筛选阈值为2,则筛选出识别数据为(150,200)。150和200中包括4个月(即4个时段)的销售量,其时段均值为(150+200)/4=87.5。以及,序列s中包括12个月(即12个时段)的销售量,则其时段均值为(120,90,80,60,40,35,30,30,28,26,22,20)/12=48.42。以及,在上述示例中,预设倍数设置为2,则87.5小于48.42的两倍,所以,在该示例中,该待识别商品为非季节性商品。假如,预设的筛选阈值为1,则筛选出的识别数据为150或者200,150中包括2个月(即2个时段)的销售量,其时段均值为150/2=75。200中包括2个月(即2个时段)的销售量,其时段均值为200/2=100。此时,100大于48.42的两倍,该待识别商品可判断为季节性商品。在上述步骤之后,确定识别数据对应的时段;根据是否为季节性商品的判断结果以及识别数据对应的时段,生成待识别商品的季节性信息标注向量。该季节性信息标注向量season_label=(is_season,l1,l2,...,ln),其中,“is_season”表示季节性商品,l1,l2,...,ln逐一对应于多个时段的每一个,可通过“0”和“1”分别表示非季节性时段和季节性时段。例如,商品a的季节性信息标注向量为(is_season,0,0,0,0,0,0,0,0,0,1,1,0),则表示该商品a为季节性商品,以及其季节性时段为10月和11月。对于本发明实施例实施例,对商品的销量(或者搜索量)进行排序,得到有序的数据序列之后,确定出最佳切分点。以及,根据至少一个最佳切分点和预设的时段数阈值,从特征数据序列的子序列中确定出识别子序列,该识别子序列中包括的特征数据具有突出的代表性。并且,根据该代表性数据,进一步判断商品是否为季节性商品,例如,该代表性数据的均值大于一个预设的阈值或者所有特征数据的均值,则说明该商品为季节性商品。本发明实施例不仅能够减少工作量,还能够提升识别的准确率。图3是根据本发明另一实施例的识别季节性商品的方法的主要流程的示意图;如图3所示,根据本发明另一实施例的识别季节性商品的方法主要包括:步骤s301:获取商品在多个时段的每一个中的历史销量值的平均值,生成销量平均值序列mts,其中,mts=(ms1,ms2,ms3,...,msn)。在获取商品在多个时段的每一个中的历史销量值对商品历史销量时,可采用以月作为时段的单位,或者以周或双周等作为时段的单位。如以月作为时段的单位为例,计算每个月的历史销量值的平均值可以采用计算多年同一个月的销量值的平均值的方式。在此给出如下mts序列作为示例数据:mts=(20,22,30,90,60,40,35,28,26,120,80,30)。步骤s302:将销量平均值序列mts中的元素按照从大到小排序,生成序列s,根据最佳切分点生成包括序列s的m个数组的子序列gs。对于如上示例数据,经排序后生成的序列s为:s=(120,90,80,60,40,35,30,30,28,26,22,20)。对于用于将s分为子序列的最佳切分点,可以有多种设置方法。在根据本发明实施例的识别季节性商品的方法中,通过如下步骤来设置最佳切分点,包括:对于序列s=(s1,s2,...,sn)的每个元素之间的n-1个切分点sp_list=(2,3,....n),计算每个切分点的左侧元素的平均值与右侧元素的平均值的比值r=mean(sl)/mean(sr),获得切分比值rl=(r2,r3,...,rn)。以及,将切分比值rl中的最大比值所对应的切分点设置作为s的最佳切分点。对于根据最佳切分点生成序列s的m个子序列数组,可以有多种设置方法。在本发明实施例中,因为切分自后而起,为了保证gs中每个分组最后仍然有序,在示例中,采用如下方法:截取序列s中的最佳切分点之后的各个元素作为一个数组,并对最佳切分点之前的序列s的子序列sub_s=(s1,s2,...,sopt_sp-1)再次设置最佳切分点,并且执行截取的步骤,直到确定的子序列sub_s中元素个数为0或1。对于如上示例数据,对于序列s进行上述运算之后,获得了三个最佳切分点:5(s4与s5之间的切分点),4(s3与s4之间的切分点)和2(s1与s2之间的切分点)。相应地,获得的3个子序列sub_s是(s5-s12)、(s4)和(s1-s3)。进而,所生成的子序列gs=[(s1,s2,s3),(s4),(s5,s6,s7,s8,s9,s10,s11,s12)]。步骤s303:根据时段数阈值mh从序列gs中取出数组,生成gs的子序列数组sub_gs,其中,sub_gs=[(mg1,1,mg1,2,mg1,l1);(mg2,1,mg2,2,...,mg2,l2),...,(mgn,1,mgn,2,...,mgn,ln)]。在示例中,时段数阈值mh用以设定子序列数组sub_gs中所包括的元素个数,其中从序列gs中取出其元素个数不超过时段数阈值mh个的数组来生成子序列数组sub_gs。如本领域技术人员所了解的,可以根据需要来设置此时段数阈值mh,或者也可以根据时段是月、周还是双周来调整此时段数阈值mh的数值。在剔除数组时,优选地采用数组整体取舍,如果加上某个数组导致子序列的元素数量超过时段数阈值mh,则不取该数组。在此用于示例作用,设此时段数阈值mh为6。对于如上示例数据,生成的子序列数组的元素个数不多于6,因此仅能够取序列gs中的前两个数组,而其第三个数组将被剔除。由此生成的子序列数组sub_gs=[(s1,s2,s3),(s4)]。步骤s304:按照时段先后顺序,将子序列数组sub_gs中的销量平均值进行排列,生成序列ms。对于如上示例数据,s1为10月销量120,s2为4月销量90,s3为11月销量80,s4为5月销量60,按照月份排序,则由此生成的序列ms=(90,60,120,80)。步骤s305:将序列ms中时段相邻的时段的元素合并,生成序列cg在示例中,将ms中月份相邻的月合并成组,如1月和2月和3月合在一起,最后生成t组组内连续的销量。优选地,合并月份要考虑靠每年月循环关系,例如12月和1月应被合并。对于如上示例数据,4和5月合并,10和11月合并,则由此生成的序列cg=(150,200)。步骤s306:从序列cg中取出筛选阈值gh个元素,生成序列og=(cg1,cg2,...,cggh),计算sum(og)/q,将sum(og)/q与sum(mts)/n*rh相比较。其中,rh表示预设倍数,q是序列og所包括的时段的数量,n是时段的数量。在示例中,筛选阈值gh用以判断商品是否是季节性商品的连续时段的数量。如本领域技术人员所了解的,可以根据需要来设置此筛选阈值gh和预设倍数rh。在此用于示例作用,设此筛选阈值gh为2,已将两个元素都取出,同时将此预设倍数rh设为2,即当商品销售值的峰值平均值大于等于全年平均值的2倍时才将其判别为季节性商品。对于如上示例数据,当筛选阈值gh=2时,生成的序列og=(150,200),相应地q=4,sum(og)/q=87.5。当预设倍数rh=2时,sum(mts)/n*rh=48.42*2=96.84。sum(og)/q与sum(mts)/n*rh相比较,不满足sum(og)/q大于等于sum(mts)/n*rh,因此此商品不会被识别为季节性商品。但是筛选阈值gh=1时,og1=(150)并且og2=(200),相应地q=2,sum(og1)/q=75并且sum(og2)/q=100,此时sum(og2)/q大于等于sum(mts)/n*rh,则此商品将被识别为季节性商品,同时会将10月和11月识别为此商品的旺季月份。在根据本发明实施例的识别季节性商品的方法中,当sum(og)/q大于等于sum(mts)/n*rh时,输出表示商品是否是季节性商品的标注信息向量season_label=(is_season,l1,l2,...,ln),其中,l1,l2,...,ln逐一对应于多个时段的每一个。如本领域技术人员所了解的,可以以0和1代表“否”和“是”。对于如上示例数据,标注信息向量将会是season_label=(is_season,0,0,0,0,0,0,0,0,0,1,1,0)。对商品在多个时段中的特征数据进行排序,得到有序的数据序列之后,确定出最佳切分点。根据至少一个最佳切分点和预设的时段数阈值,从特征数据序列的子序列中确定出识别子序列,该识别子序列中包括的特征数据具有突出的代表性。并且根据该具有代表性的子序列中特征数据,进一步判断商品是否为季节性商品,例如,该代表性数据的均值大于一个预设的阈值或者所有特征数据的均值,则说明该商品为季节性商品。本发明实施例不仅能够减少工作量,还能够提升识别的准确率。图4是根据本发明又一实施例的识别季节性商品的方法的主要流程的示意图。通常,商品的描述信息和商品的季节性有相关关系,例如:“秋袜”,“厚、薄”,“空调”等。对于无历史销量数据的新商品或历史销量数据样本不足的次新商品,本发明考虑通过使用商品描述信息作为特征,已标记的季节性作为标识,构建时间序列与自注意力的深度学习模型。由此,使用已识别其季节性的商品(即所称的老商品或老品)的信息来训练模型,进而对新品或次新品的季节性进行预测。步骤s401:获取待识别商品的描述信息。如本领域技术人员所了解的,可以通过多种方法来识别商品信息。在根据本发明实施例的识别季节性商品的方法中,在示例中,首先获取每个商品的描述信息,其中描述信息包括商品全名、品牌名、商品描述信息、商品扩展信息等;然后对所获得的描述信息进行分词,去除无用的符号和停用词,从而识别出描述信息的多个关键词。由于商品的描述信息中的词语的顺序对于识别商品季节性来说影响不大,因此优选地无需在序列中编码词语的位置信息,而是使用词袋模型,相比于有顺序的排列模式,无序的组合模式能够更准确地实现商品的季节性识别。步骤s402:基于待识别商品的描述信息和识别模型,确定待识别商品是否为季节性商品。其中,识别模型是基于标注的样本数据训练得到,标注的样本数据是根据上述实施例中任意一项的方法对样本数据的季节性进行标注。对商品在多个时段中的特征数据进行排序,得到有序的数据序列之后,确定出最佳切分点。根据至少一个最佳切分点和预设的时段数阈值,从特征数据序列的子序列中确定出识别子序列,该识别子序列中包括的特征数据具有突出的代表性。并且根据该具有代表性的子序列中特征数据,进一步判断商品是否为季节性商品,例如,该代表性数据的均值大于一个预设的阈值或者所有特征数据的均值,则说明该商品为季节性商品。所以,通过上述方法对样本数据进行标注,提升了标注的准确性,进而提高了识别模型的对商品季节性识别的准确性。具体的,对待识别商品的描述信息进行分词和去停用词处理;根据词袋模型和分词、去停用词处理的描述信息,生成描述信息的向量表示;根据向量表示和识别模型,确定出待识别商品是否为季节性商品。在示例中,可选地,使用本发明实施例第一方面提供的识别季节性商品的方法来识别出已识别其季节性的商品(即所称的老商品或老品)的季节性。对已经识别并标注的老商品使用深度学习对商品的季节性和季节品旺季分布进行训练。优选地,使用交叉熵作为损失函数,以使得模型输出的分布尽量与训练样本的分布相一致。可选地,以词袋模型,基于经分词处理的描述信息,使用深度学习时序模型和自注意力模型,进行模型训练。图5是根据本发明实施例的识别季节性商品的装置的主要模块的示意图。如图5所示,根据本发明实施例的识别季节性商品的装置500,包括:序列生成模块501,用于对多个时段中待识别商品的特征数据进行排序,以得到特征数据序列。特征数据为商品历史销售量或者搜索量;和或,时段为一个月或者一个周。序列生成模块还用于:获取待识别商品在每个时段中的特征数据组,特征数据组中包括至少一个特征数据;确定每个特征数据组中特征数据的均值;对多个特征数据组的均值进行排序,以得到特征数据序列。切分点确定模块502,用于基于特征数据序列,确定出至少一个最佳切分点。切分点确定模块还用于:对于特征数据序列的每个切分点,确定其切分比值;切分比值,为该切分点对应的两个子序列中特征数据的均值之比;根据特征数据序列的每个切分点的切分比值,确定最佳切分点;判断最佳切分点对应的子序列中特征数据个数是否大于预设的个数阈值;如果大于,则根据识别需求,从最佳切分点对应的两个子序列中,确定出初始子序列;对于初始子序列的每个切分点,确定其切分比值;并根据述初始子序列的每个切分点的切分比值,确定最佳切分点,并执行上述判断。子序列确定模块503,用于根据至少一个最佳切分点和预设的时段数阈值,从特征数据序列的子序列中确定出识别子序列。子序列确定模块还用于,根据至少一个最佳切分点,从特征数据序列截取出多个子序列;对于截取出的每个子序列,判断该子序列中特征数据的个数是否大于预设的时段数阈值;如果大于,则将该子序列确定为识别子序列。识别模块504,用于根据识别子序列中包括的特征数据,判断待识别商品是否为季节性商品。识别模块还用于:根据时段顺序将识别子序列中包括的特征数据进行合并;根据预设的筛选阈值,从合并后的特征数据中筛选出识别数据;根据识别数据的时段均值和特征数据序列中特征数据的时段均值,判断待识别商品是否为季节性商品。识别模块还用于:判断识别数据的时段均值,是否大于特征数据序列中特征数据的时段均值的预设倍数,如果大于,则待识别商品为季节性商品;否则,待识别商品为非季节性商品。识别模块还用于:确定识别数据对应的时段;根据是否为季节性商品的判断结果以及识别数据对应的时段,生成待识别商品的季节性信息标注向量。对于本发明实施例,对商品在多个时段中的特征数据进行排序,得到有序的数据序列之后,确定出最佳切分点。根据至少一个最佳切分点和预设的时段数阈值,从特征数据序列的子序列中确定出识别子序列,该识别子序列中包括的特征数据具有突出的代表性。并且根据该具有代表性的子序列中特征数据,进一步判断商品是否为季节性商品,例如,该代表性数据的均值大于一个预设的阈值或者所有特征数据的均值,则说明该商品为季节性商品。本发明实施例不仅能够减少工作量,还能够提升识别的准确率。图6是根据本发明另一实施例的识别季节性商品的装置的主要模块的示意图。如图6所示,根据本发明实施例的识别季节性商品的装置600,包括:获取模块601,用于获取待识别商品的描述信息。模型识别模块602,用于基于待识别商品的描述信息和识别模型,确定待识别商品是否为季节性商品;其中,识别模型是基于标注的样本数据训练得到,标注的样本数据是上述实施例中任意一项的方法对样本数据的季节性进行标注。模型识别模块还用于:对待识别商品的描述信息进行分词和去停用词处理;根据词袋模型和分词、去停用词处理的描述信息,生成描述信息的向量表示;根据向量表示和识别模型,确定出待识别商品是否为季节性商品。根据本发明实施例的又一方面,提供了一种识别季节性商品的电子设备。根据本发明实施例的识别季节性商品的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当该一个或多个程序被该一个或多个处理器执行,使得该一个或多个处理器实现上述实施例提供的识别季节性商品的方法。根据本发明实施例的又一方面,提供了一种计算机可读介质。根据本发明实施例的计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例提供的识别季节性商品的方法。图7示出了可以应用本发明实施例的识别季节性商品的方法或识别季节性商品的装置的示例性系统架构700。如图7所示,系统架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。服务器705可以是提供各种服务的服务器,例如对用户利用终端设备701、702、703所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。需要说明的是,本发明实施例所提供的识别季节性商品的方法一般由服务器705执行,相应地,识别季节性商品的装置一般设置于服务器705中。应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。下面参考图8,其示出了适于用来实现本申请实施例的终端设备的计算机系统800的结构示意图。图8示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。如图8所示,计算机系统800包括中央处理单元(cpu)801,其可以根据存储在只读存储器(rom)802中的程序或者从存储部分808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。在ram803中,还存储有系统800操作所需的各种程序和数据。cpu701、rom802以及ram803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。以下部件连接至i/o接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至i/o接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(cpu)801执行时,执行本申请的系统中限定的上述功能。需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括序列生成模块、切分点确定模块、子序列确定模块和识别模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,序列生成模块还可以被描述为“对多个时段中待识别商品的特征数据进行排序,以得到特征数据序列的模块”。作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:对多个时段中待识别商品的特征数据进行排序,以得到特征数据序列;基于特征数据序列,确定出至少一个最佳切分点;根据至少一个最佳切分点和预设的时段数阈值,从特征数据序列的子序列中确定出识别子序列;根据识别子序列中包括的特征数据,判断待识别商品是否为季节性商品。或者,使得该设备包括:获取待识别商品的描述信息;基于待识别商品的描述信息和识别模型,确定待识别商品是否为季节性商品;其中,识别模型是基于标注的样本数据训练得到,标注的样本数据是根据上述的方法对样本数据的季节性进行标注。根据本发明实施例的技术方案,具有如下优点或有益效果:对商品在多个时段中的特征数据进行排序,得到有序的数据序列之后,确定出最佳切分点。根据至少一个最佳切分点和预设的时段数阈值,从特征数据序列的子序列中确定出识别子序列,该识别子序列中包括的特征数据具有突出的代表性。并且根据该具有代表性的子序列中特征数据,进一步判断商品是否为季节性商品,例如,该代表性数据的均值大于一个预设的阈值或者所有特征数据的均值,则说明该商品为季节性商品。本发明实施例不仅能够减少工作量,还能够提升识别的准确率。以及,对于有历史销量数据的老商品,能够无需人工以较高准确性识别其季节性;于无历史销量数据的新商品或历史销量数据样本不足的次新商品,也能够识别其季节性。上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1