一种信息的处理方法、装置及设备与流程

文档序号:18740108发布日期:2019-09-21 01:40阅读:169来源:国知局
一种信息的处理方法、装置及设备与流程

本说明书涉及计算机技术领域,尤其涉及一种信息的处理方法、装置及设备。



背景技术:

为了吸引更多的用户关注,商户会进行很多的营销活动,例如发放或抽取奖品等,为了达到较好的营销效果,通常可以为奖品设置相应的展示文案,例如,用户抽取的奖品为某店铺的满减优惠券,则将该满减优惠券的相关信息发送给该用户的同时,还可以向该用户发送该奖品的展示文案,如“献给奋斗的你”等。

通常,在营销活动中,为奖品设置文案可以通过人工的方式实现,即针对某奖品,商户会通过人工撰写的方式撰写一个或多个展示文案,当某用户抽取到该奖品时,在将该奖品的相关信息发送给该用户的同时,还将上述展示文案发送给该用户。然而,通过上述人工的方式为奖品设置展示文案的处理,由于所有奖品的展示文案都需要商户或运营人员通过人工完成,人力资源消耗较大,展示文案的生成效率较低,且最终得到的展示文案的效果可能较差,因此,需要提供一种展示文案的生成效率更高、更适合用户的处理方案。



技术实现要素:

本说明书实施例的目的是提供一种信息的处理方法、装置及设备,以提供一种展示文案的生成效率更高、更适合用户的处理方案。

为了实现上述技术方案,本说明书实施例是这样实现的:

本说明书实施例提供的一种信息的处理方法,所述方法包括:

从预定的语料数据库中获取与预定的关键词相对应的语料数据;

基于所述关键词对应的类别标签和预定的分类模型,对所述语料数据进行分类,确定所述语料数据所属的类别标签,所述分类模型为基于神经网络对文本进行分类的模型,所述类别标签是待发放资源的用户所具备的属性标签;

对不同类别标签的所述语料数据进行短语抽取处理,得到不同类别标签对应的目标短语,以基于所述目标短语生成待发放的资源的第一展示文案。

可选地,所述方法还包括:

接收目标用户的资源获取请求;

确定发放给所述目标用户的资源的信息;

从所述目标用户对应的类别标签中,获取与资源的信息匹配的第一类别标签;

根据所述第一类别标签,从所述目标短语中获取所述第一类别标签对应的目标短语;

基于获取的目标短语,生成发送给所述目标用户的资源的第一展示文案。

可选地,所述方法还包括:

从预定的语料数据库中获取与预定的资源关键词相对应的资源语料数据;

基于所述预定的资源关键词和资源语料数据,生成待发放的资源的第二展示文案。

可选地,所述基于所述预定的资源关键词和资源语料数据,生成待发放的资源的第二展示文案,包括:

将所述预定的资源关键词和所述资源语料数据输入到预定的Pointer-Generator模型中,得到待发放的资源的第二展示文案。

可选地,所述方法还包括:

从预定的语料数据库中获取与预定的关键词相对应的样本数据;

基于所述关键词对应的类别标签和获取的样本数据,对所述分类模型进行训练,得到训练后的分类模型。

可选地,所述方法还包括:

对所述样本数据进行Random Mask操作,以随机对所述样本数据进行关键词的替换。

可选地,所述方法还包括:

调整每个类别标签对应的样本数据的数量,以使每个类别标签对应的样本数据的数量在预定的数量阈值范围内。

可选地,所述对不同类别标签的所述语料数据进行短语抽取处理,得到不同类别标签对应的目标短语,包括:

基于预定的正则表达式,对不同类别标签的所述语料数据进行短语抽取处理,得到抽取结果;

对所述抽取结果进行过滤处理,得到不同类别标签对应的目标短语。

可选地,所述对所述抽取结果进行过滤处理,得到不同类别标签对应的目标短语,包括:

对所述抽取结果进行文本长度过滤处理、IDF分过滤处理、NER过滤处理中的一项或多项,得到不同类别标签对应的目标短语。

本说明书实施例提供的一种信息的处理装置,所述装置包括:

语料获取模块,用于从预定的语料数据库中获取与预定的关键词相对应的语料数据;

分类模块,用于基于所述关键词对应的类别标签和预定的分类模型,对所述语料数据进行分类,确定所述语料数据所属的类别标签,所述分类模型为基于神经网络对文本进行分类的模型,所述类别标签是待发放资源的用户所具备的属性标签;

抽取模块,用于对不同类别标签的所述语料数据进行短语抽取处理,得到不同类别标签对应的目标短语,以基于所述目标短语生成待发放的资源的第一展示文案。

可选地,所述装置还包括:

资源语料获取模块,用于从预定的语料数据库中获取与预定的资源关键词相对应的资源语料数据;

文案生成模块,用于基于所述预定的资源关键词和资源语料数据,生成待发放的资源的第二展示文案。

可选地,所述文案生成模块,用于将所述预定的资源关键词和所述资源语料数据输入到预定的Pointer-Generator模型中,得到待发放的资源的第二展示文案。

可选地,所述抽取模块,包括:

抽取单元,用于基于预定的正则表达式,对不同类别标签的所述语料数据进行短语抽取处理,得到抽取结果;

过滤单元,用于对所述抽取结果进行过滤处理,得到不同类别标签对应的目标短语。

可选地,所述过滤单元,用于对所述抽取结果进行文本长度过滤处理、IDF分过滤处理、NER过滤处理中的一项或多项,得到不同类别标签对应的目标短语。

本说明书实施例提供的一种信息的处理设备,所述信息的处理设备包括:

处理器;以及

被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:

从预定的语料数据库中获取与预定的关键词相对应的语料数据;

基于所述关键词对应的类别标签和预定的分类模型,对所述语料数据进行分类,确定所述语料数据所属的类别标签,所述分类模型为基于神经网络对文本进行分类的模型,所述类别标签是待发放资源的用户所具备的属性标签;

对不同类别标签的所述语料数据进行短语抽取处理,得到不同类别标签对应的目标短语,以基于所述目标短语生成待发放的资源的第一展示文案。

由以上本说明书实施例提供的技术方案可见,本说明书实施例通过从预定的语料数据库中获取与预定的关键词相对应的语料数据,然后,基于该关键词对应的类别标签和预定的分类模型,对该语料数据进行分类,确定该语料数据所属的类别标签,该分类模型为基于神经网络对文本进行分类的模型,该类别标签是待发放资源的用户所具备的属性标签,进而,对不同类别标签的语料数据进行短语抽取处理,得到不同类别标签对应的目标短语,以基于目标短语生成待发放的资源的第一展示文案,这样,通过用户的类别标签对应的关键词,获取相应的语料数据,再通过分类模型将该语料数据映射到相应的类别标签,进而得到每个类别标签对应的短语,该短语可以作为后续资源发放的展示文案,使得展示文案更加适合该用户,而且,不需要人工参与展示文案的生成,从而,减少了人力资源的消耗,提高了展示文案的生成效率。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本说明书一种信息的处理方法实施例;

图2为本说明书一种奖品的展示文案的示意图;

图3为本说明书另一种信息的处理方法实施例;

图4为本说明书一种Text-CNN模型的处理原理示意图;

图5为本说明书一种信息的处理装置实施例;

图6为本说明书一种信息的处理设备实施例。

具体实施方式

本说明书实施例提供一种信息的处理方法、装置及设备。

为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。

实施例一

如图1所示,本说明书实施例提供一种信息的处理方法,该方法的执行主体可以为服务器,其中,该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群。该服务器可以是用于某项营销活动的后台服务器,或者,也可以是某金融类应用或购物类应用等的后台服务器。该方法可以用于在营销过程中,为用户发放资源(如奖品等)时,该资源的展示文案的生成等处理中。该方法具体可以包括以下步骤:

在步骤S102中,从预定的语料数据库中获取与预定的关键词相对应的语料数据。

其中,语料数据库可以是包含有多种不同的语料数据的数据库,其中的语料数据可以包括文本数据等。关键词可以是针对某用户而构建的能够表征该用户某方面属性的词语,例如数码达人、烹饪达人、无辣不欢者或买鞋控等。

在实施中,为了吸引更多的用户关注,商户会进行很多的营销活动,例如发放红包、赠送某商品或抽取其它奖品等,为了达到较好的营销效果,通常可以为奖品设置相应的展示文案,例如,如图2所示,用户抽取的奖品为某店铺或某产品的代金券,则将该代金券的相关信息发送给该用户的同时,还可以向该用户发送该奖品的展示文案,如“献给奋斗的你”等。

通常,在营销活动中,为奖品设置文案可以通过人工的方式实现,例如,针对某奖品,商户会通过人工撰写的方式撰写一个或多个展示文案,当某用户抽取到该奖品时,在将该奖品的相关信息发送给该用户的同时,还将上述展示文案发送给该用户,其中,如果该奖品对应有多个撰写的展示文案,则可以从中随机选择一个展示文案发送给该用户。然而,通过上述人工的方式为奖品设置展示文案的处理,一方面,如果展示文案只有一个,则所有抽取到奖品的用户看到的展示文案都是一样的,由于用户的受教育程度差异、性格差异等会导致用户对展示文案的接受程度也会不同,因此,可能会导致有些用户并不喜欢该展示文案,另一方面,所有奖品的展示文案都需要商户或运营人员通过人工完成,人力资源消耗较大,展示文案的生成效率较低,且最终得到的展示文案的效果可能并不好,因此,需要提供一种展示文案的生成效率更高、更适合用户的展示文案的处理方案。为此,本说明书实施例提供一种可以实现上述处理方案的方法,具体可以包括以下内容:

商户或运营人员可以根据实际情况,确定某项营销活动所使用的资源(如奖品等),该资源的数量和种类可以根据实际情况设定,该资源可以是由虚拟物品构成,如优惠券、红包、积分等,也可以是由实体物品构成,如杯子、数码产品(如手机或平板电脑等)等。可以将上述资源的相关信息组合成为资源集合(如奖品集合)。其中,该营销活动可以是针对某一项业务进行的营销活动,相应的资源可以是针对该项业务的奖品,还可以是针对多项不同业务进行的营销活动的奖品等。

可以通过多种渠道获取用于生成展示文案的语料数据,其中的多种渠道可以根据实际情况设定,例如某网络购物平台的数据、历史投放的信息和通过网络爬虫爬取外部网络(如自媒体、社交媒体、搜索网站、创意文案网站)中的语料数据等。上述获取的语料数据可以作为通用语料,并可以将上述语料数据构成的数据集合作为语料数据库。

可以根据实际情况,为某一个或多个用户构建用户标签(即类别标签),例如,某用户经常购买各种数码产品(如手机、平板电脑、相机等),当该用户购买数码产品的数量、种类和购买频率分别达到预定的阈值时,可以为该用户设定数码达人的类别标签等,另外,还可以为该用户设置其它类别标签,如无辣不欢者等。同时,还可以创建类别标签与关键词的集合,例如,买鞋控这个类别标签对应的关键词可以包括买鞋控、买鞋、篮球鞋、AJ等,再例如,烹饪达人这一类别标签对应的关键词可以包括烹饪达人和烹饪等,又例如,数码达人这一类别标签对应的关键词可以包括数码达人和数码等。

通过上述方式可以构建类别标签与关键词的集合,可以从构建的上述集合中获取关键词,可以将该关键词作为标签关键词,然后,可以从上述预定的语料数据库中获取与标签关键词相对应的语料数据,具体如,可以从语料数据库中查找包含某一个或多个标签关键词的语料数据,并可以将获取的语料数据作为与预定的关键词相对应的语料数据。

在步骤S104中,基于上述关键词对应的类别标签和预定的分类模型,对上述语料数据进行分类,确定该语料数据所属的类别标签,该分类模型为基于神经网络对文本进行分类的模型,该类别标签是待发放资源的用户所具备的属性标签。

其中,分类模型可以是用于将语料数据进行分类的模型,该分类模型可以是基于神经网络对文本进行分类的模型,其中的神经网络可以包括多层,如输入层、隐含层和输出层等,神经网络可以包括多种,如卷积神经网络、循环神经网络或深度神经网络等,如果该神经网络为卷积神经网络,则其中隐含层还可以包括卷积层、池化层、全连接层和Inception模块等,卷积层可以包括卷积核、卷积层参数和激励函数等。卷积层的功能可以是对输入数据进行特征提取,其内部可以包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量。卷积层参数包括卷积核大小、步长和填充,三者共同决定了卷积层输出特征的尺寸。类别标签可以是分类模型进行分类时所使用的类别的标签,属性标签可以是用户的年龄、性别、教育背景等属性信息对应的标签,还可以是用户的行为属性对应的标签,如该用户使用某购物网站的过程中的行为的属性信息对应的标签,或用户在使用某支付工具程中的行为的属性信息对应的标签等。

在实施中,由于需要对语料数据进行分类,因此需要使用分类模型,分类模型在使用之前需要进行训练,为此,可以通过多种方式获取样本数据,例如可以通过奖励的方式邀请用户参与对分类模型的训练,或者,可以通过向用户购买的方式获取该用户的相关数据作为样本数据等。然后,可以将上述样本数据分为两部分,其中一部分可以用于对该分类模型进行训练,另一部分可以用于对该分类模型进行验证。具体地,可以将上述样本数据输入到该分类模型的输入层,通过输入层,可以将该样本数据输送到隐含层,隐含层中可以包括待定参数等,通过样本数据可以构建包含上述待定参数的方程或方程组,可以通过该方程或方程组计算,得到待定参数的数值,可以使用待定参数的数值分别代替上述隐含层中的待定参数,从而可以得到训练后的分类模型。为了使得分类模型的准确率更高,可以通过另一部分的样本数据对训练后的分类模型进行验证,如果验证结果为通过,则该分类模型可以投入使用,如果验证结果为未通过,则可以将分类模型进行重新训练,最终得到可以正常使用的分类模型。

通过上述步骤S102的处理预先构建针对用户的类别标签与关键词的集合,由于可以通过关键词获取相应的语料数据,而类别标签与关键词又存在对应关系,因此,类别标签与语料数据也存在对应关系,为了将语料数据准确的映射到相应的类别标签,可以将每一个语料数据分别输入到上述分类模型中进行计算,得到该语料数据对应的类别标签。其中,如果通过分类模型为某语料数据确定的类别标签与上述存在的该语料数据与类别标签的对应关系中的类别标签是否相同,如果两者相同,则可以不需要改动上述对应关系,如果两者不同,则可以将通过分类模型得到的类别标签确定为该语料数据的分类结果。

需要说明的是,通过分类模型进行分类得到的类别标签与上述关键词对应的类别标签相同,例如,上述关键词对应的类别标签包括数码达人、烹饪达人、无辣不欢者和买鞋控,则通过分类模型进行分类得到的类别标签也包括数码达人、烹饪达人、无辣不欢者和买鞋控,即通过分类模型进行分类得到的类别标签是基于上述关键词对应的类别标签而得到。

在步骤S106中,对不同类别标签的语料数据进行短语抽取处理,得到不同类别标签对应的目标短语,以基于目标短语生成待发放的资源的第一展示文案。

其中,目标短语可以是任意短语,短语可以是由句法、语义和语用三个层面上能够搭配的语言单位组合起来的没有句调的语言单位,也可以称为词组,短语通常是大于词语而又不成句子的语法单位,短语加上句调可以成为句子。

在实施中,通过上述步骤S104的方式可以为得到的语料数据进行分类,以将语料数据映射到相应的类别标签,对于不同类别标签的语料数据,可以对其进行短语抽取处理,在实际应用中,对语料数据进行短语抽取处理的实现方式可以包括多种,例如可以预先设定正则表达式,通过正则表达式,可以从语料数据中抽取相匹配的短语,或者,可以根据实际情况,预先设定短语的抽取模板,当需要对某语料数据进行短语抽取时,可以针对该语料数据的内容,在上述抽取模板中选取符合上述语料数据的模板,然后,可以通过选取的模板对该语料数据进行短语抽取,从而得到不同类别标签对应的短语(即目标短语)。可以将得到的目标短语与相应的类别标签对应存储。

如图2所示,当需要向某用户发送某资源(如图2中的代金券等奖品)的相关信息时,可以获取该用户所拥有的类别标签,可以基于得到的类别标签,以及该资源的相关信息,从该用户所拥有的类别标签对应的目标短语中选取一个或多个目标短语作为上述资源(即代金券)的展示文案(即第一展示文案)。

本说明书实施例提供一种信息的处理方法,通过从预定的语料数据库中获取与预定的关键词相对应的语料数据,然后,基于该关键词对应的类别标签和预定的分类模型,对该语料数据进行分类,确定该语料数据所属的类别标签,该分类模型为基于神经网络对文本进行分类的模型,该类别标签是待发放资源的用户所具备的属性标签,进而,对不同类别标签的语料数据进行短语抽取处理,得到不同类别标签对应的目标短语,以基于目标短语生成待发放的资源的第一展示文案,这样,通过用户的类别标签对应的关键词,获取相应的语料数据,再通过分类模型将该语料数据映射到相应的类别标签,进而得到每个类别标签对应的短语,该短语可以作为后续资源发放的展示文案,使得展示文案更加适合该用户,而且,不需要人工参与展示文案的生成,从而,减少了人力资源的消耗,提高了展示文案的生成效率。

实施例二

如图3所示,本说明书实施例提供一种信息的处理方法,该方法的执行主体可以为服务器,其中,该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群。该服务器可以是用于某项营销活动的后台服务器,或者,也可以是某金融类应用或购物类应用等的后台服务器。该方法可以用于在营销过程中,为用户发放资源(如奖品等)时,该资源的展示文案的生成等处理中。该方法具体可以包括以下步骤:

在步骤S302中,从预定的语料数据库中获取与预定的关键词相对应的样本数据。

在实施中,可以通过多种渠道获取用于生成展示文案的语料数据,其中的多种渠道可以根据实际情况设定,例如某网络购物平台的数据、历史投放资源(如历史投放奖品等)等的信息和通过网络爬虫爬取外部网络(如自媒体、社交媒体、搜索网站、创意文案网站)中的语料数据等。上述获取的语料数据可以作为通用语料,并可以将上述语料数据构成的数据集合作为语料数据库。

可以根据实际情况,为某一个或多个用户构建类别标签,如数码达人、无辣不欢者或买鞋控等,一个用户可以对应有多个不同的类别标签,不同的用户可能会具有相同的类别标签等。此外,还可以创建类别标签与关键词的集合。可以从构建的上述集合中获取关键词,可以将该关键词作为标签关键词,然后,可以从上述预定的语料数据库中获取与标签关键词相对应的语料数据,具体如,可以从语料数据库中查找包含某一个或多个标签关键词的语料数据,并可以将获取的语料数据作为与预定的关键词相对应的样本数据。

得到样本数据后,可以先对样本数据进行预处理,具体可以参见下述步骤S304和步骤S306的处理。

在步骤S304中,调整每个类别标签对应的样本数据的数量,以使每个类别标签对应的样本数据的数量在预定的数量阈值范围内,该类别标签是待发放资源的用户所具备的属性标签。

其中,数量阈值范围可以根据实际情况设定,具体如数量阈值范围为(1000,1100)等。

在实施中,通过上述步骤S302的处理可以得到样本数据,由于类别标签与标签关键词存在对应关系,而样本数据是通过标签关键词获取的,因此,样本数据与类别标签存在对应关系,例如,类别标签1包括标签关键词A,而通过标签关键词A查找到样本数据p,则样本数据p可以与类别标签1相对应。为了使得每一类别标签的样本数据的数量相当或相同,可以调整每个类别标签对应的样本数据的数量,使得每个类别标签对应的样本数据的数量处于预定的数量阈值范围内。

需要说明的是,如果某个或多个类别标签对应的样本数据较少,且未在预定的数量阈值范围内,则可以将该一个或多个类别标签对应的样本数据集合在一起,并可以将集合后的样本数据对应的类别标签设置为其它类别,这样,可以使用其它类别对应的样本数据执行后续相关处理。

在步骤S306中,对上述样本数据进行Random Mask操作,以随机对该样本数据进行关键词的替换。

在步骤S308中,基于上述关键词对应的类别标签和获取的样本数据,对分类模型进行训练,得到训练后的分类模型。

其中,分类模型可以是基于卷积神经网络对文本进行分类的模型,具体地,Text-CNN模型等,在实际应用中,分类模型并不限于是基于卷积神经网络对文本进行分类的模型,还可以是基于其它神经网络的模型,例如循环神经网络或深度神经网络等。

在实施中,神经网络可以包括输入层、隐含层和输出层,本说明书实施中,分类模型可以是基于卷积神经网络的模型,即Text-CNN模型。如图4所示,Text-CNN模型中可以包括四层,分别为映射或嵌入层、卷积层、池化层和全连接层,具体地,可以将样本数据中的一个或多个词语从文本空间,通过一定的方法映射或嵌入到另一个数值向量空间中,得到上述样本数据对应的句子矩阵(参见图4中最左侧方格),其中,每行表示的是词向量。然后经过一维卷积层,得到相应的输出,例如,如图4所示,可以经过kernel_sizes=(2,3,4)的一维卷积层,每个kernel_size可以有两个输出通道(也即是存在两个输出)。池化层可以是1-Max Pooling层,这样,不同长度的句子经过池化层后都能变成定长的字符表示。最后,可以连接一层全连接的Softmax层,以输出每个类别标签的概率,然后基于该样本数据对应的类别标签,调整分类模型,从而达到训练分类模型的目的。

为了使得分类模型的准确率更高,可以通过部分样本数据对训练后的分类模型进行验证,如果验证结果为通过,则该分类模型可以投入使用,如果验证结果为未通过,则可以将分类模型进行重新训练,最终得到可以正常使用的分类模型。

通过上述处理过程得到训练后的分类模型后,可以使用该分类模型对语料数据进行分类,具体可以包括以下步骤S310~步骤S318。

在步骤S310中,从预定的语料数据库中获取与预定的关键词相对应的语料数据。

在步骤S312中,获取每条语料数据对应的用户的类别标签,将获取的类别标签作为分类模型进行分类的类别标签。

在步骤S314中,将上述语料数据分别输入到分类模型中,得到每条语料数据与类别标签的映射关系,以确定该语料数据所属的类别标签。

在步骤S316中,基于预定的正则表达式,对不同类别标签的语料数据进行短语抽取处理,得到抽取结果。

其中,预定的正则表达式可以是用于从文本数据中抽取短语的机制,正则表达式的设置方式可以根据实际情况设定,本说明书实施例对此不做限定。

在实施中,可以针对待抽取短语的语料数据的内容,设置相应的正则表达式,例如语料数据为“精致衬衫献给精致的你”,则可以使用正则表达式“献给(.+)的你”来抽取短语,这样,可以使用上述设定的正则表达式,对上述语料数据进行短语抽取处理,抽取的短语可以为“献给精致的你”等。通过上述处理过程,可以基于上述正则表达式,对不同类别标签的语料数据进行短语抽取处理,分别得到相应的抽取结果。

在步骤S318中,对上述抽取结果进行过滤处理,得到不同类别标签对应的目标短语,以基于目标短语生成待发放的资源的第一展示文案。

在实施中,为了减少抽取结果中的干扰数据和无效抽取结果,可以对上述抽取结果进行过滤处理,可以将抽取结果中与正则表达式不符的数据、抽取的短语中包含指定字符(如*或#等)或符号(如标点符号等)的数据等过滤掉,最终,可以得到不同类别标签对应的目标短语。可以将得到的目标短语与相应的类别标签对应存储。

上述步骤S318的处理可以多种多样,除了可以通过上述处理方式实现外,还可以通过其它处理方式实现,以下还提供一种可选的处理方式,具体可以包括以下内容:对抽取结果进行文本长度过滤处理、IDF(Inverse Document Frequency,逆向文件频率)分过滤处理、NER(Named Entity Recognition,命名实体识别)过滤处理中的一项或多项,得到不同类别标签对应的目标短语。

其中,IDF分过滤处理可以是基于词语的重要性进行过滤的处理,IDF是一个词语普遍重要性的度量,某一特定词语的IDF,可以由抽取结果的总数目除以包含该词语的抽取结果的数目,再将得到的商取对数而得到。

在实施中,考虑到短语的文本长度不宜过长,因此,可以上述抽取结果进行文本长度过滤处理,可以将抽取结果中文本长度超过预定长度阈值的抽取结果过滤掉,例如,预定长度阈值为20个字符长度,如果某抽取结果中包括25个字符,则可以将该抽取结果过滤掉,如果某抽取结果中包括10个字符,则该抽取结果可以保留。

此外,也可以对抽取结果进行IDF分过滤处理,具体地,可以计算每个抽取结果中包含的词语的重要性(即可以基于抽取结果的总数目除以包含该词语的抽取结果的数目,再将得到的商取对数而得到),可以保留重要性大于预定重要性阈值的抽取结果,并可以将重要性小于预定重要性阈值的抽取结果过滤掉。

另外,也可以对抽取结果进行NER过滤处理,具体地,可以预先设定需要识别的人名、地名、机构名、专有名词等,然后,可以对每一个抽取结果进行识别,可以将其中包括上述人名、地名、机构名、专有名词等的抽取结果保留,而将不符合上述过滤条件的抽取结果过滤掉。

需要说明的是,得到的目标短语需要具有一定的泛化性,一个类别标签下,通常覆盖多个不同偏好信息,例如,类别标签为吃货,则其对应的偏好信息可以包括火锅、零食、夜宵等,因此,生成的目标短语需要具有一定的抽象意义才能表达多个偏好的共同特征,同时又需要避免泄露用户的隐私信息。可以将包含细粒度产品词语的目标短语过滤掉。目标短语除了可以通过正则表达式等方式进行挖掘之外,还可以通过其它方式进行挖掘,例如,可以通过某种算法或模型进行短语抽取处理等,针对通过模型进行短语抽取处理的情况,可以通过历史积累的短语数据作为生成该模型的训练样本。此外,还可以根据上述的分类的语料数据与目标短语,得到大量类别标签-短语的集合。

另外,还可以基于资源相关语料数据生成相应的展示文案,具体可以包括以下步骤S320和步骤S322的处理。

在步骤S320中,从预定的语料数据库中获取与预定的资源关键词相对应的资源语料数据。

在实施中,商户或运营人员可以根据实际情况,确定某项营销活动所使用的资源(如奖品等),该资源的数量和种类可以根据实际情况设定。可以将上述资源的相关信息组合成为资源集合(如奖品集合等)。可以从资源集合中提取资源关键词(如奖品关键词等),然后,可以基于该资源关键词,从上述语料数据库中查找包含某一个或多个资源关键词的语料数据,并可以将获取的语料数据作为与预定的资源关键词相对应的资源语料数据。

在步骤S322中,基于预定的资源关键词和资源语料数据,生成待发放的资源的第二展示文案。

在实施中,可以预先设定生成展示文案的模板,可以基于预先设定的模板、上述资源关键词和资源语料数据生成待发放的资源的第二展示文案。

在实际应用中,上述步骤S322的处理方式可以多种多样,以下还提供一种可选的处理方式,具体可以包括以下内容:基于预定的资源关键词和资源语料数据,通过预定的Pointer-Generator模型,生成待发放的资源的第二展示文案。

其中,Pointer-Generator模型可以是基于摘要的机制构建的模型,Pointer-Generator模型的Pointer部分可以从当前资源语料数据中提取重要性较高的字符或词语,以及资源关键词构建摘要,其中的Generator部分可以基于所有资源语料数据中包含的字符或词语构建摘要。

在实施中,可以将得到的每个资源语料数据和资源关键词输入到Pointer-Generator模型中,以对Pointer-Generator模型进行训练,通过训练后的Pointer-Generator模型,可以提取与资源关键词相关的摘要,提取的摘要可以作为待发放的资源的第二展示文案。

通过上述方式可以得到第一展示文案和第二展示文案,可以基于第一展示文案和第二展示文案构建文案集合,当某用户抽取资源时,可以通过该文案集合为该用户提供相应的展示文案,具体可以参见下述步骤S324~步骤S334的处理。

在步骤S324中,接收目标用户的资源获取请求。

在实施中,商户或营销人员可以根据实际情况设置的营销活动,并确定该营销活动所使用的资源(如奖品等),该资源的数量和种类可以根据实际情况设定。如果目标用户需要参与该营销活动,则可以触发相应的处理机制,此时,目标用户可以向服务器发送资源获取请求,服务器可以接收该资源获取请求。

在步骤S326中,确定发放给目标用户的资源的信息。

在实施中,服务器接收到该资源获取请求后,可以根据资源的选取规则,为目标用户选取资源,选取完成后,可以获取选取的资源的相关信息。

在步骤S328中,从目标用户对应的类别标签中,获取与资源的信息匹配的第一类别标签。

在实施中,由于预先设置有每个用户的类别标签,因此,目标用户也具有相应的类别标签,目标用户对应的类别标签可以是一个,也可以是多个。可以从目标用户对应的类别标签中,获取与资源的信息匹配的第一类别标签,例如,目标用户的奖品为某数码产品的50元代金券,目标用户对应的类别标签包括买鞋控、数码达人、无辣不欢者等,则可以将数码达人作为与奖品的信息匹配的第一类别标签等。

在步骤S330中,根据第一类别标签,从目标短语中获取第一类别标签对应的目标短语。

在步骤S332中,基于获取的目标短语,生成发送给目标用户的资源的第一展示文案。

在步骤S334中,根据发放给目标用户的资源的信息,获取相应的第二展示文案,并将第一展示文案和/或第二展示文案发送给目标用户。

需要说明的是,在实际应用中,上述提到的资源可以是奖品,资源集合可以是奖品集合,资源关键词可以是奖品关键词,资源语料数据可以是奖品语料数据,此外,资源也可以是除了上述奖品之外的其它事物,可以根据实际情况设定,本说明书实施例对此不做限定。

本说明书实施例提供一种信息的处理方法,通过从预定的语料数据库中获取与预定的关键词相对应的语料数据,然后,基于该关键词对应的类别标签和预定的分类模型,对该语料数据进行分类,确定该语料数据所属的类别标签,该分类模型为基于神经网络对文本进行分类的模型,该类别标签是待发放资源的用户所具备的属性标签,进而,对不同类别标签的语料数据进行短语抽取处理,得到不同类别标签对应的目标短语,以基于目标短语生成待发放的资源的第一展示文案,这样,通过用户的类别标签对应的关键词,获取相应的语料数据,再通过分类模型将该语料数据映射到相应的类别标签,进而得到每个类别标签对应的短语,该短语可以作为后续资源发放的展示文案,使得展示文案更加适合该用户,而且,不需要人工参与展示文案的生成,从而,减少了人力资源的消耗,提高了展示文案的生成效率。

实施例三

以上为本说明书实施例提供的信息的处理方法,基于同样的思路,本说明书实施例还提供一种信息的处理装置,如图5所示。

该信息的处理装置包括:语料获取模块501、分类模块502和抽取模块503,其中:

语料获取模块501,用于从预定的语料数据库中获取与预定的关键词相对应的语料数据;

分类模块502,用于基于所述关键词对应的类别标签和预定的分类模型,对所述语料数据进行分类,确定所述语料数据所属的类别标签,所述分类模型为基于神经网络对文本进行分类的模型,所述类别标签是待发放资源的用户所具备的属性标签;

抽取模块503,用于对不同类别标签的所述语料数据进行短语抽取处理,得到不同类别标签对应的目标短语,以基于所述目标短语生成待发放的资源的第一展示文案。

本说明书实施例中,所述装置还包括:

请求接收模块,用于接收目标用户的资源获取请求;

资源确定模块,用于确定发放给所述目标用户的资源的信息;

标签获取模块,用于从所述目标用户对应的类别标签中,获取与资源的信息匹配的第一类别标签;

短语获取模块,用于根据所述第一类别标签,从所述目标短语中获取所述第一类别标签对应的目标短语;

展示文案生成模块,用于基于获取的目标短语,生成发送给所述目标用户的资源的第一展示文案。

本说明书实施例中,所述装置还包括:

资源语料获取模块,用于从预定的语料数据库中获取与预定的资源关键词相对应的资源语料数据;

文案生成模块,用于基于所述预定的资源关键词和资源语料数据,生成待发放的资源的第二展示文案。

本说明书实施例中,所述文案生成模块,用于将所述预定的资源关键词和所述资源语料数据输入到预定的Pointer-Generator模型中,得到待发放的资源的第二展示文案。

本说明书实施例中,所述装置还包括:

样本获取模块,用于从预定的语料数据库中获取与预定的关键词相对应的样本数据;

训练模块,用于基于所述关键词对应的类别标签和获取的样本数据,对所述分类模型进行训练,得到训练后的分类模型。

本说明书实施例中,所述装置还包括:

替换模块,用于对所述样本数据进行Random Mask操作,以随机对所述样本数据进行关键词的替换。

本说明书实施例中,所述装置还包括:

调整模块,用于调整每个类别标签对应的样本数据的数量,以使每个类别标签对应的样本数据的数量在预定的数量阈值范围内。

本说明书实施例中,所述抽取模块503,包括:

抽取单元,用于基于预定的正则表达式,对不同类别标签的所述语料数据进行短语抽取处理,得到抽取结果;

过滤单元,用于对所述抽取结果进行过滤处理,得到不同类别标签对应的目标短语。

本说明书实施例中,所述过滤单元,用于对所述抽取结果进行文本长度过滤处理、IDF分过滤处理、NER过滤处理中的一项或多项,得到不同类别标签对应的目标短语。

本说明书实施例提供一种信息的处理装置,通过从预定的语料数据库中获取与预定的关键词相对应的语料数据,然后,基于该关键词对应的类别标签和预定的分类模型,对该语料数据进行分类,确定该语料数据所属的类别标签,该分类模型为基于神经网络对文本进行分类的模型,该类别标签是待发放资源的用户所具备的属性标签,进而,对不同类别标签的语料数据进行短语抽取处理,得到不同类别标签对应的目标短语,以基于目标短语生成待发放的资源的第一展示文案,这样,通过用户的类别标签对应的关键词,获取相应的语料数据,再通过分类模型将该语料数据映射到相应的类别标签,进而得到每个类别标签对应的短语,该短语可以作为后续资源发放的展示文案,使得展示文案更加适合该用户,而且,不需要人工参与展示文案的生成,从而,减少了人力资源的消耗,提高了展示文案的生成效率。

实施例四

以上为本说明书实施例提供的信息的处理装置,基于同样的思路,本说明书实施例还提供一种信息的处理设备,如图6所示。

所述信息的处理设备可以为上述实施例提供的服务器。

信息的处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器601和存储器602,存储器602中可以存储有一个或一个以上存储应用程序或数据。其中,存储器602可以是短暂存储或持久存储。存储在存储器602的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对信息的处理设备中的一系列计算机可执行指令。更进一步地,处理器601可以设置为与存储器602通信,在信息的处理设备上执行存储器602中的一系列计算机可执行指令。信息的处理设备还可以包括一个或一个以上电源603,一个或一个以上有线或无线网络接口604,一个或一个以上输入输出接口605,一个或一个以上键盘606。

具体在本实施例中,信息的处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对信息的处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:

从预定的语料数据库中获取与预定的关键词相对应的语料数据;

基于所述关键词对应的类别标签和预定的分类模型,对所述语料数据进行分类,确定所述语料数据所属的类别标签,所述分类模型为基于神经网络对文本进行分类的模型,所述类别标签是待发放资源的用户所具备的属性标签;

对不同类别标签的所述语料数据进行短语抽取处理,得到不同类别标签对应的目标短语,以基于所述目标短语生成待发放的资源的第一展示文案。

本说明书实施例中,还包括:

接收目标用户的资源获取请求;

确定发放给所述目标用户的资源的信息;

从所述目标用户对应的类别标签中,获取与资源的信息匹配的第一类别标签;

根据所述第一类别标签,从所述目标短语中获取所述第一类别标签对应的目标短语;

基于获取的目标短语,生成发送给所述目标用户的资源的第一展示文案。

本说明书实施例中,还包括:

从预定的语料数据库中获取与预定的资源关键词相对应的资源语料数据;

基于所述预定的资源关键词和资源语料数据,生成待发放的资源的第二展示文案。

本说明书实施例中,所述基于所述预定的资源关键词和资源语料数据,生成待发放的资源的第二展示文案,包括:

将所述预定的资源关键词和所述资源语料数据输入到预定的Pointer-Generator模型中,得到待发放的资源的第二展示文案。

本说明书实施例中,还包括:

从预定的语料数据库中获取与预定的关键词相对应的样本数据;

基于所述关键词对应的类别标签和获取的样本数据,对所述分类模型进行训练,得到训练后的分类模型。

本说明书实施例中,还包括:

对所述样本数据进行Random Mask操作,以随机对所述样本数据进行关键词的替换。

本说明书实施例中,还包括:

调整每个类别标签对应的样本数据的数量,以使每个类别标签对应的样本数据的数量在预定的数量阈值范围内。

本说明书实施例中,所述对不同类别标签的所述语料数据进行短语抽取处理,得到不同类别标签对应的目标短语,包括:

基于预定的正则表达式,对不同类别标签的所述语料数据进行短语抽取处理,得到抽取结果;

对所述抽取结果进行过滤处理,得到不同类别标签对应的目标短语。

本说明书实施例中,所述对所述抽取结果进行过滤处理,得到不同类别标签对应的目标短语,包括:

对所述抽取结果进行文本长度过滤处理、IDF分过滤处理、NER过滤处理中的一项或多项,得到不同类别标签对应的目标短语。

本说明书实施例提供一种信息的处理设备,通过从预定的语料数据库中获取与预定的关键词相对应的语料数据,然后,基于该关键词对应的类别标签和预定的分类模型,对该语料数据进行分类,确定该语料数据所属的类别标签,该分类模型为基于神经网络对文本进行分类的模型,该类别标签是待发放资源的用户所具备的属性标签,进而,对不同类别标签的语料数据进行短语抽取处理,得到不同类别标签对应的目标短语,以基于目标短语生成待发放的资源的第一展示文案,这样,通过用户的类别标签对应的关键词,获取相应的语料数据,再通过分类模型将该语料数据映射到相应的类别标签,进而得到每个类别标签对应的短语,该短语可以作为后续资源发放的展示文案,使得展示文案更加适合该用户,而且,不需要人工参与展示文案的生成,从而,减少了人力资源的消耗,提高了展示文案的生成效率。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息的处理设备的处理器以产生一个机器,使得通过计算机或其他可编程信息的处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程信息的处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程信息的处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1