一种生成模型的训练方法及推荐理由的生成方法和装置与流程

文档序号:27553505发布日期:2021-11-24 23:26阅读:78来源:国知局
一种生成模型的训练方法及推荐理由的生成方法和装置与流程

1.本发明涉及互联网技术领域,特别是涉及一种推荐理由的生成模型的训练方法和装置,以及一种推荐理由的生成方法和装置。


背景技术:

2.推荐理由对帮助用户快速了解商户特色,辅助用户进行到访决策,促进用户内容消费都起到了巨大作用。目前,推荐理由已赋能搜索、推荐等多个板块,为点击率、转化率的表现均起到了正向作用。
3.相关技术中,商户的推荐理由主要通过以下几种方案得到:
4.(1)人工撰写的方法:由专业运营人员撰写的专业生产内容(professionally generated content,简称pgc),该方案能确保推荐理由质量高、表达丰富。
5.(2)评论抽取的方法:从商户的优质用户评论中抽取。该方案能充分利用点评业务的海量用户生产内容(user generated content,简称ugc),得到更贴近用户视角、亲切可信的推荐理由。
6.(3)模板填充的方法:基于专业运营人员设计的模板进行用户、商户信息填充的方式得到,如“来自[城市名]的用户都会喜欢这家收录[x]年的老店”。该方案质量可控,且能展示用户个性化信息,给人惊喜感。
[0007]
(4)文本生成的方案:以商户信息、用户评论等作为输入,以现有的高质量推荐理由作为样本,通过训练序列到序列(sequence to sequence)模型生成得到推荐理由。
[0008]
但是,上述几种方案均存在技术缺陷:
[0009]
(1)人工撰写的方法:该方案需要消耗大量的时间与人力成本,且无法为不同偏好的用户进行个性化定制地撰写。
[0010]
(2)评论抽取的方法:该方案很依赖商户优质ugc的数量,对于三线以下城市或新店,很难有足量高质量ugc供抽取。
[0011]
(3)模板填充的方法:该方案语言形式相对单一。
[0012]
(4)文本生成的方案:之前文本生成的方案鲜有将用户特征考虑在内,生成目标也往往只考虑了语言模型的指标,而语言模型的好坏与线上指标的表现之间并不能完全等价,且该方案单独使用时,线上生成质量不可控,容易产生坏的案例(bad case)。


技术实现要素:

[0013]
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种推荐理由的生成模型的训练方法和装置,以及一种推荐理由的生成方法和装置。
[0014]
为了解决上述问题,根据本发明实施例的第一方面,公开了一种推荐理由的生成模型的训练方法,包括:获取训练样本数据,所述训练样本数据包含用户特征和poi的评论标注文本,所述用户特征包含标签点击特征;根据所述训练样本数据对生成器网络模型、第
一判别器网络模型和第二判别器网络模型进行训练,直至所述生成器网络模型、所述第一判别器网络模型和所述第二判别器网络模型满足预设的收敛条件;其中,所述第一判别器网络模型用于判断所述生成器网络模型输出的推荐理由是否属于所述评论标注文本;所述第二判别器用于判断所述生成器网络模型输出的推荐理由是否属于所述标签点击特征。
[0015]
可选地,所述根据所述训练样本数据对生成器网络模型、第一判别器网络模型和第二判别器网络模型进行训练,包括:将所述训练样本数据输入至所述生成器网络模型;基于所述生成器网络模型对所述训练样本数据进行编码处理和解码处理得到所述推荐理由的各推荐词的概率分布结果;根据所述概率分布结果生成所述推荐理由的各推荐词的词嵌入向量;将各所述推荐词的词嵌入向量和所述用户特征的词嵌入向量输入至所述第一判别器网络模型和所述第二判别器网络模型,以便根据所述推荐词的词嵌入向量和所述评论标注文本对所述第一判别器网络模型进行训练,以及根据所述推荐词的词嵌入向量和所述用户特征的词嵌入向量对所述第二判别器网络模型进行训练。
[0016]
可选地,所述基于所述生成器网络模型对所述训练样本数据进行编码处理和解码处理得到所述推荐理由的各推荐词的概率分布结果,包括:基于所述生成器网络模型分别对所述用户特征的词嵌入向量和所述评论标注文本的词嵌入向量进行编码处理得到所述训练样本数据的编码结果;基于所述生成器网络模型对所述编码结果进行解码处理得到所述推荐理由的各推荐词的概率分布结果。
[0017]
可选地,所述基于所述生成器网络模型分别对所述用户特征的词嵌入向量和所述评论标注文本的词嵌入向量进行编码处理得到所述训练样本数据的编码结果,包括:基于所述生成器网络模型对所述用户特征的词嵌入向量进行编码处理得到所述用户特征的编码结果;基于所述生成器网络模型对所述评论标注文本的词嵌入向量进行编码处理得到所述评论标注文本的编码结果;将所述用户特征的编码结果和所述评论标注文本的编码结果拼接为所述训练样本数据的编码结果。
[0018]
可选地,所述基于所述生成器网络模型对所述编码结果进行解码处理得到所述推荐理由的各推荐词的概率分布结果,包括:基于所述生成器网络模型按照拷贝模式对所述编码结果进行解码处理,得到所述推荐理由的各推荐词的注意力分布结果;根据各所述推荐词的注意力分布结果从所述评论标注文本中提取各评论词,以便将所述推荐理由的各推荐词的数量缩减至与所述评论标注文本的各所述评论词的数量相同;将各所述推荐词的注意力分布结果作为对应的各所述推荐词的概率分布结果。
[0019]
可选地,所述根据所述概率分布结果生成所述推荐理由的各推荐词的词嵌入向量,包括:根据各所述推荐词的概率分布结果对各所述评论词的词嵌入向量加权求和,得到各所述推荐词的词嵌入向量。
[0020]
可选地,所述根据所述训练样本数据对生成器网络模型、第一判别器网络模型和第二判别器网络模型进行训练,包括:根据所述训练样本数据对所述生成器网络模型和所述第二判别器网络模型进行训练,直至所述生成器网络模型和所述第二判别器网络模型满足所述收敛条件;保持所述生成器网络模型的参数和所述第二判别器网络模型的参数不变,调整所述第一判别器网络模型的参数,保持所述第一判别器网络模型的参数和所述第二判别器网络模型的参数不变,调整所述生成器网络模型的参数,直至所述生成器网络模型和所述第一判别器网络模型满足所述收敛条件。
[0021]
根据本发明实施例的第二方面,还公开了一种推荐理由的生成方法,包括:获取用户特征,所述用户特征包含标签点击特征;将所述用户特征输入根据如第一方面所述的方法训练得到的生成模型,输出针对所述用户特征的poi推荐理由。
[0022]
可选地,所述将所述用户特征输入根据如第一方面所述的方法训练得到的生成模型,输出针对所述用户特征的poi推荐理由,包括:根据所述生成模型的生成器网络模型生成所述poi推荐理由的各推荐词的概率分布结果;对所述概率分布结果进行解码处理得到所述poi推荐理由。
[0023]
可选地,所述对所述概率分布结果进行解码处理得到所述poi推荐理由,包括:按照集束搜索解码方式对所述概率分布结果进行解码处理得到局部最优解;将所述局部最优解作为所述poi推荐理由。
[0024]
可选地,所述方法还包括:将所述poi推荐理由输入至训练完毕的文本分类模型和困惑度语言模型,输出所述poi推荐理由的语言学判断结果。
[0025]
可选地,所述方法还包括:对所述poi推荐理由进行类目偏移判断和实体有无判断,以保证所述poi推荐结果与所述用户特征之间的相关性。
[0026]
根据本发明实施例的第三方面,还公开了一种推荐理由的生成模型的训练装置,包括:获取模块,用于获取训练样本数据,所述训练样本数据包含用户特征和poi的评论标注文本,所述用户特征包含标签点击特征;训练模块,用于根据所述训练样本数据对生成器网络模型、第一判别器网络模型和第二判别器网络模型进行训练,直至所述生成器网络模型、所述第一判别器网络模型和所述第二判别器网络模型满足预设的收敛条件;其中,所述第一判别器网络模型用于判断所述生成器网络模型输出的推荐理由是否属于所述评论标注文本;所述第二判别器用于判断所述生成器网络模型输出的推荐理由是否属于所述标签点击特征。
[0027]
可选地,所述训练模块,包括:样本输入模块,用于将所述训练样本数据输入至所述生成器网络模型;编解码模块,用于基于所述生成器网络模型对所述训练样本数据进行编码处理和解码处理得到所述推荐理由的各推荐词的概率分布结果;词嵌入模块,用于根据所述概率分布结果生成所述推荐理由的各推荐词的词嵌入向量;词嵌入输入模块,用于将各所述推荐词的词嵌入向量和所述用户特征的词嵌入向量输入至所述第一判别器网络模型和所述第二判别器网络模型,以便根据所述推荐词的词嵌入向量和所述评论标注文本对所述第一判别器网络模型进行训练,以及根据所述推荐词的词嵌入向量和所述用户特征的词嵌入向量对所述第二判别器网络模型进行训练。
[0028]
可选地,所述编解码模块,包括:编码模块,用于基于所述生成器网络模型分别对所述用户特征的词嵌入向量和所述评论标注文本的词嵌入向量进行编码处理得到所述训练样本数据的编码结果;解码模块,用于基于所述生成器网络模型对所述编码结果进行解码处理得到所述推荐理由的各推荐词的概率分布结果。
[0029]
可选地,所述编码模块,包括:用户编码模块,用于基于所述生成器网络模型对所述用户特征的词嵌入向量进行编码处理得到所述用户特征的编码结果;评论编码模块,用于基于所述生成器网络模型对所述评论标注文本的词嵌入向量进行编码处理得到所述评论标注文本的编码结果;结果拼接模块,用于将所述用户特征的编码结果和所述评论标注文本的编码结果拼接为所述训练样本数据的编码结果。
[0030]
可选地,所述解码模块,包括:注意力解码模块,用于基于所述生成器网络模型按照拷贝模式对所述编码结果进行解码处理,得到所述推荐理由的各推荐词的注意力分布结果;词提取模块,用于根据各所述推荐词的注意力分布结果从所述评论标注文本中提取各评论词,以便将所述推荐理由的各推荐词的数量缩减至与所述评论标注文本的各所述评论词的数量相同;概率分布确定模块,用于将各所述推荐词的注意力分布结果作为对应的各所述推荐词的概率分布结果。
[0031]
可选地,所述词嵌入模块,用于根据各所述推荐词的概率分布结果对各所述评论词的词嵌入向量加权求和,得到各所述推荐词的词嵌入向量。
[0032]
可选地,所述训练模块,用于根据所述训练样本数据对所述生成器网络模型和所述第二判别器网络模型进行训练,直至所述生成器网络模型和所述第二判别器网络模型满足所述收敛条件;保持所述生成器网络模型的参数和所述第二判别器网络模型的参数不变,调整所述第一判别器网络模型的参数,保持所述第一判别器网络模型的参数和所述第二判别器网络模型的参数不变,调整所述生成器网络模型的参数,直至所述生成器网络模型和所述第一判别器网络模型满足所述收敛条件。
[0033]
根据本发明实施例的第四方面,还公开了一种推荐理由的生成装置,包括:特征获取模块,用于获取用户特征,所述用户特征包含标签点击特征;输入输出模块,用于将所述用户特征输入根据如第一方面所述的方法训练得到的生成模型,输出针对所述用户特征的poi推荐理由。
[0034]
可选地,所述输入输出模块,包括:概率分布结果生成模块,用于根据所述生成模型的生成器网络模型生成所述poi推荐理由的各推荐词的概率分布结果;概率分布结果解码模块,用于对所述概率分布结果进行解码处理得到所述poi推荐理由。
[0035]
可选地,所述概率分布结果解码模块,用于按照集束搜索解码方式对所述概率分布结果进行解码处理得到局部最优解;将所述局部最优解作为所述poi推荐理由。
[0036]
可选地,所述装置还包括:语言学处理模块,用于将所述poi推荐理由输入至训练完毕的文本分类模型和困惑度语言模型,输出所述poi推荐理由的语言学判断结果。
[0037]
可选地,所述装置还包括:相关性处理模块,用于对所述poi推荐理由进行类目偏移判断和实体有无判断,以保证所述poi推荐结果与所述用户特征之间的相关性。
[0038]
与现有技术相比,本发明实施例提供的技术方案具有如下优点:
[0039]
本发明实施例提供的一种推荐理由的生成模型的训练方案,获取包含用户特征和兴趣点(point of interest,简称poi)的评论标注文本的训练样本数据,其中,用户特征包含标签点击特征。根据训练样本数据对生成器网络模型、第一判别器网络模型和第二判别器网络模型进行训练,直至生成器网络模型、第一判别器网络模型和第二判别器网络模型满足预设的收敛条件。上述第一判别器网络模型用于判断生成器网络模型输出的推荐理由是否属于评论标注文本;第二判别器用于判断生成器网络模型输出的推荐理由是否属于标签点击特征。本发明的实施例将用户特征作为训练样本数据,即生成模型的训练过程引入了标签点击特征。并通过第二判别器网络模型判断生成器网络模型输出的推荐理由是否属于标签点击特征,通过标签点击特征指导生成模型的训练,以便生成模型可以生成高点击率的推荐理由。
附图说明
[0040]
图1是本发明实施例的一种推荐理由的生成模型的训练方法的步骤流程图;
[0041]
图2是本发明实施例的一种对生成器网络模型、第一判别器网络模型和第二判别器网络模型进行训练的步骤流程图;
[0042]
图3是本发明实施例的一种生成模型的网络结构示意图;
[0043]
图4是本发明实施例的一种推荐理由的生成方法实施例的步骤流程图;
[0044]
图5是本发明实施例的一种推荐理由的生成模型的训练装置的结构框图;
[0045]
图6是本发明实施例的一种推荐理由的生成装置的结构框图。
具体实施方式
[0046]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0047]
参照图1,示出了本发明实施例的一种推荐理由的生成模型的训练方法的步骤流程图。该推荐理由的生成模型的训练方法具体可以包括如下步骤:
[0048]
步骤101,获取训练样本数据。
[0049]
在本发明的实施例中,训练样本数据可以包含用户特征和poi的评论标注文本。其中,用户特征可以包含标签点击特征。在实际应用中,评论标注文本可以为一句话,例如,“每次出差都住在这里,是出差人士的不二选择”。标签点击特征可以为历史高频点击特征,例如,“商务型”、“舒适”、“会议”、“高端”、“豪华”、“游泳池”、“停车场”。poi可以为商户,如饭店、宾馆、游乐场等等。
[0050]
步骤102,根据训练样本数据对生成器网络模型、第一判别器网络模型和第二判别器网络模型进行训练,直至生成器网络模型、第一判别器网络模型和第二判别器网络模型满足预设的收敛条件。
[0051]
在本发明的实施例中,生成模型可以包含生成器网络模型、第一判别器网络模型和第二判别器网络模型。其中,生成器网络模型用于生成推荐理由,在实际应用中,生成器网络模型可以采用sequence to sequence框架中点网络(point network)的网络结构。第一判别器网络模型用于判断生成器网络模型输出的推荐理由是否属于评论标注文本;第二判别器用于判断生成器网络模型输出的推荐理由是否属于标签点击特征。在实际应用中,第一判别器网络模型和第二判别器网络模型均可以采用文本分类模型(text cnn)网络结构。
[0052]
本发明实施例提供的一种推荐理由的生成模型的训练方案,获取包含用户特征和poi的评论标注文本的训练样本数据,其中,用户特征包含标签点击特征。根据训练样本数据对生成器网络模型、第一判别器网络模型和第二判别器网络模型进行训练,直至生成器网络模型、第一判别器网络模型和第二判别器网络模型满足预设的收敛条件。上述第一判别器网络模型用于判断生成器网络模型输出的推荐理由是否属于评论标注文本;第二判别器用于判断生成器网络模型输出的推荐理由是否属于标签点击特征。本发明的实施例将用户特征作为训练样本数据,即生成模型的训练过程引入了标签点击特征。并通过第二判别器网络模型判断生成器网络模型输出的推荐理由是否属于标签点击特征,通过标签点击特征指导生成模型的训练,以便生成模型可以生成高点击率的推荐理由。
[0053]
在本发明的一种优选实施例中,参照图2,示出了本发明实施例的一种对生成器网络模型、第一判别器网络模型和第二判别器网络模型进行训练的步骤流程图。根据训练样本数据对生成器网络模型、第一判别器网络模型和第二判别器网络模型进行训练的一种实施方式包括如下步骤。
[0054]
步骤201,将训练样本数据输入至生成器网络模型。
[0055]
在本发明的实施例中,训练样本数据可以包含poi的多条评论标注文本和用户特征。用户特征包含身份特征和标签点击特征。其中,身份特征可以包含性别、职业、消费水平等。用户特征可以表示符合身份特征的用户高频点击poi的标签。评论标注文本表示针对符合用户特征的用户,为其生成的评论文本。
[0056]
步骤202,基于生成器网络模型对训练样本数据进行编码处理和解码处理得到推荐理由的各推荐词的概率分布结果。
[0057]
在本发明的实施例中,可以基于生成器网络模型分别对用户特征的词嵌入向量和评论标注文本的词嵌入向量进行编码处理得到训练样本数据的编码结果。然后基于生成器网络模型对编码结果进行解码处理得到推荐理由的各推荐词的概率分布结果。其中,在生成用户特征的词嵌入向量和评论标注文本的词嵌入向量时,可以共享一套词嵌入向量参数。
[0058]
基于生成器网络模型分别对用户特征的词嵌入向量和评论标注文本的词嵌入向量进行编码处理得到训练样本数据的编码结果的一种实施方式为,并基于生成器网络模型对用户特征的词嵌入向量进行编码处理得到用户特征的编码结果,基于生成器网络模型对评论标注文本的词嵌入向量进行编码处理得到评论标注文本的编码结果,然后将用户特征的编码结果和评论标注文本的编码结果拼接为训练样本数据的编码结果。
[0059]
在实际应用中,上述编码处理可以采用双向长短时记忆网络(long short term memory network,简称lstm)的编码结构,也可采用卷积结构、transformer(一种自然语言处理模型)结构进行编码处理。
[0060]
基于生成器网络模型对编码结果进行解码处理得到推荐理由的各推荐词的概率分布结果的一种实施方式为,基于生成器网络模型按照拷贝模式对编码结果进行解码处理,得到推荐理由的各推荐词的注意力分布结果;根据各推荐词的注意力分布结果从评论标注文本中提取各评论词,以便将推荐理由的各推荐词的数量缩减至与评论标注文本的各评论词的数量相同;将各推荐词的注意力分布结果作为对应的各推荐词的概率分布结果。本发明实施例通过对point network网络结构的参数复用,将point network网络结构的编码过程的注意力分布结果,作为解码过程的推荐词的概率分布结果,降低了生成器网络模型的复杂度。
[0061]
步骤203,根据概率分布结果生成推荐理由的各推荐词的词嵌入向量。
[0062]
在本发明的实施例中,根据各推荐词的概率分布结果对各评论词的词嵌入向量加权求和,得到各推荐词的词嵌入向量。
[0063]
步骤204,将各推荐词的词嵌入向量和用户特征的词嵌入向量输入至第一判别器网络模型和第二判别器网络模型,以便根据推荐词的词嵌入向量和评论标注文本对第一判别器网络模型进行训练,以及根据推荐词的词嵌入向量和用户特征的词嵌入向量对第二判别器网络模型进行训练。
[0064]
在本发明的实施例中,可以将各推荐词的词嵌入向量和用户特征的词嵌入向量拼接后输入至第一判别器网络模型和第二判别器网络模型。
[0065]
在本发明的一种优选实施例中,根据训练样本数据对生成器网络模型、第一判别器网络模型和第二判别器网络模型进行训练的一种实施方式为,根据训练样本数据对生成器网络模型和第二判别器网络模型进行训练,直至生成器网络模型和第二判别器网络模型满足收敛条件;保持生成器网络模型的参数和第二判别器网络模型的参数不变,调整第一判别器网络模型的参数,保持第一判别器网络模型的参数和第二判别器网络模型的参数不变,调整生成器网络模型的参数,直至生成器网络模型和第一判别器网络模型满足收敛条件。
[0066]
在本发明的一种优选实施例中,参照图3,示出了本发明实施例的一种生成模型的网络结构示意图。在图3中,point network网络结构作为生成模型的生成器网络模型g,text cnn网络结构作为生成模型的判别器网络模型d。生成器网络模型g的输入项包含poi的多条优质评论(评论标注文本)和用户特征。用户特征采用性别、职业、消费水平等身份特征(profile调整)以及用户历史点击poi的高频展示标签等实时特征,并共享一套词嵌入(embedding)向量参数,生成对应词嵌入向量。然后对词嵌入向量分别编码后拼接。其中,采用双向lstm的编码结构,也可采用卷积结构、transformer结构进行编码。解码过程采用基于注意力的解码器(attention based decoder)的拷贝模式(copy mode),根据注意力(attention)分布结果从评论和用户特征中取词。在解码的每一步,直接把生成器网络模型g计算的attention分布结果作为point network输出的概率分布结果,通过参数复用,大大降低了生成器网络模型g的复杂度。根据生成器网络模型g对评论中每个词输出的概率分布结果,对输入项中各词的词嵌入向量做加权求和,得到推荐理由中各推荐词的词嵌入向量。基于注意力的解码器的损失函数未loss
s
。并将推荐词的词嵌入向量拼接用户特征的词嵌入向量,然后输入至判别器网络模型d。判别器网络模型d进行两项分类任务,任务一(task1)是判断生成结果是否为真实样本(real/fake),对应网络结构记为判别器网络模型d1,判别器网络模型d1的损失函数为loss
c1
。任务二(task2)是判断生成结果是否会被当前用户点击(ctr predict),对应网络结构记为判别器网络模型d2,判别器网络模型d2的损失函数为loss
c2
。判别器网络模型d1和判别器网络模型d2均可采用通用的文本分类网络结构。生成模型的损失函数为loss=loss
s
+loss
c1
+loss
c2

[0067]
在生成模型的训练阶段,首先根据输入项预训练生成器网络模型g与判别器网络模型d2至模型收敛,随后在训练的每一轮,先固定生成器网络模型g与判别器网络模型d2的参数,优化判别器网络模型d1,再固定判别器网络模型d1与判别器网络模型d2的参数,优化生成器网络模型g,直至生成器网络模型g与判别器网络模型d1收敛。
[0068]
参照图4,示出了本发明实施例的一种推荐理由的生成方法实施例的步骤流程图。该推荐理由的生成方法具体可以包括如下步骤:
[0069]
步骤401,获取用户特征。
[0070]
在本发明的实施例中,用户特征可以包含标签点击特征和身份特征。
[0071]
步骤402,将用户特征输入根据上述推荐理由的生成模型的训练的方法训练得到的生成模型,输出针对用户特征的poi推荐理由。
[0072]
在本发明的实施例中,生成模型可以按照如图1所示的步骤生成。输出的poi推荐
理由可以为poi优质评论。
[0073]
在本发明的一种优选实施例中,将用户特征输入根据上述推荐理由的生成模型的训练的方法训练得到的生成模型,输出针对用户特征的poi推荐理由的一种实施方式为,根据生成模型的生成器网络模型生成poi推荐理由的各推荐词评论文本的概率分布结果;对概率分布结果进行解码处理得到poi推荐理由。在实际应用中,对概率分布结果进行解码处理时,可以按照集束搜索解码方式对概率分布结果进行解码处理得到局部最优解,进而将局部最优解作为poi推荐结果。解码得到局部最优解相比解码得到全局最优解而言,缩减了poi推荐的推荐词维度,具有耗时短的优点,符合线上实时生成poi推荐理由的要求。
[0074]
在本发明的一种优选实施例中,在生成poi推荐理由之后,可以对poi推荐理由进行质量控制,主要可以解决以下两方面问题:
[0075]
1)语言学问题:将poi推荐理由输入至训练完毕的文本分类模型和困惑度语言模型,输出poi推荐理由的语言学判断结果。该判断结果用于表示poi推荐结果是否存在语言学上不通顺、不完整的问题。
[0076]
其中,文本分类模型可以基于通过丢词、填词、调换顺序的方式构造的负样本训练得到。
[0077]
2)相关性问题:对poi推荐理由进行类目偏移判断和实体有无判断,以保证poi推荐结果与用户特征之间的相关性。
[0078]
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
[0079]
参照图5,示出了本发明实施例的一种推荐理由的生成模型的训练装置的结构框图,该推荐理由的生成模型的训练装置具体可以包括如下模块:
[0080]
获取模块51,用于获取训练样本数据,所述训练样本数据包含用户特征和poi的评论标注文本,所述用户特征包含标签点击特征;
[0081]
训练模块52,用于根据所述训练样本数据对生成器网络模型、第一判别器网络模型和第二判别器网络模型进行训练,直至所述生成器网络模型、所述第一判别器网络模型和所述第二判别器网络模型满足预设的收敛条件;
[0082]
其中,所述第一判别器网络模型用于判断所述生成器网络模型输出的推荐理由是否属于所述评论标注文本;所述第二判别器用于判断所述生成器网络模型输出的推荐理由是否属于所述标签点击特征。
[0083]
在本发明的一种优选实施例中,所述训练模块52,包括:
[0084]
样本输入模块,用于将所述训练样本数据输入至所述生成器网络模型;
[0085]
编解码模块,用于基于所述生成器网络模型对所述训练样本数据进行编码处理和解码处理得到所述推荐理由的各推荐词的概率分布结果;
[0086]
词嵌入模块,用于根据所述概率分布结果生成所述推荐理由的各推荐词的词嵌入向量;
[0087]
词嵌入输入模块,用于将各所述推荐词的词嵌入向量和所述用户特征的词嵌入向
量输入至所述第一判别器网络模型和所述第二判别器网络模型,以便根据所述推荐词的词嵌入向量和所述评论标注文本对所述第一判别器网络模型进行训练,以及根据所述推荐词的词嵌入向量和所述用户特征的词嵌入向量对所述第二判别器网络模型进行训练。
[0088]
在本发明的一种优选实施例中,所述编解码模块,包括:
[0089]
编码模块,用于基于所述生成器网络模型分别对所述用户特征的词嵌入向量和所述评论标注文本的词嵌入向量进行编码处理得到所述训练样本数据的编码结果;
[0090]
解码模块,用于基于所述生成器网络模型对所述编码结果进行解码处理得到所述推荐理由的各推荐词的概率分布结果。
[0091]
在本发明的一种优选实施例中,所述编码模块,包括:
[0092]
用户编码模块,用于基于所述生成器网络模型对所述用户特征的词嵌入向量进行编码处理得到所述用户特征的编码结果;
[0093]
评论编码模块,用于基于所述生成器网络模型对所述评论标注文本的词嵌入向量进行编码处理得到所述评论标注文本的编码结果;
[0094]
结果拼接模块,用于将所述用户特征的编码结果和所述评论标注文本的编码结果拼接为所述训练样本数据的编码结果。
[0095]
在本发明的一种优选实施例中,所述解码模块,包括:
[0096]
注意力解码模块,用于基于所述生成器网络模型按照拷贝模式对所述编码结果进行解码处理,得到所述推荐理由的各推荐词的注意力分布结果;
[0097]
词提取模块,用于根据各所述推荐词的注意力分布结果从所述评论标注文本中提取各评论词,以便将所述推荐理由的各推荐词的数量缩减至与所述评论标注文本的各所述评论词的数量相同;
[0098]
概率分布确定模块,用于将各所述推荐词的注意力分布结果作为对应的各所述推荐词的概率分布结果。
[0099]
在本发明的一种优选实施例中,所述词嵌入模块,用于根据各所述推荐词的概率分布结果对各所述评论词的词嵌入向量加权求和,得到各所述推荐词的词嵌入向量。
[0100]
在本发明的一种优选实施例中,所述训练模块,用于根据所述训练样本数据对所述生成器网络模型和所述第二判别器网络模型进行训练,直至所述生成器网络模型和所述第二判别器网络模型满足所述收敛条件;保持所述生成器网络模型的参数和所述第二判别器网络模型的参数不变,调整所述第一判别器网络模型的参数,保持所述第一判别器网络模型的参数和所述第二判别器网络模型的参数不变,调整所述生成器网络模型的参数,直至所述生成器网络模型和所述第一判别器网络模型满足所述收敛条件。
[0101]
参照图6,示出了本发明实施例的一种推荐理由的生成装置的结构框图,该推荐理由的生成装置具体可以包括如下模块:
[0102]
特征获取模块61,用于获取用户特征,所述用户特征包含标签点击特征;
[0103]
输入输出模块62,用于将所述用户特征输入根据如上所述的推荐理由的生成模型的训练方法训练得到的生成模型,输出针对所述用户特征的poi推荐理由。
[0104]
在本发明的一种优选实施例中,所述输入输出模块62,包括:
[0105]
概率分布结果生成模块,用于根据所述生成模型的生成器网络模型生成所述poi推荐理由的各推荐词的概率分布结果;
[0106]
概率分布结果解码模块,用于对所述概率分布结果进行解码处理得到所述poi推荐理由。
[0107]
在本发明的一种优选实施例中,所述概率分布结果解码模块,用于按照集束搜索解码方式对所述概率分布结果进行解码处理得到局部最优解;将所述局部最优解作为所述poi推荐理由。
[0108]
在本发明的一种优选实施例中,所述装置还包括:
[0109]
语言学处理模块,用于将所述poi推荐理由输入至训练完毕的文本分类模型和困惑度语言模型,输出所述poi推荐理由的语言学判断结果。
[0110]
在本发明的一种优选实施例中,所述装置还包括:
[0111]
相关性处理模块,用于对所述poi推荐理由进行类目偏移判断和实体有无判断,以保证所述poi推荐结果与所述用户特征之间的相关性。
[0112]
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0113]
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、系统、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
[0114]
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0115]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0116]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0117]
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0118]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将
一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0119]
以上对本发明所提供的一种推荐理由的生成模型的训练方法和装置,以及一种推荐理由的生成方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1