文档主题参数提取方法、产品推荐方法、设备及存储介质与流程

文档序号:15851140发布日期:2018-11-07 09:57阅读:116来源:国知局
文档主题参数提取方法、产品推荐方法、设备及存储介质与流程

本发明涉及人工智能领域,尤其涉及一种文档主题参数提取方法、产品推荐方法、设备及存储介质。

背景技术

互联网的快速发展催化了海量信息的产生,并逐步让大数据成为当前信息技术的必然趋势,则需要快速,且有效的从各类信息中提取有价值的数据。而目前的产品推荐根据内容相似,或者通过关键词从海量的产品中进行找到包含关键词的产品推荐给用户,但遗漏了与用户描述内容不相似但主题相关的产品,例如“健康”与“基因”关键词不相关,但主题相关,但通过现有技术当输入“健康”关键词,无法找到与“基因”相关的产品,从而影响了推荐的准确度。



技术实现要素:

鉴于以上内容,有必要提供一种文档主题参数提取方法、产品推荐方法、及电子设备,能避免了只找内容相似的产品,提高了准确度,从而实现了更准确的产品。

一种文档主题参数提取方法,所述方法包括:

对目标文档预处理,得到所述目标文档的词集;

将所述目标文档的输入训练好的相关主题模型ctm中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布,所述训练好的相关主题模型是基于文档样本集训练得到,所述训练好的相关主题模型包含多个主题。

根据本发明优选实施例,所述对目标文档预处理,得到所述目标文档的词集包括:

去除所述目标文档中的特殊词语,得到处理后的文档;

对所述处理后的文档进行分词,得到元组集。

根据本发明优选实施例,所述方法还包括:

在所述元组集中,移除在文本语料中出现次数居前预设位数的高频元组以及低于预设次数的低频元组,将处理后的元组集确定为所述目标文档的词集。

一种产品推荐方法,所述方法包括:

获取输入的产品描述,将获取的产品描述作为目标文档;

利用如任意实施例中所述文档主题参数提取方法对所述产品描述进行处理,得到产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布;

基于所述产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布,向用户推荐与所述产品描述的主题相关联的目标产品。

根据本发明优选实施例,所述基于所述产品描述在主题上的分布及产品的主题之间的关系,向用户推荐与所述产品描述的主题相关联的目标产品包括以下一种或者多种的组合:

基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中主题之间的关系,确定与所述至少一个目标主题中每个目标主题的关联度最高的主题,根据所述相关主题模型中产品与主题的概率分布,确定所述确定的主题占比排在前预设位数的产品作为所述目标产品的一部分;

基于所述产品描述在主题上的分布,获取所述产品描述中占比最高的主题,根据所述相关主题模型中主题之间的关系,确定与所述占比最高的主题的关联度最高的目标主题,根据所述相关主题模型中产品与主题的概率分布,确定所述目标主题占比排在前预设位数的产品作为所述目标产品的一部分;

基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中产品与主题的概率分布,确定包含所述至少一个目标主题的产品,将确定的产品作为所述目标产品的一部分。

根据本发明优选实施例,所述基于所述产品描述在主题上的分布及产品的主题之间的关系,向用户推荐与所述产品描述的主题相关联的目标产品还包括:

基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中主题之间的关系,确定与所述至少一个目标主题关联的第一主题,再确定只与第一主题关联的第二主题,根据所述相关主题模型中产品与主题的概率分布,确定所述第二主题占比排在前预设位数的产品作为所述目标产品的一部分。

根据本发明优选实施例,所述方法还包括:将与所述产品描述中主题关联的产品分类显示,并显示每类产品推荐的方式。

根据本发明优选实施例,所述方法还包括:获取用户根据推荐的目标产品选中的产品,确定所述选中的产品包含的主题,将所述选中的产品包含的主题占比排在前预设位数的产品作为所述目标产品的一部分。

一种电子设备,所述电子设备包括存储器及处理器,所述存储器用于存储至少一个指令,所述处理器用于执行所述至少一个指令以实现任意实施例中任一项所述文档主题参数提取方法,及/或任意实施例中任一项所述产品推荐方法。

一种计算机可读存储介质,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现任意实施例中任一项所述文档主题参数提取方法,及/或任意实施例中任一项所述产品推荐方法。

由以上技术方案可知,本发明提供一种文档主题参数提取方法,通过文档训练集,训练得到训练好的相关主题模型中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布。获取输入的产品描述,对所述产品描述进行处理,得到产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布。本发明通过上述实施例中基于所述相关主题模型,能搜索到内容不相似,但主题相关的产品,从而推荐主题密切相关的产品,从而避免了只找内容相似的产品,提高了准确度,从而实现了更准确的产品。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1是本发明文档主题参数提取方法的第一较佳实施例的流程图。

图2是本发明产品推荐方法的第一较佳实施例的流程图。

图3是本发明文档主题参数提取装置的第一较佳实施例的程序模块图。

图4是本发明产品推荐装置的第一较佳实施例的程序模块图。

图5是本发明至少一个实例中电子设备的较佳实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示,是本发明文档主题参数提取方法的第一较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。

s10、电子设备对目标文档预处理,得到所述目标文档的词集。

优选地,所述对目标文档预处理,得到所述目标文档的词集包括:

(1)去除所述目标文档中的特殊词语,得到处理后的文档。

进一步地,所述特殊词语包括网址链接、用户名标记、特殊字符、地名标记、标点符号等。

(2)对所述处理后的文档进行分词,得到元组集。

通过提取n元组(n-gram)的方式对所述处理后的文档进行分词生成n元组(n为正整数,例如n小于4)。例如,如对中文文本语料进行分词是基于汉语词法分析系统(instituteofcomputingtechnology,chineselexicalanalysissystem,ictclas)工具完成的。例如,对于空格分隔的文本语料(如英语),可直接通过空格分词;而对于汉语、日语等无空格作为分隔的文本语料。

进一步地,从文本语料中提取出一元组、二元组和三元组共三类元组集合。

优选的,在得到所述元组集后,所述方法还包括:在所述元组集中,移除在文本语料中出现次数居前预设位数(如居前50位)的高频元组(即高频词)以及低于预设次数(如3次)的低频元组(即低频词),将处理后的元组集确定为所述目标文档的词集。

在可选实施例中,考虑到词语的语言特性,去除一定比例的高频元组(通常是停用词等)和低频元组(通常是人名、非词等),只取剩下的中频元组作为情感词典的候选词。高频元组通常是停用词,它们同各类词语都有较高的同现机会,因此对情感特性的表达并不明显;低频元组通常是非词语或用户名等,这些元组没有语言意义,因此需要被移除。这样,将出现次数居中的中频元组作为一部分候选词。

在其他实施中,采用分词技术进行分词后,再结合n元组生成候选词集,可以去除不成词的n元组。所述分词技术是现有技术,本发明不做任何限制。这样可以提高词典精度。这种处理并不妨碍整体方法的有效性。

s11、所述电子设备将所述目标文档的输入训练好的相关主题模型ctm(correlatedtopicmodel)中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布,所述训练好的相关主题模型是基于文档样本集训练得到,所述训练好的相关主题模型包含多个主题。

在本发明中,所述关联主题模型ctm(correlatedtopicmodel)是使用logistic正态分布中的协方差矩阵来对主题比重进行建模从而发现文档主题的分布,及主题与主题之间的关联。

所述相关主题模型是一种可以从离散数据集中自动提取其中隐含语义主题的生成概率模型,其中主题指的是数据集中经常共同出现的内容。所述相关主题模型通过概率图模型模型来描述各个变量间的关系,通过抽样或者变分推断方法来计算与主题有关的概率分布。

所述相关主题模型可以自动发现隐含在文档集合中的主题,主题是词的概率分布。所述相关主题模型为无监督地分析文档和预测新文档提供了方便的工具。所述相关主题模型的基本思想是文档是若干主题的随机混合,其中每个主题是词的多项分布。在文档集中,主题是语料库中词汇表的概率分布,假设一个语料库有k个主题,k个主题在每篇文档中所占的比例均不同。因此,通过文档集训练所述相关主题模型,能得到多个主题间的分布及产品与主题间的分布关系。

优选地,训练所述相关主题模型的过程如下:

(a1)、获取文档样本集,将所述文档样本集配置成训练集和测试集。例如,70%的文档样本作为训练集,30%的文档样本作为测试集。

(a2)、配置所述训练集的最优主题数目。

所述最优主题数目用于表示相关主题模型中的主题数目。

(a3)、基于所述训练集及所述最优主题数目,利用相关主题模型对所述训练集中的文档进行建模,得到相关主题模型中的各个参数。

(a4)、将所述测试集中文档样本对应的词集输入到训练得到的相关主题模型中,得到所述测试集中的各个文档主题表示。

(a5)、评价训练得到的相关主题模型的准确率,若训练得到的相关主题模型小于预设准确率,例如,99%,则增加训练集中的样本及/或步进式调整所述最优主题数目,重复上述训练相关主题模型的步骤,直到训练得到的相关主题模型的准确率大于等于预设准确率,例如,99%。

本发明通过文档训练集,训练得到训练好的相关主题模型中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布。因此,本发明能提取文档的主题参数信息,从而便于后续利用文档主题参数之间的相关性,向用户推荐与主题相关的产品。

如图2所示,是本发明产品推荐方法的第一较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。

s20、电子设备获取输入的产品描述,将获取的产品描述作为目标文档。

在可选实施例中,所述产品描述包括但不限于以下一种或者多种的组合:字、词、一段话等等。所述产品描述的形式包括语音形式、文字形式中的一种或者多种的组合。

优选地,所述产品包括,但不限于:理财产品、网购的商品等等。

例如,目前银行的理财产品都是分类成多个模块,如收益高模块、随时随取模块,定期一个月模块等等不同类型的理财产品。用户在购买理财产品时,可以输入自己想买的理财产品描述,如语音输入一段话等等,从而找出与用户输入的产品描述的主题相似的理财产品。

s21、所述电子设备对所述产品描述进行处理,得到产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布。

在优选实施例中,所述电子设备利用所述文档主题参数提取方法对所述产品描述进行处理。

在可选实施例中,训练所述相关主题模型的训练样本包括各个产品的产品描述。将一个产品描述作为一个文档样本。利用第一较优实施例中的方法训练所述相关主题模型。

进一步地,所述产品描述在主题上的分布用于表示所述产品描述包含的主题的比重。例如,所述产品描述包括三个主题、主题a、主题b、主题c、其中比重关系为:主题a:主题b:主题c=16:2:1。

进一步地,所述产品的主题之间的关系用于表示相关主题模型中任意两个主题之间的关联程度。例如,有三主题,主题a与主题b的关联度为0.2,主题a与主题c的关联度为0.8,主题b与主题c的关联度为0.4等等。

s22、所述电子设备基于所述产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布,向用户推荐与所述产品描述的主题相关联的目标产品。

优选的,所述基于所述产品描述在主题上的分布及产品的主题之间的关系,向用户推荐与所述产品描述的主题相关联的目标产品包括以下一种或者多种的组合:

(1)基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中主题之间的关系,确定与所述至少一个目标主题中每个目标主题的关联度最高的主题,根据所述相关主题模型中产品与主题的概率分布,确定所述确定的主题占比排在前预设位数的产品作为所述目标产品的一部分。

例如,用户输入的理财产品的描述包括的主题包括收益高、时间短两个主题,与收益高主题关联度最高的主题为收益年化在5%以上,与时间短主题关联度最高的主题为随时随取。其中收益年化在5%以上在理财产品a、及理财产品c中占比最高,时间短主题在理财产品a及理财产品d上占比最高,则理财产品a、理财产品c及理财产品d是目标产品。这样产品描述中的每个主题都能推荐与主题关联度最高的产品给用户,实现产品的个性化推荐。

(2)基于所述产品描述在主题上的分布,获取所述产品描述中占比最高的主题,根据所述相关主题模型中主题之间的关系,确定与所述占比最高的主题的关联度最高的目标主题,根据所述相关主题模型中产品与主题的概率分布,确定所述目标主题占比排在前预设位数的产品作为所述目标产品的一部分。

例如,用户输入的理财产品的描述包括的主题包括收益高、时间短两个主题,其中收益高的占比最高,与收益高主题关联度最高的主题为收益年化在5%以上。其中收益年化在5%以上在理财产品a、及理财产品c中占比最高,则理财产品a、理财产品c是目标产品。

(3)基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中产品与主题的概率分布,确定包含所述至少一个目标主题的产品,将确定的产品作为所述目标产品的一部分。

(4)基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中主题之间的关系,确定与所述至少一个目标主题关联的第一主题,再确定只与第一主题关联的第二主题,根据所述相关主题模型中产品与主题的概率分布,确定所述第二主题占比排在前预设位数的产品作为所述目标产品的一部分。这样体现了主题间的间接关系,从而找出间接的强关联主题,给用户推荐个性化产品。

例如,所述产品描述包含主题a,在所述相关主题模型中,主题c与所述主题a相关,而主题d只与所述主题c关联,说明主题d与主题c强关联,因此,将主题d占比排在前预设位数的产品作为所述目标产品的一部分。

优选地,将与所述产品描述中主题关联的产品分类显示,并显示每类产品推荐的方式。例如,与主题a最关联的产品类型、与主题c最关联的产品类等等,这样用户能直观地知道与自己感兴趣的主题关联的产品,便于用户根据推荐的产品方案个性化选取。

优选地,所述方法还包括:获取用户根据推荐的目标产品选中的产品,确定所述选中的产品包含的主题,将所述选中的产品包含的主题占比排在前预设位数的产品作为所述目标产品的一部分。这样可以结合用户的感兴趣的产品进行推荐,更能贴合用户的需求,实现产品的个性化推荐。

通过上述实施例中基于所述相关主题模型,能搜索到内容不相似,但主题相关的产品,从而推荐主题密切相关的产品,从而避免了只找内容相似的产品,提高了准确度,从而实现了更准确的产品。

通过以上实施例,本发明提供一种文档主题参数提取方法,通过文档训练集,训练得到训练好的相关主题模型中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布。获取输入的产品描述,对所述产品描述进行处理,得到产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布。本发明通过上述实施例中基于所述相关主题模型,能搜索到内容不相似,但主题相关的产品,从而推荐主题密切相关的产品,从而避免了只找内容相似的产品,提高了准确度,从而实现了更准确的产品。

如图3所示,本发明文档主题参数提取装置的第一较佳实施例的程序模块图。所述文档主题参数提取装置3包括,但不限于以下一个或者多个模块:预处理模块30、计算模块31及训练模块32。本发明所称的单元是指一种能够被文档主题参数提取装置3的处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。关于各单元的功能将在后续的实施例中详述。

所述预处理模块30对目标文档预处理,得到所述目标文档的词集。

优选地,所述预处理模块30对目标文档预处理,得到所述目标文档的词集包括:

(1)去除所述目标文档中的特殊词语,得到处理后的文档。

进一步地,所述特殊词语包括网址链接、用户名标记、特殊字符、地名标记、标点符号等。

(2)对所述处理后的文档进行分词,得到元组集。

通过提取n元组(n-gram)的方式对所述处理后的文档进行分词生成n元组(n为正整数,例如n小于4)。例如,如对中文文本语料进行分词是基于汉语词法分析系统(instituteofcomputingtechnology,chineselexicalanalysissystem,ictclas)工具完成的。例如,对于空格分隔的文本语料(如英语),可直接通过空格分词;而对于汉语、日语等无空格作为分隔的文本语料。

进一步地,从文本语料中提取出一元组、二元组和三元组共三类元组集合。

优选的,在得到所述元组集后,所述预处理模块30还具体用于:在所述元组集中,移除在文本语料中出现次数居前预设位数(如居前50位)的高频元组(即高频词)以及低于预设次数(如3次)的低频元组(即低频词),将处理后的元组集确定为所述目标文档的词集。

在可选实施例中,考虑到词语的语言特性,去除一定比例的高频元组(通常是停用词等)和低频元组(通常是人名、非词等),只取剩下的中频元组作为情感词典的候选词。高频元组通常是停用词,它们同各类词语都有较高的同现机会,因此对情感特性的表达并不明显;低频元组通常是非词语或用户名等,这些元组没有语言意义,因此需要被移除。这样,将出现次数居中的中频元组作为一部分候选词。

在其他实施中,采用分词技术进行分词后,再结合n元组生成候选词集,可以去除不成词的n元组。所述分词技术是现有技术,本发明不做任何限制。这样可以提高词典精度。这种处理并不妨碍整体方法的有效性。

计算模块31将所述目标文档的输入训练好的相关主题模型ctm(correlatedtopicmodel)中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布,所述训练好的相关主题模型是基于文档样本集训练得到,所述训练好的相关主题模型包含多个主题。

在本发明中,所述关联主题模型ctm(correlatedtopicmodel)是使用logistic正态分布中的协方差矩阵来对主题比重进行建模从而发现文档主题的分布,及主题与主题之间的关联。

所述相关主题模型是一种可以从离散数据集中自动提取其中隐含语义主题的生成概率模型,其中主题指的是数据集中经常共同出现的内容。所述相关主题模型通过概率图模型模型来描述各个变量间的关系,通过抽样或者变分推断方法来计算与主题有关的概率分布。

所述相关主题模型可以自动发现隐含在文档集合中的主题,主题是词的概率分布。所述相关主题模型为无监督地分析文档和预测新文档提供了方便的工具。所述相关主题模型的基本思想是文档是若干主题的随机混合,其中每个主题是词的多项分布。在文档集中,主题是语料库中词汇表的概率分布,假设一个语料库有k个主题,k个主题在每篇文档中所占的比例均不同。因此,通过文档集训练所述相关主题模型,能得到多个主题间的分布及产品与主题间的分布关系。

优选地,训练模块32训练所述相关主题模型的过程如下:

(a1)、获取文档样本集,将所述文档样本集配置成训练集和测试集。例如,70%的文档样本作为训练集,30%的文档样本作为测试集。

(a2)、配置所述训练集的最优主题数目。

所述最优主题数目用于表示相关主题模型中的主题数目。

(a3)、基于所述训练集及所述最优主题数目,利用相关主题模型对所述训练集中的文档进行建模,得到相关主题模型中的各个参数。

(a4)、将所述测试集中文档样本对应的词集输入到训练得到的相关主题模型中,得到所述测试集中的各个文档主题表示。

(a5)、评价训练得到的相关主题模型的准确率,若训练得到的相关主题模型小于预设准确率,例如,99%,则增加训练集中的样本及/或步进式调整所述最优主题数目,重复上述训练相关主题模型的步骤,直到训练得到的相关主题模型的准确率大于等于预设准确率,例如,99%。

如图4所示,本发明产品推荐装置的第一较佳实施例的程序模块图。所述产品推荐装置4包括,但不限于以下一个或者多个模块:获取模块40、数据计算模块41、推荐模块42及显示模块43。本发明所称的单元是指一种能够被产品推荐装置4的处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。关于各单元的功能将在后续的实施例中详述。

所述获取模块40获取输入的产品描述,将获取的产品描述作为目标文档。

在可选实施例中,所述产品描述包括但不限于以下一种或者多种的组合:字、词、一段话等等。所述产品描述的形式包括语音形式、文字形式中的一种或者多种的组合。

优选地,所述产品包括,但不限于:理财产品、网购的商品等等。

例如,目前银行的理财产品都是分类成多个模块,如收益高模块、随时随取模块,定期一个月模块等等不同类型的理财产品。用户在购买理财产品时,可以输入自己想买的理财产品描述,如语音输入一段话等等,从而找出与用户输入的产品描述的主题相似的理财产品。

所述数据计算模块41对所述产品描述进行处理,得到产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布。

在优选实施例中,所述电子设备利用所述文档主题参数提取方法对所述产品描述进行处理。

在可选实施例中,训练所述相关主题模型的训练样本包括各个产品的产品描述。将一个产品描述作为一个文档样本。利用第一较优实施例中的方法训练所述相关主题模型。

进一步地,所述产品描述在主题上的分布用于表示所述产品描述包含的主题的比重。例如,所述产品描述包括三个主题、主题a、主题b、主题c、其中比重关系为:主题a:主题b:主题c=16:2:1。

进一步地,所述产品的主题之间的关系用于表示相关主题模型中任意两个主题之间的关联程度。例如,有三主题,主题a与主题b的关联度为0.2,主题a与主题c的关联度为0.8,主题b与主题c的关联度为0.4等等。

所述推荐模块42基于所述产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布,向用户推荐与所述产品描述的主题相关联的目标产品。

优选的,所述推荐模块42基于所述产品描述在主题上的分布及产品的主题之间的关系,向用户推荐与所述产品描述的主题相关联的目标产品包括以下一种或者多种的组合:

(1)基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中主题之间的关系,确定与所述至少一个目标主题中每个目标主题的关联度最高的主题,根据所述相关主题模型中产品与主题的概率分布,确定所述确定的主题占比排在前预设位数的产品作为所述目标产品的一部分。

例如,用户输入的理财产品的描述包括的主题包括收益高、时间短两个主题,与收益高主题关联度最高的主题为收益年化在5%以上,与时间短主题关联度最高的主题为随时随取。其中收益年化在5%以上在理财产品a、及理财产品c中占比最高,时间短主题在理财产品a及理财产品d上占比最高,则理财产品a、理财产品c及理财产品d是目标产品。这样产品描述中的每个主题都能推荐与主题关联度最高的产品给用户,实现产品的个性化推荐。

(2)基于所述产品描述在主题上的分布,获取所述产品描述中占比最高的主题,根据所述相关主题模型中主题之间的关系,确定与所述占比最高的主题的关联度最高的目标主题,根据所述相关主题模型中产品与主题的概率分布,确定所述目标主题占比排在前预设位数的产品作为所述目标产品的一部分。

例如,用户输入的理财产品的描述包括的主题包括收益高、时间短两个主题,其中收益高的占比最高,与收益高主题关联度最高的主题为收益年化在5%以上。其中收益年化在5%以上在理财产品a、及理财产品c中占比最高,则理财产品a、理财产品c是目标产品。

(3)基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中产品与主题的概率分布,确定包含所述至少一个目标主题的产品,将确定的产品作为所述目标产品的一部分。

(4)基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中主题之间的关系,确定与所述至少一个目标主题关联的第一主题,再确定只与第一主题关联的第二主题,根据所述相关主题模型中产品与主题的概率分布,确定所述第二主题占比排在前预设位数的产品作为所述目标产品的一部分。这样体现了主题间的间接关系,从而找出间接的强关联主题,给用户推荐个性化产品。

例如,所述产品描述包含主题a,在所述相关主题模型中,主题c与所述主题a相关,而主题d只与所述主题c关联,说明主题d与主题c强关联,因此,将主题d占比排在前预设位数的产品作为所述目标产品的一部分。

优选地,所述显示模块43将与所述产品描述中主题关联的产品分类显示,并显示每类产品推荐的方式。例如,与主题a最关联的产品类型、与主题c最关联的产品类等等,这样用户能直观地知道与自己感兴趣的主题关联的产品,便于用户根据推荐的产品方案个性化选取。

优选地,所述推荐模块42还用于:获取用户根据推荐的目标产品选中的产品,确定所述选中的产品包含的主题,将所述选中的产品包含的主题占比排在前预设位数的产品作为所述目标产品的一部分。这样可以结合用户的感兴趣的产品进行推荐,更能贴合用户的需求,实现产品的个性化推荐。

通过上述实施例中基于所述相关主题模型,能搜索到内容不相似,但主题相关的产品,从而推荐主题密切相关的产品,从而避免了只找内容相似的产品,提高了准确度,从而实现了更准确的产品。

通过以上实施例,本发明提供一种文档主题参数提取方法,通过文档训练集,训练得到训练好的相关主题模型中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布。获取输入的产品描述,对所述产品描述进行处理,得到产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布。本发明通过上述实施例中基于所述相关主题模型,能搜索到内容不相似,但主题相关的产品,从而推荐主题密切相关的产品,从而避免了只找内容相似的产品,提高了准确度,从而实现了更准确的产品。

上述以软件程序模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件程序模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明每个实施例所述方法的部分步骤。

如图5所示,所述电子设备5包括至少一个发送装置51、至少一个存储器52、至少一个处理器53、至少一个接收装置54以及至少一个通信总线。其中,所述通信总线用于实现这些组件之间的连接通信。

所述电子设备5是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程门阵列(field-programmablegatearray,fpga)、数字处理器(digitalsignalprocessor,dsp)、嵌入式设备等。所述电子设备5还可包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(cloudcomputing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。

所述电子设备5可以是,但不限于任何一种可与用户通过键盘、触摸板或声控设备等方式进行人机交互的电子产品,例如,平板电脑、智能手机、个人数字助理(personaldigitalassistant,pda)、智能式穿戴式设备、摄像设备、监控设备等终端。

所述电子设备5所处的网络包括,但不限于互联网、广域网、城域网、局域网、虚拟专用网络(virtualprivatenetwork,vpn)等。

其中,所述接收装置54和所述发送装置51可以是有线发送端口,也可以为无线设备,例如包括天线装置,用于与其他设备进行数据通信。

所述存储器52用于存储程序代码。所述存储器52可以是集成电路中没有实物形式的具有存储功能的电路,如ram(random-accessmemory,随机存取存储器)、fifo(firstinfirstout,)等。或者,所述存储器52也可以是具有实物形式的存储器,如内存条、tf卡(trans-flashcard)、智能媒体卡(smartmediacard)、安全数字卡(securedigitalcard)、快闪存储器卡(flashcard)等储存设备等等。

所述处理器53可以包括一个或者多个微处理器、数字处理器。所述处理器53可调用存储器52中存储的程序代码以执行相关的功能。例如,图3中所述的各个模块是存储在所述存储器52中的程序代码,并由所述处理器53所执行,以实现一种文档主题参数提取方法;及/或图4中所述的各个模块是存储在所述存储器52中的程序代码,并由所述处理器53所执行,以实现一种产品推荐方法。所述处理器53又称中央处理器(cpu,centralprocessingunit),是一块超大规模的集成电路,是运算核心(core)和控制核心(controlunit)。

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令当被包括一个或多个处理器的电子设备执行时,使电子设备执行如上文方法实施例所述的文档主题参数提取方法及/或产品推荐方法。

结合图1所示,所述电子设备5中的所述存储器52存储多个指令以实现一种文档主题参数提取方法,所述处理器53可执行所述多个指令从而实现:

对目标文档预处理,得到所述目标文档的词集;将所述目标文档的输入训练好的相关主题模型ctm中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布,所述训练好的相关主题模型是基于文档样本集训练得到,所述训练好的相关主题模型包含多个主题。

在本发明的可选实施例中,所述处理器53可执行所述多个指令还包括:

去除所述目标文档中的特殊词语,得到处理后的文档;

对所述处理后的文档进行分词,得到元组集。

在本发明的可选实施例中,所述处理器53可执行所述多个指令还包括:

在所述元组集中,移除在文本语料中出现次数居前预设位数的高频元组以及低于预设次数的低频元组,将处理后的元组集确定为所述目标文档的词集。

在任意实施例中所述文档主题参数提取方法对应的多个指令存储在所述存储器52,并通过所述处理器53来执行,在此不再详述。

结合图2所示,所述电子设备5中的所述存储器52存储多个指令以实现一种产品推荐方法,所述处理器53可执行所述多个指令从而实现:

获取输入的产品描述,将获取的产品描述作为目标文档;利用任意实施例中所述文档主题参数提取方法对所述产品描述进行处理,得到产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布;基于所述产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布,向用户推荐与所述产品描述的主题相关联的目标产品。

在本发明的可选实施例中,所述处理器53可执行所述多个指令还包括:

基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中主题之间的关系,确定与所述至少一个目标主题中每个目标主题的关联度最高的主题,根据所述相关主题模型中产品与主题的概率分布,确定所述确定的主题占比排在前预设位数的产品作为所述目标产品的一部分;

基于所述产品描述在主题上的分布,获取所述产品描述中占比最高的主题,根据所述相关主题模型中主题之间的关系,确定与所述占比最高的主题的关联度最高的目标主题,根据所述相关主题模型中产品与主题的概率分布,确定所述目标主题占比排在前预设位数的产品作为所述目标产品的一部分;

基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中产品与主题的概率分布,确定包含所述至少一个目标主题的产品,将确定的产品作为所述目标产品的一部分。

在本发明的可选实施例中,所述处理器53可执行所述多个指令还包括:

基于所述产品描述在主题上的分布,获取所述产品描述包含的至少一个目标主题,根据所述相关主题模型中主题之间的关系,确定与所述至少一个目标主题关联的第一主题,再确定只与第一主题关联的第二主题,根据所述相关主题模型中产品与主题的概率分布,确定所述第二主题占比排在前预设位数的产品作为所述目标产品的一部分。

在本发明的可选实施例中,所述处理器53可执行所述多个指令还包括:将与所述产品描述中主题关联的产品分类显示,并显示每类产品推荐的方式。

在本发明的可选实施例中,所述处理器53可执行所述多个指令还包括:获取用户根据推荐的目标产品选中的产品,确定所述选中的产品包含的主题,将所述选中的产品包含的主题占比排在前预设位数的产品作为所述目标产品的一部分。

以上说明的本发明的特征性的手段可以通过集成电路来实现,并控制实现上述任意实施例中所述文档主题参数提取方法的功能。即,本发明的集成电路安装于所述电子设备中,使所述电子设备发挥如下功能:对目标文档预处理,得到所述目标文档的词集;将所述目标文档的输入训练好的相关主题模型ctm中,得到所述目标文档在主题上的分布、多个主题中任意两个主题之间的关系分布及产品与主题间的分布,所述训练好的相关主题模型是基于文档样本集训练得到,所述训练好的相关主题模型包含多个主题。

在任意实施例中所述文档主题参数提取方法所能实现的功能都能通过本发明的集成电路安装于所述电子设备中,使所述电子设备发挥任意实施例中所述文档主题参数提取方法所能实现的功能,在此不再详述。

以上说明的本发明的特征性的手段可以通过集成电路来实现,并控制实现上述任意实施例中所述文档主题参数提取方法的功能。即,本发明的集成电路安装于所述电子设备中,使所述电子设备发挥如下功能:获取输入的产品描述,将获取的产品描述作为目标文档;利用任意实施例中所述文档主题参数提取方法对所述产品描述进行处理,得到产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布;基于所述产品描述在主题上的分布及所述相关主题模型中主题之间的关系及产品与主题间的概率分布,向用户推荐与所述产品描述的主题相关联的目标产品。

在任意实施例中所述产品推荐方法所能实现的功能都能通过本发明的集成电路安装于所述电子设备中,使所述电子设备发挥任意实施例中所述产品推荐方法所能实现的功能,在此不再详述。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明的各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1