基于即时语音内容检测的推荐方法及系统的制作方法_4

文档序号：9489505阅读：来源：国知局

5)中，sim(Ul，ID为用户的用户兴趣模型Ul与预设的推荐物品信息库中某一个物品的模型1之间的相似度，WΜ为用户兴趣模型ui中第j个主题词t,的权重，wn为预设的推荐物品信息库中某一个物品的模型Ii中第j个主题词t,的权重，物品的模型I3口式⑶所示；
[0135] {wn，w21，…，wnl}，wkle[0, 1] (6)
[0136] 式（6)中，1为预设的推荐物品信息库中第1个物品的带权向量空间模型，wkl是预设的推荐物品信息库中第1个物品h中第k个主题词tk的权重，且第k个主题词t,的权重wkl设置为归一化的词频-逆文档频率TF-IDF。
[0137] 以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。
【主权项】
1. 一种基于即时语音内容检测的推荐方法，其特征在于步骤包括： 1) 采集用户的语音信息； 2) 将语音信息转换成文本内容进行索引得到索引库； 3) 根据索引库检索预设的推荐物品词典得到推荐物品词典中的即时语音关键词； 4) 根据即时语音关键词及用户历史行为数据计算用户兴趣模型； 5) 计算所述用户兴趣模型与预设的推荐物品信息库中各物品模型之间的相似度； 6) 根据相似度进行排序生成推荐物品信息库中的候选物品集，从候选物品集中选取指定数量物品，并把选取的指定数量物品对应的推荐列表推送给目标用户。2. 根据权利要求1所述的基于即时语音内容检测的推荐方法，其特征在于，所述步骤 2) 的详细步骤包括： 2. 1)将语音信息转换成文本内容并生成词图； 2. 2)将词图中的词串进行全局对齐，全局对齐后的词图中的圆点是弧的节点、两个节点中间的链接弧成为W拼音为单位的候选集，通过前向-后向算法来计算混淆集中每个候选链接弧的后验概率，根据每条候选链接弧的后验概率得分进行剪枝，保留后验概率超过预设阔值的候选链接弧，得到采用混淆网络方法优化后的词图； 2. 3)对采用混淆网络方法优化后的词图进行索引标注得到索引库，所述索引标注的信息包括各链接弧的词拼音、起始时间、结束时间、声学模型评分、语言模型评分、前向得分、后向得分、局部路径的后验概率中的至少一种。3. 根据权利要求2所述的基于即时语音内容检测的推荐方法，其特征在于，所述步骤 3) 的详细步骤包括： 3. 1)采用预设的词项捜索算法，根据所述索引库从预设的推荐物品词典中进行词项捜索，得到捜索结果列表； 3. 2)针对捜索结果列表进行重排序，得到推荐物品词典中的即时语音关键词。4. 根据权利要求3所述的基于即时语音内容检测的推荐方法，其特征在于，所述步骤 3. 2)的详细步骤包括： 3. 2. 1)预先获取多组步骤3. 1)得到的捜索结果列表样本，将捜索结果列表样本中得分排在前面的N个捜索结果视为相关的、得分排在倒数的最后N个捜索结果视为不相关的，把相关的N个捜索结果作为正面样本数据、把不相关的N个捜索结果作为负面样本数据来训练机器学习分类模型，完成机器学习分类模型的训练； 3. 2. 2)将所述词项的捜索结果列表输入机器学习分类模型，通过机器学习分类模型对捜索结果列表进行重排序，得到重排序后的推荐物品词典中的即时语音关键词。5. 根据权利要求4所述的基于即时语音内容检测的推荐方法，其特征在于，所述步骤 4) 的详细步骤包括： 4.1)根据计算预设的语音检测窗W内的用户即时兴趣模型如式（1)所示； ur；= {w ···,￥"；}, [0,1] (1) 式（1)中，吗为用户即时兴趣模型，Wki是语音检测窗W内语音关键词中第k个词典主题词tk的即时兴趣权重，且即时兴趣权重Wki设置为归一化的词频-逆文档频率TF-IDF; 4. 2)根据用户历史行为数据建立用户长期兴趣模型如式（2)所示； uli= {w …讯21，…，Wm}，WkiE [0,：L] 似式（2)中，uli为用户长期兴趣模型，Wki为语音检测窗W内语音关键词中第k个词典主题词tk的长期兴趣权重，长期兴趣权重Wki的计算函数表达式如式（3)所示；這》式（3)中，化tik为用户历史行为数据中用户Ui对设及第k个词典主题词tk的点击次数，化tsunii为用户历史行为数据中用户U1的所有点击数。 4. 3)将所述用户即时兴趣模型、用户长期兴趣模型两者采用融合算法进行计算，得到用户兴趣模型。6. 根据权利要求5所述的基于即时语音内容检测的推荐方法，其特征在于，所述步骤 4. 3)中采用的融合算法如式（4)所示；(4) 式（4)中，Ui为用户兴趣模型，uri为用户即时兴趣模型，wr为用户即时兴趣模型的权重，uli为用户长期兴趣模型，wl为用户长期兴趣模型的权重。7. 根据权利要求6所述的基于即时语音内容检测的推荐方法，其特征在于，所述步骤 5)中计算所述用户兴趣模型与预设的推荐物品信息库中各物品模型之间的相似度的函数表达式如式（5)所示；(5) 式（5)中，sim(Ui，Ii)为用户的用户兴趣模型Ui与预设的推荐物品信息库中某一个物品的模型I之间的相似度，W，为用户兴趣模型U冲第j个主题词t,的权重，W,巧预设的推荐物品信息库中某一个物品的模型Ii中第j个主题词t，的权重，物品的模型11如式化）所示； Il=iw11，"21，…，Wnl}，WklE[0,U (6) 式化）中，II为预设的推荐物品信息库中第1个物品的带权向量空间模型，Wki是预设的推荐物品信息库中第1个物品Ii中第k个主题词tk的权重，且第k个主题词tk的权重 Wki设置为归一化的词频-逆文档频率TF-IDF。8. -种基于即时语音内容检测的推荐系统，其特征在于包括：语音采集模块，用于采集用户的语音信息；语音内容分析模块，用于将语音信息转换成文本内容进行索引得到索引库；语音关键词检索模块，用于根据索引库检索预设的推荐物品词典得到推荐物品词典中的即时语音关键词；用户兴趣推断模块，用于根据即时语音关键词计算用户兴趣模型；物品模型相似度计算模块，用于计算所述用户兴趣模型与预设的推荐物品信息库中各物品模型之间的相似度；列表推送模块，用于根据相似度进行排序生成推荐物品信息库中的候选物品集，从候选物品集中选取指定数量物品，并把选取的指定数量物品对应的推荐列表推送给目标用户。9. 根据权利要求8所述的基于即时语音内容检测的推荐系统，其特征在于，所述语音内容分析模块包括：语音关键词转录子模块，用于将语音信息转换成文本内容并生成词图；词图优化子模块，用于将词图中的词串进行全局对齐，全局对齐后的词图中的圆点是弧的节点、两个节点中间的链接弧成为W拼音为单位的候选集，通过前向-后向算法来计算混淆集中每个候选链接弧的后验概率，根据每条候选链接弧的后验概率得分进行剪枝，保留后验概率超过预设阔值的候选链接弧，得到采用混淆网络方法优化后的词图；词图索引子模块，用于对采用混淆网络方法优化后的词图进行索引标注得到索引库，所述索引标注的信息包括各链接弧的词拼音、起始时间、结束时间、声学模型评分、语言模型评分、前向得分、后向得分、局部路径的后验概率中的至少一种。10. 根据权利要求9所述的基于即时语音内容检测的推荐系统，其特征在于，所述语音关键词检索模块包括：词项捜索子模块，用于采用预设的词项捜索算法，根据所述索引库从预设的推荐物品词典中进行词项捜索，得到捜索结果列表；捜索结果重排序子模块，用于针对捜索结果列表进行重排序，得到推荐物品词典中的即时语音关键词。
【专利摘要】本发明公开了一种基于即时语音内容检测的推荐方法及系统，方法包括：采集用户的语音信息；转换成文本内容并索引得到索引库；检索推荐物品词典得到即时语音关键词；计算用户兴趣模型；计算用户兴趣模型与预设的各物品模型之间的相似度；生成推荐物品信息库中的候选物品集，选取指定数量物品，并把选取的指定数量物品对应的推荐列表推送给目标用户；系统包括方法对应的语音采集模块、语音内容分析模块、语音关键词检索模块、用户兴趣推断模块、物品模型相似度计算模块和列表推送模块。本发明能够充分利用用户日常语音通讯聊天、观看的影视剧台词等语音信息与用户当前兴趣的紧密关联性，推荐物品的针对性强且准确性高、用户的使用体验好。
【IPC分类】G06F17/30, G06Q30/02
【公开号】CN105243143
【申请号】CN201510662383
【发明人】赵欢, 张希翔, 谭彪
【申请人】湖南大学
【公开日】2016年1月13日
【申请日】2015年10月14日

完整全部详细技术资料下载

当前第4页1 2 3 4