基于即时语音内容检测的推荐方法及系统的制作方法

文档序号:9489505阅读:222来源:国知局
基于即时语音内容检测的推荐方法及系统的制作方法
【技术领域】
[0001] 本发明涉及信息推荐系统,具体涉及一种基于即时语音内容检测的推荐方法及系 统。
【背景技术】
[0002] 推荐系统是一种特殊形式的信息过滤系统,推荐系统在与用户的交互过程中会主 动记录用户的历史兴趣信息,对用户的信息需求进行建模,形成关于用户兴趣和偏好的知 识模型,并依据该模型实现最终的信息推荐服务。随着大数据多样化的趋势下,在用户即时 聊天、观看在线流媒体的过程中,仅利用传统的用户关联、用户行为及反馈、文本知识抽取 等方法去挖掘信息,难以使推荐系统关联到用户实时语音聊天内容、观看的影视局台词等 语音相关信息上,而用户的聊天内容、观看的影视剧语音台词等语音信息恰恰与用户当前 兴趣和将来的购买需求有着极其紧密的联系。现阶段针对语音的推荐系统研究较少,且只 是把语音当作推荐系统的用户界面,把原需要鼠标键盘操作的步骤以语音代替而已。因此, 面向即时语音检测的推荐模型和方法地推荐最适合用户的产品,以达到使得用户能够更便 捷地找寻所需商品的目的,从而大大改善用户的使用体验,具有重要的实用意义和商业价 值。
[0003]目前的推荐系统普遍是基于文本内容检测,而语音处理技术往往用于各个系统 的人机交互界面,即使用语音识别输入替换原先通过键盘或其他设备的输入形式。中国 专利申请号为201310740533. 9的专利文献公开了一种基于混淆网络的语音中检测关键 词的方法,但并没有将这种语音关键词检测方法与推荐方法相结合。中国专利申请号为 201410668170. 7的专利文献公开了一种可利用用户输入语音信息的推荐系统,将目标用户 输入的语音信息通过语音识别转换为对应文本信息,进而进行后继查询及推荐处理,但该 推荐方法及系统主要把语音输入当作人机交互界面,并不是对特定应用场景下的语音内容 进行相关检测。中国专利申请号为201310446815. 8的专利文献公开了一种个性化视频内 容推荐方法和系统,通过提取用户观看视频中的演员语音声纹特征,进而寻找声纹匹配相 似的其他兴趣演员,启发性地引导和推荐用户到感兴趣的其他视频上,该方法主要是通过 检测用户所观看视频中语音声纹特征,并没有对这些语音的内容进行相关检测。因此,如何 基于即时语音内容检测来实现内容推荐,已经成为一项亟待解决的技术问题。

【发明内容】

[0004] 本发明要解决的技术问题:针对现有技术的上述问题,提供一种能够充分利用用 户日常语音通讯聊天、观看的影视剧台词等语音信息与用户当前兴趣的紧密关联性,推荐 物品的针对性强且准确性高、用户的使用体验好的基于即时语音内容检测的推荐方法及系 统。
[0005] 为了解决上述技术问题,本发明采用的技术方案为:
[0006] -种基于即时语音内容检测的推荐方法,步骤包括:
[0007] 1)采集用户的语音信息;
[0008] 2)将语音信息转换成文本内容进行索引得到索引库;
[0009] 3)根据索引库检索预设的推荐物品词典得到推荐物品词典中的即时语音关键 词;
[0010] 4)根据即时语音关键词及用户历史行为数据计算用户兴趣模型;
[0011] 5)计算所述用户兴趣模型与预设的推荐物品信息库中各物品模型之间的相似 度;
[0012] 6)根据相似度进行排序生成推荐物品信息库中的候选物品集,从候选物品集中选 取指定数量物品,并把选取的指定数量物品对应的推荐列表推送给目标用户。
[0013] 优选地,所述步骤2)的详细步骤包括:
[0014] 2. 1)将语音信息转换成文本内容并生成词图;
[0015] 2.2)将词图中的词串进行全局对齐,全局对齐后的词图中的圆点是弧的节点、两 个节点中间的链接弧成为以拼音为单位的候选集,通过前向-后向算法来计算混淆集中每 个候选链接弧的后验概率,根据每条候选链接弧的后验概率得分进行剪枝,保留后验概率 超过预设阈值的候选链接弧,得到采用混淆网络方法优化后的词图;
[0016] 2. 3)对采用混淆网络方法优化后的词图进行索引标注得到索引库,所述索引标注 的信息包括各链接弧的词拼音、起始时间、结束时间、声学模型评分、语言模型评分、前向得 分、后向得分、局部路径的后验概率中的至少一种。
[0017] 优选地,所述步骤3)的详细步骤包括:
[0018] 3. 1)采用预设的词项搜索算法,根据所述索引库从预设的推荐物品词典中进行词 项搜索,得到搜索结果列表;
[0019] 3. 2)针对搜索结果列表进行重排序,得到推荐物品词典中的即时语音关键词。
[0020] 优选地,所述步骤3. 2)的详细步骤包括:
[0021] 3. 2. 1)预先获取多组步骤3. 1)得到的搜索结果列表样本,将搜索结果列表样本 中得分排在前面的N个搜索结果视为相关的、得分排在倒数的最后N个搜索结果视为不相 关的,把相关的N个搜索结果作为正面样本数据、把不相关的N个搜索结果作为负面样本数 据来训练机器学习分类模型,完成机器学习分类模型的训练;
[0022] 3. 2. 2)将所述词项的搜索结果列表输入机器学习分类模型,通过机器学习分类模 型对搜索结果列表进行重排序,得到重排序后的推荐物品词典中的即时语音关键词。
[0023] 优选地,所述步骤4)的详细步骤包括:
[0024] 4. 1)根据计算预设的语音检测窗W内的用户即时兴趣模型如式(1)所示;
[0025]叫={wH,w2i,…,wni},wkie [0, 1] (1)
[0026] 式⑴中,叫为用户即时兴趣模型,wkl是语音检测窗W内语音关键词中第k个 词典主题词4的即时兴趣权重,且即时兴趣权重wkl设置为归一化的词频-逆文档频率 TF-IDF;
[0027] 4. 2)根据用户历史行为数据建立用户长期兴趣模型如式(2)所示;
[0028] uli= {wH,w2i,…,wni},wkie [0, 1] (2)
[0029] 式⑵中,吨为用户长期兴趣模型,wkl为语音检测窗W内语音关键词中第k个词 典主题词tk的长期兴趣权重,长期兴趣权重wkl的计算函数表达式如式(3)所示;
[0030]
[0031] 式(3)中,Hitlk为用户历史行为数据中用户^对涉及第k个词典主题词tk的点 击次数,Hitsrn^为用户历史行为数据中用户u 所有点击数。
[0032] 4. 3)将所述用户即时兴趣模型、用户长期兴趣模型两者采用融合算法进行计算, 得到用户兴趣模型。
[0033] 优选地,所述步骤4. 3)中采用的融合算法如式(4)所示;
[0034]
[0035]式⑷中,Ul为用户兴趣模型,ur$用户即时兴趣模型,wr为用户即时兴趣模型 的权重,^^为用户长期兴趣模型,wl为用户长期兴趣模型的权重。
[0036] 优选地,所述步骤5)中计算所述用户兴趣模型与预设的推荐物品信息库中各物 品模型之间的相似度的函数表达式如式(5)所示;
[0037]
[0038] 式(5)中,sim(Ul,U为用户的用户兴趣模型Ul与预设的推荐物品信息库中某一 个物品的模型1之间的相似度,wμ为用户兴趣模型ui中第j个主题词t,的权重,wn为预 设的推荐物品信息库中某一个物品的模型h中第j个主题词t,的权重,物品的模型I3口 式⑶所示;
[0039] {wn,w21,…,wnl},wkle[0, 1] (6)
[0040] 式(6)中,1为预设的推荐物品信息库中第1个物品的带权向量空间模型,wkl是 预设的推荐物品信息库中第1个物品h中第k个主题词tk的权重,且第k个主题词t,的 权重wkl设置为归一化的词频-逆文档频率TF-IDF。
[0041] 本发明还提供一种基于即时语音内容检测的推荐系统,包括:
[0042] 语音采集模块,用于采集用户的语音信息;
[0043] 语音内容分析模块,用于将语音信息转换成文本内容进行索引得到索引库;
[0044] 语音关键词检索模块,用于根据索引库检索预设的推荐物品词典得到推荐物品词 典中的即时语音关键词;
[0045] 用户兴趣推断模块,用于根据即时语音关键词计算用户兴趣模型;
[0046] 物品模型相似度计算模块,用于计算所述用户兴趣模型与预设的推荐物品信息库 中各物品模型之间的相似度;
[0047]列表推送模块,用于根据相似度进行排序生成推荐物品信息库中的候选物品集, 从候选物品集中选取指定数量物品,并把选取的指定数量物品对应的推荐
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1