一种多媒体数据的挖掘方法、装置、存储介质及设备与流程

文档序号:29446908发布日期:2022-03-30 11:10阅读:来源:国知局

技术特征:
1.一种多媒体数据的挖掘方法,其特征在于,包括:获取少数民族语言的多媒体数据的转写结果和翻译结果,以及获取第一关键词和第二关键词,所述第一关键词为官方语言的关键词,所述第二关键词为翻译得到的少数民族语言的关键词;根据所述转写结果和所述翻译结果,结合所述第一关键词和所述第二关键词,获得所述多媒体数据中存在关键词片段的置信度;根据所述多媒体数据中存在关键词片段的置信度和关键词识别门限,获得识别结果,所述识别结果包括所述多媒体数据中识别到的关键词。2.根据权利要求1所述的方法,其特征在于,所述根据所述转写结果和所述翻译结果,结合所述第一关键词和所述第二关键词,获得所述多媒体数据中存在关键词片段的置信度,包括:根据所述转写结果和所述第二关键词确定所述转写结果中存在所述第二关键词的置信度,以及根据所述翻译结果和所述第一关键词,确定所述翻译结果中存在所述第一关键词的置信度;根据所述转写结果中存在所述第二关键词的置信度以及所述翻译结果中存在所述第一关键词的置信度,获得所述多媒体数据中存在关键词片段的置信度。3.根据权利要求2所述的方法,其特征在于,所述根据所述转写结果和所述第二关键词,确定所述转写结果中存在所述第二关键词的置信度,包括:将所述第二关键词与所述转写结果进行字符匹配,根据字符匹配的结果获得所述转写结果中存在所述第二关键词的第一置信度;和/或,确定所述第二关键词的词向量与所述转写结果中至少一个单词的词向量的相似度,根据所述相似度获得所述转写结果中存在所述第二关键词的第二置信度。4.根据权利要求3所述的方法,其特征在于,所述转写结果中存在所述第二关键词的第一置信度通过所述转写结果的句子中存在所述第二关键词的第一置信度表征;当所述第二关键词与所述句子匹配时,则所述句子中存在所述第二关键词的第一置信度为所述第二关键词对应的第一关键词的权重与预设系数的乘积,否则所述第一置信度为零。5.根据权利要求3所述的方法,其特征在于,所述转写结果中存在所述第二关键词的第二置信度通过所述转写结果的句子中存在所述第二关键词的第二置信度表征;所述第二关键词的词向量与所述转写结果中单词的词向量的相似度通过所述第二关键词的词向量与所述转写结果的句子中单词的词向量之间的距离表征;所述转写结果的句子中存在所述第二关键词的第二置信度为目标距离的加权和值,所述目标距离为所述句子中目标单词的词向量与所述第二关键词的词向量之间的距离,所述目标单词为所述距离不小于预设距离的单词,所述目标距离的权重为所述第一关键词的权重和所述句子中所述目标单词的权重的乘积。6.根据权利要求2所述的方法,其特征在于,所述根据所述翻译结果和所述第一关键词,确定所述翻译结果中存在所述第一关键词的置信度,包括:将所述第一关键词与所述翻译结果进行字符匹配,根据字符匹配的结果获得所述翻译结果中存在所述第一关键词的第三置信度;和/或,
确定所述第一关键词的词向量与所述翻译结果中至少一个单词的词向量的相似度,根据所述相似度获得所述翻译结果中存在所述第一关键词的第四置信度。7.根据权利要求6所述的方法,其特征在于,所述翻译结果中存在所述第一关键词的第三置信度通过所述翻译结果的句子中存在所述第一关键词的第三置信度表征;当所述第一关键词与所述句子匹配时,则所述句子中存在所述第一关键词的第三置信度为第一关键词的权重与预设系数的乘积,否则所述第三置信度为零。8.根据权利要求6所述的方法,其特征在于,所述翻译结果中存在所述第一关键词的第四置信度通过所述翻译结果的句子中存在所述第一关键词的第四置信度表征;所述第一关键词的词向量与所述翻译结果中单词的词向量的相似度通过所述第一关键词的词向量与所述翻译结果的句子中单词的词向量之间的距离表征;所述翻译结果的句子中存在所述第一关键词的第四置信度为目标距离的加权和值,所述目标距离为所述句子中目标单词的词向量与所述第一关键词的词向量之间的距离,所述目标单词为所述距离不小于预设距离的单词,所述目标距离的权重为所述第一关键词的权重和所述句子中所述目标单词的权重的乘积。9.根据权利要求4、5、7或8所述的方法,其特征在于,所述第一关键词的权重根据历史数据中的统计信息获得。10.根据权利要求1至8任一项所述的方法,其特征在于,所述识别结果还包括所述关键词片段;所述方法还包括:向用户呈现所述多媒体数据中识别到的关键词以及对应的关键词片段;接收用户对所述多媒体数据中识别到的关键词以及对应的关键词片段的校验信息,获得校验后的所述识别结果。11.根据权利要求1至8任一项所述的方法,其特征在于,所述方法还包括:根据所述识别结果更新样本数据集;利用更新后的所述样本数据集更新模型。12.一种多媒体数据的挖掘装置,其特征在于,包括:获取模块,用于获取少数民族语言的多媒体数据的转写结果和翻译结果,以及获取第一关键词和第二关键词,所述第一关键词为官方语言的关键词,所述第二关键词为翻译得到的少数民族语言的关键词;计算模块,用于根据所述转写结果和所述翻译结果,结合所述第一关键词和所述第二关键词,获得所述多媒体数据中存在关键词片段的置信度;识别模块,用于根据所述多媒体数据中存在关键词片段的置信度和关键词识别门限,获得识别结果,所述识别结果包括所述多媒体数据中识别到的关键词。13.一种多媒体数据的挖掘设备,其特征在于,包括:处理器、存储器、系统总线;所述处理器以及所述存储器通过所述系统总线相连;所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-11任一项所述的方法。14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-11任一项所述的方法。

技术总结
本申请公开了一种多媒体数据的挖掘方法、装置、存储介质及设备,涉及数据挖掘技术领域,该方法包括获取少数民族语音的多媒体数据的转写结果和翻译结果,以及获取第一关键词和第二关键词,第一关键词为官方语音的关键词,第二关键词为翻译得到的少数民族语言的关键词;根据转写结果和翻译结果,结合第一关键词和第二关键词,获得多数媒体数据中存在关键词片段的置信度,然后根据多数媒体数据中存在关键词片段的置信度和关键词识别门限,获得识别结果,该识别结果包括多媒体数据中识别到的关键词。可见,该方法能够实现对少数民族语言的多媒体数据的挖掘。媒体数据的挖掘。媒体数据的挖掘。


技术研发人员:王培养
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:2021.12.14
技术公布日:2022/3/29
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1