一种多媒体数据的挖掘方法、装置、存储介质及设备与流程

文档序号:29446908发布日期:2022-03-30 11:10阅读:108来源:国知局
一种多媒体数据的挖掘方法、装置、存储介质及设备与流程

1.本技术涉及数据挖掘技术领域,尤其涉及一种多媒体数据的挖掘方法、装置、存储介质及设备。


背景技术:

2.随着互联网尤其是移动互联网的不断发展,产生了海量数据。通过对海量数据进行挖掘,可以满足用户的不同需求。例如,在文献检索的应用场景中,通过关键词对文本数据进行检索,可以向用户返回与该关键词相关的文本数据。
3.在一些场景中,除了文本数据外,还包括大量的多媒体数据。该多媒体数据包括语音数据、图像数据、视频数据等中的一种或多种。通过语音识别、图像识别、视频分析等人工智能(artificial intelligence,ai)技术对上述多媒体数据进行挖掘已成为主流的实现方式之一。
4.ai技术通常是以数据驱动的。对于联合国6大官方语言,如英语、法语、俄语、汉语、西班牙语、阿拉伯语等,因其使用广泛,产生的数据规模大,通过对大规模的数据进行学习,可以获得对官方语言的多媒体数据的较强的ai处理能力。而少数民族语言,例如维吾尔语、藏语、蒙古语、哈萨克语、彝语等,因使用人口少,产生的数据规模小,基于小规模的数据,难以实现对少数民族语言的多媒体数据的挖掘。
5.如何提供一种少数民族语言的多媒体数据的挖掘方法,成为业界重点关注的问题。


技术实现要素:

6.本技术的主要目的在于提供一种多媒体数据的挖掘方法、装置、存储介质及设备,能够实现对少数民族语言的多媒体数据的挖掘。
7.第一方面,本技术提供了一种多媒体数据的挖掘方法,包括:
8.获取少数民族语言的多媒体数据的转写结果和翻译结果,以及获取第一关键词和第二关键词,所述第一关键词为官方语言的关键词,所述第二关键词为翻译得到的少数民族语言的关键词;
9.根据所述转写结果和所述翻译结果,结合所述第一关键词和所述第二关键词,获得所述多媒体数据中存在关键词片段的置信度;
10.根据所述多媒体数据中存在关键词片段的置信度和关键词识别门限,获得识别结果,所述识别结果包括所述多媒体数据中识别到的关键词。
11.第二方面,本技术提供了一种多媒体数据的挖掘装置,包括:
12.获取模块,用于获取少数民族语言的多媒体数据的转写结果和翻译结果,以及获取第一关键词和第二关键词,所述第一关键词为官方语言的关键词,所述第二关键词为翻译得到的少数民族语言的关键词;
13.计算模块,用于根据所述转写结果和所述翻译结果,结合所述第一关键词和所述
第二关键词,获得所述多媒体数据中存在关键词片段的置信度
14.识别模块,用于根据所述多媒体数据中存在关键词片段的置信度和关键词识别门限,获得识别结果,所述识别结果包括所述多媒体数据中识别到的关键词。
15.第三方面,本技术还提供了一种多媒体数据的挖掘设备,包括:处理器、存储器、系统总线;
16.所述处理器以及所述存储器通过所述系统总线相连;
17.所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述多媒体数据的挖掘方法中的任意一种实现方式。
18.第四方面,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述多媒体数据的挖掘方法中的任意一种实现方式。
19.第五方面,本技术还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述多媒体数据的挖掘方法中的任意一种实现方式。
20.由上述技术方案可知,本技术至少具有以下有益效果:
21.本技术提供了一种少数民族语言的多媒体数据的挖掘方法。具体地,在已知官方语言的关键词的情况下,利用该官方语言的关键词和官方语言的关键词对应的少数民族语言的关键词,结合少数民族语言的多媒体数据的转写结果和翻译结果,获得所述多媒体数据中存在关键词片段的置信度,然后根据多媒体数据中存在关键词片段的置信度和关键词识别门限,获得识别结果。
22.上述方法将官方语言的语料和少数民族语言的语料进行融合,提升了少数民族语言的语料的规模,避免了少数民族语言的语料过少导致ai处理能力不佳的情况,提升了少数民族语言的多媒体数据中关键词的识别率,从而提升了少数民族语言的多媒体数据的挖掘效果。
23.进一步地,该方法提供了句子级别的关键词识别能力,实现一个多媒体数据例如是一条语音中多个句子的关键词识别,建立关键词和句子对应的多媒体数据的对应关系,通过呈现上述对应关系,还可以支持人工校验,进一步提高准确度。如此可以积累更多的样本数据,并用于更新模型,提升模型性能。
附图说明
24.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
25.图1为本技术实施例提供的一种多媒体数据的挖掘方法的流程图;
26.图2a为本技术实施例提供的一种人机交互界面的示意图;
27.图2b为本技术实施例提供的一种人机交互界面的示意图;
28.图2c为本技术实施例提供的一种人机交互界面的示意图;
29.图3为本技术实施例提供的一种对多媒体数据的处理的示意图;
30.图4为本技术实施例提供的一种多媒体数据的挖掘装置的示意图。
具体实施方式
31.本技术实施例中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。
32.首先对本技术实施例中所涉及到的一些技术术语进行介绍。
33.数据挖掘指从大量的数据中自动搜索隐藏于其中有用信息的过程。目前,可以通过构建人工智能模型,对大量的数据进行挖掘,进而得到隐藏于其中的有用信息。以多媒体数据为例,多媒体数据可以分为正常信息和敏感信息,可以基于人工智能模型对大量的多媒体数据进行挖掘,从该大量的多媒体数据中获取到识别出包括敏感信息的多媒体数据,以进行预警或进一步对该敏感信息的关键词片段进行处理等。
34.训练人工智能模型需要大量的样本数据,对于官方语言的多媒体数据而言,因官方语言使用较为广泛,产生的数据规模大,基于该大规模的数据进行学习,能够得到具有较好识别效果的人工智能模型。对于非官方语言的多媒体数据,例如少数民族语言的多媒体数据,因少数民族语言的使用较少,产生的数据规模小,小规模的数据难以使得人工智能模型学习到较好的识别效果,进而难以针对少数民族语言的多媒体数据进行挖掘。
35.有鉴于此,本技术实施例提供了一种多媒体数据的挖掘方法,该方法可以由处理设备执行。处理设备可以终端,也可以是服务器。终端包括但不限于智能手机、平板电脑、笔记本电脑、个人数字助理(personal digital assistant,pda)或者智能穿戴设备等。服务器可以是云服务器,例如是中心云计算集群中的中心服务器,或者是边缘云计算集群中的边缘服务器。当然,服务器也可以是本地数据中心中的服务器。本地数据中心是指用户直接控制的数据中心。
36.处理设备获取少数民族语言的多媒体数据的转写结果和翻译结果;该转写结果包括转写文本以及该转写文本中至少一个句子的置信度、转写文本的至少一个句子中至少一个单词的置信度和词向量,转写文本为少数民族语言的文本,该转写文本也可称作第一文本;翻译结果包括由第一文本翻译得到的翻译文本以及该翻译文本中至少一个句子的置信度、翻译文本的至少一个句子中至少一个单词的置信度和词向量,翻译文本为对第一文本进行翻译得到的官方语言的文本,该翻译文本也可以称作第二文本。处理设备还获取第一关键词、第一关键词的权重、第一关键词的词向量、第二关键词、第二关键词的词向量;其中,第一关键词为官方语言的关键词,第二关键词为翻译得到的少数民族语言的关键词。然后,处理设备根据转写结果以及翻译结果,结合第一关键词、第一关键词的权重、第一关键词的词向量、第二关键词、第二关键词的词向量,获得多媒体数据包括关键词(例如可以是第一关键词、第二关键词)对应的关键词片段的置信度。处理设备根据多媒体数据包括关键词对应的关键词片段的置信度和关键词识别门限,获得识别结果,该识别结果包括多媒体数据中识别到的关键词。
37.该方法中,处理设备将官方语言的语料和少数民族语言的语料进行融合,提升了少数民族语言的语料的规模,避免了少数民族语言的语料过少导致ai处理能力不佳的情况,提升了少数民族语言的多媒体数据中关键词的识别率,从而提高了少数民族语言的多
媒体数据的挖掘效果。
38.本技术实施例提供的多媒体数据的挖掘方法,可以应用于多种场景。例如,在通信场景中,利用该方法可以对通信双方所传输的多媒体数据进行识别,从而判断所识别的多媒体数据中是否包含敏感信息,敏感信息可以指非法信息,也可以是预设的信息。再例如,在内容发布场景中,利用该方法可以对待发布的多媒体数据进行审核,从而辅助判断该待发布的多媒体数据中是否包括敏感信息等。
39.需要说明的是,本技术实施例提供的多媒体数据的挖掘方法不仅仅应用于上述两种场景,本领域技术人员可以根据实际需要,选择其他应用场景。
40.为了使得本技术的技术方案更加清楚、易于理解,下面结合附图对本技术实施例提供的多媒体数据的挖掘方法进行介绍。如图1所示,该图为本技术实施例提供的一种多媒体数据的挖掘方法的流程图,该方法包括:
41.s101:处理设备获取少数民族语言的多媒体数据的转写结果和翻译结果。
42.少数民族语言包括但不限于维吾尔语、藏语、蒙古语、哈萨克语、彝语。多媒体数据包括语音、图像、视频中的一种或多种。例如,少数民族语言的多媒体数据可以是维吾尔语的语音、藏语的视频、藏语文本的图像等。
43.以少数民族语言的多媒体数据为少数民族语言的语音为例,处理设备可以基于少数民族语音识别模型,对该少数民族语言的语音进行识别,进而得到少数民族语言的语音的转写结果。转写结果包括第一文本、第一文本中至少一个句子的置信度、以及该句子中至少一个单词的置信度,第一文本为少数民族语言的文本。
44.在一些示例中,第一文本可以包括n个句子,第一文本可以表示为“s1,s2,

,s
n”。第一文本中的n个句子的置信度可以表示为“s_weight1,s_weight2,

,s_weight
n”。第一文本中的n个句子中第i个句可以包括mi个单词,第i个句可以表示为“w
i1
,w
i2
,

,”,第i个句中mi个单词的置信度可以表示为“w_weight
i1
,w_weight
i2
,

,”。处理设备可以通过少数民族语言词向量模型,对第一文本的n个句子进行处理,得到n个句子中每个句子中单词的词向量。第i个句中mi个单词的词向量可以表示为“vec
i1
,vec
i2
,

,”。本技术实施例不具体限定词向量的维数,词向量的维数可以是512维。
45.延续上例,处理设备对少数民族语言的语音进行语音识别得到转写结果后,基于语言翻译模型,对该转写结果进行处理,得到该少数民族语言的语音的翻译结果。其中,翻译结果包括由第一文本翻译得到的第二文本、第二文本中至少一个句子的置信度、该句子中至少一个单词的置信度和词向量,第二文本可以是官方语言的文本,例如对第一文本进行翻译后得到的官方语言的文本,官方语言包括但不限于英语、法语、俄语、汉语、西班牙语、阿拉伯语。
46.在一些示例中,第二文本也可以包括n个句子,基于此,第二文本可以表示为“st1,st2,

,st
n”。第二文本中的n个句子的置信度可以表示为“st_weight1,st_weight2,

,st_weight
n”。第二文本中的n个句子中第i个句可以包括pi个单词,第i个句可以表示为“wt
i1
,wt
i2
,

,”,第i个句中pi个单词的置信度可以表示为“wt_weight
i1
,wt_weight
i2
,

,”。处理设备可以通过官方语言词向量模型,对第二文本的n个句子进行处
理,得到n个句子中每个句子中单词的词向量。第i个句中pi个单词的词向量可以表示为“wtvec
i1
,wtvec
i2
,

,”。本技术实施例不具体限定词向量的维数,词向量的维数可以是512维。
47.需要说明的是,以上仅仅是以少数民族语言的多媒体数据为少数民族语言的语音为例进行示例性介绍。在另一些实施例中,少数民族语言的多媒体数据也可以为少数民族语言文本的图像,处理设备可以基于图像识别模型,对该少数民族语言文本的图像进行识别,进而得到该少数民族语言文本的图像的转写结果;少数民族语言的多媒体数据也可以为包括少数民族语言的语音的视频,处理设备获得包括少数民族语言的语音的视频的转写结果的方式,与上述实施例类似,此处不再赘述。
48.s102:处理设备获取第一关键词和第二关键词。
49.第一关键词指官方语言的关键词,第二关键词指翻译得到的少数民族语言的关键词,例如对官方语言的关键词进行翻译得到的少数民族语言的关键词。在一些示例中,第一关键词可以根据具体的业务需求设定。例如在上述内容发布场景中,可以将不文明的官方语言的语音(例如脏话)对应的单词设置为第一关键词。
50.在一些实施例中,处理设备可以获取上述第一关键词的权重,q个第一关键词可以表示为“cn_key1,cn_key2,

,cn_key
q”,q个第一关键词的权重可以基于官方语言对应的历史数据的统计信息得到,统计信息可以是词频等信息。
51.历史数据可以分为全量历史数据和部分历史数据。全量历史数据是指互联网上所产生的与预设业务相关全部历史数据,部分历史数据指全量历史数据中与第一关键词相关的历史数据,部分历史数据为全量历史数据中的一部分。具体地,处理设备可以基于全量历史数据计算q个第一关键词在全量历史数据中的词频,q个第一关键词在全量历史数据中的词频可以表示为“cn_key_all_freq1,cn_key_all_freq2,

,cn_key_all_freq
q”,其中,q个第一关键词在全量历史数据中的词频可以是归一化后得到的数值。处理设备还可以基于部分历史数据计算q个第一关键词在部分历史数据中的词频,q个第一关键词在部分历史数据中的词频可以表示为“cn_key_part_freq1,cn_key_part_freq2,

,cn_key_part_freq
q”,其中,q个第一关键词在部分历史数据中的词频可以是归一化后得到的数值。
52.以q个第一关键词中的第i个第一关键词为例,处理设备基于上述第i个第一关键词在部分历史数据中的词频以及第i个第一关键词在全量历史数据中的词频得到该第i个第一关键词的权重。例如,处理设备可以基于q个第一关键词中第i个第一关键词在全量历史数据中的词频与该第i个第一关键词在部分历史数据中的词频之间的比值,得到q个第一关键词中第i个第一关键词的权重。具体地,处理设备可以通过如下公式计算得到第i个第一关键词的权重:
[0053][0054]
其中,cn_key_freqi为q个第一关键词中第i个第一关键词的权重,cn_key_part_freqi为q个第一关键词中第i个第一关键词在部分历史数据中的词频,cn_key_all_freqi为q个第一关键词中第i个第一关键词在全量历史数据中的词频。
[0055]
处理设备可以根据上述公式(1),获得q个第一关键词中每一个第一关键词的权
重,q个第一关键词的权重可以表示为“cn_key_freq1,cn_key_freq2,

,cn_key_freq
q”。
[0056]
需要说明的是,上述公式(1)仅仅是一种获取第一关键词的权重的可选方式,在另一些实施例中,处理设备还可以在计算得到q个第一关键词中第i个第一关键词在全量历史数据中的词频与该第i个第一关键词在部分历史数据中的词频之间的比值后,将该比值与第i个第一关键词的位置因子和/或词性因子作乘积,将该乘积作为最终的第i个第一关键词的权重。例如,处理设备可以将该比值与第i个第一关键词的位置因子作乘积,将该乘积作为最终的第i个第一关键词的权重;再例如,处理设备可以将该比值与第i个第一关键词的词性因子作乘积,将该乘积作为最终的第i个第一关键词的权重;再例如,处理设备还可以将该比值与上述位置因子和词性因子的乘积加和求平均值,将该平均值作为最终的第i个第一关键词的权重。
[0057]
处理设备还可以基于官方语言词向量模型,对q个第一关键词进行处理,得到q个第一关键词的词向量,q个第一关键词的词向量可以表示为“cn_key_vec1,cn_key_vec2,

,cn_key_vec
q”,本技术实施例不具体限定词向量的维数,词向量的维数可以是512维。
[0058]
在一些实施例中,处理设备可以通过语言翻译模型,对第一关键词进行翻译,进而得到第二关键词。本技术实施例不具体限定处理设备获得第一关键词对应的第二关键词的方式。在另一些实施例中,也可以将对第一关键词经人工翻译得到的第二关键词提供给处理设备,以使处理设备获得第二关键词。其中,一个第一关键词经过翻译可以得到至少一个第二关键词。为了便于理解,下文以对一个第一关键词进行翻译后得到一个第二关键词为例,进行介绍。
[0059]
延续上例,q个第一关键词对应的q个第二关键词可以表示为“t_key1,t_key2,

,t_key
q”,类似地,处理设备可以基于少数民族语言词向量模型,对q个第二关键词进行处理,得到q个第二关键词的词向量。q个第二关键词的词向量可以表示为“t_key_vec1,t_key_vec2,

,t_key_vec
q”,本技术实施例不具体限定词向量的维数,词向量的维数可以是512维。
[0060]
需要说明的是,本技术实施例不具体限定s101和s102的执行顺序,在一些示例中,处理设备可以同时执行s101和s102,也可以先执行s102,后执行s101。
[0061]
s103:处理设备根据转写结果和翻译结果,结合第一关键词和第二关键词,获得多媒体数据中存在关键词片段的置信度。
[0062]
以少数民族语言的多媒体数据为少数民族语言的语音为例,关键词对应的关键词片段可以是指第一关键词或第二关键词所对应的少数民族语言的语音片段。关键词对应的关键词片段的转写结果中包括第一关键词或翻译结果中包括第二关键词。
[0063]
在一些实施例中,处理设备分别计算多媒体数据包括第一关键词对应的关键词片段的置信度和计算多媒体数据包括第二关键词对应的关键词片段的置信度,然后基于多媒体数据包括第一关键词对应的关键词片段的置信度以及多媒体数据包括第二关键词对应的关键词片段的置信度,获得多媒体数据包括关键词的对应的关键词片段的置信度。
[0064]
具体地,处理设备根据转写结果和第二关键词,确定转写结果中存在第二关键词的置信度。
[0065]
在一些示例中,转写结果中至少一个句子包括所述第二关键词的置信度可以包括第一本文中的第i个句子包括第j个第二关键词的第一置信度和第二置信度,处理设备可以
单独将第一置信度作为该转写结果中至少一个句子包括所述第二关键词的置信度,也可以单独将第二置信度作为转写结果中至少一个句子包括所述第二关键词的置信度,也可以对第一置信度和第二置信度进行加权求和,将求和结果作为该转写结果中至少一个句子包括所述第二关键词的置信度。其中,第一置信度是基于字符匹配的结果确定的置信度,第二置信度是基于词向量间的相似度确定的置信度,下面分别介绍。
[0066]
处理设备可以将第二关键词与转写结果进行字符匹配,根据该字符匹配的结果获得转写结果中存在第二关键词的第一置信度。例如处理设备可以根据第一文本中第i个句子与第j个第二关键词的字符匹配的结果,以及第j个第一关键词的权重,确定第一文本中的第i个句子包括第j个第二关键词的第一置信度。在一些示例中,当第二关键词与句子匹配时,则句子中存在第二关键词的第一置信度为第二关键词对应的第一关键词的权重与预设系数的乘积,否则第一置信度为零。其中预设系数可以是1,也可以是其他数值,例如0.8。以预设系数为1为例,处理设备可以通过如下公式计算第一置信度:
[0067][0068]
其中,key_fun1
ij
为第一文本中的第i个句子包括第j个第二关键词的第一置信度,cn_key_freqj为第j个第一关键词的权重。当在第一文本中的第i个句子中匹配到第j个第二关键词的字符时,第一置信度为cn_key_freqj·
1;当在第一文本中的第i个句子中未匹配到第j个第二关键词的字符时,第一置信度为cn_key_freqj·
0。
[0069]
处理设备基于第一文本中第i个句子与第j个第二关键词的字符匹配的结果,计算第一置信度,能够减少由于少数民族语音识别模型的识别误差(例如,分词误差、分词颗粒度误差)对计算第一置信度的负面影响,提高计算得到的第一置信度的准确率。
[0070]
在另一些实施例中,处理设备在将第一文本中第i个句子与第j个第二关键词的字符进行匹配过程中,可以基于多个匹配度,确定匹配的结果。可以分为3个匹配度,如0-%40、40%-80%和80%-100%。匹配度不同时,预设系数可以不同,例如当第一文本中第i个句子与第j个第二关键词的字符进行匹配处理得的结果在匹配度40%-80%内时,预设系数可以是0.5。
[0071]
本技术实施例不具体限定处理设备获得第一文本中第i个句子与第j个第二关键词的字符匹配的结果的方式。处理设备可以在获取到第i个句子以及第j个第二关键词后,在第i个句子中匹配第j个第二关键词的字符,得到匹配的结果;处理设备也可以获取其他设备对第一文本中第i个句子与第j个第二关键词的字符进行匹配后,得到的匹配的结果。
[0072]
需要说明的是,字符可以是单个字符,也可以是多个字符组成的字符串。
[0073]
处理设备可以确定第二关键词的词向量与转写结果中至少一个单词的词向量的相似度,基于该相似度获得转写结果中存在第二关键词的第二置信度。其中,转写结果中存在第二关键词的第二置信度可以通过转写结果的句子中存在第二关键词的第二置信度表征。第二关键词的词向量与转写结果中单词的词向量的相似度可以通过第二关键词的词向量与转写结果的句子中单词的词向量之间的距离表征,转写结果的句子中存在第二关键词的第二置信度为目标距离的加权和值,该目标距离为句子中目标单词的词向量与第二关键词的词向量之间的距离,该目标单词为距离不小于预设距离的单词,目标距离的权重为第一关键词的权重和句子中目标单词的权重的乘积。
[0074]
在一些示例中,处理设备可以根据第一文本中的第i个句子的各个单词的词向量与第j个第二个关键词的词向量的相似度、以及第i个句子中各个单词的置信度、第j个第一关键词的权重,确定第一文本中的第i个句子包括第j个第二关键词的第二置信度。例如,处理设备可以先计算第一文本中第i个句子中第k个单词的词向量与第j个第二关键词的词向量的乘积,将该乘积作为目标距离,接着计算第j个第一关键词的权重与第一文本中第i个句子中第k个单词的置信度的乘积,将该乘积作为目标距离的权重,然后基于多个单词对应的目标距离的权重,对多个目标距离进行加权求和,进而得到第一文本中的第i个句子包括第j个第二关键词的第二置信度。具体地,处理设备可以通过如下公式计算第二置信度:
[0075][0076]
其中,key_fun2
ij
为第一文本中的第i个句子包括第j个第二关键词的第二置信度;cn_key_freqj为第j个第一关键词的权重;w_weight
ik
为第一文本中第i个句子中第k个单词的置信度;vec
ik
为第一文本中第i个句子中第k个单词的词向量,t_key_vecj为第j个第二关键词的词向量,vec
ik
·
t_key_vecj表示第一文本中的第i个句子中第k个单词的词向量与第j个第二关键词的词向量的相似度;w_threshold为第一相似度门限值,例如w_threshold=0.9,本领域技术人员也可以是根据实际需要将第一相似度设置为其他值,例如0.8、0.7等。
[0077]
需要说明的是,上述公式(3)仅仅是一种获取转写结果的句子中存在第二关键词的第二置信度的可选方式,在另一些实施例中,处理设备还可以引入距离因子,在计算得到目标距离后,将该目标距离与距离因子作乘积,然后再基于目标距离的权重进行加权求和,得到最终的第二置信度。
[0078]
在上述公式(3)中,针对于第一文本中的第i个句子,当vec
ik
·
t_key_vecj≥w_threshold时,表明第i个句子中的第k个单词与第j个第二关键词的相似度较高,即表明第一文本中的第i个句子中包括第j个第二关键词,处理设备可以记录第j个第二关键词。进一步地,处理设备还可以建立该第j个第二关键词与第i个句子中的所在的关键词片段的对应关系,以便后续校验。
[0079]
由于第二关键词为第一关键词翻译后得到,处理设备在计算转写结果中至少一个句子包括第二关键词的置信度时,不仅结合了第二关键词的信息(例如第二关键词及其置信度),还结合了第一关键词的信息(例如第一关键词及其权重、置信度),如此,能够使得计算得到的转写结果中至少一个句子包括第二关键词的置信度更加准确,进一步降低误差。
[0080]
类似地,处理设备也可以根据翻译结果和第一关键词确定翻译结果中存在第一关键词的置信度。
[0081]
在一些示例中,翻译结果中至少一个句子包括第一关键词的置信度可以包括第二文本中的第i个句子包括第j个第一关键词的第三置信度和第四置信度,处理设备可以单独将第三置信度作为该翻译结果中至少一个句子包括第一关键词的置信度,也可以单独将第四置信度作为翻译结果中至少一个句子包括第一关键词的置信度,也可以对第三置信度和第四置信度进行加权求和,将求和结果作为该翻译结果中至少一个句子包括第一关键词的
置信度。其中,第三置信度是基于字符匹配的结果确定的置信度,第四置信度是基于词向量间的相似度确定的置信度,下面分别介绍。
[0082]
处理设备可以将第一关键词与翻译结果进行字符匹配,根据字符匹配的结果获得翻译结果中存在第一关键词的第三置信度。例如,处理设备可以根据第二文本中的第i个句子与第j个第一关键词的字符串匹配的结果以及第j个第一关键词的权重,确定第二文本中的第i个句子包括第j个第一关键词的第三置信度。在一些示例中,当第一关键词与句子匹配时,则句子中存在第一关键词的第三置信度为第一关键词的权重与预设系数的乘积,否则第三置信度为零。其中,预设系数可以是1,也可以是其他数值,例如0.7。以预设系数为1为例,处理设备可以通过如下公式计算第三置信度:
[0083][0084]
其中,key_fun3
ij
为第二文本中的第i个句子包括第j个第一关键词的第三置信度,cn_key_freqj为第j个第一关键词的权重。当在第二文本中的第i个句子中匹配到第j个第一关键词的字符时,第三置信度为cn_key_freqj·
1;当在第二文本中的第i个句子中未匹配到第j个第一关键词的字符时,第三置信度为cn_key_freqj·
0。
[0085]
处理设备基于第二文本中第i个句子与第j个第一关键词的字符匹配的结果,计算第三置信度,能够减少由于语言翻译模型的翻译误差(例如,分词误差、分词颗粒度误差)对计算第三置信度的负面影响,提高计算得到的第三置信度的准确率。
[0086]
在另一些实施例中,处理设备在将第二文本中第i个句子与第j个第一关键词的字符进行匹配过程中,可以基于多个匹配度,确定匹配的结果。可以分为3个匹配度,如0-%40、40%-80%和80%-100%。匹配度不同时,预设系数可以不同,例如当第二文本中第i个句子与第j个第一关键词的字符进行匹配处理得的结果在匹配度80%-100%内时,预设系数可以是1。
[0087]
处理设备获得第二文本中的第i个句子与第j个第一关键词的字符串匹配的结果的方式与获得第一文本中第i个句子与第j个第二关键词的字符串匹配的结果的方式类似,此处不再赘述。
[0088]
处理设备可以确定第一关键词的词向量与翻译结果中至少一个单词的词向量的相似度,根据相似度获取翻译结果中存在第一关键词的第四置信度。其中,翻译结果中存在第一关键词的第四置信度可以通过翻译结果的句子中存在第一关键词的第四置信度表征,第一关键词的词向量与翻译结果中单词的词向量的相似度通过第一关键词的词向量与翻译结果的句子中单词的词向量之间的距离表征,翻译结果的句子中存在第一关键词的第四置信度为目标距离的加权和值,目标距离为句子中目标单词的词向量与第一关键词的词向量之间的距离,目标单词为距离不小于预设距离的单词,目标距离的权重为第一关键词的权重和句子中目标单词的权重的乘积
[0089]
在一些示例,处理设备根据第二文本中的第i个句子的各个单词的词向量与第j个第一关键词的词向量的相似度、以及第i个句子中各个单词的置信度、第j个第一关键词的权重,确定所述第二文本中的第i个句子包括第j个第一关键词的第四置信度。例如,处理设备可以先计算第二文本中第i个句子中第k个单词的词向量与第j个第二关键词的词向量的乘积,将该乘积作为目标距离,接着计算第j个第一关键词的权重与第二文本中第i个句子
中第k个单词的置信度的乘积,将该乘积作为目标距离的权重,然后基于多个单词对应的目标距离的权重,对多个目标距离进行加权求和,进而得到第二文本中的第i个句子包括第j个第一关键词的第四置信度。具体地,处理设备可以通过如下公式计算第四置信度:
[0090][0091]
其中,key_fun4
ij
为第二文本中的第i个句子包括第j个第一关键词的第四置信度;cn_key_freqj为第j个第一关键词的权重;wt_weight
ik
为第二文本中第i个句子中第k个单词的置信度;wtvec
ik
为第二文本中第i个句子中第k个单词的词向量,cn_key_vecj为第j个第二关键词的词向量,wtvec
ik
·
cn_key_vecj表示第二文本中的第i个句子中第k个单词的词向量与第j个第二关键词的词向量的相似度;wcn_threshold为第二相似度门限值,例如wcn_threshold=0.9,本领域技术人员也可以是根据实际需要将第二相似度设置为其他值,例如0.8、0.7等。
[0092]
需要说明的是,上述公式(5)仅仅是一种获取翻译结果的句子中存在第一关键词的第四置信度的可选方式,在另一些实施例中,处理设备还可以引入距离因子,在计算得到目标距离后,将该目标距离与距离因子作乘积,然后再基于目标距离的权重进行加权求和,得到最终的第四置信度。
[0093]
在上述公式(5)中,针对于第二文本中的第i个句子,当wtvec
ik
·
cn_key_vecj≥wcn_threshold时,表明第二文本中的第i个句子中的第k个单词与第j个第一关键词的相似度较高,即表明第二文本中的第i个句子中包括第j个第一关键词,处理设备可以记录第j个第一关键词。进一步地,处理设备还可以建立该第j个第一关键词与第i个句子中的所在的关键词片段的对应关系,以便后续校验。
[0094]
然后,处理设备根据转写结果中至少一个句子包括第二关键词的置信度以及翻译结果中至少一个句子包括第一关键词的置信度,获得多媒体数据包括关键词对应的关键词片段的置信度。
[0095]
延续上例,转写结果中至少一个句子包括第二关键词的置信度可以包括第一置信度和第二置信度,翻译结果中至少一个句子包括第一关键词的置信度包括第三置信度和第四置信度。例如,处理设备可以计算第三置信度和第四置信度的加和,然后将该加和与第二文本中第i个句子的置信度作乘积,将该乘积与第一文本中第i个句子的置信度与第一置信度的乘积以及第二置信度进行加和,得到多媒体数据中存在关键词片段的置信度。具体地,处理设备可以通过如下公式计算多媒体数据中存在关键词片段的置信度:
[0096][0097]
其中,key_sent
ij
为多媒体数据包括关键词对应的关键词片段的置信度;为第一文本中第i个句子的置信度,为第二文本中第i个句子的置信度;key_
fun1
ij
为第一文本中的第i个句子包括第j个第二关键词的第一置信度,key_fun2
ij
为第一文本中的第i个句子包括第j个第二关键词的第二置信度,key_fun3
ij
为第二文本中的第i个句子包括第j个第一关键词的第三置信度,key_fun4
ij
为第二文本中的第i个句子包括第j个第一关键词的第四置信度。
[0098]
需要说明的是,上述公式(6)仅仅是一种获取多媒体数据中存在关键词片段的置信度的可选方式,在另一些实施例中,处理设备还以引入置信度因子,在计算得到多媒体数据中存在关键词片段的置信度后,将该置信度与置信度因子作乘积,得到最终的多媒体数据中存在关键词片段的置信度。
[0099]
s104:处理设备根据多媒体数据中存在关键词片段的置信度和关键词识别门限,获得识别结果。
[0100]
处理设备可以将多媒体数据中存在关键词片段的置信度与关键词识别门限进行比较,进而得到识别结果。具体地,处理设备可以通过如下公式确定识别结果:
[0101][0102]
其中,sent_have_keyi为识别结果,key_sent
ij
为多媒体数据中存在关键词片段的置信度;key_threshold为关键词识别门限。当多媒体数据中存在关键词片段的置信度大于或等于关键词识别门限时,识别结果为“1”,表明该多媒体数据中存在关键词片段;当多媒体数据中存在关键词片段的置信度小于关键词识别门限时,识别结果为“0”,表明该多媒体数据不中存在关键词片段。识别结果中还包括处理设备对多媒体数据进行识别后得到的关键词,例如第一关键词、第二关键词或者是第一关键词和第二关键词。
[0103]
由公式(7)可知,关键词识别门限越大,则需要多媒体数据中存在关键词片段的置信度越大,才能够得到多媒体数据中存在关键词片段的识别结果。在一些示例中,关键词识别门限可以是50;在另一些示例中,关键词识别门限可以支持用户在预设区间内进行设置,例如预设区间为0-100,用户可以将关键词识别门限设置为0-100中的任一数值,例如设置为55。
[0104]
在本实施例中,处理设备可以接收用户配置的关键词识别门限,基于用户所配置的关键词识别门限,得到识别结果。如此能够支持用户对关键词识别门限的个性化配置,满足用户的需求,扩展该方法的应用范围。
[0105]
在一些实施例中,识别结果还可以包括多媒体数据中识别到的关键词对应的关键词片段,如图2a所示的一种人机交互界面的示意图,处理设备可以向用户呈现多媒体数据中识别到的关键词210以及对应的关键词片段221。在一些示例中,多媒体数据可以是语音,处理设备在识别到该语音中存在关键词时,对该语音进行截取处理,例如,可以截取该语音中出现关键词时刻的前后5秒的语音,进而得到关键词片段,并建立该关键词与关键词片段的对应关系,如此后续可以基于已建立的关键词与关键词片段的对应关系,确定该关键词所对应的关键词片段,进而向用户呈现关键词片段。处理设备可以基于用户对该关键词片段221的点击操作播放该关键词片段221,如播放截取后的语音。
[0106]
在另一些示例中,多媒体数据也可以是视频、还可以是图像。多媒体数据为视频时,处理设备在识别到该视频中存在关键词时,对该视频进行截取处理,例如可以截取该视频中出现关键词时刻前后5秒的视频,进而得到关键词片段。图2b示出了又一种人机交互界
面的示意图,处理设备可以基于用户对该关键词片段222的点击操作播放该关键词片段222,如播放截取后的视频。
[0107]
多媒体数据为图像时,处理设备在识别到该图像中存在关键词时,可以对该图像进行截取处理,例如可以以该关键词位置为中心,截取包括该关键词的图像,进而得到关键词片段,处理设备也可以将整个图像作为关键词片段。图2c示出了又一种人机交互界面的示意图,处理设备可以基于用户对该关键词片段222的点击操作,查看该关键词片段222,如对图像进行放大或缩小等。
[0108]
在一些实施例中,上述人机交互界面还包括校验组件230,校验组件230包括确认控件231以及修改控件232。处理设备可以接收用户对多媒体数据中识别到的关键词以及对应的关键词片段的校验信息。例如,用户可以基于校验组件230对识别结果进行校验,进而处理设备可以得到校验后的识别结果。例如,用户可以通过点击确认控件231确认识别结果,处理设备可以将用户确认的识别结果作为校验后识别结果;用户也可以通过修改控件232修改识别结果,例如补充漏识别的关键词或修改误识别的关键词等,处理设备可以将用户修改后的识别结果作为校验后的识别结果。
[0109]
在一些实施例中,处理设备还可以根据识别结果更新样本数据集,利用更新后的样本数据集更新模型,例如上述少数民族语音识别模型、少数民族语言词向量模型、语言翻译模型、官方语言词向量模型。上述识别结果可以根据业务需求得到,例如根据用户配置的关键词识别门限得到,基于此,利用该识别结果更新样本数据集后,在对模型进行更新,能够使得更新后的模型更加符合业务需求,提高识别的准确度。
[0110]
基于上述内容描述,本技术实施例提供了一种多媒体数据的挖掘方法。该方法中,处理设备将官方语言的语料和少数民族语言的语料进行融合,提升了少数民族语言的语料的规模,避免了少数民族语言的语料过少导致ai处理能力不佳的情况,提升了少数民族语言的多媒体数据中关键词的识别率,从而提升了少数民族语言的多媒体数据的挖掘效果。
[0111]
进一步地,该方法提供了句子级别的关键词识别能力,实现一个多媒体数据例如是一条语音中多个句子的关键词识别,建立关键词和句子对应的多媒体数据的对应关系,通过呈现上述对应关系,还可以支持人工校验,进一步提高准确度。如此可以积累更多的样本数据,并用于更新模型,提升模型性能。
[0112]
为了便于理解,下面以处理设备对少数民族语言的语音进行挖掘为例,介绍处理设备处理少数民族语言的语音的流程。
[0113]
如图3所示,在s310中,处理设备对少数民族语言的语音进行处理,处理设备可以基于少数民族语音识别模型得到该少数民族语言的语音中包括的第一文本(该第一文本包括s1,s2,

,sn),s1表示该第一文本中第1个句子,以及获取各个句子的置信度;然后结合少数民族语言词向量模型,得到该第一文本中各个句子中各个单词的词向量以及其置信度。
[0114]
处理设备对获取的第一文本进行处理,处理设备可以基于语言翻译模型得到第二文本(该第二文本包括st1,st2,

,stn),st1表示该第二文本中第1个句子,以及获取各个句子的置信度;然后结合官方语言词向量模型得到第二文本中各个句子中各个单词的词向量以及其置信度。
[0115]
在s320中,处理设备获取第一关键词的权重及词向量,例如处理设备可以基于历史数据的统计信息获得该第一关键词的权重,基于官方语言词向量模型得到该第一关键词
的词向量,该第一关键词可以是预设的关键词,也可以是用户配置的关键词。处理设备可以将该第一关键词进行翻译得到第二关键词,例如处理设备可以基于语言翻译模型对第一关键词进行翻译得到第二关键词,接着基于少数民族语言词向量模型得到该第二关键词的词向量。
[0116]
在s330中,以处理设备对第一文本中的一个句子以及该句子在第二文本中对应的句子进行处理为例,处理设备基于上述第一文本中句子的置信度、第一文本中句子中各个单词的词向量以及其置信度、第一关键词的权重及词向量、第二关键词的词向量,得到第一文本中的句子包括第二关键词的置信度。
[0117]
处理设备基于第二文本中一个句子的置信度、第二文本中一个句子中各个单词的词向量以及其置信度、第一关键词的权重及词向量,得到第二文本中的句子包括第一关键词的置信度。
[0118]
处理设备可以采用类似的方式,对第一文本中的每个句子包括第二关键词的置信度,第二文本中的每个句子包括第一关键词的置信度进行计算。
[0119]
处理设备基于第一文本中的句子包括第二关键词的置信度与第二文本中的句子包括第一关键词的置信度得到该少数民族语言的语音包括关键词的置信度。然后处理设备将该少数民族语言的语音包括关键词的置信度与关键词识别门限进行比较,得到识别结果。当少数民族语言的语音包括关键词的置信度大于或等于关键词识别门限时,识别结果为少数民族语言的语音包括关键词;反之,识别结果为少数民族语言的语音不包括关键词。
[0120]
在s340中,处理设备可以接收用户配置的关键词识别门限,如此,能够支持对多媒体数据的挖掘进行个性化配置,满足业务需求。处理设备还可以呈现识别结果,并接收用户对该识别结果包括的关键词以及该关键词对应的关键词片段的校验信息,得到校验后的识别结果。
[0121]
在s350中,处理设备可以基于校验后的识别结果,更新样本数据集,利用更新后的样本数据集对上述少数民族语音识别模型、少数民族语言词向量模型、官方语言词向量模型以及语言翻译模型进行定期更新,从而进一步提高对少数民族语言的多媒体数据的挖掘效果,满足业务需求。
[0122]
在本技术实施例中,处理设备基于上述第一文本的信息和第二文本的信息,对少数民族语言的语音进行数据挖掘,提高识别少数民族语言的语音中包括关键词的准确度;处理设备还可以接收用户配置的关键词识别门限,满足多种业务需求,扩展了该方法的应用范围;处理设备还可以基于识别结果对模型进行定期更新,进一步提高了识别少数民族语言的语音中包括关键词的准确度。
[0123]
本技术实施例还提供了一种多媒体数据的挖掘装置,如图4所示,该多媒体数据挖掘装置400包括:
[0124]
获取模块401,用于获取少数民族语言的多媒体数据的转写结果和翻译结果,以及获取第一关键词和第二关键词,所述第一关键词为官方语言的关键词,所述第二关键词为翻译得到的少数民族语言的关键词;
[0125]
计算模块402,用于根据所述转写结果和所述翻译结果,结合所述第一关键词和所述第二关键词,获得所述多媒体数据中存在关键词片段的置信度
[0126]
识别模块403,用于根据所述多媒体数据中存在关键词片段的置信度和关键词识
别门限,获得识别结果,所述识别结果包括所述多媒体数据中识别到的关键词。
[0127]
一种可能的实现方式中,所述计算模块402,具体用于根据所述转写结果和所述第二关键词确定所述转写结果中存在所述第二关键词的置信度,以及根据所述翻译结果和所述第一关键词,确定所述翻译结果中存在所述第一关键词的置信度;根据所述转写结果中存在所述第二关键词的置信度以及所述翻译结果中存在所述第一关键词的置信度,获得所述多媒体数据中存在关键词片段的置信度。
[0128]
一种可能的实现方式中,所述计算模块402,具体用于将所述第二关键词与所述转写结果进行字符匹配,根据字符匹配的结果获得所述转写结果中存在所述第二关键词的第一置信度;和/或,确定所述第二关键词的词向量与所述转写结果中至少一个单词的词向量的相似度,根据所述相似度获得所述转写结果中存在所述第二关键词的第二置信度。
[0129]
一种可能的实现方式中,所述转写结果中存在所述第二关键词的第一置信度通过所述转写结果的句子中存在所述第二关键词的第一置信度表征;当所述第二关键词与所述句子匹配时,则所述句子中存在所述第二关键词的第一置信度为所述第二关键词对应的第一关键词的权重与预设系数的乘积,否则所述第一置信度为零。
[0130]
一种可能的实现方式中,所述转写结果中存在所述第二关键词的第二置信度通过所述转写结果的句子中存在所述第二关键词的第二置信度表征;所述第二关键词的词向量与所述转写结果中单词的词向量的相似度通过所述第二关键词的词向量与所述转写结果的句子中单词的词向量之间的距离表征;所述转写结果的句子中存在所述第二关键词的第二置信度为目标距离的加权和值,所述目标距离为所述句子中目标单词的词向量与所述第二关键词的词向量之间的距离,所述目标单词为所述距离不小于预设距离的单词,所述目标距离的权重为所述第一关键词的权重和所述句子中所述目标单词的权重的乘积。
[0131]
一种可能的实现方式中,所述计算模块402,具体用于将所述第一关键词与所述翻译结果进行字符匹配,根据字符匹配的结果获得所述翻译结果中存在所述第一关键词的第三置信度;和/或,确定所述第一关键词的词向量与所述翻译结果中至少一个单词的词向量的相似度,根据所述相似度获得所述翻译结果中存在所述第一关键词的第四置信度。
[0132]
一种可能的实现方式中,所述翻译结果中存在所述第一关键词的第三置信度通过所述翻译结果的句子中存在所述第一关键词的第三置信度表征;当所述第一关键词与所述句子匹配时,则所述句子中存在所述第一关键词的第三置信度为第一关键词的权重与预设系数的乘积,否则所述第三置信度为零。
[0133]
一种可能的实现方式中,所述翻译结果中存在所述第一关键词的第四置信度通过所述翻译结果的句子中存在所述第一关键词的第四置信度表征;所述第一关键词的词向量与所述翻译结果中单词的词向量的相似度通过所述第一关键词的词向量与所述翻译结果的句子中单词的词向量之间的距离表征;所述翻译结果的句子中存在所述第一关键词的第四置信度为目标距离的加权和值,所述目标距离为所述句子中目标单词的词向量与所述第一关键词的词向量之间的距离,所述目标单词为所述距离不小于预设距离的单词,所述目标距离的权重为所述第一关键词的权重和所述句子中所述目标单词的权重的乘积。
[0134]
一种可能的实现方式中,所述第一关键词的权重根据历史数据中的统计信息获得。
[0135]
一种可能的实现方式中,所述识别结果还包括所述关键词片段;所述装置还包括
显示模块,用于向用户呈现所述多媒体数据中识别到的关键词以及对应的关键词片段;接收用户对所述多媒体数据中识别到的关键词以及对应的关键词片段的校验信息,获得校验后的所述识别结果。
[0136]
一种可能的实现方式中,所述装置还包括更新模块,用于根据所述识别结果更新样本数据集;利用更新后的所述样本数据集更新模型。
[0137]
本技术实施例还提供了一种多媒体数据的挖掘设备,包括:处理器、存储器、系统总线;
[0138]
所述处理器以及所述存储器通过所述系统总线相连;
[0139]
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述多媒体数据的挖掘方法的任一种实现方法。
[0140]
进一步地,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述多媒体数据的挖掘方法的任一种实现方法。
[0141]
进一步地,本技术实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述多媒体数据的挖掘方法的任一种实现方法。
[0142]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0143]
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0144]
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0145]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1