一种基于语音识别的媒体搜索方法及装置制造方法

文档序号：2826589阅读：245来源：国知局

一种基于语音识别的媒体搜索方法及装置制造方法
【专利摘要】本发明提供一种基于语音识别的媒体搜索方法及装置，该方法包括步骤：获取媒体的内容标引和元数据信息；关联所述内容标引和元数据信息建立媒体知识库；解析采集到的用户查询语音得到对应的语音识别文本；根据所述语音识别文本对所述媒体知识库进行媒体搜索。本发明所公开的一种基于语音识别的媒体搜索方法及装置，在前端采用语音识别给用户提供更加方便的交互方式，在后端对媒体内容进行识别，并构建相应的知识库，最终达到用户通过语音对媒体内容进行搜索的目的；相比于传统的搜索方式，在客户端给用户提供语音交互方式，使得交互更加方便自然；在服务端对媒体进行基于内容识别和基于自然语言搜索，使得用户对媒体内容的搜索更加精确。
【专利说明】—种基于语音识别的媒体搜索方法及装置
【技术领域】
[0001]本发明涉及数据信息处理【技术领域】，尤其涉及一种基于语音识别的媒体搜索方法及装置。
【背景技术】
[0002]随着互联网和数字多媒体内容的发展，数字媒体尤其是数字视频成爆炸性增长的态势，如何对数字媒体进行快速有效的检索具有重要的应用价值。由于数字媒体是非结构化的数据，要想达到对数字媒体内容进行检索的需求，需要对数字媒体的内容进行识别，比如将音频中的语音识别为文本，视频中的字幕识别为文本，然后利用文本进行检索。
[0003]另一方面，移动互联网蓬勃发展，人与智能设备之间的交互成为重要研究方向。语音交互作为最自然方便的的一种人机交互的手段，受到了企业的重视和用户的喜爱。
[0004]语音识别技术(Automatic Speech Recognition, ASR),也被称为自动语音识别，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
[0005]语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如基于媒体内容和语音智能交互媒体搜索方法。

【发明内容】

[0006]本发明主要解决的技术问题是如何提供一种基于语音识别的媒体搜索方法及装置，实现用户通过语音对媒体内容进行更加精确的搜索。
[0007]为此目的，本发明提供了一种基于语音识别的媒体搜索方法，该方法包括以下步骤:
[0008]获取媒体的内容标引和元数据信息；
[0009]关联所述内容标引和元数据信息建立媒体知识库；
[0010]解析采集到的用户查询语音得到对应的语音识别文本；
[0011]根据所述语音识别文本对所述媒体知识库进行媒体搜索。
[0012]其中，所述获取媒体的内容标引，具体包括:
[0013]将接收到的媒体转码为统一的编码格式；
[0014]对转码后的媒体进行节目起止点的标记得到节目层的标引；
[0015]对所述节目层中的各节目进行片段的切分得到片段层的标引；
[0016]对所述片段层中的各片段进行语音识别和字幕识别得到文字层的标引。
[0017]其中，所述对所述片段层中的各片段进行语音识别和字幕识别得到文字层的标弓丨，具体包括:
[0018]获取所述语音识别的识别路径和所述识别路径对应的语音识别文本；[0019]获取所述字幕识别的识别路径和所述识别路径对应的字幕识别文本；
[0020]合并所述语音识别文本和字幕识别文本，得到文字层的标引。
[0021]其中，所述元数据信息包括但不限于媒体的导演、人物、主题名、类型、地域和语言。
[0022]其中，所述解析采集到的用户查询语音得到对应的语音识别文本，具体包括:
[0023]接收用户查询语音的音频信号；
[0024]将解码后的所述音频信号进行分段；
[0025]对每一段音频信号分别进行语音识别获得段识别文本；
[0026]合并每一段音频信号的所述段识别文本得到所述语音识别文本。
[0027]其中，所述根据所述语音识别文本对所述媒体知识库进行媒体搜索，具体包括:
[0028]根据预设的元数据词典提取所述语音识别文本中存在的元数据信息；
[0029]根据提取的元数据信息在所述媒体知识库中进行元数据搜索；
[0030]根据预设的关键词库提取所述语音识别文本中存在的关键词信息；
[0031]根据所述关键词信息在所述媒体知识库中进行关键词搜索；
[0032]合并所述元数据搜索的结果和所述关键词搜索的结果得到完整的搜索结果。
[0033]此外，本发明还提出一种基于语音识别的媒体搜索装置，包括:
[0034]获取模块，关联模块、解析模块和搜索模块；
[0035]获取模块，用于获取媒体的内容标引和元数据信息；
[0036]关联模块，用于关联所述获取模块获取到的内容标引和元数据信息建立媒体知识库；
[0037]解析模块，用于解析采集到的用户查询语音得到对应的语音识别文本；
[0038]搜索模块，用于根据所述语音识别文本对所述媒体知识库进行媒体搜索。
[0039]其中，所述获取模块包括:转码单元，标记单元，切分单元和识别单元；
[0040]转码单元，用于将接收到的媒体转码为统一的编码格式；
[0041 ]标记单元，用于对转码后的媒体进行节目起止点的标记得到节目层的标引；
[0042]切分单元，用于对所述媒体中的节目进行片段的切分得到片段层的标引；
[0043]识别单元，用于对所述节目中的片段分别进行语音识别和字幕识别得到文字层的标引。
[0044]其中，所述解析模块包括:接收单元、解码单元、分段单元、识别单元和合并单元；
[0045]接收单元，用于接收用户查询语音的音频信号；
[0046]解码单元，用于对所述音频信号进行解码；
[0047]分段单元，用于将解码后的所述音频信号进行分段；
[0048]识别单元，用于对每一段音频信号分别进行语音识别获得段识别文本；
[0049]合并单元，用于合并每一段音频信号的所述段识别文本得到所述语音识别文本。
[0050]其中，所述搜索模块包括:第一提取单元、第一搜索单元、第二提取单元、第二搜索单元和合并单元；
[0051]第一提取单元，用于根据预设的元数据词典提取所述语音识别文本中存在的元数据信息；
[0052]第一搜索单元，用于根据提取的元数据信息在所述媒体知识库中进行元数据搜索；
[0053]第二提取单元，用于根据预设的关键词库提取所述语音识别文本中存在的关键词信息；
[0054]第二搜索单元，用于根据所述关键词信息在所述媒体知识库中进行关键词搜索；
[0055]合并单元，用于合并所述第一搜索单元的元数据搜索结果和所述第二搜索单元的关键词搜索结果得到完整的搜索结果。
[0056]通过采用本发明所公开的一种基于语音识别的媒体搜索方法及装置，在前端采用语音交互从而给用户提供更加方便的交互方式，在后端对媒体内容进行识别，并构建相应的知识库，最终达到用户通过语音对媒体内容进行搜索的目的；相比于传统的搜索方式，该方法在客户端给用户提供语音交互方式，使得交互更加方便自然；在服务端对媒体进行基于内容识别和基于自然语言搜索，使得用户对媒体内容的搜索更加精确。
【专利附图】

【附图说明】
[0057]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0058]图1:是本发明一种基于语音识别的媒体搜索方法的流程图；
[0059]图2:是本发明实施例一记载的一种基于语音识别的媒体搜索方法的流程框图；
[0060]图3:是本发明一种基于语音识别的媒体搜索装置的模块图。
【具体实施方式】
[0061]下面将结合本发明的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0062]本发明实施例一提出了一种基于语音识别的媒体搜索方法，如图1所示，包括以下步骤:
[0063]步骤101，获取媒体的内容标引和元数据信息；
[0064]步骤102，关联所述内容标引和元数据信息建立媒体知识库；
[0065]步骤103，解析采集到的用户查询语音得到对应的语音识别文本；
[0066]步骤104，根据所述语音识别文本对所述媒体知识库进行媒体搜索。
[0067]其中，所述获取媒体的内容标引，具体包括:
[0068]将接收到的媒体转码为统一的编码格式；
[0069]对转码后的媒体进行节目起止点的标记得到节目层的标引；
[0070]对所述节目层中的各节目进行片段的切分得到片段层的标引；
[0071]对所述片段层中的各片段进行语音识别和字幕识别得到文字层的标引。
[0072]本实施例中，如图2所示，对从不同信号源获取的媒体进行内容加工，得到关于媒体内容的标引，具体步骤包括:[0073]将从不同信号源获取的媒体转码到统一的格式。采集媒体数据，既可以通过广播电视采集卡，采集广播电视信号，也可以通过网络爬虫抓取网络上的视频，也可以通过其他方式，比如直接从存储介质中获取。对于收集到的数字化的各类格式的视频文件，使用ffmpeg，也可以是其他的视频转码软件，将其转码为规定的统一格式。例如，转码后的视频文件为avi格式，转码后的音频文件为wav格式，并将转码后的媒体文件存储到计算机的临时存储区。
[0074]对于包含多个节目的媒体进行节目的起止点的标记，得到节目层的标引。节目起止点的标记可以采用人工标记的方式，也可以采用计算机自动标记的方式。对于采用计算机自动标记的方式，其步骤包括:
[0075]搜集需要做标记的所有节目的媒体文件，每个文件对应一个节目；
[0076]提取媒体文件内容的指纹特征，并保存为相应的模板；
[0077]将待标记的媒体文件与模板进行匹配。当媒体文件的某部分和某个模板匹配上时，匹配上的媒体文件的片段即为该模板所对应的节目在媒体文件中的起止时间。
[0078]对于一个节目，进行镜头片段的切分，得到片段层的标引。镜头是摄像机从打开到关闭这一过程记录下来的连续图像帧，它是视频中的最小物理单元。在镜头内部，相邻和相近的视频帧特征相近，变化很小，但在镜头转换处，视频帧的特征往往会发生明显的改变。镜头分割的步骤如下:
[0079]选取特征描述帧图像，优选的，提取每帧图像的彩色RGB空间直方图作为该帧图像的特征。
[0080]计算帧间差异，即计算帧间彩色RGB空间直方图的差异。优选的，使用欧式距离进
行度量；
[0081]选取策略分析这些差异并确定镜头边界，优选的，使用滑动窗口检测法确定镜头边界。片段层的标引即为镜头的开始和结果时间点。
[0082]其中，所述对所述片段层中的各片段进行语音识别和字幕识别得到文字层的标弓丨，具体包括:
[0083]步骤301，获取所述语音识别的识别路径和所述识别路径对应的语音识别文本；
[0084]步骤302，获取所述字幕识别的识别路径和所述识别路径对应的字幕识别文本；
[0085]步骤303，合并所述语音识别文本和字幕识别文本，得到文字层的标引。
[0086]本实施例中对于具有语音或字幕的视频片段，分别进行语音识别和字幕识别，并将同时具有语音和字幕的视频片段的语音识别结果和字幕识别结果进行融合，得到文字层的标引。字幕和语音是描述视频媒体内容重要的线索，具体步骤包括:
[0087]利用自动连续语音识别方法，得到语音识别的前M条优选识别路径，以及每条路径对应的识别结果；
[0088]利用字幕识别方法，得到字幕识别的前M条优选识别路径，以及每条路径对应的识别结果；
[0089]将所述的语音识别的前M条优选识别路径和所述的字幕识别的前M条优选识别路径合并为候选结果图；
[0090]对所述的候选结果图中的每个候选字集，根据投票得分规则选择得分最高的字作该为节点对应的字，最终得到融合的识别结果。该识别结果连同每个字出现的时间点，作为文字层的标引保存。
[0091]其中，所述元数据信息包括但不限于媒体的导演、人物、主题名、类型、地域和语言。
[0092]其中，所述解析采集到的用户查询语音得到对应的语音识别文本，具体包括:
[0093]步骤401，接收用户查询语音的音频信号；
[0094]步骤402，将解码后的所述音频信号进行分段；
[0095]步骤403，对每一段音频信号分别进行语音识别获得段识别文本；
[0096]步骤404，合并每一段音频信号的所述段识别文本得到所述语音识别文本。
[0097]本实施例中采集用户的关于媒体的语音查询输入。用户的语音查询输入通过客户端录音模块进行录音，并经过压缩编码后，通过网络传输到服务器端进行处理。
[0098]对用户的语音查询输入进行语音识别，得到语音识别的文本结果，其具体步骤包括:接收来自客户端的音频信号，并进行解码。优选的，可将音频解码为PCM格式；将解码后的音频信号根据静音进行端点检测，从而将连续的音频信号切分为几段；将每段音频分别送入到分布式连续语音识别引擎中，并行进行语音识别的处理；回收所有并行处理的语音识别的结果片段，并拼接得到完整的语音识别结果。
[0099]其中，所述根据所述语音识别文本对所述媒体知识库进行媒体搜索，具体包括:
[0100]根据预设的元数据词典提取所述语音识别文本中存在的元数据信息；
[0101]根据提取的元数据信息在所述媒体知识库中进行元数据搜索；
[0102]根据预设的关键词库提取所述语音识别文本中存在的关键词信息；
[0103]根据所述关键词信息在所述媒体知识库中进行关键词搜索；
[0104]合并所述元数据搜索的结果和所述关键词搜索的结果得到完整的搜索结果。
[0105]本发明实施例中对语音识别的文本结果进行语义理解，触发对媒体的知识库的搜索命令，并将搜索结果返回给用户，语音识别的文本结果作为查询文本，对文本进行语义理解是指对提取文本中关键的、有意义的词，作为查询检索的查询词。本步骤提供两种提取查询词的方法，一种是基于元数据的查询词提取，另一种是基于实体、概念的查询词的抽取。触发对媒体的知识库的搜索命令，并将搜索结果返回给用户，其具体步骤包括:
[0106]基于预定义的元数据词典和用户查询语法规则提取语音识别的文本结果中的元数据信息。
[0107]通过收集的影视媒体的元数据信息对用户的新查询问句进行元数据的标注。
[0108]将标注的用户查询问句和预先收集的用户查询语法规则进行匹配，得到最合适的元数据的标注。
[0109]对于元数据信息进行扩展，得到扩展后的元数据信息。所述的扩展主要是根据知识图谱进行同义词、相关词等的扩展。
[0110]从语音识别的文本结果中抽取实体、概念等关键词信息。利用机器学习的方法从海量的语料中学习到实体、概念等关键词信息。再利用这些信息从语音识别的文本结果中抽取实体、概念等关键词。
[0111]对关键词信息进行扩展，得到扩展后的关键词信息。所述的扩展主要是根据知识图谱进行同义词、相关词等的扩展。
[0112]利用元数据信息从媒体的知识库中进行元数据搜索，得到基于元数据的搜索结果O
[0113]利用关键词信息并从媒体的知识库中进行关键词搜索，得到基于关键词的搜索结果;
[0114]对基于元数据的搜索结果和基于关键词的搜索结果融合，得到最终的搜索结果，并将结果返回给用户。
[0115]此外，本发明实施例二中还提出一种基于语音识别的媒体搜索装置，如图3所示，包括:
[0116]获取模块1、关联模块2、解析模块3和搜索模块4 ；
[0117]获取模块1，用于获取媒体的内容标引和元数据信息；
[0118]关联模块2，用于关联所述获取模块获取到的内容标引和元数据信息建立媒体知识库；
[0119]解析模块3，用于解析采集到的用户查询语音得到对应的语音识别文本；
[0120]搜索模块4，用于根据所述语音识别文本对所述媒体知识库进行媒体搜索。
[0121]其中，所述获取模块包括:转码单元、标记单元、切分单元和识别单元；
[0122]转码单元，用于将接收到的媒体转码为统一的编码格式；
[0123]标记单元，用于对转码后的媒体进行节目起止点的标记得到节目层的标引；
[0124]切分单元，用于对所述媒体中的节目进行片段的切分得到片段层的标引；
[0125]识别单元，用于对所述节目中的片段分别进行语音识别和字幕识别得到文字层的标引。
[0126]其中，所述解析模块包括:接收单元、解码单元、分段单元、识别单元和合并单元；
[0127]接收单元，用于接收用户查询语音的音频信号；
[0128]解码单元，用于对所述音频信号进行解码；
[0129]分段单元，用于将解码后的所述音频信号进行分段；
[0130]识别单元，用于对每一段音频信号分别进行语音识别获得段识别文本；
[0131]合并单元，用于合并每一段音频信号的所述段识别文本得到所述语音识别文本。
[0132]其中，所述搜索模块包括:第一提取单元、第一搜索单元、第二提取单元、第二搜索单元和合并单元；
[0133]第一提取单元，用于根据预设的元数据词典提取所述语音识别文本中存在的元数据信息；
[0134]第一搜索单元，用于根据提取的元数据信息在所述媒体知识库中进行元数据搜索；
[0135]第二提取单元，用于根据预设的关键词库提取所述语音识别文本中存在的关键词信息；
[0136]第二搜索单元，用于根据所述关键词信息在所述媒体知识库中进行关键词搜索；
[0137]合并单元，用于合并所述第一搜索单元的元数据搜索结果和所述第二搜索单元的关键词搜索结果得到完整的搜索结果。
[0138]通过采用本发明所公开的一种基于语音识别的媒体搜索方法及装置，在前端采用语音交互从而给用户提供更加方便的交互方式，在后端对媒体内容进行识别，并构建相应的知识库，最终达到用户通过语音对媒体内容进行搜索的目的；而且相比于传统的搜索方式，该方法在客户端给用户提供语音交互方式，使得交互更加方便自然；在服务端对媒体进行基于内容识别和基于自然语言搜索，使得用户对媒体内容的搜索更加精确。
[0139] 以上实施例仅用以说明本发明的技术方案而非限定，仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。
【权利要求】
1.一种基于语音识别的媒体搜索方法，其特征在于，包括步骤: 获取媒体的内容标引和元数据信息；关联所述内容标引和元数据信息建立媒体知识库；解析采集到的用户查询语音得到对应的语音识别文本；根据所述语音识别文本对所述媒体知识库进行媒体搜索。
2.根据权利要求1所述的方法，其特征在于，所述获取媒体的内容标引，具体包括: 将接收到的媒体转码为统一的编码格式；对转码后的媒体进行节目起止点的标记得到节目层的标引；对所述节目层中的各节目进行片段的切分得到片段层的标引；对所述片段层中的各片段进行语音识别和字幕识别得到文字层的标引。
3.根据权利要求2所述的方法，其特征在于，所述对所述片段层中的各片段进行语音识别和字幕识别得到文字层的标引，具体包括: 获取所述语音识别的识别路径和所述识别路径对应的语音识别文本；获取所述字幕识别的识别路径和所述识别路径对应的字幕识别文本；合并所述语音识别文本和字幕识别文本，得到文字层的标引。
4.根据权利要求1所述的方法，其特征在于，所述元数据信息包括但不限于媒体的导演、人物、主题名、类型、地域和语言。
5.根据权利要求1所述的方法，其特征在于，所述解析采集到的用户查询语音得到对应的语音识别文本，具体包括: 接收用户查询语音的音频信号；将解码后的所述音频信号进行分段；对每一段音频信号分别进行语音识别获得段识别文本；合并每一段音频信号的所述段识别文本得到所述语音识别文本。
6.根据权利要求1所述的方法，其特征在于，所述根据所述语音识别文本对所述媒体知识库进行媒体搜索，具体包括: 根据预设的元数据词典提取所述语音识别文本中存在的元数据信息；根据提取的元数据信息在所述媒体知识库中进行元数据搜索；根据预设的关键词库提取所述语音识别文本中存在的关键词信息；根据所述关键词信息在所述媒体知识库中进行关键词搜索；合并所述元数据搜索的结果和所述关键词搜索的结果得到完整的搜索结果。
7.一种基于语音识别的媒体搜索装置，其特征在于，包括获取模块、关联模块、解析模块和搜索模块；获取模块，用于获取媒体的内容标引和元数据信息；关联模块，用于关联所述获取模块获取到的内容标引和元数据信息建立媒体知识库；解析模块，用于解析采集到的用户查询语音得到对应的语音识别文本；搜索模块，用于根据所述语音识别文本对所述媒体知识库进行媒体搜索。
8.根据权利要求7所述的装置，其特征在于，所述获取模块包括:转码单元，标记单元，切分单元和识别单元；转码单元，用于将接收到的媒体转码为统一的编码格式；标记单元，用于对转码后的媒体进行节目起止点的标记得到节目层的标引；切分单元，用于对所述媒体中的节目进行片段的切分得到片段层的标引；识别单元，用于对所述节目中的片段分别进行语音识别和字幕识别得到文字层的标引。
9.根据权利要求7所述的装置，其特征在于，所述解析模块包括:接收单元、解码单元、分段单元、识别单元和合并单元；接收单元，用于接收用户查询语音的音频信号；解码单元，用于对所述音频信号进行解码；分段单元，用于将解码后的所述音频信号进行分段；识别单元，用于对每一段音频信号分别进行语音识别获得段识别文本；合并单元，用于合并每一段音频信号的所述段识别文本得到所述语音识别文本。
10.根据权利要求7所述的装置，其特征在于，所述搜索模块包括:第一提取单元、第一搜索单元、第二提取单元、第二搜索单元和合并单元；第一提取单元，用于根据预设的元数据词典提取所述语音识别文本中存在的元数据信息；第一搜索单元，用于根据提取的元数据信息在所述媒体知识库中进行元数据搜索；第二提取单元，用于根据预设的关键词库提取所述语音识别文本中存在的关键词信息；第二搜索单元，用于根据所述关键词信息在所述媒体知识库中进行关键词搜索；合并单元，用于合并所述第一搜索单元的元数据搜索结果和所述第二搜索单元的关键词搜索结果得到完整的搜索结果。
【文档编号】G10L15/08GK103761261SQ201310752909
【公开日】2014年4月30日申请日期:2013年12月31日优先权日:2013年12月31日
【发明者】高鹏申请人:北京紫冬锐意语音科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高鹏
技术所有人：北京紫冬锐意语音科技有限公司
我是此专利的发明人

上一篇：基于声纹识别技术的满意度调查作弊排查方法
上一篇：监控环境声音的方法及系统的制作方法