多媒体播放器中的多媒体文件存储方法和装置与流程

文档序号:12484914阅读:676来源:国知局
多媒体播放器中的多媒体文件存储方法和装置与流程

本发明涉及家电技术领域,更具体地说,涉及多媒体播放器中的多媒体文件存储方法和装置。



背景技术:

目前,随着科技的进步,智能设备越来越多,功能也越来越强大。例如各种多媒体播放器(如电视、手机、相机等)不仅能够接入互联网,实现上网冲浪,获取各种网络资源;同时强大的多媒体功能让其成为人们制作多媒体素材的工具,尤其是多媒体播放器中内置有多媒体采集设备(如麦克风等),给人们带来了极大的便利。人们可以随时随地用多媒体播放器中内置的多媒体采集设备进行拍照、录像、录音等来记录重要的片段,成为生活和工作的一部分。但是随着多媒体播放器采集的多媒体信息的数量的增多,如何快速、准确、高效的定位或检索到用户需要的多媒体信息已经成为目前急需解决的问题。

尤其随着多媒体播放器,如电视的智能化发展,智能电视不仅能够接入互联网,实现上网冲浪,获取各种网络资源;还将成为家庭娱乐中心,人们可以方便的在电视上进行K歌、聚会、共享亲友视频、安防监控、留言等,这些功能的普及将使得电视录制的各种多媒体文件,如音视频文件的数量巨大,但是在电视上对数量巨大的多媒体文件进行管理时,由于电视遥控器操作较为复杂繁琐,交互性较差,因此受到电视的文字输入设备的限制,导致对电视等多媒体播放器中的多媒体文件进行存储管理时存在效率低的问题。



技术实现要素:

有鉴于此,本发明提供了一种多媒体播放器中的多媒体文件的存储方法,以解决现有的由于受多媒体播放器的输入设备的限制而导致的对多媒体播放器中的多媒体文件进行存储管理时存在的效率低的问题。

第一方面,提供一种多媒体播放器中的多媒体文件的存储方法,所述方法包括:

获取针对多媒体播放器中的多媒体文件输入的语音信息;

对所述语音信息进行语音识别,将所述语音信息识别成对应的文字信息;

将所述文字信息与所述多媒体文件进行关联存储。

优选的,在所述将所述文字信息与所述多媒体文件进行关联存储之前,所述方法还包括:

对所述文字信息进行语义拆分,从所述文字信息中提取关键词;

所述将所述文字信息与所述音视频文件进行关联存储具体为:

将所述关键词与所述多媒体文件进行关联存储。

优选的,在所述获取针对多媒体播放器中的多媒体文件输入的语音信息之前,所述方法还包括:

通过多媒体播放器的多媒体采集设备录制多媒体片段;

通过多媒体播放器中的预设算法对录制的多媒体片段进行去噪声和增益调整处理;

将处理后的多媒体片段存储成多媒体播放器中的音视频文件。

优选的,所述通过多媒体播放器中的预设算法对录制的多媒体片段进行去噪声和增益调整处理具体包括:

对录制的多媒体片段进行去噪声处理;

采用多媒体播放器中预设的回声抑制算法对去噪处理后的多媒体片段进行回声抑制处理;

对回声抑制处理后的多媒体片段进行增益调整。

优选的,所述对录制的多媒体片段进行去噪声具体包括:

将录制的多媒体片段的频谱与录制的环境背景噪声的频谱相减,其中所述环境背景噪声的频谱为在录制多媒体片段时录制的环境背景噪声的频谱,或者当在录制多媒体片段时未录制环境背景噪声时,统计录制的多媒体片段的幅值,将幅值低于预设幅值阈值的多媒体片段的平均频谱作为环境背景噪声的频谱;

统计与环境背景噪声的频谱相减后的多媒体片段的频率,去除该多媒体片段中频率过高以及频率过低的异常频段。

优选的,所述对回声抑制处理后的多媒体片段进行增益调整具体包括:

统计环境背景噪声的幅值,所述环境背景噪声的幅值为在录制多媒体片段时录制的环境背景噪声的,或者为录制的多媒体片段中幅值低于预设幅值阈值的多媒体片段的平均幅值;

当录制的多媒体片段的幅值远大于环境背景噪声的幅值时,降低录制的多媒体片段的幅值;当录制的多媒体片段的幅值远小于环境背景噪声的幅值时,提高录制的多媒体片段的幅值。

优选的,所述获取针对多媒体播放器中的多媒体文件输入的语音具体包括:

通过多媒体播放器中的多媒体采集设备采集针对多媒体播放器中的多媒体文件输入的语音信息;和/或,

从多媒体播放器中的多媒体文件中提取语音信息。

优选的,所述通过多媒体播放器中的多媒体采集设备采集针对多媒体播放器中的多媒体文件输入的语音信息具体包括:

通过多媒体播放器中的多媒体采集设备采集至少一段针对多媒体播放器中的多媒体文件输入的语音片段,将所述至少一段语音片段组合成针对多媒体播放器中的多媒体文件输入的语音信息,所述语音信息包括主题部分和标题部分。

优选的,从多媒体播放器中的多媒体文件中提取语音信息具体包括:

按照预设的时间间隔从多媒体文件中截取预设长度的语音片段;

将截取的语音片段的频率与预先存储的噪声语音库中的噪声的频率进行比对,去除截取的语音片段中的噪声部分;

在剩余的语音片段的附近位置截取固定长度的语音片段,将截取到的固定长度的语音片段组合成针对音视频播放器中的音视频文件输入的语音信息。

第二方面,提供一种多媒体播放器中的多媒体文件存储装置,所述装置包括:

语音信息获取单元,用于获取针对多媒体播放器中的多媒体文件输入的语音信息;

语音识别单元,用于对所述语音信息进行语音识别,将所述语音信息识别成对应的文字信息;

文件存储单元,用于将所述文字信息与所述多媒体文件进行关联存储。

优选的,所述装置还包括:

关键词提取单元,用于对所述语音识别单元识别得到的所述文字信息进行语义拆分,从所述文字信息中提取关键词;

所述文件存储单元将所述关键词与所述多媒体文件进行关联存储。

优选的,所述语音信息获取单元具体包括:

语音信息采集模块,用于通过多媒体播放器中的多媒体采集设备采集针对多媒体播放器中的多媒体文件输入的语音信息;和/或,

语音信息提取模块,用于从多媒体播放器中的多媒体文件中提取语音信息。

优选的,所述语音信息采集模块具体用于通过多媒体播放器中的多媒体采集设备采集至少一段针对多媒体播放器中的多媒体文件输入的语音片段,将所述至少一段语音片段组合成针对多媒体播放器中的多媒体文件输入的语音信息,所述语音信息包括主题部分和标题部分;

所述语音信息提取模块具体用于按照预设的时间间隔从多媒体文件中截取预设长度的语音片段,将截取的语音片段的频率与预先存储的噪声语音库中的噪声的频率进行比对,去除截取的语音片段中的噪声部分,在剩余的语音片段的附近位置截取固定长度的语音片段,将截取到的固定长度的语音片段组合成针对音视频播放器中的音视频文件输入的语音信息。。

与现有技术相比,本发明所提供的技术方案具有以下优点:

本发明通过多媒体播放器中的音视频采集设备采集针对多媒体播放器中的多媒体文件输入的语音信息,对该语音信息进行语音识别,以将该语音信息识别成文字信息,将该文字信息与该多媒体文件进行关联存储,从而可以减少多媒体文件存储过程中对多媒体播放器的文字输入设备的使用频率,进而提高了多媒体文件的存储效率,另外由于将语音信息识别成文字信息,并将文字信息与多媒体文件进行关联存储,从而利用与多媒体信息关联存储的文字信息可以对多媒体文件进行快速、高效、准确的定位和检索。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明第一实施例提供的多媒体播放器中的多媒体文件存储方法的实现流程图;

图2为本发明第二实施例提供的多媒体播放器中的多媒体文件存储方法的实现流程图;

图3为本发明第三实施例提供的多媒体播放器中的多媒体文件存储方法的实现流程图;

图4为本发明实施例提供的图3中的S32的具体实现流程图;

图5为本发明实施例提供的多媒体播放器中的多媒体文件存储装置的结构框图。

具体实施方式

本发明提供了一种多媒体播放器中的多媒体文件的存储方法,所述方法包括:

获取针对多媒体播放器中的多媒体文件输入的语音信息;

对所述语音信息进行语音识别,将所述语音信息识别成对应的文字信息;

将所述文字信息与所述多媒体文件进行关联存储。

本发明还提供了一种多媒体播放器中的多媒体文件存储装置,所述装置包括:

语音信息获取单元,用于获取针对多媒体播放器中的多媒体文件输入的语音信息;

语音识别单元,用于对所述语音信息进行语音识别,将所述语音信息识别成对应的文字信息;

文件存储单元,用于将所述文字信息与所述多媒体文件进行关联存储。

以上是本发明的核心思想,为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似应用,因此本发明不受下面公开的具体实施例的限制。

其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。

下面通过几个实施例详细描述。

实施例一

图1示出了本发明实施例提供的多媒体播放器中的多媒体文件的存储方法的实现流程,详述如下:

S11,获取针对多媒体播放器中的多媒体文件输入的语音信息。

其中多媒体播放器可以为电视、手机等。多媒体播放器中的多媒体文件为音频文件、视频文件、音视频文件等。针对多媒体播放器中的多媒体文件输入的语音信息可以为语音信息或者包含语音信息的视频信息等。该语音信息可以包括一段语音片段,也可以包括两段或者两段以上的语音片段。

其中获取语音信息的方式可以为现有技术提供的任意一种方式,也可以为本发明实施例提供的如下两种方式:

一种是通过多媒体播放器中的多媒体采集设备采集针对多媒体播放器中的多媒体文件输入的语音信息。其中多媒体采集设备包括但不限于音频采集器、视频采集器、音视频采集器等。其中音频采集器包括麦克风等。

另一种是从多媒体播放器中的多媒体文件中提取语音信息。

具体的,通过多媒体播放器中的多媒体采集设备采集针对多媒体播放器中的多媒体文件输入的语音信息的具体过程如下:

通过多媒体播放器中的多媒体采集设备采集至少一段针对多媒体播放器中的多媒体文件输入的语音片段,将该至少一段语音片段组合成针对多媒体播放器中的多媒体文件输入的语音信息。优选的,该语音信息包括主题部分和标题部分。

在本实施例中,当通过多媒体播放器中的多媒体采集设备采集一段针对多媒体播放器中的多媒体文件输入的语音片段时,该语音片段中包括主题部分和标题部分,其中主题部分和标题部分之间具有一定长度的停顿时间。当通过多媒体播放器中的多媒体采集设备采集两段或者两段以上针对多媒体播放器中的多媒体文件输入的语音片段时,至少一段语音片段包含主题部分,至少另一段语音片段包含标题部分,此时,将采集到的两段或者两段以上针 对多媒体播放器中的多媒体文件输入的语音片段组成针对多媒体播放器中的多媒体文件输入的语音信息。

例如在某种场景中(如宝宝5岁生日那天)在不同场合不同时刻分别录制并保存了多个不同的音视频文件,此时,针对每个音视频文件可以输入一段包含主题部分和标题部分的语音,或者针对每个音视频文件输入一段包含主题部分的语音和一段包含标题部分的语音。比如针对录制的反映宝宝生日时的同学聚会的场景的音视频文件,可以输入一段包含主题为“宝宝5岁生日”标题为“同学聚会”的语音,或者输入一段包含主题为“宝宝5岁生日”的语音和一段包含标题为“同学聚会”的语音。针对录制的反映宝宝生日时的生日礼物的场景的音视频文件,可以输入一段包含主题为“宝宝5岁生日”标题为“生日礼物”的语音,或者输入一段包含主题为“宝宝5岁生日”的语音和一段包含标题为“生日礼物”的语音。针对录制的反映宝宝生日时的舞蹈表演的场景的音视频文件,可以输入一段包含主题为“宝宝5岁生日”标题为“舞蹈表演”的语音,或者输入一段包含主题为“宝宝5岁生日”的语音和一段包含标题为“舞蹈表演”的语音。

具体的,从多媒体播放器中的多媒体文件中提取语音信息的具体过程如下:

A1、按照预设的时间间隔从多媒体文件中截取预设长度的语音片段。

其中预设时间间隔和预设长度可以根据需要和不同场景进行设置,在此不做任何限定。优选的,该预设长度越小越好。

A2、将截取的语音片段的频率与预先存储的噪声语音库中的噪声的频率进行比对,去除截取的语音片段中的噪声部分。

其中预先存储的噪声语音库中存储有环境背景噪声,如汽车声、狗叫声、喇叭声等。在本实施例中,可以通过多媒体播放器的多媒体采集设备采集环境背景噪声,并将采集到的环境背景噪声存储至噪声语音库中。也可以直接从其它设备,如通过网络等下载环境背景噪声,并将下载的环境背景噪声存储至噪声语音库中。

优选的,可以对噪声语音库中的环境背景噪声进行分类,如按照环境场景分类,这样,在将截取的语音片段的频率与预先存储的噪声语音库中的噪声的频率进行比对时,可以先根据截取的语音片段的环境场景选择噪声语音库中的其中一类环境背景噪声与截取的语音片段的频率进行比对,从而加快比对速度。

A3、在剩余的语音片段的附近位置截取固定长度的语音片段,将截取到的固定长度的语音片段组合成针对音视频播放器中的音视频文件输入的语音信息。

具体的,在剩余的语音片段的附近位置是指在剩余的语音片段的前后预设长度的位置。该预设长度可以根据音视频文件所反映的场景进行设置,在此不做任何限定。

在本发明另一实施例中,获取针对多媒体播放器中的多媒体文件输入的语音信息的具体过程还可以如下所示:

B1,通过多媒体播放器中的多媒体采集设备采集针对多媒体播放器中的多媒体文件输入的语音信息,其具体过程如上所示。

B2,当在步骤B1中未采集到针对多媒体播放器中的多媒体文件输入的语音信息时,从多媒体播放器中的多媒体文件中提取语音信息。

在本实施例中,优先采集针对多媒体播放器中的多媒体文件输入的语音信息,如果未采集到该语音信息,如用户未输入该语音信息或者多媒体播放器中的音频采集设备损坏而未采集到该语音信息,才从多媒体播放器中的多媒体文件中提取语音信息。

S12,对所述语音信息进行语音识别,将所述语音信息识别成对应的文字信息。

在本实施例中,将S11中针对音视频播放器中的音视频文件输入的语音信息进行语音识别,将该语音信息识别成文字信息。其中语音识别的具体方法可以采用现有技术提供的任意一种方式,还可以采用本发明实施例提供的如下方式:

C1、多媒体播放器将该语音信息上传至云服务器中;

C2、云服务器根据预设的语音识别算法对上传的语音信息进行语音识别,得到对应的文字信息;

其中语音识别算法可以采用现有技术提供的任意一种语音识别算法。由于语音识别算法是现有技术,在此不再赘述。

C3、云服务器将语音识别得到的文字信息回传至多媒体播放器。

S13、将该文字信息与多媒体文件进行关联存储。

具体的,当该语音信息中包含两个或者两个以上的语音片段时,云服务器对该语音信息中包含的每个语音片段进行语音识别,得到与语音片段对应的文字片段,并向多媒体播放器回传针对每个语音片段识别得到的对应文字片段,多媒体播放器将每个语音片段识别得到的对应文字片段组合成文字信息。

在将该文字信息与多媒体文件进行关联存储时,可以直接将该文字信息作为该多媒体文件的文件名,或者建立该多媒体文件与该文字信息之间的映射关系。

在本实施例中,通过多媒体播放器中的音视频采集设备采集针对多媒体播放器中的多媒体文件输入的语音信息,对该语音信息进行语音识别,以将该语音信息识别成文字信息,将该文字信息与该多媒体文件进行关联存储,从而可以减少多媒体文件存储过程中对多媒体播放器的文字输入设备的使用频率,进而提高了多媒体文件的存储效率,另外由于将语音信息识别成文字信息,并将文字信息与多媒体文件进行关联存储,从而利用与多媒体信息关联存储的文字信息可以对多媒体文件进行快速、高效、准确的定位和检索。

实施例二

图2示出了本发明另一实施例提供的多媒体播放器中的多媒体文件的存储方法的实现流程,详述如下:

S21,获取针对多媒体播放器中的多媒体文件输入的语音信息。其具体过程如上述实施例一所示,在此不再赘述。

S22,对该语音信息进行语音识别,将该语音信息识别成文字信息。其具体过程如上述实施例一所示,在此不再赘述。

S23,对该文字信息进行语义拆分,从该文字信息中提取关键词。其具体过程如下:

将该文字信息进行拆分,形成单词以及词组;

去除拆分形成的单词以及词组中的文字噪声,将去除了文字噪声的单词以及词组的组合作为从该文字信息中提取出的关键词。其中去除拆分形成的单词以及词组中的文字噪声的具体过程如下:

去除拆分形成的单词以及词组中不能组合成单词的汉字噪声;

统计单词词频以及逆文档词频,去除拆分形成的单词以及词组中单词词频和逆文档词频均高的单词。其中单词词频是指该单词在文字信息中出现的频率。逆文档词频是指包含该单词的语音文件占总语音文件个数的比值。具体如下:

单词词频:tf=n逆文档词频:

其中n代表单词在语音信息中出现的次数,m代表语音信息包含的语音片段的个数。如果单词词频tf和逆文档词频idf的数值都大,则表示该单词是一个非关键词的可能性非常大,如常用的结构助词:的等。

S24,将该关键词与多媒体文件进行关联存储。

在将该关键词与多媒体文件进行关联存储时,可以直接将该关键词作为该多媒体文件的文件名,或者建立该多媒体文件与该关键词之间的映射关系。

在本实施例中,通过从语音信息识别得到的文字信息中提取关键词,将该关键词与多媒体文件进行关联存储,从而使得存储的信息量少而简洁,进一步提高了多媒体播放器中多媒体文件的存储效率,同时更有利于多媒体文件的定位和检索。

实施例三

图3示出了本发明另一实施例提供的多媒体播放器中的多媒体文件的存储方法的实现流程,该方法是在上述的实施例一或者二的基础上,增加了录制多媒体播放器中的多媒体文件的步骤,其中录制多媒体播放器中的多媒体文件的具体过程如图3所示,详述如下:

S31,通过多媒体播放器的多媒体采集设备录制多媒体片段。

其中多媒体采集设备包括但不限于音频采集器、视频采集器、音视频采集器等。其中音频采集器包括麦克风等。

在本发明另一实施例中,在通过多媒体播放器的多媒体采集设备录制多媒体片段的同时,可以选择性的录制环境背景噪声,并将环境背景噪声存储至噪声语音库中。

S32,通过多媒体播放器中的预设算法对录制的多媒体片段进行去噪声和增益调整处理。

其中通过多媒体播放器中的预设算法对录制的多媒体片段进行去噪声和增益调整处理的具体过程如图4所示,详述如下:

S321,对录制的多媒体片段进行去噪声处理。其中对录制的多媒体片段进行去噪声处理的具体过程如下:

D1、将录制的多媒体片段的频谱与录制的环境背景噪声的频谱相减,其中环境背景噪声的频谱为在录制多媒体片段时录制的环境背景噪声的频谱,或者当在录制多媒体片段时未录制环境背景噪声时,统计录制的多媒体片段的幅值,将幅值低于预设幅值阈值的多媒体片段的平均频谱作为环境背景噪声的频谱。

D2、统计与环境背景噪声的频谱相减后的多媒体片段的频率,去除该多媒体片段中频率过高以及频率过低的异常频段。

S322,采用多媒体播放器中预设的回声抑制算法对去噪处理后的多媒体片段进行回声抑制处理。

其中回声抑制算法采用归一化的最小均方算法(NLMS),具体表述为:

<mrow> <msub> <mi>y</mi> <mi>k</mi> </msub> <mo>=</mo> <msub> <mi>W</mi> <mi>K</mi> </msub> <msubsup> <mi>X</mi> <mi>K</mi> <mi>T</mi> </msubsup> </mrow>

ek=dK-yk

Wk+1=WK+2uekXK/PK(x)

其中:XK代表输入信号向量,T代表转置,WK代表权向量,yk代表NLMS滤波器处理过后的输出信号,ek代表滤波器期望误差,dK代表滤波器期待响应,u代表迭代步长,PK(x)代表输入信号的能量估计。

Wk+1=WK+2uekXK/δ+PK(x)

其中δ是一个很小的正数,可以避免信号输入过小产生的数值计算问题。

<mrow> <msub> <mi>P</mi> <mi>K</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>a</mi> <mo>)</mo> </mrow> <msub> <mi>P</mi> <mrow> <mi>K</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>ax</mi> <mi>k</mi> <mn>2</mn> </msubsup> </mrow>

其中a是一个0-1之间的常数。

最终经过多次迭代得到最终的输出信号yk

S323,对回声抑制处理后的多媒体片段进行增益调整。其具体过程如下:

统计环境背景噪声的幅值,该环境背景噪声的幅值可以为在录制多媒体片段时录制的环境背景噪声的,或者为录制的多媒体片段中幅值低于预设幅值阈值的多媒体片段的平均幅值。

当录制的多媒体片段的幅值远大于环境背景噪声的幅值时,降低录制的多媒体片段的幅值;当录制的多媒体片段的幅值远小于环境背景噪声的幅值时,提高录制的多媒体片段的幅值。这样,可以有效的提高录制的多媒体片段的质量。

S33,将处理后的多媒体片段存储成多媒体播放器中的音视频文件。

实施例四

图5示出了本发明实施例提供的多媒体播放器中的多媒体文件存储装置的结构框图,该多媒体播放器中的多媒体文件存储装置可以是内置于多媒体播放器中的软件单元、硬件单元或者软硬件相结合的单元,或者作为独立的挂件集成到多媒体播放器或者多媒体播放器的应用系统中。该多媒体播放器中的多媒体文件存储装置包括语音信息获取单元51,语音识别单元52以及文件存储单元53。其中:

语音信息获取单元51获取针对多媒体播放器中的多媒体文件输入的语音信息。

其中多媒体播放器可以为电视、手机等。多媒体播放器中的多媒体文件为音频文件、视频文件、音视频文件等。针对多媒体播放器中的多媒体文件输入的语音信息可以为语音信息或者包含语音信息的视频信息等。该语音信息可以包括一段语音片段,也可以包括两段或者两段以上的语音片段。

具体的,所述语音信息获取单元51包括语音信息采集模块511和/或语音信息提取模块512。其中:

语音信息采集模块511通过多媒体播放器中的多媒体采集设备采集针对多媒体播放器中的多媒体文件输入的语音信息。

具体的,所述语音信息采集模块511具体用于通过多媒体播放器中的多媒体采集设备采集至少一段针对多媒体播放器中的多媒体文件输入的语音片段,将所述至少一段语音片段组合成针对多媒体播放器中的多媒体文件输入的语音信息,所述语音信息包括主题部分和标题部分。

语音信息提取模块512从多媒体播放器中的多媒体文件中提取语音信息。

具体的,所述语音信息提取模块512具体用于按照预设的时间间隔从多媒体文件中截取预设长度的语音片段,将截取的语音片段的频率与预先存储的噪声语音库中的噪声的频率进行比对,去除截取的语音片段中的噪声部分,在剩余的语音片段的附近位置截取固定长度的语音片段,将截取到的固定长度的语音片段组合成针对音视频播放器中的音视频文件输入的语音信息。

语音识别单元52对所述语音信息进行语音识别,将所述语音信息识别成对应的文字信息。

其中语音识别单元52将语音信息上传至云服务器,云服务器根据预设的语音识别算法对上传的语音信息进行语音识别,得到对应的文字信息,云服务器将语音识别得到的文字信息回传至语音识别单元52。

文件存储单元53将所述文字信息与所述多媒体文件进行关联存储。

在将该文字信息与多媒体文件进行关联存储时,可以直接将该文字信息作为该多媒体文件的文件名,或者建立该多媒体文件与该文字信息之间的映射关系。

在本发明另一实施例中,该装置还包括关键词提取单元54。该关键词提取单元54对所述语音识别单元52识别得到的所述文字信息进行语义拆分,从所述文字信息中提取关键词,此时所述文件存储单元53将所述关键词与所述多媒体文件进行关联存储。

具体的,该关键词提取单元54将该文字信息进行拆分,形成单词以及词组;

去除拆分形成的单词以及词组中的文字噪声,将去除了文字噪声的单词以及词组的组合作为从该文字信息中提取出的关键词。其中去除拆分形成的单词以及词组中的文字噪声的具体过程如下:

去除拆分形成的单词以及词组中不能组合成单词的汉字噪声;

统计单词词频以及逆文档词频,去除拆分形成的单词以及词组中单词词频和逆文档词频均高的单词。

在本发明另一实施例中,该装置还包括多媒体文件录制单元55。该多媒体文件录制单元55通过多媒体播放器的多媒体采集设备录制多媒体片段,通过多媒体播放器中的预设算法对录制的多媒体片段进行去噪声和增益调整处理,将处理后的多媒体片段存储成多媒体播放器中的音视频文件。

具体的,该多媒体文件录制单元55包括去噪声处理模块551、回声抑制模块552以及增益调整模块553。其中:

去噪声处理模块551对录制的多媒体片段进行去噪声处理。其具体过程如下:

将录制的多媒体片段的频谱与录制的环境背景噪声的频谱相减,其中所述环境背景噪声的频谱为在录制多媒体片段时录制的环境背景噪声的频谱,或者当在录制多媒体片段时未录制环境背景噪声时,统计录制的多媒体片段的幅值,将幅值低于预设幅值阈值的多媒体片段的平均频谱作为环境背景噪声的频谱;

统计与环境背景噪声的频谱相减后的多媒体片段的频率,去除该多媒体片段中频率过高以及频率过低的异常频段。

回声抑制模块552采用多媒体播放器中预设的回声抑制算法对去噪处理后的多媒体片段进行回声抑制处理。其具体过程如上述方法所示,在此不再赘述。

增益调整模块553对回声抑制处理后的多媒体片段进行增益调整。其具体过程如下:

统计环境背景噪声的幅值,所述环境背景噪声的幅值为在录制多媒体片段时录制的环境背景噪声的,或者为录制的多媒体片段中幅值低于预设幅值阈值的多媒体片段的平均幅值;

当录制的多媒体片段的幅值远大于环境背景噪声的幅值时,降低录制的多媒体片段的幅值;当录制的多媒体片段的幅值远小于环境背景噪声的幅值时,提高录制的多媒体片段的幅值。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或者直接、间接运用在其他相关的技术领域,均视为包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1