语音识别方法及装置与流程

文档序号:15618883发布日期:2018-10-09 21:52阅读:194来源:国知局

本申请实施例涉及信息处理技术领域,特别涉及一种语音识别方法及装置。



背景技术:

随着信息技术的不断发展,语音识别技术也得到了快速地发展,目前,语音识别技术被广泛地应用于人们的日常生活中,用户可以通过在电子设备中输入语音的方式,实现一些需求,例如在智能手机中输入语音,来发布打车需求。

考虑到用户在电子设备中输入的语音通常包含丰富的内容,因此可以作为机器学习的样本数据进行训练,生成语音模型。但是,现有技术中,仅利用语音的文本信息进行训练,导致机器学习的性能较低。



技术实现要素:

为了解决上述问题,本申请实施例提供了一种语音识别方法及装置。

具体地,本申请实施例是通过如下技术方案实现的:

根据本申请实施例的第一方面,提供一种语音识别方法,所述方法包括:

获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;

将所述多通道语音文件分离为每个对话人的独立语音子文件;

获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;

将所述每个独立语音子文件识别为文本;

生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。

本申请实施例中,所述排序信息通过以下方式得到:

根据所述每个独立语音子文件的起始时间信息对所述每个独立语音子文件的文本进行排序后得到所述文本排序信息。

本申请实施例中,所述多通道语音文件的特征信息用于机器学习。

本申请实施例中,所述将所述多通道语音文件分离为每个对话人的独立语音子文件,包括:

使用语音端点检测算法,除去所述多通道语音文件中的静音和噪声部分,得到语音除噪结果{s1,s2,…sn},其中,si包括第i个有效语音文件及所述第i个有效语音文件的起始时间信息及终止时间信息,i≤n;

使用语音通道分离算法,对所述语音除噪结果{s1,s2,…sn}进行处理,得到语音通道分离结果{a1,a2,…,am},其中,aj包括所述多个对话人中的第j个对话人的独立语音子文件及所述第j个对话人的独立语音子文件的起始时间信息和终止时间信息,j≤m。

本申请实施例中,所述将所述多通道语音文件分离为每个对话人的独立语音子文件,包括:

使用语音通道分离算法,对所述多通道语音文件进行处理,得到语音通道分离结果{t1,t2,…tq},其中,ti包括所述多个对话人中的第i个对话人的独立语音子文件及所述第i个对话人的独立语音子文件的起始时间信息和终止时间信息,i≤q;

使用语音端点检测算法,对所述语音通道分离结果{t1,t2,…tp}进行处理,得到语音除噪结果{b1,b2,…,bq},其中,bq包括所述多个对话人中的第j个对话人的经过除噪处理后的独立语音子文件及所述第j个对话人的经过除噪处理后的独立语音子文件的起始时间信息和终止时间信息,j≤q。

根据本申请实施例的第二方面,提供一种语音识别装置,所述装置包括:

语音文件获取模块,用于获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;

语音文件分离模块,用于将所述语音文件获取模块获取到的多通道语音文件分离为每个对话人的独立语音子文件;

信息获得模块,用于获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;

语音识别模块,用于将所述语音文件分离模块分离出的每个独立语音子文件识别为文本;

特征信息生成模块,用于生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。

本申请实施例中,所述排序信息通过以下方式得到:

根据所述每个独立语音子文件的起始时间信息对所述每个独立语音子文件的文本进行排序后得到所述文本排序信息。

本申请实施例中,所述多通道语音文件的特征信息用于机器学习。

本申请实施例中,所述语音文件分离模块,包括:

第一除噪子模块,用于使用语音端点检测算法,除去所述多通道语音文件中的静音和噪声部分,得到语音除噪结果{s1,s2,…sn},其中,si包括第i个有效语音文件及所述第i个有效语音文件的起始时间信息和终止时间信息,i≤n;

第一语音文件分离子模块,用于使用语音通道分离算法,对所述第一除噪子模块得到的语音除噪结果{s1,s2,…sn}进行处理,得到语音通道分离结果{a1,a2,…,am},其中,aj包括所述多个对话人中的第j个对话人的独立语音子文件及所述第j个对话人的独立语音子文件的起始时间信息和终止时间信息,j≤m。

本申请实施例中,所述语音文件分离模块,包括:

第二语音文件分离子模块,用于使用语音通道分离算法,对所述多通道语音文件进行处理,得到语音通道分离结果{t1,t2,…tq},其中,ti包括所述多个对话人中的第i个对话人的独立语音子文件及所述第i个对话人的独立语音子文件的起始时间信息和终止时间信息,i≤q;

第二除噪子模块,用于使用语音端点检测算法,对所述第二语音文件分离子模块分离得到的语音通道分离结果{t1,t2,…tp}进行处理,得到语音除噪结果{b1,b2,…,bq},其中,bq包括所述多个对话人中的第j个对话人的经过除噪处理后的独立语音子文件及所述第j个对话人的经过除噪处理后的独立语音子文件的起始时间信息和终止时间信息,j≤q。

根据本申请实施例的第三方面,提供一种计算机存储介质,所述存储介质中存储有程序指令,所述程序指令包括:

获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;

将所述多通道语音文件分离为每个对话人的独立语音子文件;

获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;

将所述每个独立语音子文件识别为文本;

生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。

本申请实施例中,可以从多通道语音文件中分离出每个对话人的文本信息、各文本信息对应的时序信息和角色信息,将这些信息作为机器学习的训练数据,从而提高机器学习的性能。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请实施例。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请实施例,并与说明书一起用于解释本发明的原理。

图1a是本申请实施例根据一示例性实施例示出的一种语音识别方法的流程图;

图1b是本申请实施例根据一示例性实施例示出的图1a所示方法的应用场景图;

图2是本申请实施例根据一示例性实施例示出的另一种语音识别方法的流程图;

图3是本申请实施例根据一示例性实施例示出的另一种语音识别方法的流程图;

图4是本申请实施例根据一示例性实施例示出的一种语音识别装置的框图;

图5是本申请实施例根据一示例性实施例示出的另一种语音识别装置的框图;

图6是本申请实施例根据一示例性实施例示出的另一种语音识别装置的框图;

图7是本申请实施例根据一示例性实施例示出的一种用于语音识别装置的一结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请实施例的一些方面相一致的装置和方法的例子。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

随着信息技术的不断发展,语音识别技术也得到了快速地发展,目前,语音识别技术被广泛地应用于人们的日常生活中,用户可以通过在电子设备中输入语音的方式,实现一些需求,例如在智能手机中输入语音,来发布打车需求。

考虑到用户在电子设备中输入的语音通常包含丰富的内容,因此可以作为机器学习的样本数据进行训练,生成语音模型。但是,现有技术中,仅利用语音的文本信息进行训练,导致机器学习的性能较低。为了解决上述问题,本申请实施例提供了一种语音识别方法及装置,以提高机器学习的性能。

如图1a所示,图1a是本申请实施例根据一示例性实施例示出的一种语音识别方法的流程图,该方法可以包括以下步骤:

在步骤101中,获取多通道语音文件,其中,该多通道语音文件包含多个对话人进行对话的语音数据。

本申请实施例中,多通道语音文件的来源可以包括:即时通信应用,例如,打车应用的多人对话语音,或语音采集设备,例如助听器等等。

在步骤102中,将多通道语音文件分离为每个对话人的独立语音子文件。

本申请实施例中,一个独立语音子文件对应一个对话人。

例如,多通道语音文件中包含3个人的对话,分别为用户a、用户b和用户c,本步骤中从包含用户a、用户b和用户c对话的语音中,分离出只包含用户a的声音的独立语音子文件、只包含用户b的声音的独立语音子文件和只包含用户c的声音的独立语音子文件。

在步骤103中,获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息。

本申请实施例中,独立语音子文件的起始时间指的是该独立语音子文件相对于多通道语音文件的起始时间,独立语音子文件的终止时间指的是该独立语音子文件相对于多通道语音文件的终止时间,对话人标识信息指的是用于区别不同对话人的标识信息,具体的,可以为对话人的名字,或者也可以为其他能够区分不同对话人的参数,本申请实施例对此不作限定。

在步骤104中,将每个独立语音子文件识别为文本。

本申请实施例中,可以采用现有技术中任意一种将语音识别为文本的方法,实现将每个独立语音子文件识别为文本。

在步骤105中,生成多通道语音文件的特征信息,其中,该特征信息包括:多通道语音文件对应的每个独立语音子文件的文本信息、每个独立语音子文件的起始时间信息、每个独立语音子文件的终止时间信息、每个独立语音子文件的排序信息及每个独立语音子文件的对话人标识信息。

本申请实施例中,进一步的,可以将步骤104中识别出的各文本进行分词处理,去除象声词等,获得具有实际含义的各个词语。

本申请实施例中,排序信息可以通过以下方式得到:

根据每个独立语音子文件的起始时间信息对每个独立语音子文件的文本进行排序后得到文本排序信息。

或者也可以通过以下方式得到:

根据每个独立语音子文件的对话人对每个独立语音子文件的文本进行排序后得到文本排序信息。本申请实施例对上述排序信息的获得方式不作限定。

本申请实施例中,可以有效利用多通道语音文件中的时序信息和角色信息,具体的,多通道语音文件的特征信息可以用于机器学习,训练模型,实现机器学习性能的明显提升,例如,包含司机和乘客对话的语音,获得该语音的特征信息,利用该特征信息进行机器学习训练模型,例如这些特征用于训练神经网络,进行司乘行为分析。

为了便于理解,以双通道双人对话语音的特征信息的提取过程为例进行说明,如图1b所示,多通道语音文件m为双通道双人对话语音,多通道语音文件m经过语音分离、语音转文本处理后,得到对话人a的两个独立语音子文件对应的识别文本和对话人b的两个独立语音子文件对应的识别文本,其中,t11和t12代表对话人a的第一个独立语音子文件的起始时间和终止时间,t13和t14代表对话人a的第二个独立语音子文件的起始时间和终止时间,t21和t22代表对话人b的第一个独立语音子文件的起始时间和终止时间,t23和t24代表对话人b的第二个独立语音子文件的起始时间和终止时间,wi为语音转换为文本后的词信息。之后依据每个对话人的发言时间信息的先后顺序,将独立语音子文件的识别文本串行拼接起来,保留了对话过程中的时序先后信息,同时为了区分不同对话人的文本信息,为每个对话人对应的文本信息添加独有的对话人标识信息,如图1b中的对话人标识ci,c1代表对话人a,c2代表对话人b。

例如,表1为对话人a的文本信息及时间信息,表2为对话人b的文本信息及时间信息,

表1

表2

根据起始时间信息将每个对话人的独立语音子文件的文本信息进行排序,进行串行拼接,同时附带用于区分对话人的对话人标识信息,如标识ci,此时,特征信息为:[今天_c1天气_c1很好_c1是的_c2今天_c2天气_c2很好_c2出去_c1游玩_c1吧_c1好的_c2]。

需要说明的是,本申请实施例仅以双通道双人对话语音为例进行说明,但不限于双通道双人对话语音,本申请实施例方法同样适用于三人以上的对话语音,其实现过程与双通道双人对话语音类似,本申请实施例对此不再赘述。

此外,还需要说明的是,本申请实施例中仅以独立语音子文件的识别结果以词为单位进行说明,在实际应用中,也可以以字或者短语为单位,本申请实施例对此不再赘述。

由上述实施例可见,该实施例可以从多通道语音文件中分离出每个对话人的文本信息、各文本信息对应的时序信息和角色信息,将这些信息作为机器学习的训练数据,从而提高机器学习的性能。

考虑到环境中存在着各种各样的背景噪声,这些噪声会严重降低语音的质量从而影响语音识别的效果,例如会降低识别率;此外,包含噪声的语音在存储或网络传输时,会占用一定的系统资源或网络带宽资源,造成资源的浪费,为了解决上述问题,本申请实施例提供了另一种语音识别方法。

如图2所示,图2是本申请实施例根据一示例性实施例示出的另一种语音识别方法的流程图,本申请实施例中,可以对多通道语音文件进行相应的降噪和去除静音处理,此时,该方法可以包括以下步骤:

在步骤200中,获取多通道语音文件,其中,该多通道语音文件包含多个对话人进行对话的语音数据。

在步骤201中,使用语音通道分离算法,对多通道语音文件进行处理,得到语音通道分离结果{t1,t2,…tq},其中,ti包括多个对话人中的第i个对话人的独立语音子文件及第i个对话人的独立语音子文件的起始时间信息和终止时间信息,i≤q。

本申请实施例中,可以采用现有技术中的任意一种语音分离方法,将多通道语音文件分离为每个对话人的独立语音子文件。

在步骤202中,使用语音端点检测算法,对语音通道分离结果{t1,t2,…tp}进行处理,得到语音除噪结果{b1,b2,…,bq},其中,bq包括多个对话人中的第j个对话人的经过除噪处理后的独立语音子文件及第j个对话人的经过除噪处理后的独立语音子文件的起始时间信息和终止时间信息,j≤q。

本申请实施例,可以采用语音端点检测技术,除去各独立语音子文件中的静音和噪声部分,得到每个对话人的经过除噪处理后的独立语音子文件。

语音端点检测技术(voiceactivitydetection,vad),可以从连续的语音流中检测出有效的语音,具体的,可以检测出有效语音的起始时间点和终止时间点。

在步骤203中,获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息。

在步骤204中,将每个独立语音子文件识别为文本。

在步骤205中,生成多通道语音文件的特征信息,其中,该特征信息包括:多通道语音文件对应的每个独立语音子文件的文本信息、每个独立语音子文件的起始时间信息、每个独立语音子文件的终止时间信息、每个独立语音子文件的排序信息及每个独立语音子文件的对话人标识信息。

本申请实施例中的步骤203~步骤205,与图1a所示实施例的中的步骤103~步骤105类似,本申请实施例对此不再赘述,详情请见图1a所示实施例中的内容。

由上述实施例可见,该实施例可以从多通道语音文件中分离出各对话人的有效语音,因此可以提高语音识别为文本的准确率,此外,也可以降低存储或传输的数据量,提高资源的利用率。

如图3所示,图3是本申请实施例根据一示例性实施例示出的另一种语音识别方法的流程图,本申请实施例中,可以对多通道语音文件进行相应的降噪和去除静音处理,此时,该方法可以包括以下步骤:

在步骤300中,获取多通道语音文件,其中,该多通道语音文件包含多个对话人进行对话的语音数据。

在步骤301中,使用语音端点检测算法,除去多通道语音文件中的静音和噪声部分,得到语音除噪结果{s1,s2,…sn},其中,si包括第i个有效语音文件及第i个有效语音文件的起始时间信息及终止时间信息,i≤n。

本申请实施例,可以采用语音端点检测技术,除去多通道语音文件中的静音和噪声部分,得到有效语音文件。

语音端点检测技术(voiceactivitydetection,vad),可以从连续的语音流中检测出有效的语音,具体的,可以检测出有效语音的起始时间点和终止时间点。

在步骤302中,使用语音通道分离算法,对语音除噪结果{s1,s2,…sn}进行处理,得到语音通道分离结果{a1,a2,…,am},其中,aj包括多个对话人中的第j个对话人的独立语音子文件及第j个对话人的独立语音子文件的起始时间信息和终止时间信息,j≤m。

本申请实施例中,可以采用现有技术中的任意一种语音分离方法,将多通道语音文件的有效语音文件分离为每个对话人的独立语音子文件。

在步骤303中,获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息。

在步骤304中,将每个独立语音子文件识别为文本。

在步骤305中,生成多通道语音文件的特征信息,其中,该特征信息包括:多通道语音文件对应的每个独立语音子文件的文本信息、每个独立语音子文件的起始时间信息、每个独立语音子文件的终止时间信息、每个独立语音子文件的排序信息及每个独立语音子文件的对话人标识信息。

本申请实施例中的步骤303~步骤305,与图1a所示实施例的中的步骤103~步骤105类似,本申请实施例对此不再赘述,详情请见图1a所示实施例中的内容。

由上述实施例可见,该实施例可以从多通道语音文件中分离出各对话人的有效语音,因此可以提高语音识别为文本的准确率,此外,也可以降低存储或传输的数据量,提高资源的利用率。

应当注意,尽管在附图中以特定顺序描述了本申请实施例方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

与前述语音识别方法的实施例对应,本申请实施例还提供了语音识别装置的实施例。

如图4所示,图4是本申请实施例根据一示例性实施例示出的一种语音识别装置的框图,所述装置可以包括:

语音文件获取模块410,用于获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;

本申请实施例中,多通道语音文件的来源可以包括:即时通信应用,例如,打车应用的多人对话语音,或语音采集设备,例如助听器等等。

语音文件分离模块420,用于将所述语音文件获取模块410获取到的多通道语音文件分离为每个对话人的独立语音子文件;

本申请实施例中,一个独立语音子文件对应一个对话人。

例如,多通道语音文件中包含3个人的对话,分别为用户a、用户b和用户c,本步骤中从包含用户a、用户b和用户c对话的语音中,分离出只包含用户a的声音的独立语音子文件、只包含用户b的声音的独立语音子文件和只包含用户c的声音的独立语音子文件。

信息获得模块430,用于获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;

本申请实施例中,独立语音子文件的起始时间指的是该独立语音子文件相对于多通道语音文件的起始时间,独立语音子文件的终止时间指的是该独立语音子文件相对于多通道语音文件的终止时间,对话人标识信息指的是用于区别不同对话人的标识信息,具体的,可以为对话人的名字,或者也可以为其他能够区分不同对话人的参数,本申请实施例对此不作限定。

语音识别模块440,用于将所述语音文件分离模块420分离出的每个独立语音子文件识别为文本;

本申请实施例中,可以采用现有技术中任意一种将语音识别为文本的方法,实现将每个独立语音子文件识别为文本。

特征信息生成模块450,用于生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。

本申请实施例中,排序信息可以通过以下方式得到:

根据每个独立语音子文件的起始时间信息对每个独立语音子文件的文本进行排序后得到文本排序信息。

或者也可以通过以下方式得到:

根据每个独立语音子文件的对话人对每个独立语音子文件的文本进行排序后得到文本排序信息。本申请实施例对上述排序信息的获得方式不作限定。

本申请实施例中,可以有效利用多通道语音文件中的时序信息和角色信息,具体的,多通道语音文件的特征信息可以用于机器学习,训练模型,实现机器学习性能的明显提升,例如,包含司机和乘客对话的语音,获得该语音的特征信息,利用该特征信息进行机器学习训练模型,例如这些特征用于训练神经网络,进行司乘行为分析。

由上述实施例可见,该实施例可以从多通道语音文件中分离出每个对话人的文本信息、各文本信息对应的时序信息和角色信息,将这些信息作为机器学习的训练数据,从而提高机器学习的性能。

考虑到环境中存在着各种各样的背景噪声,这些噪声会严重降低语音的质量从而影响语音识别的效果,例如会降低识别率;此外,包含噪声的语音在存储或网络传输时,会占用一定的系统资源或网络带宽资源,造成资源的浪费,为了解决上述问题,本申请实施例提供了另一种语音识别装置。

如图5所示,图5是本申请实施例根据一示例性实施例示出的另一种语音识别装置的框图,该实施例可以在图4所示实施例的基础上,所述语音文件分离模块420,可以包括:

第一除噪子模块421,用于使用语音端点检测算法,除去所述多通道语音文件中的静音和噪声部分,得到语音除噪结果{s1,s2,…sn},其中,si包括第i个有效语音文件及所述第i个有效语音文件的起始时间信息和终止时间信息,i≤n;

本申请实施例中,可以采用现有技术中的任意一种语音分离方法,将多通道语音文件分离为每个对话人的独立语音子文件。

第一语音文件分离子模块422,用于使用语音通道分离算法,对所述第一除噪子模块421得到的语音除噪结果{s1,s2,…sn}进行处理,得到语音通道分离结果{a1,a2,…,am},其中,aj包括所述多个对话人中的第j个对话人的独立语音子文件及所述第j个对话人的独立语音子文件的起始时间信息和终止时间信息,j≤m。

本申请实施例,可以采用语音端点检测技术,除去各独立语音子文件中的静音和噪声部分,得到每个对话人的经过除噪处理后的独立语音子文件。

语音端点检测技术(voiceactivitydetection,vad),可以从连续的语音流中检测出有效的语音,具体的,可以检测出有效语音的起始时间点和终止时间点。

由上述实施例可见,该实施例可以从多通道语音文件中分离出各对话人的有效语音,因此可以提高语音识别为文本的准确率,此外,也可以降低存储或传输的数据量,提高资源的利用率。

如图6所示,图6是本申请实施例根据一示例性实施例示出的另一种语音识别装置的框图,该实施例可以在图4所示实施例的基础上,所述语音文件分离模块420,可以包括:

第二语音文件分离子模块423,用于使用语音通道分离算法,对所述多通道语音文件进行处理,得到语音通道分离结果{t1,t2,…tq},其中,ti包括所述多个对话人中的第i个对话人的独立语音子文件及所述第i个对话人的独立语音子文件的起始时间信息和终止时间信息,i≤q;

本申请实施例,可以采用语音端点检测技术,除去多通道语音文件中的静音和噪声部分,得到有效语音文件。

语音端点检测技术(voiceactivitydetection,vad),可以从连续的语音流中检测出有效的语音,具体的,可以检测出有效语音的起始时间点和终止时间点。

第二除噪子模块424,用于使用语音端点检测算法,对所述第二语音文件分离子模块423分离得到的语音通道分离结果{t1,t2,…tp}进行处理,得到语音除噪结果{b1,b2,…,bq},其中,bq包括所述多个对话人中的第j个对话人的经过除噪处理后的独立语音子文件及所述第j个对话人的经过除噪处理后的独立语音子文件的起始时间信息和终止时间信息,j≤q。

本申请实施例中,可以采用现有技术中的任意一种语音分离方法,将多通道语音文件的有效语音文件分离为每个对话人的独立语音子文件。

由上述实施例可见,该实施例可以从多通道语音文件中分离出各对话人的有效语音,因此可以提高语音识别为文本的准确率,此外,也可以降低存储或传输的数据量,提高资源的利用率。

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。

对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

本申请实施例还提供了一种计算机存储介质,所述存储介质中存储有程序指令,所述程序指令包括:获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;将所述多通道语音文件分离为每个对话人的独立语音子文件;获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;将所述每个独立语音子文件识别为文本;生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。

本申请实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

如图7所示,图7是本申请实施例根据一示例性实施例示出的一种用于语音识别装置700的一结构示意图。例如,装置700可以被提供为一服务器。参照图7,装置700包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理部件722的执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行本申请实施例提供的语音识别方法,该方法包括:获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;将所述多通道语音文件分离为每个对话人的独立语音子文件;获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;将所述每个独立语音子文件识别为文本;生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。

装置700还可以包括一个电源组件726被配置为执行装置700的电源管理,一个有线或无线网络接口750被配置为将装置700连接到网络,和一个输入输出(i/o)接口758。装置700可以操作基于存储在存储器732的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或类似。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器732,上述指令可由装置700的处理组件722执行以完成本申请实施例提供的上述语音识别方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本申请实施例的其它实施方案。本申请实施例旨在涵盖本申请实施例的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请实施例未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请实施例的真正范围和精神由下面的权利要求指出。

应当理解的是,本申请实施例并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请实施例的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1