说话人确认方法和说话人确认设备与流程

文档序号：15618928发布日期：2018-10-09 21:52阅读：566来源：国知局

本发明一般地涉及信息处理技术领域。具体而言，本发明涉及一种能够准确地验证是否由特定说话人进行特定发言的方法和设备。

背景技术：

说话人确认技术的目的是验证说话人的身份，判断是否是之前注册的那位特定说话人。说话人确认主要依赖于说话人的语音特征，如语音生物测定。作为一个相关技术，说话人识别技术需要长时间的(如10秒到30秒)的音频来识别说话人是否是多个特定说话人之一。如果音频长度过短，例如少于10秒，则说话人识别的准确性将会显著降低，例如从不到5％的错误率升至约15％的错误率。因此，说话人识别技术需要输入音频的长度超过10秒。但是，对于说话人确认技术而言，为了验证说话人的身份而与说话人识别技术类似地要求说话人说话超过10秒显然是不合适的。

解决办法之一是引入特定的发言，形成文本依赖的说话人确认技术。这样，即使音频长度较短，说话人验证的准确性依然较高。另外，特定发言在某种程度上可以起到类似于密码的作用。

因此，文本依赖的说话人确认技术需要确定是否由特定说话人进行特定的发言。传统的技术，如动态时间规整(dynamictimewarping，dtw)、连续隐马尔可夫模型(continuousdensityhiddenmarkovmodel，cdhmm)都存在不足，比如难以处理文本内容的时间序列信息等。这是因为传统的技术都将验证是否是特定说话人和验证是否是特定发言两者作为一个任务完成，将所有的信息混合在一起进行使用。具体地，传统的技术从输入帧中提取一个既包括说话人特征又包括文本信息的特征，用这一个特征验证说话人和发言两者，不能将两者分开。

因此，本发明旨在提出一种准确地进行文本依赖的说话人确认的方法和设备。

技术实现要素：

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

为了实现上述目的，根据本发明的一个方面，提供了一种验证是否由特定说话人进行特定发言的方法，该方法包括：从输入语音中提取与任何文本内容无关的说话人特征，并将所提取的说话人特征与所存储的特定说话人特征进行比较，以确定是否是特定说话人在说话；基于输入语音帧序列的频域特征，从输入语音帧序列中提取分别与彼此不同文本内容对应的多个模板构成的模板串；以及将所得到的模板串与所存储的特定说话人的特定内容模板串进行比较，以确定是否进行了特定发言。

根据本发明的另一个方面，提供了一种验证是否由特定说话人进行特定发言的设备，该设备包括：特定说话人判断装置，被配置为：从输入语音中提取与任何文本内容无关的说话人特征，并将所提取的说话人特征与所存储的特定说话人特征进行比较，以确定是否是特定说话人在说话；模板串提取装置，被配置为：基于输入语音帧序列的频域特征，从输入语音帧序列中提取分别与彼此不同文本内容对应的多个模板构成的模板串；以及特定发言判断装置，被配置为：将所得到的模板串与所存储的特定说话人的特定内容模板串进行比较，以确定是否进行了特定发言。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述方法。

附图说明

参照下面结合附图对本发明的实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中：

图1示出了根据本发明的实施例的验证是否由特定说话人进行特定发言的方法的流程图；

图2示出了从输入语音帧序列中提取模板串的第一种实现方式；

图3示出了从输入语音帧序列中提取模板串的第二种实现方式；

图4示出了从输入语音帧序列中提取模板串的第三种实现方式；

图5示出了步骤s3的一种实施方式；

图6示出了根据本发明的实施例的验证是否由特定说话人进行特定发言的设备的结构方框图。

图7示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。另外，还需要指出的是，在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。

本发明的基本思想是将验证是否是特定说话人和验证是否进行特定发言分开处理。

下面将参照图1描述根据本发明的实施例的验证是否由特定说话人进行特定发言的方法的流程。

图1示出了根据本发明的实施例的验证是否由特定说话人进行特定发言的方法的流程图。如图1所示，该方法包括如下步骤：从输入语音中提取与任何文本内容无关的说话人特征，并将所提取的说话人特征与所存储的特定说话人特征进行比较，以确定是否是特定说话人在说话(步骤s1)；基于输入语音帧序列的频域特征，从输入语音帧序列中提取分别与彼此不同文本内容对应的多个模板构成的模板串(步骤s2)；以及将所得到的模板串与所存储的特定说话人的特定内容模板串进行比较，以确定是否进行了特定发言(步骤s3)。

在步骤s1中，从输入语音中提取与任何文本内容无关的说话人特征，并将所提取的说话人特征与所存储的特定说话人特征进行比较，以确定是否是特定说话人在说话。

步骤s1中用到的说话人特征例如是声纹特征，与任何文本内容无关。去掉文本内容的原因是文本内容对提取说话人特征的任务而言是干扰。由于提取的说话人特征与文本内容无关，所以并不需要构成输入语音的语音帧的序列信息。

应理解，采用类似的手段，可以预先从特定说话人的语音中提取与任何文本内容无关的特定说话人特征并存储。

由于事先已提取并存储一个特定说话人的与任何文本内容无关的说话人特征，所以可以通过将本次提取的说话人特征与所存储的特定说话人特征进行比较，得到例如相似度，作为说话人评价得分；根据说话人评价得分与预定得分阈值的大小关系来确定是否是特定说话人在说话。

步骤s1可以使用传统的说话人识别系统实现，如i-vector系统或d-vector系统。应注意，上述系统在本发明中仅用于进行说话人识别。传统的说话人识别系统可以单独识别说话人，而不识别发言。

在步骤s2中，基于输入语音帧序列的频域特征，从输入语音帧序列中提取分别与彼此不同文本内容对应的多个模板构成的模板串。

在步骤s2中，提取的模板串体现了发言的内容。因此，需要输入语音中的帧序列的信息，如顺序信息、长度信息等。分别对每个帧计算频域数据。频域数据按帧存储，频域数据的顺序得以保留。

基于频域特征可以对输入语音帧序列按照文本内容进行划分。模板串包括多个模板，每个模板对应一种文本内容，相邻模板对应的文本内容不同。

图2示出了从输入语音帧序列中提取模板串的第一种实现方式。如图2所示，在步骤s21中，从输入语音帧序列中提取基频特征。

由于认为基频特征的极值是不同文本内容的边界，所以在步骤s22中，将基频特征的极值两侧的频域数据划分为对应不同文本内容。

进而，在步骤s23中，分别从对应于不同文本内容的频域数据中，提取模板。每个模板对应于一种文本内容，相邻的模板对应于不同的文本内容。多个模板构成模板串，体现发言的内容。

模板包括模板对应频域数据的均值、模板对应频域数据的长度、以及模板对应频域数据中的第一帧和最后一帧的频域特征值。一个模板对应于一个文本内容，对应于多个帧。每个帧对应于一段频域数据，对应于这段频域数据的一个均值。所以一个模板对应于多个均值构成的均值向量。

模板对应频域数据的长度可以用来区分发出同样声音时长度不同的情况。模板对应的频域数据的长度就是模板对应的帧数，也是均值向量中的均值数目。

模板对应频域数据中的第一帧和最后一帧的频域特征值可以用于区分发音的均值(向量)一致、长度一致但一个由高到低而另一个由低到高的情况。

由于模板包括上述三方面的数据，所以基于模板的比较能够有助于准确判断是否进行了特定发言。

图3示出了从输入语音帧序列中提取模板串的第二种实现方式。如图3所示，在步骤s31中，从输入语音帧序列中提取频谱特征或倒谱特征。

在步骤s32中，比较相邻语音帧在频谱特征或倒谱特征上的差异。频谱特征或倒谱特征的差异例如是梅尔频率倒谱系数(melfrequencycepstrumcoefficient,mfcc)。

在步骤s33中，将差异超过差异阈值的语音帧划分为对应不同文本内容。

在步骤s34中，分别从对应于不同文本内容的频域数据中，提取模板。

举例来说，扫描窗口为连续五帧。如果根据差异阈值判断这五个语音帧之间的在频谱特征或倒谱特征上的差异较小，则将五个语音帧归为同一文本内容，继续滑动窗口例如两帧。如果差异较大，则在差异最大的相邻帧处将其两边的帧分为不同文本内容。

使用平滑算法来平滑帧差异，以免数值波动导致误判。

设帧差异为dfv，在一个示例中，

其中，n为扫描窗内的帧数，d|fi，fj|表示两个不同的帧fi、fj之间的特征差异，例如通过欧氏距离、马氏距离等计算。

差异阈值可以通过经标记的训练数据得到。

图4示出了从输入语音帧序列中提取模板串的第三种实现方式，也即上述两种实现方式的组合。如图4所示，在步骤s41中，从输入语音帧序列中提取基频特征；在步骤s42中，将基频特征的极值两侧的频域数据划分为对应不同文本内容。

在步骤s43中，从输入语音帧序列中提取频谱特征或倒谱特征；在步骤s44中，比较相邻语音帧在频谱特征或倒谱特征上的差异；在步骤s45中，将差异超过差异阈值的语音帧划分为对应不同文本内容。

在步骤s46中，分别从对应于不同文本内容的频域数据中，提取模板。

经过步骤s2，基于输入语音帧序列的频域特征，从输入语音帧序列中提取分别与彼此不同文本内容对应的多个模板构成的模板串。应理解，采用同样的手段，可以从预先提供的特定说话人进行特定发言的语音帧序列中基于该语音帧序列的频域特征提取特定说话人进行特定发言时的、特定说话人的特定内容模板串，并存储。特定说话人的特定内容模板串包括分别与特定发言中的彼此不同文本内容对应的多个模板。

在步骤s3中，将所得到的模板串与所存储的特定说话人的特定内容模板串进行比较，以确定是否进行了特定发言。

图5示出了步骤s3的一种实施方式。

在步骤s51中，利用最小编辑距离来计算所得到的模板串与所存储的特定说话人的特定内容模板串之间的差异，作为所得到的模板串与所存储的特定说话人的特定内容模板串之间的相似度。

模板串m与模板串n之间的编辑距离editdistance(m，n)(即相似度)例如可以表示为：

其中，in表示插入代价，wi表示插入代价的权重，dm表示删除代价，wd表示删除代价的权重，vm，n表示转换代价，wv表示转换代价的权重。

插入代价in等于插入模板对应频域数据的长度n乘以插入模板对应频域数据的均值

删除代价dm等于删除模板对应频域数据的长度m乘以删除模板对应频域数据的均值

转换代价vm，n与转换前模板对应频域数据的长度和转换后模板对应频域数据的长度之差|m-n|乘以转换前模板对应频域数据的均值向量和转换后模板对应频域数据的均值向量之间的差异有关。例如可以利用向量的余弦相似度计算。即，

作为一种优选的方案，还可以改进转换代价vm，n。转换代价vm，n还与转换前模板的第一帧对应频域数据的特征值(f1)和转换后模板的第一帧对应频域数据的特征值(f′1)之间的差异d|f1，f′1|有关。

作为一种优选的方案，还可以改进转换代价vm，n。转换代价vm，n还与转换前模板的最后一帧对应频域数据的特征值(fm)和转换后模板的最后一帧对应频域数据的特征值(f′n)之间的差异d|fm，f′n|有关。

作为一个示例，转换代价vm，n如下计算：

其中，ωfirstframe、ωlastframe、ωvariance表示权重。

在步骤s52中，在相似度大于相似度阈值的情况下，确定为进行了特定发言；在相似度小于或等于相似度阈值的情况下，确定为未进行特定发言。

这样，在步骤s1中，确定了是否是特定说话人在说话。在步骤s3中，确定了是否进行了特定发言。

综合步骤s1和s3的判断结果，可以得到四种可能的结果：特定说话人进行了特定发言；特定说话人未进行特定发言；非特定说话人进行了特定发言；非特定说话人未进行特定发言。

在另一种实施例中，可以将步骤s1中的说话人评价得分scorespeaker和步骤s3中的相似度scoretext(等于editdistance(m，n))进行加权求和，得到文本相关说话人得分finalscore。

finalscore＝ωspeakerscorespeaker+ωtextscoretext

其中，ωspeaker和ωtext代表说话人的权重和文本的权重。

可以将文本相关说话人得分finalscore与预先指定的阈值作比较来判断是否由特定说话人进行了特定发言。

下面，将参照图6描述根据本发明的实施例的信息抽取设备。

图6示出了根据本发明的实施例的验证是否由特定说话人进行特定发言的设备的结构方框图。如图6所示，根据本发明的说话人确认设备600包括：特定说话人判断装置61，被配置为：从输入语音中提取与任何文本内容无关的说话人特征，并将所提取的说话人特征与所存储的特定说话人特征进行比较，以确定是否是特定说话人在说话；模板串提取装置62，被配置为：基于输入语音帧序列的频域特征，从输入语音帧序列中提取分别与彼此不同文本内容对应的多个模板构成的模板串；以及特定发言判断装置63，被配置为：将所得到的模板串与所存储的特定说话人的特定内容模板串进行比较，以确定是否进行了特定发言。

在一个实施例中，模板串提取装置62被进一步配置为：从输入语音帧序列中提取基频特征；将基频特征的极值两侧的频域数据划分为对应不同文本内容；分别从对应于不同文本内容的频域数据中，提取模板。

在一个实施例中，模板串提取装置62被进一步配置为：从输入语音帧序列中提取频谱特征或倒谱特征；比较相邻语音帧在频谱特征或倒谱特征上的差异；将差异超过差异阈值的语音帧划分为对应不同文本内容；分别从对应于不同文本内容的频域数据中，提取模板。

在一个实施例中，模板串提取装置62被进一步配置为：从输入语音帧序列中提取基频特征；将基频特征的极值两侧的频域数据划分为对应不同文本内容；从输入语音帧序列中提取频谱特征或倒谱特征；比较相邻语音帧在频谱特征或倒谱特征上的差异；将差异超过差异阈值的语音帧划分为对应不同文本内容；分别从对应于不同文本内容的频域数据中，提取模板。

在一个实施例中，模板包括模板对应频域数据的均值、模板对应频域数据的长度、以及模板对应频域数据中的第一帧和最后一帧的频域特征值。

在一个实施例中，所存储的特定说话人特征从预先提供的特定说话人的语音中提取且与任何文本内容无关。

在一个实施例中，所存储的特定说话人的特定内容模板串从预先提供的特定说话人进行特定发言的语音帧序列中基于该语音帧序列的频域特征提取，且包括分别与特定发言中的彼此不同文本内容对应的多个模板。

在一个实施例中，特定发言判断装置63被进一步配置为：利用最小编辑距离来计算所得到的模板串与所存储的特定说话人的特定内容模板串之间的差异，作为所得到的模板串与所存储的特定说话人的特定内容模板串之间的相似度；在相似度大于相似度阈值的情况下，确定为进行了特定发言；在相似度小于或等于相似度阈值的情况下，确定为未进行特定发言。

在一个实施例中，插入代价等于插入模板对应频域数据的长度乘以插入模板对应频域数据的均值；删除代价等于删除模板对应频域数据的长度乘以删除模板对应频域数据的均值；转换代价与转换前后模板对应频域数据的长度之差乘以转换前后模板对应频域数据的均值之差有关。

在一个实施例中，转换代价还与转换前后模板的第一帧对应频域数据的特征值差异有关。

在一个实施例中，转换代价还与转换前后模板的最后一帧对应频域数据的特征值差异有关。

由于在根据本发明的说话人确认设备600中所包括的各个装置和单元中的处理分别与上面描述的说话人确认方法中所包括的各个步骤中的处理类似，因此为了简洁起见，在此省略这些装置和单元的详细描述。

此外，这里尚需指出的是，上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图7所示的通用计算机700)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

图7示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。

在图7中，中央处理单元(cpu)701根据只读存储器(rom)702中存储的程序或从存储部分708加载到随机存取存储器(ram)703的程序执行各种处理。在ram703中，还根据需要存储当cpu701执行各种处理等等时所需的数据。cpu701、rom702和ram703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件连接到输入/输出接口705：输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器，比如阴极射线管(crt)、液晶显示器(lcd)等，和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡比如lan卡、调制解调器等)。通信部分709经由网络比如因特网执行通信处理。根据需要，驱动器710也可连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器710上，使得从中读出的计算机程序根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(cd-rom)和数字通用盘(dvd))、磁光盘(包含迷你盘(md)(注册商标))和半导体存储器。或者，存储介质可以是rom702、存储部分508中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明的实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

附记

1.一种验证是否由特定说话人进行特定发言的方法，包括：

从输入语音中提取与任何文本内容无关的说话人特征，并将所提取的说话人特征与所存储的特定说话人特征进行比较，以确定是否是特定说话人在说话；

基于输入语音帧序列的频域特征，从输入语音帧序列中提取分别与彼此不同文本内容对应的多个模板构成的模板串；以及

将所得到的模板串与所存储的特定说话人的特定内容模板串进行比较，以确定是否进行了特定发言。

2.如附记1所述的方法，其中，所述基于输入语音帧序列的频域特征，从输入语音帧序列中提取分别与不同文本内容对应的多个模板构成的模板串包括：

从输入语音帧序列中提取基频特征；

将基频特征的极值两侧的频域数据划分为对应不同文本内容；

分别从对应于不同文本内容的频域数据中，提取模板。

3.如附记1所述的方法，其中，所述基于输入语音帧序列的频域特征，从输入语音帧序列中提取分别与不同文本内容对应的多个模板构成的模板串包括：

从输入语音帧序列中提取频谱特征或倒谱特征；

比较相邻语音帧在频谱特征或倒谱特征上的差异；

将差异超过差异阈值的语音帧划分为对应不同文本内容；

分别从对应于不同文本内容的频域数据中，提取模板。

4.如附记1所述的方法，其中，所述基于输入语音帧序列的频域特征，从输入语音帧序列中提取分别与不同文本内容对应的多个模板构成的模板串包括：

从输入语音帧序列中提取基频特征；

将基频特征的极值两侧的频域数据划分为对应不同文本内容；

从输入语音帧序列中提取频谱特征或倒谱特征；

比较相邻语音帧在频谱特征或倒谱特征上的差异；

将差异超过差异阈值的语音帧划分为对应不同文本内容；

分别从对应于不同文本内容的频域数据中，提取模板。

5.如附记1-4中任一项所述的方法，其中，所述模板包括模板对应频域数据的均值、模板对应频域数据的长度、以及模板对应频域数据中的第一帧和最后一帧的频域特征值。

6.如附记1所述的方法，其中，所存储的特定说话人特征从预先提供的特定说话人的语音中提取且与任何文本内容无关。

7.如附记1所述的方法，其中，所存储的特定说话人的特定内容模板串从预先提供的特定说话人进行特定发言的语音帧序列中基于该语音帧序列的频域特征提取，且包括分别与特定发言中的彼此不同文本内容对应的多个模板。

8.如附记5所述的方法，其中，将所得到的模板串与所存储的特定说话人的特定内容模板串进行比较，以确定是否进行了特定发言包括：

利用最小编辑距离来计算所得到的模板串与所存储的特定说话人的特定内容模板串之间的差异，作为所得到的模板串与所存储的特定说话人的特定内容模板串之间的相似度；

在相似度大于相似度阈值的情况下，确定为进行了特定发言；

在相似度小于或等于相似度阈值的情况下，确定为未进行特定发言。

9.如附记8所述的方法，其中，利用最小编辑距离来计算所得到的模板串与所存储的特定说话人的特定内容模板串之间的差异包括：

插入代价等于插入模板对应频域数据的长度乘以插入模板对应频域数据的均值；

删除代价等于删除模板对应频域数据的长度乘以删除模板对应频域数据的均值；

转换代价与转换前后模板对应频域数据的长度之差乘以转换前后模板对应频域数据的均值之差有关。

10.如附记9所述的方法，其中，转换代价还与转换前后模板的第一帧和/或最后一帧对应频域数据的特征值差异有关。

11.一种验证是否由特定说话人进行特定发言的设备，包括：

特定说话人判断装置，被配置为：从输入语音中提取与任何文本内容无关的说话人特征，并将所提取的说话人特征与所存储的特定说话人特征进行比较，以确定是否是特定说话人在说话；

模板串提取装置，被配置为：基于输入语音帧序列的频域特征，从输入语音帧序列中提取分别与彼此不同文本内容对应的多个模板构成的模板串；以及

特定发言判断装置，被配置为：将所得到的模板串与所存储的特定说话人的特定内容模板串进行比较，以确定是否进行了特定发言。

12.如附记11所述的设备，其中，模板串提取装置被进一步配置为：

从输入语音帧序列中提取基频特征；

将基频特征的极值两侧的频域数据划分为对应不同文本内容；

分别从对应于不同文本内容的频域数据中，提取模板。

13.如附记11所述的设备，其中，模板串提取装置被进一步配置为：

从输入语音帧序列中提取频谱特征或倒谱特征；

比较相邻语音帧在频谱特征或倒谱特征上的差异；

将差异超过差异阈值的语音帧划分为对应不同文本内容；

分别从对应于不同文本内容的频域数据中，提取模板。

14.如附记11所述的设备，其中，模板串提取装置被进一步配置为：

从输入语音帧序列中提取基频特征；

将基频特征的极值两侧的频域数据划分为对应不同文本内容；

从输入语音帧序列中提取频谱特征或倒谱特征；

比较相邻语音帧在频谱特征或倒谱特征上的差异；

将差异超过差异阈值的语音帧划分为对应不同文本内容；

分别从对应于不同文本内容的频域数据中，提取模板。

15.如附记11-14中任一项所述的设备，其中，所述模板包括模板对应频域数据的均值、模板对应频域数据的长度、以及模板对应频域数据中的第一帧和最后一帧的频域特征值。

16.如附记11所述的设备，其中，所存储的特定说话人特征从预先提供的特定说话人的语音中提取且与任何文本内容无关。

17.如附记11所述的设备，其中，所存储的特定说话人的特定内容模板串从预先提供的特定说话人进行特定发言的语音帧序列中基于该语音帧序列的频域特征提取，且包括分别与特定发言中的彼此不同文本内容对应的多个模板。

18.如附记15所述的设备，其中，特定发言判断装置被进一步配置为：

在相似度大于相似度阈值的情况下，确定为进行了特定发言；

在相似度小于或等于相似度阈值的情况下，确定为未进行特定发言。

19.如附记18所述的设备，其中，

插入代价等于插入模板对应频域数据的长度乘以插入模板对应频域数据的均值；

删除代价等于删除模板对应频域数据的长度乘以删除模板对应频域数据的均值；

转换代价与转换前后模板对应频域数据的长度之差乘以转换前后模板对应频域数据的均值之差有关。

20.如附记19所述的设备，其中，转换代价还与转换前后模板的第一帧和/或最后一帧对应频域数据的特征值差异有关。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘柳;刘汝杰;石自强
技术所有人：富士通株式会社
我是此专利的发明人