用于促进对时间序列模式的检测的方法和系统与流程

文档序号:13448088阅读:210来源:国知局
用于促进对时间序列模式的检测的方法和系统与流程

本发明涉及用于促进对一或多个时间序列模式的检测的方法。此外,本发明涉及对应的计算机程序、非暂时性计算机可读媒体以及系统。



背景技术:

时间序列模式是在连续时间间隔上从跨越所述间隔的连续测量值中使用每两个连续测量值之间的相等间隔且在时间间隔内的每一时间单元具有至多一个数据点的情况下做出的数据点的模式。时间序列模式的实例是音频模式,例如声音模式和人类语音模式。可有用的是检测特定时间序列模式(例如)以便辨识特定事件或情境(例如,启动汽车或正在运行的汽车中)以及区分和识别不同的说话者。此外,使这些检测更容易可为有用的。



技术实现要素:

根据本公开的第一方面,构想用于促进对一个或多个时间序列模式的检测的方法,其包括建置一个或多个人工神经网络,其中对于待检测的至少一个时间序列模式,建置所述人工神经网络中的特定一个。

在所述方法的一个或多个实施例中,建置所述人工神经网络包括采用增强拓扑的神经进化。

在所述方法的一个或多个实施例中,存储所述人工神经网络以用于检测任务中的后续使用。

在所述方法的一个或多个实施例中,待检测的每一时间序列模式表示一类所述检测任务。

在所述方法的一个或多个实施例中,所述时间序列模式是音频模式。

在一个或多个实施例中,提供原始时间序列信号作为对建置的每一人工神经网络的输入。

在所述方法的一个或多个实施例中,所述音频模式包含以下各项的群组中的至少一者:有声语音、无声语音、用户特定的语音、情境声音,声音事件。

在所述方法的一个或多个实施例中,所述时间序列模式的检测形成说话者验证功能的部分。

在一个或多个实施例中,对于待验证的每一说话者,建置至少一个人工神经网络以用于检测所述说话者的语音片段。

在所述方法的一个或多个实施例中,对于待验证的每一说话者,建置人工神经网络以用于检测所述说话者的有声语音片段,且建置另一人工神经网络以用于检测所述说话者的无声语音片段。

根据本公开的第二方面,提供包括指令的计算机程序,所述指令当执行时实行或控制所阐述种类的方法。

根据本公开的第三方面,提供非暂时性计算机可读媒体,其包括所阐述种类的计算机程序。

根据本发明的第四方面,提供用于促进对一个或多个时间序列模式的检测的系统,其包括被配置成建置一个或多个人工神经网络的网络建置单元,其中对于待检测的至少一个时间序列模式,所述网络建置单元被配置成建置所述人工神经网络中的特定一个。

在所述系统的一个或多个实施例中,所述网络建置单元被配置成采用增强拓扑的神经进化用于建置所述人工神经网络。

在所述系统的一个或多个实施例中,所述系统进一步包括存储单元,且所述网络建置单元进一步被配置成将所述人工神经网络存储于所述存储单元中用于检测任务中的后续使用。

附图说明

将参考附图更详细地描述实施例,其中:

图1示出了模式检测促进方法的说明性实施例;

图2示出了模式检测促进方法的另一说明性实施例;

图3示出了模式检测促进系统的说明性实施例;

图4示出了模式检测系统的说明性实施例;

图5(a)到(d)示出了人工神经网络的说明性实施例;

图6示出了人工神经网络的另一说明性实施例。

具体实施方式

如上所提到,促进对时间序列模式的检测可为有用的。举例来说,为了辨识特定音频事件或情境以及区分和识别不同的说话者,可能必须检测音频信号中的特定时间序列模式。因此,根据本发明,构想用于促进对一或多个时间序列模式的检测的方法,其包括建置一个或多个人工神经网络,其中对于将检测的至少一个时间序列模式,建置所述人工神经网络中的特定一个。

通常,在对输入信号进行分类之前从输入信号计算特征的集合。所谓的梅尔频率倒谱系数(mfcc)是这些特征的实例。随后,将所提取的特征提供到执行分类任务的分类器。特征的提取减少了输入维度,这又促进了分类任务。然而,减少输入维度也可能不利地影响模式检测过程。举例来说,在说话者验证任务的情况下,无论目标说话者是谁都提取相同的特征集合。这妨碍了捕获对于给定说话者极为特定的特性,这又会导致误识别。根据本公开,建置针对对应于目标说话者的时间序列模式特定的人工神经网络(ann)促进了捕获对于所述说话者特定的特性。确切地说,所述特定ann可随后用作分类器,所述分类器可接收输入信号(例如,尚未由特征提取器预处理的原始输入信号),且可检测对应于所述信号内的目标说话者的时间序列模式。应注意,可至少部分地通过计算机程序以如本文中举例描述的方式来建置ann。发明人已经发现本发明所公开的方法和对应系统尤其适合于促进对音频模式的检测,然而其应用不限于此。

图1示出了模式检测促进方法100的说明性实施例。方法100包括在102处选择待检测的时间序列模式。举例来说,所述选定时间序列模式可为音频模式,具体来说为用户特定的语音、有声语音(元音)、无声语音(辅音)、情境声音(例如,运行的汽车)或声音事件(例如,启动汽车)。此外,方法100包括在104处建置用于选定时间序列模式的ann。随后,在106处,检查是否应当检测更多时间序列模式。如果是,那么方法100针对待检测的每一另外的时间序列模式重复步骤102和104。如果没有更多模式待检测,那么方法100结束。

在一个或多个实施例中,建置ann包括采用增强拓扑的神经进化(neat)。以此方式,更容易找到选定时间序列模式的特殊性且所得ann可具有最小拓扑,以使得可节省计算资源。神经进化指代用于使用遗传算法人工进化神经网络的方法。当应用此方法时获得的产物称为人工神经网络(ann);本文中参考图5(a)到(d)描述简单实例ann。此外,neat指代神经进化方法,其中进化的神经网络的结构递增地生长,以使得网络的拓扑可减到最少。更具体来说,网络节点的数目以及其间的连接可保持最少,同时网络仍执行所需任务。neat方法已尤其在us2008/0267419a1以及kennetho.stanley和ristomiikkulainen在2002年夏的进化计算期刊卷10第2期第99到127页中的论文“通过增强拓扑的进化神经网络”中描述。

图2示出了模式检测促进方法200的另一说明性实施例。除了图1中已经示出的步骤102、104、106之外,方法200包括在202处存储在步骤104中建置的每一ann用于后续使用。进而可促进模式检测任务中的一个ann或多个ann的使用。所述一个ann或多个ann可例如存储于执行所述模式检测任务的模式检测系统或模式检测装置的存储器中。

在一个或多个实施例中,待检测的每一时间序列模式表示一类模式检测任务。因此,更具体来说,可针对每一类检测任务进化单独的ann;ann因此有效地构成所述类的模型。通常,模式检测器针对给定任务提取用于所有类的特征的相同集合。换句话说,取决于在固定空间中的坐标,给定特征向量将被分类为属于c类。这意味着例如在音频情境辨识任务中,类“汽车”有别于同一特征空间内的类“办公室”。在说话者验证任务中,在同一特征空间内验证说话者a和说话者b。也就是说,说话者a有别于如说话者b一样的空间内的任何其它说话者。在这两个例子中,针对所有类使用同一特征空间减少了利用每一类的特殊性的能力。通过针对检测任务的每一类或每一说话者进化单独的ann,可避免此情况。此外,在一个或多个实施例中,提供原始时间序列信号作为对建置的每一人工神经网络的输入。在所述情况下,有待网络提取待检测的模式的相关特征,且更可能捕获所述模式的特定特性。也就是说,可省略前述常用的特征提取器。

图3示出了模式检测促进系统300的说明性实施例。系统300包括操作性地耦合到存储单元304的网络建置单元302。网络建置单元302被配置成建置一个或多个ann。确切地说,网络建置单元302被配置成针对待检测的每一选定时间序列模式建置特定ann。此外,网络建置单元302可被配置成将一个ann或多个ann存储在存储单元304中。存储单元304可为适合于集成到系统300中的任何存储器。

图4示出了模式检测系统400的说明性实施例。模式检测系统400包括图3中所示的模式检测促进系统300。模式检测促进系统300可建置且存储对于待检测的选定时间序列模式特定的一个或多个ann;这可例如在模式检测系统400的训练或登记模式中完成。此外,模式检测系统400包括操作性地耦合到存储单元304的模式检测单元402。模式检测单元402可检测提供到所述模式检测单元402的输入信号中的一个或多个时间序列模式,且输出一个或多个对应检测决策。这可例如在模式检测系统400的操作模式中完成。在实际且高效的实施方案中,检测决策可以由简单布尔型变量表示:一个值可表示“检测到模式”决策,而另一值可表示“未检测到模式”决策。

图5(a)到(d)示出了人工神经网络的说明性实施例。确切地说,它们示出了根据本发明的可进化的ann的例子。每一网络节点n1到n6表示形成模式检测任务的一部分的处理元件。每一处理元件对其所接收输入执行功能。在ann的领域中,图5(b)中的网络节点n3、图5(c)中的n3和n4以及图5(c)中的n3到n6常常称为隐藏节点。此外,网络节点n1到n6通过具有某一权重w12、w13、w32、w34、w42、w1j、wj2的连接而彼此连接。根据ann的原理,对处理元件的输入乘以接收到所述输入所经过的连接的权重。根据neat的原理,进化的ann递增地生长。举例来说,初始地可选择简单ann,如图5(a)中所示,且可借助于拟合性函数测试此简单ann是否将正确地检测选定模式。如果所述拟合性函数具有低于某一阈值的输出,那么可通过遵循进化试探法添加一个或多个网络节点和/或连接而扩展开发中的ann。举例来说,图5(a)的简单ann可扩展到图5(b)中所示的ann。再次,可借助于所述拟合性函数测试ann是否将正确地检测选定模式。如果为否,那么开发中的ann可再次扩展到例如图5(c)中所示的ann。最终,此迭代过程可产生正确地检测选定模式的ann,例如图5(d)中所示的ann,或更复杂的ann(未图示)。应注意,在图5(a)到(d)中说明的过程是简化过程。实际上,举例来说,隐藏节点不一定“平行”(即跨越单个层)添加,但它们可遵循任何拓扑。此外,连接不一定是正向连接,但它们也可为反复出现的。

在以下阐释中,术语“单元”指代ann中的节点。具体地说,术语“输入单元”指代接收用于整个ann的输入的节点,例如图5(a)到(d)中的节点n1。此输入不应当与如上文所论述的ann的个别节点的(经加权)输入混淆。此外,术语“输出单元”指代产生ann的输出的节点,例如图5(a)到(d)中的节点n2。应注意,ann可具有多个输入和/或多个输出(未图示)。

一般来说,neat需要指定优化设置。确切地说,应当指定以下各项:

-将进化的ann的输入单元的数目;

-将进化的ann的输出单元的数目;

-拟合性函数,其用以评估和选择进化的个别ann的群体当中的最佳解。

在简单实施方案中,本发明所公开的方法和系统可使用neat来进化ann,所述ann采取单个输入(即,时间序列输入信号的一个样本)和一个输出(即,检测决策)。对于给定的一代,将使用拟合性函数来评估解候选者的群体中的每一个体。因此,此拟合性函数应当反映希望实际上使用ann的方式。

有声/无声分类(即,语音信号中的元音与辅音之间的区别)可取为例子。拟合性函数可将长度n的测试语音信号馈送到考虑中的个别ann中且评估其输出。为了这样做,将测试语音信号的每一样本一个接一个地置于所述ann的输入处,且将执行一个单个激活步骤。激活步骤包括:将每一单元的输出(包含输入单元的输出和偏置单元的输出)传播到它们所连接到的单元,并且然后更新所有单元的输出(包含输出单元的输出)。偏置单元是具有通常为1的恒定值的输入单元。其准许通过从偏置单元产生连接而对网络中的任何单元的输入添加任何恒定值。

通过重复此操作直到整个输入信号已馈送到网络且在每一步骤从输出单元读出值,获得输出信号。假定输入[i]是输入信号的第i样本。最简单的拟合性值可表达为:

其中当输入[i]为有声的时,真[i]等于1,且否则等于0。返回此值作为待评估的个体的拟合性。

所提议的评估算法可概括为:

0.以指针i=0开始

1.放置输入[i]作为ann的输入单元的输出

2.执行ann的一个激活步骤

3.存储ann的输出单元的输出作为输出[i]

4.如果i<n-1,那么将i增加一且到达步骤1

5.计算且返回此个体的拟合性

一旦当前一代的群体的所有个体已经被评估,便保持具有较高拟合性的那些个体以产生下一代的群体。在当前一代的冠军时给出满意结果时(例如,当冠军的拟合性值超过预定义阈值时),优化过程已结束。在此实例中,此冠军是被存储以供模式检测任务中的后续使用的进化ann。

根据本发明,可针对待检测的每一类执行此优化过程。采取说话者验证任务的例子,可针对待验证的每一说话者进化ann。测试输入信号是语音信号,其中每一样本是由目标说话者或由非目标(顶替者)说话者的组群中的一者说出的语音片段的部分。为了改善说话者验证任务上的表现,可针对每一说话者进化两个ann:一个用以在有声片段上验证且一个用以在无声片段上验证。

图6示出了人工神经网络600的另一说明性实施例。确切地说,其示出了以16000hz的取样速率在女性说话者的有声片段上训练的验证系统获得的拓扑。更具体来说,其示出了第215代的个别ann,具有19个单元(即,网络节点)和118个经加权连接以及0.871936631944的拟合性值。ann600包括输入单元600、偏置单元604、输出单元606,以及多个隐藏单元608。ann600已使用上述优化过程而产生。

在本发明所公开的方法和系统的更复杂的应用中,待进化的ann尤其当使用例如hyperneat等neat的变体时可具有多个输入,和/或可具有多个输出。当ann预期不输出决策值而是有意馈送到例如支持向量机(svm)等后续分类器中的特征向量时,多个输出是尤其有用的。此分类器的训练和测试接着可包含在拟合性函数中。

如上所提到,本发明所公开的方法和系统尤其有用于促进音频模式的检测。举例来说,设想本发明所公开的方法和系统的以下使用情况:音频情境辨识(例如,汽车、办公室、公园),预定义音频模式辨识(例如,婴儿哭泣、玻璃打破、火警),说话者验证/辨识,话音活动检测(即,信号中的语音存在的检测),以及发声概率(即,语音信号中的元音/辅音差异)。

本文中所描述的系统和方法可以至少部分地由一个计算机程序或多个计算机程序实施,所述计算机程序可以在单一计算机系统中或跨多个计算机系统以激活和闲置两种状态呈多种形式存在。举例来说,这些计算机程序可以作为由程序指令组成的软件程序存在于源代码、目标代码、可执行代码或其它格式中以用于执行一些步骤。以上格式中的任一格式可以压缩或未压缩形式在计算机可读媒体上实施,计算机可读媒体可以包括存储装置和信号。

如本文所使用,术语“移动装置”是指任何类型的便携式电子装置,包括蜂窝式电话、个人数字助理(personaldigitalassistant,pda)、智能电话、平板计算机等。此外,术语“计算机”是指包括处理器(例如,通用中央处理单元(centralprocessingunit,cpu)、专用处理器或微控制器)的任何电子装置。计算机能够接收数据(输入),能够对数据执行一系列预定操作,并且能够由此产生信息或信号形式的结果(输出)。取决于上下文,术语“计算机”将意指(具体来说)处理器或(更一般地)与单个壳体或外壳内包含的相关元件的组合件相关联的处理器。

术语“处理器”或“处理单元”是指数据处理电路,所述数据处理电路可以是微处理器、协处理器、微控制器、微型计算机、中央处理单元、现场可编程门阵列(fpga)、可编程逻辑电路和/或基于存储于存储器中的可操作指令控制信号(模拟信号或数字信号)的任何电路。术语“存储器”是指某一存储电路或多个存储电路,例如只读存储器、随机存取存储器、易失性存储器、非易失性存储器、静态存储器、动态存储器、快闪存储器、高速缓冲存储器和/或存储数字信息的任何电路。

如本文中所使用,“计算机可读媒体”或“存储媒体”可以是能够包含、存储、传达、传播或传输计算机程序以供指令执行系统、设备或装置使用或结合指令执行系统、设备或装置使用的任何构件。计算机可读媒体可以是(例如但不限于)电子的、磁性的、光学的、电磁的、红外线的或半导体的系统、设备、装置或传播媒体。计算机可读媒体的更具体例子(非穷尽性列表)可以包括以下各者:具有一个或多个导线的电连接、便携式计算机磁盘、随机存取存储器(randomaccessmemory,ram)、只读存储器(read-onlymemory,rom)、可擦除可编程只读存储器(erasableprogrammableread-onlymemory,eprom或闪存存储器)、光纤、便携式光盘只读存储器(compactdiscread-onlymemory,cdrom)、数字多功能光盘(digitalversatiledisc,dvd)、蓝光光盘(blu-raydisc,bd)以及存储卡。

应注意,已经参考不同主题描述了以上实施例。具体地说,一些实施例可参考方法类的权利要求进行描述,而其它实施例可参考设备类的权利要求进行描述。然而,本领域的普通技术人员将从上述内容了解到,除非另有说明,否则除属于一种类型标的物的特征的任一组合外,与不同标的物相关的特征的任一组合,特别是方法类的权利要求的特征和设备类的权利要求的特征的组合,也视为与此文档一起公开。

此外,应注意,图式是示意性的。在不同图式中,用相同的参考标记表示类似或相同的元件。此外,应注意,为了提供示例性实施例的简洁描述,可能并未描述属于技术人员的习惯做法的实施细节。应了解,在任何此类实施方案的发展中,如在任何工程或设计项目中,必须制定大量实施方案特定的决策以便实现研发者的特定目标,例如遵守系统相关的和商业相关的约束条件,这可以从一个实施方案到另一实施方案有所变化。此外,应了解,这种研发工作可能是复杂的且耗时的,但不过是本领域的技术人员进行设计、制造和生产的例行任务。

最后,应注意,技术人员将能够在不脱离所附权利要求书的范围的情况下设计许多替代实施例。在权利要求书中,括号里的任何附图标记不应被解释为限制权利要求。词“包括”不排除在权利要求中列出的那些元件或步骤之外的元件或步骤的存在。在元件之前的字词“一”不排除多个此类元件的存在。权利要求书中叙述的措施可以借助于包括若干独特元件的硬件和/或借助于适当编程的处理器来实施。在列出若干构件的装置权利要求项中,可以通过硬件中的同一个物件实施若干这些构件。在彼此不同的从属权利要求中叙述某些措施这一单纯事实并不表示不能使用这些措施的组合来获得优势。

参考符号列表

100模式检测促进方法

102选择待检测的时间序列模式

104建置用于待检测的时间序列模式的人工神经网络

106更多模式待检测?

200模式检测促进方法

202存储人工神经网络用于后续使用

300模式检测促进系统

302网络建置单元

304存储单元

400模式检测系统

402模式检测单元

n1-n6网络节点

w12连接权重

w13连接权重

w32连接权重

w14连接权重

w42连接权重

w1j连接权重

wj2连接权重

600人工神经网络

602输入单元

604偏置单元

606输出单元

608隐藏单元

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1