神经网络训练方法和设备以及识别方法和设备的制造方法

文档序号:10553402阅读:445来源:国知局
神经网络训练方法和设备以及识别方法和设备的制造方法【专利摘要】本发明提供一种神经网络训练方法和设备以及识别方法和设备。所述神经网络训练设备接收数据并基于通过从包括在神经网络中的多个隐藏节点排除参考隐藏节点所获得的剩余隐藏节点来训练神经网络,其中,参考隐藏节点将之前时间间隔中的值保持到之后时间间隔。【专利说明】神经网络训练方法和设备以及识别方法和设备[0001]本申请要求于2015年2月23日提交到韩国知识产权局的第10-2015-0025077号韩国专利申请的权益,针对所有目的,该韩国专利申请的全部公开通过引用合并于此。
技术领域
[0002]以下描述涉及一种神经网络训练方法和设备。以下描述还涉及一种识别方法和设备。【
背景技术
】[0003]近来,正在积极地进行将人的模式识别方法应用到实际的计算机以解决将输入模式分类为预定组的问题的研究。作为一个示例,正在通过基于数学表达式对人的生物神经细胞的特征进行建模来进行关于人工神经网络的研究。为了执行上述建模,人工神经网络可使用模拟人的学习能力的算法。基于学习算法,人工神经网络可产生输入模式与输出模式之间的映射,产生映射还可被表示为人工神经网络的学习能力。此外,响应于在之前的学习处理中未使用的新的输入模式,人工神经网络可具有泛化能力,以基于学习结果输出相对准确的输出。【
发明内容】[0004]提供本【
发明内容】来以简化的形式介绍对在下面的【具体实施方式】中进一步描述的构思的选择。本【
发明内容】不意在标识所要求保护的主题的关键特征或必要特征,也不意在用来帮助确定所要求保护的主题的范围。[0005]在一个总体方面,一种使用学习数据训练神经网络的方法包括:从神经网络中的多个隐藏节点选择参考隐藏节点;基于通过从所述多个隐藏节点排除参考隐藏节点所获得的剩余隐藏节点来训练神经网络,其中,参考隐藏节点将之前时间间隔中的值保持到之后时间间隔。[0006]选择步骤可包括:针对每个时间间隔从所述多个隐藏节点随机选择参考隐藏节点。[0007]参考隐藏节点可将在之前时间间隔中的相应参考隐藏节点中包括的长期记忆值保持到之后时间间隔。[0008]参考隐藏节点可阻止从包括相应参考隐藏节点的隐藏层的下层输入的值。[0009]参考隐藏节点可阻止输出到包括相应参考隐藏节点的隐藏层的上层的值。[0010]剩余隐藏节点可连接到其它时间间隔的隐藏节点,其中,所述其它时间间隔包括之前时间间隔和之后时间间隔。[0011]学习数据可包括:包括语音数据、图像数据、生物数据和手写数据中的至少一个的序列数据。[0012]训练步骤可包括:基于训练结果更新包括在神经网络中的连接权重。[0013]所述神经网络可以是包括多个隐藏层的递归神经网络。[0014]在另一总体方面,一种识别方法包括:接收序列数据;使用包括多个隐藏节点的神经网络识别序列数据,其中,所述多个隐藏节点包括当前时间间隔之前的时间间隔中的相应隐藏节点的值以及基于所述相应隐藏节点的值将被传送到当前时间间隔的概率计算的值,其中,神经网络基于通过从所述多个隐藏节点排除参考隐藏节点所获得的剩余隐藏节点被训练。[0015]在训练神经网络的处理中,可针对每个时间间隔从所述多个隐藏节点随机选择参考隐藏节点。[0016]在训练神经网络的处理中,参考隐藏节点可将之前时间间隔中的值保持到之后时间间隔。[0017]在训练神经网络的处理中,剩余隐藏节点可连接到其它时间间隔的隐藏节点。[0018]在另一总体方面,一种非暂时性计算机可读存储介质包括程序,所述程序包括指令以使计算机执行以上提出的第一方法。[0019]在另一总体方面,一种用于使用学习数据训练神经网络的设备,所述设备包括:接收器,被配置为接收学习数据;训练器,被配置为基于通过从包括在神经网络中的多个隐藏节点排除参考隐藏节点所获得的剩余隐藏节点来训练神经网络,其中,参考隐藏节点将之前时间间隔中的值保持到之后时间间隔。[0020]可针对每个时间间隔从所述多个隐藏节点随机选择并排除参考隐藏节点。[0021]参考隐藏节点可保持在之前时间间隔中的相应参考隐藏节点中包括的长期记忆值。[0022]参考隐藏节点可阻止从包括相应参考隐藏节点的隐藏层的下层输入的值。[0023]参考隐藏节点可阻止输出到包括相应参考隐藏节点的隐藏层的上层的值。[0024]在另一总体方面,一种识别设备包括:接收器,被配置为接收序列数据;识别器,被配置为使用包括多个隐藏节点的神经网络识别序列数据,其中,所述多个隐藏节点包括当前时间间隔之前的时间间隔中的相应隐藏节点的值以及基于所述相应隐藏节点的值将被传送到当前时间间隔的概率计算的值,其中,神经网络基于通过从所述多个隐藏节点排除参考隐藏节点所获得的剩余隐藏节点被训练。[0025]在训练神经网络的处理中,可针对每个时间间隔从所述多个隐藏节点随机选择参考隐藏节点。[0026]在训练神经网络的处理中,参考隐藏节点可将之前时间间隔中的值保持到之后时间间隔。[0027]在训练神经网络的处理中,剩余隐藏节点可连接到其它时间间隔的隐藏节点。[0028]在另一总体方面,一种使用学习数据训练神经网络的方法包括:基于通过从多个隐藏节点排除参考隐藏节点所获得的剩余隐藏节点在第一时间间隔中训练神经网络,其中,从神经网络中的多个隐藏节点选择参考隐藏节点;在之后时间间隔中训练神经网络,其中,参考隐藏节点将之前时间间隔中的值保持到之后时间间隔。[0029]在第一时间间隔中训练神经网络的步骤可包括:针对每个时间间隔从所述多个隐藏节点随机选择参考隐藏节点。[0030]参考隐藏节点可将在之前时间间隔中的相应参考隐藏节点中包括的长期记忆值保持到之后时间间隔。[0031]参考隐藏节点可阻止从包括相应参考隐藏节点的隐藏层的下层输入的值。[0032]参考隐藏节点可阻止输出到包括相应参考隐藏节点的隐藏层的上层的值。[0033]剩余隐藏节点可连接到包括之前时间间隔和之后时间间隔的其它时间间隔的隐藏节点。[0034]训练步骤可包括:基于训练结果更新包括在神经网络中的连接权重。[0035]从以下【具体实施方式】、附图和权利要求,其它特征和方面将是清楚的。【附图说明】[0036]图1示出神经网络训练设备的示例。[0037]图2示出训练神经网络的过程的示例。[0038]图3示出训练神经网络的过程的另一示例。[0039]图4示出更新包括在隐藏层中的隐藏节点的值的过程以及基于该过程的学习算法的示例。[0040]图5示出识别设备的示例。[0041]图6示出在基于预先训练的神经网络执行的识别期间确定隐藏节点的值的过程的示例。[0042]图7示出神经网络训练方法的示例。[0043]图8示出识别方法的示例。[0044]贯穿附图和【具体实施方式】,相同的参考标号表示相同的元件。附图可不必成比例,并且为了清楚、说明和方便起见,可夸大附图中元件的相对尺寸、比例和绘示。【具体实施方式】[0045]提供以下详细描述来帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在此描述的方法、设备和/或系统的各种改变、修改及等同物对本领域的普通技术人员而言将是清楚的。在此描述的操作的顺序仅是示例,并不限于在此阐述的顺序,而是除了必需按特定顺序发生的操作之外,在此描述的操作的顺序可如本领域普通技术人员将清楚的那样改变。此外,为了更加清楚和简明,可省略对本领域的普通技术人员公知的功能和构造的描述。[0046]在此描述的特征可以以不同的形式来实现,并且不应被解释为限于在此描述的示例。相反地,提供在此描述的示例,使得本公开将是全面而完整的,并且在此描述的示例将向本领域的普通技术人员传达本公开的全部范围。[0047]图1示出神经网络训练设备100。[0048]神经网络训练设备100训练神经网络,例如,人工神经网络。神经网络是,例如,使用通过使用经由适当的连接线连接的许多人工神经元来模拟生物系统的计算能力的硬件和/或软件所实施的识别模型。[0049]在以上提及的神经网络中,神经元潜在地是具有对生物神经元的功能进行建模的简化功能的人工神经元。在这样的示例中,人工神经元潜在地通过具有连接权重的连接线互相连接。这里,连接权重是连接线的预定值并还被称为,例如,连接强度。神经网络使用人工神经元来执行人的认知功能或学习处理。人工神经元还被称为,例如,作为神经网络的单位元件的节点。[0050]在一个示例中,神经网络包括多个层。例如,神经网络包括:输入层、隐藏层和输出层。输入层接收输入以执行学习,并将接收的输入传送到隐藏层。输出层基于从隐藏层的节点接收的信号产生神经网络的输出。隐藏层位于输入层与输出层之间,并将通过输入层传送的学习数据改变为容易预测的值。例如,包括在输入层中的节点与包括在隐藏层中的节点通过具有连接权重的连接线互相连接,包括在隐藏层中的节点与包括在输出层中的节点通过具有连接权重的连接线互相连接。在这样的示例中,输入层、隐藏层和输出层中的每个包括多个节点。[0051]在一个示例中,神经网络包括多个隐藏层。包括多个隐藏层的这样的神经网络还被称为,例如,深度神经网络。这样的深度神经网络的训练还被称为,例如,深度学习。包括在隐藏层中的节点还被称为,例如,隐藏节点。此外,在一个示例中,之前时间间隔中的隐藏节点的输出连接到当前时间间隔的隐藏节点。此外,在一个示例中,当前时间间隔中的隐藏节点的输出连接到之后时间间隔的隐藏节点。这样的连接允许节点互相交互并允许在整个网络传播节点之间的关系。具有包括在不同时间间隔中并互相递归连接的隐藏节点的神经网络还被称为,例如,递归神经网络。[0052]神经网络训练设备100通过监督学习处理来训练神经网络。监督学习处理是例如这样的方法:将学习数据和与学习数据相应的输出数据输入到神经网络并更新连接线的连接权重,以输出适当和/或期望的与学习数据相应的输出数据。这里,在一个示例中,学习数据是指:神经网络能够用作用于得到将使神经网络实现正确模式识别的适当权重和连接的基础的一组训练数据。例如,神经网络训练设备100基于反向传播学习技术和适当的德尔塔规则来更新人工神经元之间的连接权重。[0053]例如,反向传播学习技术是这样的方法:通过正演计算处理来估计学习数据的误差,并沿从神经元的输出层开始向神经元的隐藏层和神经元的输入层的反方向传播估计的误差,从而调整涉及到减小误差的神经元之间的连接权重。当按照输入层、隐藏层和输出层的顺序分类数据时神经网络被处理。在反向传播学习中,按照输出层、隐藏层和输入层的顺序沿反方向更新连接权重。[0054]参照图1,神经网络训练设备100包括:接收器110和训练器120。在一个示例中,使用硬件模块实施神经网络训练设备1〇〇。例如,神经网络训练设备1〇〇包括在各种类型的计算装置和/或系统中,例如,智能电话、平板计算机、膝上型计算机、台式计算机、电视机、可穿戴装置、安全系统和智能家居系统。然而,这些仅是计算装置的示例,并不意在作为限制。[0055]在图1的示例中,接收器110接收学习数据。例如,学习数据包括:包括语音数据、图像数据、生物数据和手写数据中的至少一个的序列数据。即,学习数据包括用于训练神经网络以更好地识别之后示例的一序列的示例。[0056]在图1的示例中,训练器120从学习数据提取特征值。例如,训练器120从语音数据提取随时间变化的相对变化,并基于提取的特征值训练神经网络。因此,语音数据基于预定时间单位被划分,划分的结果被输入到神经网络作为学习数据。通过以这样的方式处理语音数据,可将学习数据用作用于处理将来数据的基础。[0057]在这样的示例中,训练器120基于通过从包括在神经网络中的多个隐藏节点排除至少一个参考隐藏节点而获得的剩余隐藏节点来训练神经网络。因此,剩余隐藏节点、输入层的节点和输出层的节点都包括在一个学习模式中。神经网络是例如具有包括在不同时间间隔中并互相连接的隐藏节点的递归神经网络,并且还包括多个隐藏层。在这样的示例中,在连续的时间间隔中,隐藏节点的输出值被输入到之后时间间隔中的隐藏层。[0058]在图1的示例中,训练器120从多个隐藏节点随机选择至少一个参考隐藏节点。当输入相同的学习数据时,训练器120针对每个时间间隔随机选择至少一个参考隐藏节点。因此,通过使用这样的方法,训练器120基于针对每个时间间隔的不同学习模式来训练神经网络。[0059]参考隐藏节点是指,例如,从训练神经网络的处理排除的隐藏节点。参考隐藏节点与上层的节点之间的连接被忽略,例如,通过在训练处理期间不考虑这样的连接。例如,当训练时,参考隐藏节点阻止输出到上层的值。在此示例中,上层意在指示:沿网络的最后输出的方向,相对于包括相应参考隐藏节点的隐藏层来说,在节点分层中设置得更高的另一隐藏层或输出层。因此,当在训练中考虑参考隐藏节点与上层的节点之间的连接时,参考隐藏节点的输出不被输入到上层的节点,或者参考隐藏节点将"〇"值或另一适当的空值输出到上层的节点。[0060]因此,如以上讨论,在学习处理期间,当前时间间隔的参考隐藏节点与不同于当前时间间隔的时间间隔的隐藏节点之间的连接被忽略。然而,在此示例中,仍可潜在地保持参考隐藏节点与和不同于当前时间间隔的时间间隔中的参考隐藏节点相应的隐藏节点之间的连接。以下,还意图使用术语"自相应隐藏节点"来指示与不同于当前时间间隔的时间间隔中的参考隐藏节点相应的隐藏节点。因此,参考隐藏节点将之前时间间隔中的自相应隐藏节点的值传送到之后时间间隔中的对应的自相应隐藏节点。例如,参考隐藏节点与另一时间间隔中的自相应隐藏节点之间的连接权重可以是"1"。由于参考隐藏节点被随机选择并且还从每个时间间隔被排除,因此在各个示例中,在其它时间间隔中的自相应隐藏节点被适当地选择为相应时间间隔的参考隐藏节点或不被选择为相应时间间隔的参考隐藏节点。[0061]在这样的示例中,通过从多个隐藏节点排除至少一个参考隐藏节点所获得的剩余隐藏节点连接到其它时间间隔的隐藏节点。[0062]当基于一组学习数据执行的训练结束时,如果需要,则训练器120可选择地基于另一组学习数据训练神经网络。[0063]因此,训练器120考虑基于学习数据执行的训练的结果,更新应用于神经网络的连接权重。训练器120通过将从神经网络的输出层输出的输出值与期望基于学习数据获得的期望值进行比较来计算误差。因此,训练器120调整应用于神经网络的连接权重以减小计算的误差。训练器120基于针对训练处理指定的预设学习次数,控制神经网络重复学习包括在学习数据的组中的所有序列数据。[0064]图2示出训练神经网络的过程的示例。[0065]图2示出与针对每个时间戳的预定神经网络相应的学习模式240、250和260。在图2中,呈现特定连接线以指定神经网络训练方法。为了更加便于描述和简明,基于包括在当前时间间隔T的学习模式250中的参考隐藏节点252和256提供以下描述。在图2的示例中,从学习模式排除的参考隐藏节点由实心圆指示。[0066]在图2的示例中,学习模式240是之前时间间隔T-1的学习模式,学习模式250是当前时间间隔T的学习模式,学习模式260是之后时间间隔T+1的学习模式。与之前时间间隔T-1、当前时间间隔T和之后时间间隔T+1相应的各个学习模式240、250和260被用于学习处理。[0067]在图2的示例中,神经网络包括输入层210、隐藏层220和输出层230。在此示例中,输入层210是序列数据作为学习数据被输入到的底层。隐藏层220是设置在输入层210与输出层230之间的中间层。输出层230是呈现输入到输入层210的序列数据的输出值的顶层。例如,输入层210、隐藏层220和输出层230中的每个包括多个节点。包括在隐藏层220中的节点还被称为,例如,隐藏节点。[0068]按照流经神经网络的信息,神经网络沿经过输入层210、隐藏层220和输出层230的方向被连接。当学习数据被输入到输入层210的节点时,学习数据通过在输入层210的节点中执行的变换被传送到隐藏节点,从而在输出层230中产生输出值。为了更加清楚和简明,图2示出一个隐藏层(例如,隐藏层220)。然而,示例不限于此,因为神经网络潜在地包括多个隐藏层,而非仅单个隐藏层。[0069]神经网络训练设备将序列数据输入到神经网络的输入层210,并训练神经网络,使得序列数据的适当的分类结果从神经网络的输出层230输出。由神经网络训练设备训练的神经网络是,例如,不同时间间隔的隐藏节点通常彼此连接以提供最稳健的分类性能的递归神经网络。当神经网络训练设备训练神经网络时,包括在隐藏层中的隐藏节点连接到之后时间间隔的隐藏节点。例如,当前时间间隔T的隐藏节点的输出值被输入到之后时间间隔T+1的隐藏节点。[0070]例如,在学习序列数据的处理中,由神经网络训练设备基于多个隐藏节点被部分忽略的学习模式训练神经网络。在这样的示例中,神经网络训练设备从隐藏节点随机选择将被排除或忽略的参考隐藏节点。[0071]作为一个示例,当输入一项序列数据时,神经网络训练设备在每个时间间隔从隐藏节点选择参考隐藏节点。一旦被选择,选择的参考隐藏节点从基于这一项序列数据执行的全部过程被排除。由于选择的参考隐藏节点从学习处理中的所有时间间隔被排除,所以需要除选择的数据之外的额外项序列数据,从而呈现剩余数据,以使选择的参考隐藏节点被训练。因此,足以训练所有隐藏节点的时间量由于对额外训练数据的需求而潜在地增加。[0072]作为另一示例,神经网络训练设备针对每个时间间隔从多个隐藏节点随机选择参考隐藏节点。由于针对每个时间间隔随机选择将从学习处理排除的参考隐藏节点,因此在之前时间间隔中被选择为参考隐藏节点并从学习处理排除的隐藏节点在当前时间间隔中潜在地不被选择为参考隐藏节点,从而在当前时间间隔中参与学习处理。通过每次使用一项序列数据,许多隐藏节点以这种方式被训练。当在之前时间间隔中被选择为参考隐藏节点并从学习处理排除的隐藏节点在当前时间间隔中未被排除并被训练时,相应隐藏节点随后在当前时间间隔中具有有意义的值。因此,相应隐藏节点能够保持在相应隐藏节点被选择为在直到当前时间间隔的时间间隔中的参考隐藏节点之前确定的值,从而参与学习处理。例如,为了针对每个时间间隔随机选择参考隐藏节点,相应隐藏节点的值潜在地需要在多个时间间隔期间被保持,以调整给定节点被选择为隐藏的时间间隔。以下,参照图2的学习模式240至260提供相关描述。[0073]参照图2的示例,从学习模式240至260中的每个随机选择并排除不同的参考隐藏节点。[0074]在图2的示例中,在当前时间间隔T的学习模式250中,设置在隐藏层两端的节点被选择为将被排除在考虑之外的参考隐藏节点252和256。参考隐藏节点252将之前时间间隔T-1中的值保持到之后时间间隔T+1。例如,学习模式240的隐藏节点242、学习模式250的参考隐藏节点252和学习模式260的隐藏节点262具有相同的值。在此示例中,隐藏节点或参考隐藏节点的值指示相应节点的长期记忆值。长期记忆值指示由相应节点在多个时间间隔期间保持的值。这样的长期记忆值是用作代替从下层传送的值或传送到上层的值的替代的值。[0075]类似地,参考隐藏节点256将之前时间间隔T-1的值保持到之后时间间隔T+1。例如,学习模式240的隐藏节点246、学习模式250的参考隐藏节点256和学习模式260的参考隐藏节点266潜在地都具有相同的值。由于参考隐藏节点266包括在学习模式260中,所以参考隐藏节点256将相同的值保持到下一个之后时间间隔T+2。[0076]当前时间间隔T中的学习模式250的隐藏节点254指示通过从多个隐藏节点排除参考隐藏节点252和256所获得的剩余隐藏节点。隐藏节点254潜在地连接到其它时间间隔的隐藏节点。例如,隐藏节点254连接到之前时间间隔T-1中的学习模式240的隐藏节点。隐藏节点254还连接到之后时间间隔T+1中的学习模式260的隐藏节点。虽然隐藏节点254连接到学习模式260的参考隐藏节点266,但是参考隐藏节点266忽略从隐藏节点254接收的值并保持学习模式250的参考隐藏节点256的值。[0077]图3示出训练神经网络的过程的另一示例。[0078]参照图3的示例,在神经网络中,包括在输入层310、隐藏层320和输出层330中的多个节点彼此连接。在图3中,实线表示这样的连接,所述连接是节点正常彼此连接的连接,虚线表示使得节点之间的连接被忽略的连接,点划线表示使得相应隐藏节点的值还在之后时间间隔中被保持的连接。[0079]在图3的示例中,学习模式340指示之前时间间隔T-1中的学习模式,学习模式350指示当前时间间隔T中的学习模式,学习模式360指示之后时间间隔T+1中的学习模式。[0080]在之前时间间隔T-1中,隐藏节点344从隐藏节点342、344和346中被选择为参考隐藏节点。在此示例中,隐藏节点344还被称为,例如,参考隐藏节点344。在这样的示例中,参考隐藏节点344与相应于上层的输出层330的节点之间的连接被忽略。例如,参考隐藏节点344阻止输出到相应于上层的输出层330的值。[0081]针对与其它时间间隔的节点的连接,在参考隐藏节点344与包括在当前时间间隔T的隐藏层中的节点之间的连接实质上被忽略时,参考隐藏节点344与当前时间间隔T中的相应于参考隐藏节点344的隐藏节点354之间的连接被保持。因此,之前时间间隔T-1中的参考隐藏节点344的值被相应地保持到当前时间间隔T。在这样的示例中,保持的值是,例如,相应的长期记忆值。[0082]然而,在一个示例中,参考隐藏节点344与相应于下层的输入层310的节点之间的连接不被忽略。由于参考隐藏节点344代替使用输入的值而忽略从输入层310输入的值,因此参考隐藏节点344阻止从输入层310输入的值。[0083]在之前时间间隔T-1中,通过从隐藏节点342、344和346排除参考隐藏节点344所获得的剩余隐藏节点(例如,隐藏节点342和346)连接到当前时间间隔T的隐藏节点352、354和356以及相应于上层的输出层330的节点。[0084]在当前时间间隔T中,隐藏节点352和354从隐藏节点352、354和356被选择为参考隐藏节点。在此示例中,隐藏节点352和354还被称为,例如,参考隐藏节点352和354。因此,参考隐藏节点352和354与相应于上层的输出层的节点的连接被忽略。在这样的示例中,参考隐藏节点352和354阻止输出到相应于上层的输出层的值。[0085]如所讨论的,针对与其它时间间隔的节点的连接,在参考隐藏节点352与之后时间间隔T+1中的隐藏层的隐藏节点之间的连接实质上被忽略时,参考隐藏节点352与之后时间间隔T+1中的相应于参考隐藏节点352的隐藏节点362的连接被保持。在此示例中,参考隐藏节点352连接到之前时间间隔T-1中的隐藏节点。例如,在同时忽略其它隐藏节点(例如,隐藏节点344和346)的值时,参考隐藏节点352保持之前时间间隔T-1中的与节点本身相应的隐藏节点342的值。因此,当前时间间隔T中的参考隐藏节点352将之前时间间隔T-1中的值保持到之后时间间隔T+1。[0086]类似地,参考隐藏节点354也将之前时间间隔T-1中的隐藏节点344的值保持到之后时间间隔T+1。[0087]然而,参考隐藏节点352和354与相应于下层的输入层的节点的连接不被忽略。由于参考隐藏节点352和354代替使用输入的值而忽略从输入层输入的值,因此参考隐藏节点352和354阻止从输入层输入的值。[0088]在当前时间间隔T中,通过从隐藏节点352、354和356排除参考隐藏节点352和354所获得的剩余隐藏节点(例如,隐藏节点356)连接到之后时间间隔T+1的隐藏节点362、364和366以及上层的节点。[0089]图4示出更新包括在隐藏层中的隐藏节点400的值的过程以及基于这样的过程的学习算法的示例。[0090]在本示例中,由神经网络训练设备训练的神经网络是例如基于长短期记忆(LSTM)的递归神经网络。与其它类型的神经网络相比,基于LSTM的递归神经网络通过使用三个门提尚具有相对长的序列的序列数据的识别率。[0091]图4示出包括在神经网络的隐藏层中的隐藏节点400。在图4的示例中,隐藏节点400包括:输入门410、忽略门(forgetgate)420、胞元(cell)430和输出门440。[0092]在图4的示例中,输入门410控制从包括隐藏节点400的隐藏层的下层传送的值。当输入门410的输出值是"0"时,隐藏节点400忽略从下层传送的值。可如以下等式1所示计算输入门410的输出值bf。[0093]等式1[0096]在以上等式1中,af表示输入到输入门410的值,xf表示从当前时间间隔的下层传送的值,Wll表示施加于xf的权重。此外,bff1表示之前时间间隔中的自相应隐藏节点的输出值,whl表示施加于的权重。此外,S^1表示之前时间间隔中胞元430的输出值,Wd表示施加于S^1的权重。此外,f()表示门的激活函数。最后,I表示包括在下层中的节点数,H表示包括在包括隐藏节点400的隐藏层中的节点数,C表示包括在隐藏节点400中的包括胞元430的胞元数。[0097]在图4的示例中,忽略门420控制从之前时间间隔中的隐藏节点传送的值。当忽略门420的输出值是"0"时,隐藏节点400忽略从之前时间间隔中的隐藏节点传送的值。例如,如以下等式2所示计算忽略门420的输出值bk[0098]等式2[0101]在等式2中,a:|表示输入到忽略门420的值,Wi#、Wh0和wt0分别表示施加于bt1和sp的权重。[0102]例如,如上所示,当隐藏节点400被选择为将被排除的参考隐藏节点时,忽略门420输出"1"。[0103]胞元430包括隐藏节点400的记忆值。如以下等式3所示计算胞元430的输出值s|〇[0104]等式3[0107]在等式3中,af表示输入到胞元430的值,Wl。和wh。分别表示施加于xf和bf1的权重。此外,g()表示胞元输入激活函数。[0108]当隐藏节点400被选择为将被排除的参考隐藏节点时,输入到胞元430的值是"0",忽略门420的输出值:b:f是"1"。在图4的示例中,胞元430的输出值s|与在之前时间间隔中胞元的输出值相同。因此,当隐藏节点400被选择为参考隐藏节点时,隐藏节点400将之前时间间隔中的值保持到之后时间间隔。[0109]在图4的示例中,输出门440控制传送到包括隐藏节点400的隐藏层的上层的值。当输出门440的输出值是"0"时,隐藏节点400不将隐藏节点400的输出值传送到上层。例如,如以下等式4所示计算输出门440的输出值。[0110]等式4/MC[0111]'??二::.1.j.1[0112]4=/(4)[0113]在等式4中,表示输入到输出门440的值,wiu、whjpw分别表示施加到bfrhPsg的权重。[0114]此外,如以下等式5所示计算隐藏节点400的最终输出值tt。[0115]等式5[0116]!>|=兒力(4)[0117]在等式5中,h()表示胞元输出激活函数。[0118]基于输入到神经网络的输入层的序列数据通过输出层输出输出值并因此与通过神经网络的数据的正向传递相应的示例,提供上述讨论以描述隐藏节点的状态。通过经过神经网络的数据的正向传递,神经网络训练设备更新每个隐藏节点的值。此外,神经网络训练设备基于从输出层输出的输出值估计误差。[0119]神经网络训练设备沿从输出层经隐藏层到输入层的反方向传播估计的误差,并更新连接权重以减小误差。这样的传播还被称为,例如,反向传递。在这样的示例中,沿时间上的反方向以及沿从输出层经隐藏层到输入层的反方向执行传播。当执行正向传递时,t(时间)的值增大,从而使用时间上的正方向。相反地,当执行反向传递时,t的值减小,从而使用时间上的反方向。[0120]例如,神经网络训练设备定义目标函数以测量当前设置的连接权重的优化率。基于目标函数的结果,神经网络训练设备连续改变连接权重并重复执行训练。目标函数是,例如,用于计算基于学习数据实际从神经网络输出的输出值与期望被输出的期望值之间的误差的误差函数。因此,神经网络训练设备可更新连接权重以减小误差函数的值。[0121]在反向传递中,如以下等式6所示定义输入到隐藏节点400的值和输入到胞元430的值[0122]等式6[0123][0124]在等式6中,0表示目标函数。此外,在一个示例中,0表示神经网络中的交叉熵误差信号。[0125]如以下等式7所示计算从上层输入到隐藏节点400的值[0126]等式7[0127][0128]在等式7中,S|表示从当前时间间隔中的上层传送的值,iff1表示从之后时间间隔中的自相应隐藏节点输出的值,wjPw别表示施加于%和6th+1的权重。此外,K表示包括在上层中的节点数。[0129]当隐藏节点400被选择为将被排除的参考隐藏节点时,隐藏节点400忽略输入到隐藏节点400的值。[0130]如以下等式8所示计算从输出门440输出的值8^。[0131]等式8[0132]4-/(4)"(4)4c^'i[0133]此外,如以下等式9所示计算输入到胞元430的值和从胞元430输出的值^([0134]等式9[0135]=心的父)#+!.十叫4(〇f銷果集涵輿[0136]<^.rf街沒批其它[0137]在等式9中,e$+1::表示输入到之后时间间隔中的自相应隐藏节点的胞元的值,5f+1表示从之后时间间隔中的自相应隐藏节点的输入门410输出的值,S|+1表示从之后时间间隔中的自相应隐藏节点的忽略门420输出的值。[0138]当隐藏节点400被选择为将被排除的参考隐藏节点时,胞元430输出"0"。[0139]如以下等式10所示计算从忽略门420输出的值。[0140]等式10/Qf如果单武丢弃[。141]其它vml[0142]当隐藏节点400被选择为将被排除的参考隐藏节点时,忽略门420输出"0"。[0143]如以下等式11所示计算从隐藏节点400输出的值$。:[0144]等式11G[0145]^::-/'(a;)Yi9i<4M[0146]如上所述,神经网络训练设备通过反向传播学习方法更新包括在神经网络中的节点的连接权重。[0147]图5示出识别设备500。[0148]参照图5的示例,识别设备500包括:接收器510和识别器520。识别设备500具有各种各样的潜在应用。例如,识别设备500可被用于诸如语音识别、图像识别、身体状态识别和手写识别的领域。然而,这些仅是识别领域的示例,并不应被视为限制。识别设备500潜在地通过使用硬件模块被实施。例如,识别设备500包括在各种计算设备和/或系统中,诸如,例如,智能电话、平板计算机、膝上型计算机、台式计算机、电视机、可穿戴装置、安全系统和智能家居系统。[0149]接收器510接收序列数据。序列数据是,例如,具有时间性和顺序的语音数据、图像数据、生物数据和手写数据。[0150]识别器520识别基于预先训练的神经网络输入的序列数据。作为潜在地被识别的示例,识别器520从输入的语音数据识别句子或单词,并从图像识别对象。此外,识别器520潜在地通过分析生物信号(例如,心电图(ECG)和脑电图(EEG))识别用户身体状态,或通过分析用户动作识别输入的手写。作为另一示例,识别器520被应用于脱氧核糖核酸(DNA)序列装置以从监视的信号估计恰当的DNA序列。[0151]在一个示例中,识别器520从序列数据提取特征值并将提取的特征值输入到分类器,从而输出由分类器得到的序列数据的分析结果或识别结果。[0152]由识别器520使用的预先训练的神经网络包括多个隐藏节点。多个隐藏节点包括当前时间间隔之前的时间间隔中的相应隐藏节点的值,还包括基于所述相应隐藏节点的值将被传送到当前时间间隔中的概率所计算的值。将参照图6提供关于计算多个隐藏节点的值的过程的描述。[0153]在此示例中,预先训练的神经网络基于通过从多个隐藏节点排除至少一个参考隐藏节点所获得的剩余隐藏节点被训练(如以上进一步的描述)。当训练神经网络时,针对每个时间间隔从多个隐藏节点随机选择并排除参考隐藏节点。参考隐藏节点将之前时间间隔中的值保持到之后时间间隔。如所讨论的,剩余隐藏节点连接到其它时间间隔的隐藏节点。[0154]图6示出在基于预先训练的神经网络执行的识别期间确定隐藏节点的值的过程的示例。[0155]图6示出针对每个时间戳的预先训练的神经网络的识别模式610、620和630。在图6中,一些连接线在图6中被示出以描述基于预先训练的神经网络的识别方法。为了更加便于描述和简明,基于包括在当前时间间隔T的学习模式630中的隐藏节点636提供以下描述。在训练处理期间,针对由识别设备使用的神经网络,基于具有P值的概率排除包括在神经网络中的隐藏节点。[0156]在图6的示例中,识别模式630是当前时间间隔T的学习模式,识别模式620是第一之前时间间隔T-1的学习模式,识别模式610是第二之前时间间隔T-2的学习模式。[0157]识别设备基于当前时间间隔T之前的时间间隔中的相应隐藏节点的值以及所述相应隐藏节点的值将被传送到当前时间间隔T的概率来确定当前时间间隔T中的隐藏节点636的值。[0158]作为示例,隐藏节点626未被排除,从而第一之前时间间隔T-1中的隐藏节点626的值(例如,A)被传送到隐藏节点636。因此,隐藏节点626的值将被传送到隐藏节点636的概率是"1_P"。[0159]隐藏节点626代替隐藏节点616而被排除,从而第二之前时间间隔T-2中的隐藏节点616的值(例如,B)被传送到隐藏节点636。因此,隐藏节点616的值将被传送到隐藏节点636的概率是"p(l-p)"。[0160]为了将第三之前时间间隔中的隐藏节点的值C传送到隐藏节点636,排除隐藏节点616和626,而不排除第三之前时间间隔中的隐藏节点。因此,C将被传送到隐藏节点636的概率是"p2(l-p)"。[0161]基于上述方法,当前时间间隔T中的隐藏节点636具有"AX(1-p)+BXp(1-p)+CXp2(l-p)+..."的值。在此示例中,与隐藏节点636的计算结果相应的值指示长期记忆值。因此,长期记忆值是代替从下层传送的值和传送到上层的值而在多个时间间隔期间由隐藏节点保持的值。[0162]图7示出神经网络训练方法的示例。[0163]此外,图7是示出神经网络训练设备的操作方法的流程图。参照图7的示例,神经网络训练方法包括:在操作710,从包括在神经网络中的多个隐藏节点选择至少一个参考隐藏节点;在操作720,基于通过从多个隐藏节点排除至少一个参考隐藏节点所获得的剩余隐藏节点来训练神经网络。[0164]由于参照图1至图4提供的描述也在这里适用,因此,为了更加清楚和简明,将省略针对图7的重复描述。[0165]图8示出识别方法的示例。[0166]此外,图8是示出识别设备的操作方法的流程图。参照图8的示例,识别方法包括:在操作810,接收序列数据;在操作820,基于包括多个隐藏节点的神经网络识别序列数据。在此示例中,多个隐藏节点包括当前时间间隔之前的时间间隔中的相应隐藏节点的值,以及基于所述相应隐藏节点的值将被传送到当前时间间隔的概率所计算的值。由此基于通过从多个隐藏节点排除至少一个参考隐藏节点所获得的剩余隐藏节点来训练神经网络。[0167]由于参照图1至图6提供的描述也在这里适用,因此,为了更加清楚和简明,将省略针对图8的重复描述。[0168]在呈现的示例的一方面,可通过基于排除部分隐藏节点的学习模式训练神经网络,在递归神经网络中获得整体效果并有效减少训练时间。[0169]在呈现的示例的另一方面,由于从学习处理排除的参考隐藏节点将之前时间间隔中的值保持到之后时间间隔,因此可将排除方法应用于基于LSTM的递归神经网络。[0170]在呈现的示例的另一方面,可通过基于代替所有隐藏节点的部分隐藏节点训练神经网络,防止神经网络与将被识别的实际目标过度适应(例如,过度拟合),所述过度适应潜在地导致对实际目标的识别率的降低。[0171]在呈现的示例的另一方面,可基于部分隐藏节点训练神经网络,从而解决由训练的结果导致的隐藏节点的连接权重彼此相似的互适应问题。[0172]执行参照图1至图8在此描述的操作的图1至图8所示的设备、单元、模块、装置和其它组件通过硬件组件被实施。硬件组件的示例包括控制器、传感器、产生器、驱动器和本领域普通技术人员已知的任何其它电子组件。在一个示例中,硬件组件通过一个或多个处理器或计算机被实施。处理器或计算机通过一个或多个处理元件(例如,逻辑门阵列、控制器和算术逻辑单元)、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或本领域普通技术人员已知的能够以限定的方式响应并执行指令以实现期望结果的任何其它装置或装置的组合被实施。在一个示例中,处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。例如,由处理器或计算机实施的硬件组件执行指令或软件(例如,操作系统(0S)和在0S上运行的一个或多个软件应用),以执行这里针对图1至图8描述的操作。硬件组件还响应于指令或软件的执行来访问、操作、处理、创建并存储数据。为了简明,可在在此描述的示例的描述中使用单数术语"处理器"或"计算机",但是在其它示例中,使用多个处理器或多个计算机,或者处理器或计算机包括多个处理元件或多种类型的处理元件,或者包括两者。在一个示例中,硬件组件包括多个处理器,在另一示例中,硬件组件包括处理器和控制器。硬件组件具有不同处理配置中的任何一个或多个,不同处理配置的示例包括单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SHffi)多处理、多指令单数据(MISD)多处理和多指令多数据(M頂D)多处理。[0173]由上述执行指令或软件以执行在此描述的操作的处理器或计算机来执行图1至图8所示的执行针对图1至图8在此描述的操作的方法。[0174]用于控制处理器或计算机实施硬件组件并执行如上所述的方法的指令或软件被写为计算机程序、代码段、指令或它们的任何组合,以独立地或共同地指示或配置处理器或计算机作为用于执行由硬件组件执行的操作和如上所述的方法的机器或专用计算机进行操作。在一个示例中,指令或软件包括由处理器或计算机直接执行的机器代码,例如,由编译器产生的机器代码。在另一示例中,指令或软件包括由处理器或计算机使用解释器执行的更高级代码。本领域的普通编程技术人员可基于附图中示出的框图和流程图以及说明书中的对应描述容易地编写指令或软件,其中,附图中示出的框图和流程图以及说明书中的对应描述公开了用于执行由硬件组件执行的操作和如上所述的方法的算法。[0175]用于控制处理器或计算机实施硬件组件并执行如上所述的方法的指令或软件以及任何关联的数据、数据文件和数据结构被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或上。非暂时性计算机可读存储介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘和本领域普通技术人员已知的能够以非暂时性方式存储指令或软件以及任何关联的数据、数据文件和数据结构并将指令或软件以及任何关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机可执行指令的任何装置。在一个示例中,指令或软件以及任何关联的数据、数据文件和数据结构分布在联网的计算机系统中,从而由处理器或计算机以分布方式存储、访问并执行指令和软件以及任何关联的数据、数据文件和数据结构。[0176]仅作为非详尽的说明,在此描述的终端/装置/单元可以是移动装置(例如,蜂窝电话、智能电话、可穿戴智能装置(诸如戒指、手表、眼镜、手链、脚链、腰带、项链、耳饰、头带、头盔或嵌入在衣服中的装置)、便携式个人计算机(PC)(例如,膝上型计算机、笔记本、小型笔记本、上网本或超便携移动PC(UMPC))、平板PC(tablet)、平板手机、个人数字助理(PDA)、数码相机、便携式游戏机、MP3播放器、便携式/个人多媒体播放器(PMP)、手持电子书、全球定位系统(GPS)导航装置或传感器)或固定装置(例如,台式PC、高清电视(HDTV)、DVD播放器、蓝光播放器、机顶盒或家用电器)或能够进行无线通信或网络通信的任何其它移动或固定装置。在一个示例中,可穿戴装置是被设计为可直接安装在用户的身体上的装置,例如,眼镜或手链。在另一示例中,可穿戴装置是使用附着装置安装在用户的身体上的任何装置,例如,使用臂带附着于用户的手臂或使用挂带悬挂于用户的颈部的智能电话或平板。[0177]虽然本公开包括特定示例,但是,对本领域的普通技术人员而言将清楚的是:在不脱离权利要求及其等同物的精神和范围的情况下,可在这些示例中在形式和细节上进行各种改变。在此描述的示例应仅被理解为描述性意义,而不是为了限制的目的。每个示例中的特征或方面的描述应被理解为可应用于其它示例中的类似特征或方面。如果以不同的顺序执行所描述的技术和/或如果所描述的系统、架构、装置或电路中的组件以不同的方式来组合和/或由其它组件或他们的等同物来替换或补充,则可获得合适的结果。因此,本公开的范围不是由【具体实施方式】限定,而是由权利要求及其等同物限定,并且在权利要求及其等同物的范围内的所有变化应被解释为包括在本公开中。【主权项】1.一种使用学习数据训练神经网络的方法,所述方法包括:从神经网络中的多个隐藏节点选择参考隐藏节点;基于通过从所述多个隐藏节点排除参考隐藏节点所获得的剩余隐藏节点训练神经网络,其中,参考隐藏节点将之前时间间隔中的值保持到之后时间间隔。2.如权利要求1所述的方法,其中,选择步骤包括:针对每个时间间隔从所述多个隐藏节点随机选择参考隐藏节点。3.如权利要求1所述的方法,其中,参考隐藏节点将在之前时间间隔中的相应参考隐藏节点中包括的长期记忆值保持到之后时间间隔。4.如权利要求1所述的方法,其中,参考隐藏节点阻止从包括相应参考隐藏节点的隐藏层的下层输入的值。5.如权利要求1所述的方法,其中,参考隐藏节点阻止输出到包括相应参考隐藏节点的隐藏层的上层的值。6.如权利要求1所述的方法,其中,剩余隐藏节点连接到其它时间间隔的隐藏节点,其中,所述其它时间间隔包括之前时间间隔和之后时间间隔。7.如权利要求1所述的方法,其中,学习数据包括:包括语音数据、图像数据、生物数据和手写数据中的至少一个的序列数据。8.如权利要求1所述的方法,其中,训练步骤包括:基于训练结果更新包括在神经网络中的连接权重。9.如权利要求1所述的方法,其中,所述神经网络是包括多个隐藏层的递归神经网络。10.-种识别方法,包括:接收序列数据;使用包括多个隐藏节点的神经网络识别序列数据,其中,所述多个隐藏节点包括当前时间间隔之前的时间间隔中的相应隐藏节点的值以及基于所述相应隐藏节点的值将被传送到当前时间间隔的概率计算的值,其中,神经网络基于通过从所述多个隐藏节点排除参考隐藏节点所获得的剩余隐藏节点被训练。11.如权利要求10所述的识别方法,其中,在训练神经网络的处理中,针对每个时间间隔从所述多个隐藏节点随机选择参考隐藏节点。12.如权利要求10所述的识别方法,其中,在训练神经网络的处理中,参考隐藏节点将之前时间间隔中的值保持到之后时间间隔。13.如权利要求10所述的识别方法,其中,在训练神经网络的处理中,剩余隐藏节点连接到其它时间间隔的隐藏节点。14.一种用于使用学习数据训练神经网络的设备,所述设备包括:接收器,被配置为接收学习数据;训练器,被配置为基于通过从包括在神经网络中的多个隐藏节点排除参考隐藏节点所获得的剩余隐藏节点来训练神经网络,其中,参考隐藏节点将之前时间间隔中的值保持到之后时间间隔。15.如权利要求14所述的设备,其中,针对每个时间间隔从所述多个隐藏节点随机选择并排除参考隐藏节点。16.如权利要求14所述的设备,其中,参考隐藏节点保持在之前时间间隔中的相应参考隐藏节点中包括的长期记忆值。17.如权利要求14所述的设备,其中,参考隐藏节点阻止从包括相应参考隐藏节点的隐藏层的下层输入的值。18.如权利要求14所述的设备,其中,参考隐藏节点阻止输出到包括相应参考隐藏节点的隐藏层的上层的值。19.一种识别设备,包括:接收器,被配置为接收序列数据;识别器,被配置为使用包括多个隐藏节点的神经网络识别序列数据,其中,所述多个隐藏节点包括当前时间间隔之前的时间间隔中的相应隐藏节点的值以及基于所述相应隐藏节点的值将被传送到当前时间间隔的概率计算的值,其中,神经网络基于通过从所述多个隐藏节点排除参考隐藏节点所获得的剩余隐藏节点被训练。20.如权利要求19所述的识别设备,其中,在训练神经网络的处理中,针对每个时间间隔从所述多个隐藏节点随机选择参考隐藏节点。21.如权利要求19所述的识别设备,其中,在训练神经网络的处理中,参考隐藏节点将之前时间间隔中的值保持到之后时间间隔。22.如权利要求19所述的识别设备,其中,在训练神经网络的处理中,剩余隐藏节点连接到其它时间间隔的隐藏节点。23.-种使用学习数据训练神经网络的方法,所述方法包括:基于通过从多个隐藏节点排除参考隐藏节点所获得的剩余隐藏节点在第一时间间隔中训练神经网络,其中,从神经网络中的多个隐藏节点选择参考隐藏节点;在之后时间间隔中训练神经网络,其中,参考隐藏节点将之前时间间隔中的值保持到之后时间间隔。【文档编号】G06N3/08GK105913121SQ201510810225【公开日】2016年8月31日【申请日】2015年11月20日【发明人】柳尚贤,文太燮【申请人】三星电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1