一种训练数据的方法、装置及存储介质与流程

文档序号:18193614发布日期:2019-07-17 05:42阅读:131来源:国知局
本申请涉及大数据处理
技术领域
:,尤其涉及一种训练数据的方法、装置及存储介质。
背景技术
::在时间递归神经网络
技术领域
:,一般采用长短期记忆人工神经网络(英文全称:long-shorttermmemory,英文简称:lstm)处理、预测时间序列中间隔长、延迟长的重要事件。在使用lstm预测之前,需要从语料集合中挖掘上位词,并将问题转换成分类问题,即给定一个候选实体-上位词对,预测该候选实体-上位词对是不是真正的实体-上位词对。在预测方法上,一般都是分词处理、提取特征,然后使用传统分类器来对候选实体-上位词进行分类。但这种方式对领域知识要求较高,且最终分类的的结果可能不具有泛化性,其所能预测的范围较小。目前主要基于深度学习的方法对候选实体-上位词进行分类,自动从语料集合中提取特征和生成批量的训练数据,基于批量的训练数据进行预测,能够提高分类的性能,但是由于深度网络很复杂,外加命名实体数量的增加,需要生成更多的训练数据,生成大量的训练数据所耗费时间较长,并且效率较低。技术实现要素:本申请提供了一种训练数据的方法、装置及存储介质,能够解决现有技术中训练数据的效率较低的问题。本申请第一方面提供一种训练数据的方法,所述方法包括:获取待处理的语料集合;从所述语料集合中提取实体集合,所述实体集合包括多个命名的实体;从所述实体集合中提取候选上位词集合;将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合,得到候选对集合,所述候选对集合包括多个候选对,所述候选对是指具备关联关系的实体与上位词的组合;将候选对、每个与候选对关联的语句分别构造为一份预测数据,以及对预测数据中与候选对关联的语句进行泛化处理;对各候选对所关联的语句分别进行分词处理,得到词语集合;对所述词语集合中的各词语输入泛化处理层进行转换,得到向量集合;根据所述预测数据和长短期记忆人工神经网络lstm对所述向量集合进行训练和预测。本申请第二方面提供一种用于训练数据的装置,具有实现对应于上述第一方面提供的训练数据的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。一种可能的设计中,所述装置包括:获取模块,用于获取待处理的语料集合;处理模块,用于从所述语料集合中提取实体集合,所述实体集合包括多个命名的实体;从所述实体集合中提取候选上位词集合;将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合,得到候选对集合,所述候选对集合包括多个候选对,所述候选对是指具备关联关系的实体与上位词的组合;将候选对、每个与候选对关联的语句分别构造为一份预测数据,以及对预测数据中与候选对关联的语句进行泛化处理;对各候选对所关联的语句分别进行分词处理,得到词语集合;对所述词语集合中的各词语输入泛化处理层进行转换,得到向量集合;根据所述预测数据和长短期记忆人工神经网络lstm对所述向量集合进行训练和预测。本申请又一方面提供了一种用于训练数据的装置,其包括至少一个连接的处理器、存储器和收发器,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中的程序代码来执行上述第一方面所述的方法。本申请又一方面提供了一种计算机存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。相较于现有技术,本申请提供的方案中,提取实体集合和候选上位词集合后,将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合,得到候选对集合,将候选对、每个与候选对关联的语句分别构造为一份预测数据,以及对预测数据中与候选对关联的语句进行泛化处理;对各候选对所关联的语句分别进行分词处理,得到词语集合;对所述词语集合中的各词语输入泛化处理层进行转换,得到向量集合,通过泛化层处理能够降低数据的数量级,进而在少量的预测数据基础上进行快速收敛,进而降低用于训练和预测所需的参数数量,从而提高训练数据的效率。附图说明图1为本申请实施例中一种训练数据的方法的一种流程示意图;图2为本申请实施例中一种训练数据的方法的一种流程示意图;图3为本申请实施例中lstm网络结构示意图;图4为本申请实施例中在lstm的char层转换word的一种示意图;图5为本申请实施例中在lstm的hash层转换word的一种示意图;图6为本申请实施例中一种用于训练数据的装置的一种结构示意图;图7为本申请实施例中一种用于训练数据的装置的另一种结构示意图;图8为本申请实施例中终端设备的一种结构示意图;图9为本申请实施例中服务器的一种结构示意图。具体实施方式本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。本申请供了一种训练数据的方法、装置及存储介质,用于人工神经网络,人工神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。其是一种运算模型,其由大量的节点(或称神经元或处理单元)相互联接构成的非线性、自适应信息处理系统。其中,每个节点代表一种特定的输出函数,称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,相当于人工神经网络的记忆。人工神经网络的输出则依人工神经网络的连接方式,权重值和激励函数的不同而不同。而人工神经网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。人工神经网络能够依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,达到处理信息的目的。人工神经网络具有自学习功能、联想存储功能、高速寻找优化解的运算能力、自组织、自适应、实时学习的能力。其中,需要特别说明的是,本申请涉及的终端设备,可以是指向用户提供语音和/或数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(英文全称:radioaccessnetwork,英文简称:ran)与一个或多个核心网进行通信,无线终端可以是移动终端,如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。例如,个人通信业务(英文全称:personalcommunicationservice,英文简称:pcs)电话、无绳电话、会话发起协议(sip)话机、无线本地环路(英文全称:wirelesslocalloop,英文简称:wll)站、个人数字助理(英文全称:personaldigitalassistant,英文简称:pda)等设备。无线终端也可以称为系统、订户单元(subscriberunit)、订户站(subscriberstation),移动站(mobilestation)、移动台(mobile)、远程站(remotestation)、接入点(accesspoint)、远程终端(remoteterminal)、接入终端(accessterminal)、用户终端(userterminal)、终端设备、用户代理(useragent)、用户设备(userdevice)、或用户装备(userequipment)。请参照图1,以下介绍本申请所提供的一种训练数据的方法,本申请实施例主要包括:101、获取待处理的语料集合。其中,所述语料集合是指在一个统计时间内所收集到的语料的集合,各语料可来自至少一个平台。所述语料集合包括多个语料,每个语料包括多个词语,多个词语可组成一个词语集合。例如该语料集合来源于一篇帖子或新闻的数据。可以通过爬虫等方式抓取所述语料集合,具体方式本申请不作限定。该语料集合也可以是来自一个企业的数据,其中可包括员工信息、企业信息、知识产权、法律信息、员工上/下级关系、员工考勤、员工考评、企业新闻、企业的产品销售信息、以及企业的生产数据等。另外,为便于后续数据处理,还可以对语料集合进行去噪处理,具体本申请不作限定。102、从所述语料集合中提取实体集合。其中,所述实体集合包括多个命名的实体,实体可以是任何名词,例如如人名、地名、事物名称、组织机构、术语等。103、从所述实体集合中提取候选上位词集合。例如实体集合包括刘德华、姚晨、晚会、出席、著名明星、专辑、以及发行、吃、苹果、荔枝等实体。那么,可以从该实体集合中推断出著名明星为刘德华、姚晨的上位词,以及水果为苹果、荔枝的上位词。104、将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合,得到候选对集合。其中,所述候选对集合包括多个候选对,所述候选对是指具备关联关系的实体与上位词的组合。由步骤103推断出候选上位词后,那么,可以推断出著名明星为刘德华、姚晨的上位词,可将(刘德华、著名明星)、(姚晨、著名明星)分别作为一个候选对。还可以将(苹果、水果)、(荔枝、水果)分别作为一个候选对。105、将候选对、每个与候选对关联的语句分别构造为一份预测数据,以及对预测数据中与候选对关联的语句进行泛化处理。一些实施方式中,预测数据可用(pair,泛化语句)来表示,其中泛化语句是指对候选对关联的语句进行泛化处理后得到的语句,pair表示实体与候选上位词组成的候选对。例如,候选对1中的实体为刘德华、候选上位词为著名明星,候选对2中的实体为姚晨、候选上位词为著名明星,候选对1所关联的语句可能包括:“刘德华和姚晨等著名明星出席了晚会。”、“刘德华和姚晨等著名明星共同出演了一部电影”、“刘德华和范冰冰等著名明星合唱了一首歌”…对上述候选对1关联的语句进行泛化处理后,可分别得到以下泛化语句:“nr和姚晨等tag出席了晚会”、“nr和姚晨等tag共同出演了一部电影”、“nr和范冰冰等tag合唱了一首歌”…其中,nr表示泛化的命名实体,例如以“刘德华和姚晨等著名明星出席了晚会。”为例,若pair是针对“刘德华”的,则将“刘德华和姚晨等著名明星出席了晚会。”中的“刘德华”泛化为nr;若pair是针对“姚晨”的,则将“刘德华和姚晨等著名明星出席了晚会。”中的“姚晨”泛化为nr。tag表示泛化实体属性的上位词的标签,例如在刘德华、姚晨等著名明星中的著名明星则是指对“刘德华、姚晨等”人物实体的上位词。106、对各候选对所关联的语句分别进行分词处理,得到词语集合。其中,所述词语集合包括n个词语。例如对语句“刘德华和姚晨等著名明星出席了晚会”进行分词处理后得到:刘德华、和、姚晨、等、著名、明星、出席、了、晚会。107、对所述词语集合中的各词语输入泛化处理层进行转换,得到向量集合。可选的,在本申请的一些实施例中,所述泛化处理层包括字符层(charlevel)和哈希层(hashlevel),所述对所述词语集合中的各词语输入泛化处理层进行转换,得到转换后的所述词语集合,包括:1、将所述词语集合中的各词语分别输入所述字符层,在所述字符层将输入所述字符层的词语分别转换为词语向量,得到词语向量集合。一些实施方式中,可以对第一词语与字符查找表中的字符进行匹配,得到n个字符对应的n个向量,根据双相lstm将所述n个向量与所述第一词语,生成词语向量,所述第一词语是指所述词语集合中待训练和预测的词语。举例来说,如图4所示,图4中的词语(word)为第一词语。word进入char层后,将该word分别与char层中的字符查找表(charlookuptable)进行匹配、组合。例如将word与char1至charn分别组合,word与char1组合可得到输出1(output1),其他同理,最后输出n个output,即output1至outputn。2、将所述词语集合中的各词语分别输入所述hash层,在所述hash层将输入所述hash层的词语分别转换为哈希向量(hashvector),得到hash向量集合。一些实施方式中,可使用哈希hash函数将所述n个词语分别映射到k个hash桶中,分别在每个hash桶中对所述n个词语进行压缩,得到k个hash向量,每个hash向量对应所述n个词语,其中n和k均为正整数,n>k。举例来说,如图5所示,word1至wordn进入hash层后,hash层中的哈市函数将word1至wordn分别映射到hash1至hashk中,其中hash1至hashk均表示hash1桶。例如,将word1至wordn分别映射到hash1,最终得到一个哈希向量,即hash1vector,其他同理,最终hash层输出k个hash向量,即hash1vector至hashkvector。3、根据所述词语向量集合和所述hash向量集合得到所述向量集合。在一些实施方式中,可将所述词语向量和所述k个hash向量拼接或粘贴,得到所述向量集合。在一些实施方式中,对所述词语集合中的各词语输入泛化处理层进行转换,得到向量集合后,即得到了每个词语的向量,对于每个词语的向量而言,由于词语会体现在语句和候选对两个维度上,所以最终得到的各词语的向量会对应语句矩阵和候选对矩阵这两种矩阵。下面以所述语料集合中的第一语句,以及所述候选对集合中的第一候选对为例,分别进行介绍:1、关于语句矩阵举例来说,第一语句对应可得到一个第一矩阵,所述第一矩阵根据所述第一语句分词后对应的词语数量、经由所述字符层泛化处理后输出的向量维度、以及经由hash层泛化处理时所设置的向量维度得到。在一些实施方式中,第一矩阵可以用l1*(char_n+hash_n)表示。其中,l1是语句分词后word的数量,char_n是charlevel泛化处理后输出的向量维度,hash_n是哈希查找表(hashlookuptable)设置的向量维度。2、关于候选对矩阵举例来说,第一候选对对应得到一个第二矩阵,所述第二矩阵根据所述候选对分词后对应的词语数量、经由所述字符层泛化处理后输出的向量维度、以及经由hash层泛化处理时所设置的向量维度得到。在一些实施方式中,第二矩阵可以用l2*(char_n+hash_n)表示。其中,l2是第一候选对中的候选实体、候选上位词分别分词之后的word数量,char_n是charlevel泛化处理后输出的向量维度,hash_n是hash向量维度。108、根据所述预测数据和长短期记忆人工神经网络lstm对所述向量集合进行训练和预测。与现有机制相比,本申请实施例中,提取实体集合和候选上位词集合后,将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合,得到候选对集合,将候选对、每个与候选对关联的语句分别构造为一份预测数据,以及对预测数据中与候选对关联的语句进行泛化处理;对各候选对所关联的语句分别进行分词处理,得到词语集合;对所述词语集合中的各词语输入泛化处理层进行转换,得到向量集合,通过泛化层处理得到向量集合,能够在少量的预测数据基础上进行快速收敛,基于向量集合去进行训练和,能够降低用于训练和预测所需的参数数量,从而提高训练数据的效率,减少训练数据的生成成本和训练时间。并且,本申请实施例中通过泛化层处理,还能够降低深度学习对训练样本数量过于依赖、收敛缓慢的特性,并且直接通过少量数据的训练自动的达到比较好的性能,不需要人工抽取特征。为便于理解,下面以具体应用场景为例,对本申请实施例中所提供的训练数据的方法进行介绍。如图2所示,本申请实施例可包括:步骤1:对语料集合中的语句进行分词,基于语料集合得到候选pair,使用候选pair进行语句泛化。语料集合中每个语句先使用命名实体识别技术得到其包含的实体集合,然后将全部可能的名词、名词短语等当成候选上位词集合,将实体集合中的实体和候选上位词集合中的上位词任意两两组合当成候选pair。然后使用每一个候选pair,与候选pair所对应的语句构造成一个预测数据,同时对语句进行泛化处理。其中,命名实体识别(英文全称:namedentitiesrecognition,英文简称:ner)是自然语言处理的一个基础任务,其目的是识别语料集合中人名、地名、组织机构名等命名实体。由于这些命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理,称为命名实体识别。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。考虑到候选pair中的实体和候选上位词可能来自不同的语句,例如,语料集合中包括以下两个语句:(1)刘德华和姚晨等著名明星出席了晚会。(2)刘德华和姚晨等著名明星共同出演了一部电影。那么,这里构造预测数据时,则会出现多个泛化语句,但是只对应一个该候选pair。下面以语句“刘德华和姚晨等著名明星出席了晚会。”为例。刘德华和姚晨属于人物命名的实体,著名明星为对应的候选上位词。通过组合实体和候选上位词,可以得到2个候选pair:(刘德华、著名明星)、(姚晨、著名明星)。然后可以基于这两个候选pair、结合候选pair中实体、候选上位词所在的语句构造出相应的预测数据:(1)预测数据1:pair(刘德华、著名明星),泛化语句(nr和姚晨等tag出席了晚会)。(2)预测数据2:pair(姚晨、著名明星),泛化语句(刘德华和nr等tag出席了晚会)。步骤2:对语句进行分词之后的每一个词语,都通过一个泛化处理层处理,生成词向量,即通过泛化处理层对各词语进行转换,能够有效降低参数数量,以及在少量训练数据上实现快速收敛。步骤3:对通过泛化层处理后的数据使用lstm网络来进行训练和预测,输入为候选pair、和候选pair对应的语句。在本申请的一些实施例中,下面介绍lstm网络结构,使用lstm网络结构进行泛化层处理的流程。如图3所示的lstm网络结构,lstm网络结构包括softmax分类器、语句模版、pair约束模版和泛化层。其中,泛化层包括字符层(charlevel)和哈希层(hashlevel),charlevel包括双向lstm和字符查找表(charlookuptable),charlookuptable可包含n个不同的char,n可以取1~2万,本申请不对n的取值作限定。hashlevel包括hash函数和hashlookuptable,hashlookuptable包含k个hash桶,k可根据经验设置,本申请不对k的取值作限定。每个char和hash在各自的lookuptable中的向量都可以是m(20~50)维。softmax分类器是指以多项式分布为模型建模的,其可以分多种互斥的类别,其能够将一个k维的任意实数向量映射(压缩)为另一个k维的实数向量。softmax分类器是指人工神经网络的输出层。语句模版是指处理语句矩阵的lstm。pair约束模版是指处理pair矩阵的lstm。一、泛化处理层处理原理:泛化层处理流程包括:charlevel替换wordlevel、使用hash映射为hashvector。1、charlevel替换wordlevel。如图4所示,对分词后的wordlookuptable中的每一个word,通过charlookuptable(char1…charn)得到每一个char的vector,之后通过一个双向lstm将结果(n个vector)与word组合生成新的wordvector,即保留了word本身的信息也可以大大降低原有使用wordlookuptable造成的参数爆炸问题。2、使用hash映射得到hashvector。如图5所示,对每一个wordlookuptable中n个word使用hash函数映射到k个hash桶中,这里k可以远远小于n,保证参数数量级的降低。通过将多个word强制压缩在一起,共享一个hashvector。通过共享hashvector机制,可以大大加快训练速度并且可以在较少训练数据集上得到较好的结果。其中,通过每个hash桶都会得到一个对应的hashvector,这里的共享一个hashvector是指n个word分别映射到hash1桶至hashk桶,对映射到hash1桶的n个word而言,n个word共用hash1vector。可见,对pair对应的语句使用lstm网络结构得到语句的向量表示,同时对pair本身使用lstm网络结构得到向量表示,然后将这两类向量一起做分类,同时利用pair信息和语句信息,通过这两个维度得到的数据能够快速的完成数据收敛,以及显著降低参数爆炸现象。二、基于lstm网络结构进行泛化处理。下面介绍使用该lstm网络结构进行泛化处理的流程(包括步骤1至步骤4):1、初始化charlookuptable矩阵、hashlookuptable矩阵。一些实施方式中,可以采用随机初始化的方式。2、对于一个候选pair以及分词后的语句,可以经过泛化层处理得到每个word的输入vector:(a)、对于语句来说,可以得到一个l1*(char_n+hash_n)的语句矩阵。其中,l1是语句分词后word的数量,char_n是charlevel泛化处理后输出的向量维度,hash_n是hashlookuptable设置的向量维度。将步骤(a)中得到的char_n、hash_n粘贴在一起,进而得到泛化层的语句矩阵输出。(b)、对于pair来说,可以得到一个l2*(char_n+hash_n)的pair矩阵。其中,l2是pair中候选实体、候选上位词分别分词之后的word数量,char_n是charlevel泛化处理后输出的向量维度,hash_n是hashlookuptable设置的向量维度。将步骤(b)中得到的char_n、hash_n粘贴append在一起,进而得到泛化层的pair矩阵输出。(c)、将语句矩阵输入句式model,以及将pair矩阵输入pair约束model。3、将步骤(c)中经由句式model、pair约束model分别处理后得到的两个结果append在一起,最终得到并输出一个(句式h1+pair约束h2)维向量。其中,句式h1是经由句式model处理后输出的h1维向量,pair约束h2是经由pair约束model处理后输出的h2维向量,append是指将多个向量直接拼接在一起。4、使用softmax分类器对步骤3中拼接得到的(句式h1+pair约束h2)维向量进行分类。图1至图5中任一项所对应的实施例中的任一技术特征也同样适用于本申请中的图6至图8所对应的实施例,后续类似之处不再赘述。以上对本申请中一种训练数据的方法进行说明,以下对执行上述训练数据的方法装置进行描述。该装置可以是安装在终端设备或服务器上的功能模块,也可以是终端设备或服务器,还可以功能模块和硬件模块结合,具体本申请不作限定。参照图6,所述装置包括:获取模块,用于获取待处理的语料集合;处理模块,用于从所述语料集合中提取实体集合,所述实体集合包括多个命名的实体;从所述实体集合中提取候选上位词集合;将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合,得到候选对集合,所述候选对集合包括多个候选对,所述候选对是指具备关联关系的实体与上位词的组合;将候选对、每个与候选对关联的语句分别构造为一份预测数据,以及对预测数据中与候选对关联的语句进行泛化处理;对各候选对所关联的语句分别进行分词处理,得到词语集合;对所述词语集合中的各词语输入泛化处理层进行转换,得到向量集合;根据所述预测数据和长短期记忆人工神经网络lstm对所述向量集合进行训练和预测。本申请实施例中,所述处理模块提取实体集合和候选上位词集合后,将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合,得到候选对集合,将候选对、每个与候选对关联的语句分别构造为一份预测数据,以及对预测数据中与候选对关联的语句进行泛化处理;对各候选对所关联的语句分别进行分词处理,得到词语集合;对所述词语集合中的各词语输入泛化处理层进行转换,得到向量集合,通过泛化层处理能够降低数据的数量级,进而在少量的预测数据基础上进行快速收敛,进而降低用于训练和预测所需的参数数量,从而提高训练数据的效率。可选的,在本申请的一些实施例中,所述泛化处理层包括字符层和哈希hash层,所述处理模块具体用于:将所述词语集合中的各词语分别输入所述字符层,在所述字符层将输入所述字符层的词语分别转换为词语向量,得到词语向量集合;将所述词语集合中的各词语分别输入所述hash层,在所述hash层将输入所述hash层的词语分别转换为hash向量,得到hash向量集合;根据所述词语向量集合和所述hash向量集合得到所述向量集合。可选的,在本申请的一些实施例中,所述词语集合包括n个词语,所述处理模块具体用于:对第一词语与字符查找表中的字符进行匹配,得到n个字符对应的n个向量,根据双相lstm将所述n个向量与所述第一词语,生成词语向量,所述第一词语是指所述词语集合中待训练和预测的词语。可选的,在本申请的一些实施例中,所述处理模块具体用于:使用哈希hash函数将所述n个词语分别映射到k个hash桶中,分别在每个hash桶中对所述n个词语进行压缩,得到k个hash向量,每个hash向量对应所述n个词语,其中n和k均为正整数,n>k。可选的,在本申请的一些实施例中,所述处理模块具体用于:将所述词语向量和所述k个hash向量拼接,得到所述向量集合。可选的,在本申请的一些实施例中,所述语料集合中的第一语句对应得到一个第一矩阵,所述第一矩阵根据所述第一语句分词后对应的词语数量、经由所述字符层泛化处理后输出的向量维度、以及经由hash层泛化处理时所设置的向量维度得到;所述候选对集合中的第一候选对对应得到一个第二矩阵,所述第二矩阵根据所述候选对分词后对应的词语数量、经由所述字符层泛化处理后输出的向量维度、以及经由hash层泛化处理时所设置的向量维度得到。上面从模块化功能实体的角度对本申请实施例中的服务器和终端设备进行了描述,下面从硬件处理的角度分别对本申请实施例中的网络认证服务器和终端设备进行描述。需要说明的是,在本申请z中图6所对应的实施例中的获取模块对应的实体设备可以为输入输出单元器,处理模块对应的实体设备可以为处理器。图6所示的装置可以具有如图7所示的结构,当一种装置具有如图7所示的结构时,图7中的处理器和输入输出单元实现前述对应该装置的装置实施例提供的处理模块和获取模块相同或相似的功能,图7中的存储器存储处理器执行上述训练数据的方法时需要调用的程序代码。本申请实施例还提供了一种终端设备,如图8所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(英文全称:personaldigitalassistant,英文简称:pda)、销售终端(英文全称:pointofsales,英文简称:pos)、车载电脑等任意终端设备。图8示出的是与本申请实施例提供的用于训练数据的装置相关的终端设备的部分结构的框图。参考图8,终端设备包括:射频(英文全称:radiofrequency,英文简称:rf)电路88、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(英文全称:wirelessfidelity,英文简称:wifi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解,图8中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。下面结合图8对终端设备的各个构成部件进行具体的介绍:rf电路88可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器880处理;另外,将设计上行的数据发送给基站。通常,rf电路88包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称:lownoiseamplifier,英文简称:lna)、双工器等。此外,rf电路88还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(英文全称:globalsystemofmobilecommunication,英文简称:gsm)、通用分组无线服务(英文全称:generalpacketradioservice,英文简称:gprs)、码分多址(英文全称:codedivisionmultipleaccess,英文简称:cdma)、宽带码分多址(英文全称:widebandcodedivisionmultipleaccess,英文简称:wcdma)、长期演进(英文全称:longtermevolution,英文简称:lte)、电子邮件、短消息服务(英文全称:shortmessagingservice,英文简称:sms)等。存储器820可用于存储软件程序以及模块,处理器880通过运行存储在存储器820的软件程序以及模块,从而执行终端设备的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入单元830可用于接收输入的数字或字符信息,以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地,输入单元830可包括触控面板831以及其他输入设备832。触控面板831,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板831可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器880,并能接收处理器880发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831,输入单元830还可以包括其他输入设备832。具体地,其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元840可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种菜单。显示单元840可包括显示面板841,可选的,可以采用液晶显示器(英文全称:liquidcrystaldisplay,英文简称:lcd)、有机发光二极管(英文全称:organiclight-emittingdiode,英文简称:oled)等形式来配置显示面板841。进一步的,触控面板831可覆盖显示面板841,当触控面板831检测到在其上或附近的触摸操作后,传送给处理器880以确定触摸事件的类型,随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图8中,触控面板831与显示面板841是作为两个独立的部件来实现终端设备的输入和输入功能,但是在某些实施例中,可以将触控面板831与显示面板841集成而实现终端设备的输入和输出功能。终端设备还可包括至少一种传感器850,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板841的亮度,接近传感器可在终端设备移动到耳边时,关闭显示面板841和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别终端设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。音频电路860、扬声器861,传声器862可提供用户与终端设备之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号,传输到扬声器861,由扬声器861转换为声音信号输出;另一方面,传声器862将收集的声音信号转换为电信号,由音频电路860接收后转换为音频数据,再将音频数据输出处理器880处理后,经rf电路88以发送给比如另一终端设备,或者将音频数据输出至存储器820以便进一步处理。wifi属于短距离无线传输技术,终端设备通过wifi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图8示出了wifi模块870,但是可以理解的是,其并不属于终端设备的必须构成,完全可以根据需要在不改变申请的本质的范围内而省略。处理器880是终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器820内的软件程序和/或模块,以及调用存储在存储器820内的数据,执行终端设备的各种功能和处理数据,从而对终端设备进行整体监控。可选的,处理器880可包括一个或多个处理单元;优选的,处理器880可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器880中。终端设备还包括给各个部件供电的电源890(比如电池),优选的,电源可以通过电源管理系统与处理器880逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。尽管未示出,终端设备还可以包括摄像头、蓝牙模块等,在此不再赘述。在本申请实施例中,该终端设备所包括的处理器880还具有控制执行以上由图6中所示的装置所执行的方法流程。例如,所述处理器880通过调用存储器820中的指令,执行以下操作:获取待处理的语料集合;从所述语料集合中提取实体集合,所述实体集合包括多个命名的实体;从所述实体集合中提取候选上位词集合;将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合,得到候选对集合,所述候选对集合包括多个候选对,所述候选对是指具备关联关系的实体与上位词的组合;将候选对、每个与候选对关联的语句分别构造为一份预测数据,以及对预测数据中与候选对关联的语句进行泛化处理;对各候选对所关联的语句分别进行分词处理,得到词语集合;对所述词语集合中的各词语输入泛化处理层进行转换,得到向量集合;根据所述预测数据和长短期记忆人工神经网络lstm对所述向量集合进行训练和预测。图9是本申请实施例提供的一种服务器结构示意图,该服务器920可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(英文全称:centralprocessingunits,英文简称:cpu)922(例如,一个或一个以上处理器)和存储器932,一个或一个以上存储应用程序1542或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中,存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器922可以设置为与存储介质930通信,在服务器920上执行存储介质930中的一系列指令操作。服务器920还可以包括一个或一个以上电源926,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口958,和/或,一个或一个以上操作系统941,例如windowsserver,macosx,unix,linux,freebsd等等。上述实施例中由图6所示的装置所执行的步骤可以基于该图9所示的服务器结构。例如,所述处理器922通过调用存储器932中的指令,执行以下操作:获取待处理的语料集合;从所述语料集合中提取实体集合,所述实体集合包括多个命名的实体;从所述实体集合中提取候选上位词集合;将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合,得到候选对集合,所述候选对集合包括多个候选对,所述候选对是指具备关联关系的实体与上位词的组合;将候选对、每个与候选对关联的语句分别构造为一份预测数据,以及对预测数据中与候选对关联的语句进行泛化处理;对各候选对所关联的语句分别进行分词处理,得到词语集合;对所述词语集合中的各词语输入泛化处理层进行转换,得到向量集合;根据所述预测数据和长短期记忆人工神经网络lstm对所述向量集合进行训练和预测。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。以上对本申请所提供的技术方案进行了详细介绍,本申请中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1