命名实体识别模型训练方法、命名实体识别方法及装置与流程

文档序号:16881445发布日期:2019-02-15 22:11阅读:158来源:国知局
命名实体识别模型训练方法、命名实体识别方法及装置与流程
本申请实施例涉及自然语言处理领域,尤其涉及一种命名实体识别模型训练方法、命名实体识别方法及装置。
背景技术
:目前互联网的飞速发展,带动很多传统行业的创新变革,不断地将传统行业与人工智能相结合,车联网作为其中发展迅猛的系统之一,在汽车诊断行业不断衍生出很多人工智能雏形,其中,在这些衍生物中最为核心的技术则是自然语言处理,而命名实体识别在自然语言的处理过程中扮演着重要的角色,同时在中文文本处理中也是一项很有挑战性的问题。现有的命名实体识别技术主要是基于统计的方式来对关键信息进行有效提取,然后对提取到的关键信息进行命名实体识别。在现有的汽车故障现象词汇中,没有固定的语法结构,同一种汽车故障现象可以分解成多个词汇的组合,同时不同的零配件对应相同的故障现象。因此通过统计的方式对故障现象进行命名实体识别会出现由于词的多义性而匹配到错误的故障现象,或是某种现象词汇在某一零部件中出现次数较多,一旦出现就归为该零部件,造成很大的识别误差,从而无法识别出汽车故障现象的词汇。技术实现要素:本申请实施例提供了一种命名实体识别模型训练方法以及命名实体识别方法,用于根据目标命名实体识别模型识别待识别语料信息,从而得到待识别语料信息对应的命名实体,提高了识别待识别语料信息的准确率。本申请实施例第一方面提供一种命名实体识别模型训练方法,包括:命名实体识别模型训练装置获取样本语料信息,所述样本语料信息包括副词语料信息和形容词语料信息;命名实体识别模型训练装置从所述副词语料信息确定满足预置规则的目标副词语料信息;命名实体识别模型训练装置基于条件随机场算法对所述形容词语料信息进行命名实体识别,得到目标形容词语料信息;命名实体识别模型训练装置根据所述目标副词语料信息和所述目标形容词语料信息训练初始命名实体识别模型,得到目标命名实体识别模型,所述目标命名实体识别模型用于识别命名实体。基于本申请实施例第一方面,本申请实施例第一方面的第一种实现方式中,命名实体识别模型训练装置从所述副词语料信息确定满足预置规则的目标副词语料信息之前,所述方法还包括:命名实体识别模型训练装置将所述样本语料信息进行中文分词,得到所述副词语料信息和所述形容词语料信息。基于本申请实施例第一方面以及第一方面的第一种实现方式,本申请实施例第一方面的第二种实现方式中,所述命名实体识别模型训练装置基于条件随机场算法对所述形容词语料信息进行命名实体识别,得到目标形容词语料信息包括:命名实体识别模型训练装置分别使用b、i和o标记符号对所述形容词语料信息中的每个字进行标记,其中,所述b用于标记所述形容词语料信息词首的字,所述i用于标记所述形容词语料信息词中的字,所述o用于标记所述形容系语料信息中除所述词首以及所述词中的字;命名实体识别模型训练装置使用标记后的形容词语料信息构造特征函数集,所述特征函数用于确定所述目标形容词语料信息,所述特征函数如第一公式所示;其中,i表示时刻,x为当前观察序列,yi-1为第一标注序列,yi为第二标注序列,第二标注序列为当前观察序列x对应的标注序列,第一标注序列为第二标注序列的前一标注序列,b(x,i)为第i时刻真实观察值,nb为第一标注序列的固定取值,ni为第二标注序列的固定取值,otherwise表示为除yi-1=nb,yi=ni外,f(yi-1,yi,x,i)为o。基于本申请实施例第一方面以及第一方面的第一种实现方式至第一方面的第二种实现方式任一项,本申请实施例第一方面的第三种实现方式中,命名实体识别模型训练装置通过最大似然估计算法计算所述特征函数集的权重λ,所述权重λ用于训练所述目标命名实体识别模型。本申请实施例第二方面提供一种命名实体识别方法,包括:命名实体识别装置获取待识别语料信息;命名实体识别装置将所述待识别语料信息进行中文分词,得到待识别形容词语料信息以及待识别副词语料信息;命名实体识别装置根据目标命名实体识别模型识别所述待识别形容词语料信息和所述待识别副词语料信息,分别得到所述待识别形容词语料信息对应的命名实体和所述待识别副词语料信息对应的命名实体,所述目标命名实体识别模型通过目标副词语料信息以及目标形容词语料信息训练得到。基于本申请实施例第二方面,本申请实施例第二方面的第一种实现方式中,所述方法还包括:命名实体识别装置根据所述待识别形容词语料信息对应的命名实体和所述待识别副词语料信息对应的命名实体确定所述目标命名实体识别模型的召回率、精准率以及f值。基于本申请实施例第二方面以及第二方面的第一种实现方式,本申请实施例第二方面的第二种实现方式中,命名实体识别装置获取反馈信息;命名实体识别装置根据所述反馈信心修正所述目标命名实体识别模型。本申请实施例第三方面提供一种命名实体识别模型训练装置,所述命名实体识别模型训练装置包括:处理器;以及,与所述处理器通信连接的存储器;其中,所述存储器存储有可读性指令,所述可读性指令被所述命名实体识别模型训练装置执行时实现如第一方面或第一方面任一可能的实现方式的消息处理或控制操作。本申请实施例第四方面提供命一种命名实体识别装置,所述命名实体识别装置包括:处理器;以及,与所述处理器通信连接的存储器;其中,所述存储器存储有可读性指令,所述可读性指令被所述命名实体识别装置执行时实现如第二方面或第二方面任一可能的实现方式的消息处理或控制操作。本申请实施例第五方面提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述第一方面或第一方面任一可能的实现方式的方法。本申请实施例第六方面提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述第二方面或第二方面任一可能的实现方式的方法。本申请实施例第七方面提供了一种计算机程序产品,该计算机程序产品包括计算机软件指令,该计算机软件指令可通过处理器进行加载来实现上述第一方面或第一方面任一可能的实现方式的方法。本申请实施例第八方面提供了一种计算机程序产品,该计算机程序产品包括计算机软件指令,该计算机软件指令可通过处理器进行加载来实现上述第二方面或第二方面任一可能的实现方式的方法。从以上技术方案可以看出,本申请实施例具有以下优点:本实施例中,命名实体识别模型训练装置基于规则识别语料信息中的副词语料信息,得到目标副词语料信息,以及基于条件随机场算法识别语料信息中的形容词语料信息,得到目标形容词语料信息,从而基于目标副词语料信息和目标形容词语料信息训练目标命名实体识别模型,提高了目标命名实体识别模型识别命名实体的效率。附图说明图1为本申请实施例提供的一个应用场景示意图;图2为本申请实施例提供的一种命名实体识别模型训练方法的示意性流程图;图3为本申请实施例提供的一种命名实体识别方法的示意性流程图;图4为本申请实施例提供的一种命名实体识别模型训练装置的示意性框图;图5为本申请实施例提供的一种命名实体识别装置的示意性框图;图6为本申请实施例提供的一种命名实体识别模型训练装置的硬件结构示意图;图7为本申请实施例提供的一种命名实体识别装置的硬件结构示意图。具体实施方式下面结合附图,对本申请中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着新技术的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。本申请实施例提供了一种命名实体识别模型训练方法以及命名实体识别方法,用于根据目标命名实体识别模型识别待识别语料信息,从而得到待识别语料信息对应的命名实体,提高了识别待识别语料信息的准确率。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。请参考图1,图1为本申请实施例提供的一种应用场景示意图,该应用场景示意图包括待识别语料信息、命名实体识别装置以及命名实体。其中,命名实实体识别装置设置有目标命名实体识别模型。命名实体识别装置获取待识别语料信息,然后通过目标命名实体识别模型将待识别语料信息进行识别,得到待识别语料信息对应的命名实体。需要说明的是,本申请实施例提供的命名实体识别模型训练方法以及命名实体识别方法可应用于汽车故障词汇的识别,也可以用于汽车智能语音对话,还可以用户汽车广告的投放系统,本申请实施例以及后续实施例仅以汽车故障词汇的识别作为例子进行描述。上面介绍了本申请实施例的应用场景,下面从命名实体识别模型训练方法对本申请实施例进行描述。请参考图2,图2为本申请实施例提供的一种命名实体识别模型训练方法的示意性流程图,如图2所示,本申请实施例提供的一种命名实体识别模型训练方法可以包括以下步骤:201、命名实体识别模型训练装置获取样本语料信息。命名实体识别模型训练装置可以从汽车故障现象词汇的数据库中获取样本语料信息。该样本语料信息包括副词样本语料信息以及形容词样本语料信息。例如,该样本语料信息可以是“汽车空调制冷效果不好”,其中,“不好”为副词语料信息,“汽车空调制冷效果”为形容词样本语料信息。需要说明的是,本申请实施例中样本语料信息可以是多个,本申请实施以及后续实施例仅以“汽车空调制冷效果不好”作为样本语料信息进行描述。202、命名实体识别模型训练装置对样本语料信息进行中文分词。命名实体识别模型训练装置对获取到的样本语料信息进行中文分词,得到副词样本语料信息和形容词样本语料信息。比如,将样本语料信息“汽车空调制冷效果不好”进行分词,得到“不好”和“汽车空调制冷效果”。其中,“不好”为副词语料信息,“汽车空调制冷效果”为形容词样本语料信息。203、命名实体识别模型训练装置从副词语料信息确定满足预置规则的目标副词语料信息。命名实体识别模型训练装置从样本语料信息中获取到副词语料信息之后,将副词语料信息与数据库中的副词规则进行匹配,从副词语料信息确定满足预置规则的目标副词语料信息,并将满足预置规则的目标副词语料信息进行标志,然后将目标副词语料信息转移至条件随机场(conditionalrandomfields,crf)统计模块中。具体地,在副词规则中,将汽车故障现象词汇按照逆文档频率(inversedocumentfrequency,idf)递增的形式进行排序,可以理解的是,将汽车故障现象词汇按照idf进行排序后,将副词语料信息与副词规则进行比较时,在排序较前的汽车故障现象词汇被检索到的概率就越大。比如,命名实体识别模型训练装置获取到的副词语料信息为“不好”与副词规则中的汽车故障现象词汇进行匹配,若从副词规则中确定与副词语料信息相对应的汽车故障现象词汇为“很好”以及“很不好”,命名实体识别模型训练装置判断“很好”以及“很不好”是否满足预置规则,该预置规则可以是副词语料信息与汽车故障现象词汇的相似度,其中该相似度可以设置为70%,可以看出,词汇“很不好”与副词语料信息“不好”的满足预置规则,因此,将词汇“很不好”设置标记信息,并将汽车故障现象词汇“很不好”转移至crf统计模块。204、命名实体识别模型训练装置基于条件随机场算法对形容词语料信息进行命名实体识别。命名实体识别模型训练装置分别使用b、i和o标记符号对形容词语料信息进行标记,其中,b用于标记形容词语料信息词首的字,i用于标记形容词语料信息词中的字,o用于标记形容系语料信息中除词首以及词中的字。具体地,命名实体识别模型训练装置将形容词语料信息进行拆分,比如将形容词语料信息“汽车空调制冷效果”拆分为“汽,车,空,调,制,冷,效,果”,则输入序列x={汽,车,空,调,制,冷,效,果},输入序列对应的标记序列为y={b-sys,i-sys,b-sys,i-sys,b-adj,i-adj,o,o},其中,sys表示系统名,adj表示形容词。可以理解的是,命名实体识别模型训练装置可以从样本语料信息中获取到k个形容词语料信息,该k个形容词语料信息对应的训练文件为{x(k),y(k)},其中k为形容词语料信息的个数。命名实体识别模型训练装置使用标记后的形容词语料信息构造特征函数集,该特征函数集如公式2-1所示。其中,i表示时刻,x为当前观察序列,yi-1为第一标注序列,yi为第二标注序列,第二标注序列为当前观察序列x对应的标注序列,第一标注序列为第二标注序列的前一标注序列,b(x,i)为第i时刻真实观察值,nb为第一标注序列的固定取值,ni为第二标注序列的固定取值,otherwise表示为除yi-1=nb,yi=ni外,f(yi-1,yi,x,i)为o。例如,对于形容词语料信息“汽车空调制冷效果”,i=1时刻对应‘汽’字,i=2时刻对应‘车’字,i=3时刻对应‘空’字,i=4时刻对应‘调’字,i=5时刻对应‘制’字,i=6时刻对应‘冷’字,i=7时刻对应‘效’字,i=8时刻对应‘果’字。在构建特征函数时,考虑形容词语料信息前一个字,即在i=4时刻,仅考虑i=3时刻的影响,而不考虑i=1,2,4,5,5,6,7,8。对于,形容词语料信息“汽车空调制冷效果”的i=4来说,x=调,y=i-sys,x-1=空,y-1=b-sys,若前一观察序列为‘空’,前一标注序列为b-sys,当前标注系列为i-sys,此时特征函数表示为f=1。否则,f=o。命名实体识别模型训练装置通过第一公式得到的目标形容词语料信息,该目标形容词语料信息可用数据集t=(xk,yk)表示,k为数据集的数量。205、命名实体识别模型训练装置通过最大似然估计算法对特征函数集计算权重λ。命名实体识别模型训练装置通过最大似然估计对特征函数集计算相应权重λ,例如,目标形容词语料信息的数据集为t=(xk,yk),λ下数据集概率为p(t|λ),数据集t与联合经验分布p(x,y)已知且数据之间相互独立,则训练相似度函数可如公式2-2所示:l(λ)=πx,yp(y|x,λ)p(x,y)(2-2)其中:为数据集t的经验分布。命名实体识别模型训练装置通过对公式2-3求导来估计参数,并采用l-bfgs进行训练。其中,ep=分布p的期望值,j=第j个命名实体识别模型。206、命名实体识别模型训练装置根据目标副词语料信息和目标形容词语料信息训练初始命名实体识别模型,得到目标命名实体识别模型。需要说明的是,当标形容词语料信息对应的数据集低于预设阈值时,命名实体识别模型训练装置引入平滑因子通过输入特征函数集和平滑因子对目标命名实体识别模型进行训练,得到相应的特征函数集及其权重。本实施例中,命名实体识别模型训练装置基于规则识别语料信息中的副词语料信息,得到目标副词语料信息,以及基于条件随机场算法识别语料信息中的形容词语料信息,得到目标形容词语料信息,从而基于目标副词语料信息和目标形容词语料信息训练目标命名实体识别模型,提高了目标命名实体识别模型识别命名实体的效率。上面从命名实体识别模型训练方法对本申请实施例进行描述,下面从命名实体识别方法对本申请实施例进行描述。请参考图3,图3为本申请实施例提供的一种命名实体识别方法示意性流程图,如图3所示,本申请实施例提供的一种命名实体识别方法可以包括如下步骤:301、命名实体识别装置获取待识别语料信息。命名实体识别装置可以通过汽车检测装置获取待识别语料信息,该待识别语料信息与汽车故障现象词汇相关联。302、命名实体识别装置将待识别语料信息进行中文分词。命名实体识别装置获取到待识别语料信息之后将待识别语料信息进行中文分词,得到待识别形容词语料信息和待识别副词语料信息。303、命名实体识别装置根据目标命名实体识别模型识别所述待识别形容词语料信息和所述待识别副词语料信息。命名实体识别装置根据目标命名实体识别模型识别待识别形容词语料信息和待识别副词语料信息,分别得到待识别形容词语料信息对应的命名实体和待识别副词语料信息对应的命名实体,目标命名实体识别模型通过目标副词语料信息以及目标形容词语料信息训练得到。304、命名实体识别装置根据所述待识别形容词语料信息对应的命名实体和所述待识别副词语料信息对应的命名实体确定所述目标命名实体识别模型的召回率、精准率以及f值。命名实体识别装置通过混淆矩阵确定所述目标命名实体识别模型的召回率、精准率以及f值。具体地,该混淆矩阵可以如表3-1所示。3-1.混淆矩阵识别的形容词的数量识别的非形容词数量实际形容词数量ztpfn实际非形容词数量pfptn其中,召回率:recall=tp/(tp+fn),精准率:precision=tp/(tp+fp),f值:f1=2*recall*precision/(recall+precision)。命名实体识别装置从待识别形容词语料信息对应的命名实体中确定识别的形容词的数量tp以及非形容词数量fn。命名实体识别装置从待识别非形容词语料信息对应的命名实体中确定识别的形容词的数量fp以及非形容词数量tn。命名实体识别装置通过tp以及fn确定召回率,通过tp以及fp确定精准率,通过召回率以及精准率确定f值之后,将召回率、精准率以及f值分别与预置阈值进行比较,若召回率、精准率和/或f值小于预置阈值,则命名实体识别装置更新或者重新训练目标命名实体识别模型。可选地,本实施例中,命名实体识别装置还可以对目标命名实体识别模型进行修正。具体地,当用户通过命名实体识别装置获取到待识别语料信息对应的命名实体之后,根据该命名实体识别确定汽车的故障现象,若该命名实体与汽车的故障现象不对应,则用户可以在命名实体识别装置输入反馈信息,比如,用户从命名实体识别装置获取到的命名实体为“空调不制冷”,而用户实际检测的到的汽车的故障现象为“空调不制热”,则用户可以将“空调不制热”反馈至命名实体识别装置,命名实体识别装置可以根据“空调不制热”对目标命名实体识别模型进行修订,从而可以提高目标命名实体识别模型识别命名实体的准确率。本实施例中,命名实体识别装置通过目标命名实体识别模型识别待识别副词语料信息以及待识别形容词语料信息,得到待识别副词语料信息对应的命名实体以及待识别形容词语料信息对应的命名实体识别,其中,该目标命名实体识别模型通过样本语料训练得到的模型。因此,本实施例通过目标命名实体识别模型识别待识别语料信息,提高了命名实体识别的准确率。上面从方法对本申请实施例进行了描述,下面从装置的角度对本申请实施例所涉及的装置进行描述。请参考图4,图4为本申请实施例提供的一种命名实体识别模型训练装置的示意性框图。其中,命名实体识别模型训练装置包括:获取单元401,用于获取样本语料信息,所述样本语料信息包括副词语料信息和形容词语料信息;确定单元402,用于从所述副词语料信息确定满足预置规则的目标副词语料信息;识别单元403,用于基于条件随机场算法对所述形容词语料信息进行命名实体识别,得到目标形容词语料信息;训练单元404,用于根据所述目标副词语料信息和所述目标形容词语料信息训练初始命名实体识别模型,得到目标命名实体识别模型,所述目标命名实体识别模型用于识别命名实体。可选地,本实施例中,命名实体识别模型训练装置还包括:分词单元405,用于将所述样本语料信息进行中文分词,得到所述副词语料信息和所述形容词语料信息。可选地,本实施例中,识别单元403具体用于:分别使用b、i和o标记符号对所述形容词语料信息中的每个字进行标记,其中,所述b用于标记所述形容词语料信息词首的字,所述i用于标记所述形容词语料信息词中的字,所述o用于标记所述形容系语料信息中除所述词首以及所述词中的字;使用标记后的形容词语料信息构造特征函数集,所述特征函数用于确定所述目标形容词语料信息,所述特征函数如第一公式所示;其中,i表示时刻,x为当前观察序列,yi-1为第一标注序列,yi为第二标注序列,第二标注序列为当前观察序列x对应的标注序列,第一标注序列为第二标注序列的前一标注序列,b(x,i)为第i时刻真实观察值,nb为第一标注序列的固定取值,ni为第二标注序列的固定取值,otherwise表示为除yi-1=nb,yi=ni外,f(yi-1,yi,x,i)为0。可选地,本实施例中,命名实体识别模型训练装置还包括:计算单元406,用于通过最大似然估计算法计算所述特征函数集的权重λ,所述权重λ用于训练所述目标命名实体识别模型。本实施例中,识别单元403基于规则识别语料信息中的副词语料信息,得到目标副词语料信息,以及基于条件随机场算法识别语料信息中的形容词语料信息,得到目标形容词语料信息,从而基于目标副词语料信息和目标形容词语料信息训练目标命名实体识别模型,提高了目标命名实体识别模型识别命名实体的效率。请参考图5,图5为本申请实施例提供的一种命名实体识别装置的示意性框图。其中,命名实体识别装置包括:第一获取单元501,用于获取待识别语料信息;分词单元502,用于将所述待识别语料信息进行中文分词,得到待识别形容词语料信息以及待识别副词语料信息;识别单元503,用于根据目标命名实体识别模型识别所述待识别形容词语料信息和所述待识别副词语料信息,分别得到所述待识别形容词语料信息对应的命名实体和所述待识别副词语料信息对应的命名实体,所述目标命名实体识别模型通过目标副词语料信息以及目标形容词语料信息训练得到。可选地,本实施例中,命名实体识别装置还包括:确定单元504,用于根据所述待识别形容词语料信息对应的命名实体和所述待识别副词语料信息对应的命名实体确定所述目标命名实体识别模型的召回率、精准率以及f值。更新单元505,用于当所述召回率、所述精准率和/或所述f值小于预设阈值,更新所述目标命名识别模型。可选地,本实施例中,命名实体识别装置还包括:第二获取单元506,用于获取反馈信息;修正单元507,用于根据所述反馈信心修正所述目标命名实体识别模型。本实施例中,识别单元503通过目标命名实体识别模型识别待识别副词语料信息以及待识别形容词语料信息,得到待识别副词语料信息对应的命名实体以及待识别形容词语料信息对应的命名实体识别,其中,该目标命名实体识别模型通过样本语料训练得到的模型。因此,本实施例通过目标命名实体识别模型识别待识别语料信息,提高了命名实体识别的准确率。本申请实施例还提供另一命名实体识别模型训练装置,请参阅图6,图6为本申请实施例提供的一种命名实体识别模型训练装置的硬件结构示意图,其中,命名实体识别模型训练装置包括:至少一个处理器610、存储器650、收发器630以及总线系统620。所述至少一个处理器610、所述存储器650和所述收发器630分别与所述总线系统620相连。该收发器630可包括接收机和发射机,该存储器650可以包括只读存储器和/或随机存取存储器,并向处理器610提供操作指令和数据。存储器650的一部分还可以包括非易失性随机存取存储器(nvram)。在一些实施方式中,存储器650存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集。在本申请实施例中,通过调用存储器650存储的操作指令(该操作指令可存储在操作系统中),执行相应的操作。处理器610控制命名实体识别模型训练装置的操作,处理器610还可以称为cpu(centralprocessingunit,中央处理单元)。存储器650可以包括只读存储器和随机存取存储器,并向处理器610提供指令和数据。存储器650的一部分还可以包括非易失性随机存取存储器(nvram)。具体的应用中命名实体识别模型训练装置的各个组件通过总线系统620耦合在一起,其中总线系统620除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统620。上述本申请实施例揭示的方法可以应用于处理器610中,或者由处理器610实现。处理器610可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器610中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器610可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器650,该存储器650可以是物理上独立的单元,也可以是与处理器610集成在一起的,处理器610读取存储器650中的信息,结合其硬件完成上述方法的步骤。其中,所述收发器630用于获取样本语料信息,所述样本语料信息包括副词语料信息和形容词语料信息;所述至少一个处理器610用于从所述副词语料信息确定满足预置规则的目标副词语料信息;所述至少一个处理器610还用于基于条件随机场算法对所述形容词语料信息进行命名实体识别,得到目标形容词语料信息;所述至少一个处理器610还用于根据所述目标副词语料信息和所述目标形容词语料信息训练初始命名实体识别模型,得到目标命名实体识别模型,所述目标命名实体识别模型用于识别命名实体。另一种可能的实现方式中,所述至少一个处理器610还用于将所述样本语料信息进行中文分词,得到所述副词语料信息和所述形容词语料信息。另一种可能的实现方式中,所述至少一个处理器610具体用于:分别使用b、i和o标记符号对所述形容词语料信息中的每个字进行标记,其中,所述b用于标记所述形容词语料信息词首的字,所述i用于标记所述形容词语料信息词中的字,所述o用于标记所述形容系语料信息中除所述词首以及所述词中的字之外的字;使用标记后的形容词语料信息构造特征函数集,所述特征函数用于确定所述目标形容词语料信息,所述特征函数如第一公式所示;其中,i表示时刻,x为当前观察序列,yi-1为第一标注序列,yi为第二标注序列,第二标注序列为当前观察序列x对应的标注序列,第一标注序列为第二标注序列的前一标注序列,b(x,i)为第i时刻真实观察值,nb为第一标注序列的固定取值,ni为第二标注序列的固定取值,otherwise表示为除yi-1=nb,yi=ni外,f(yi-1,yi,x,i)为0。一种可能的实现方式中,所述至少一个处理器610具体还用于:通过最大似然估计算法计算所述特征函数集的权重λ,所述权重λ用于训练所述目标命名实体识别模型。本申请实施例还提供另一命名实体识别装置,请参阅图7,图7为本申请实施例提供的一种命名实体识别装置的硬件结构示意图,其中,命名实体识别装置包括:至少一个处理器710、存储器750、收发器730以及总线系统720。所述至少一个处理器710、所述存储器750和所述收发器730分别与所述总线系统720相连。本实施例中,至少一个处理器710、存储器750和收发器730分别对应功能结构与前述图6对应实施例所描述的类似,此处不再赘述。其中,所述收发器730用于获取待识别语料信息;所述至少一个处理器710用于将所述待识别语料信息进行中文分词,得到待识别形容词语料信息以及待识别副词语料信息;所述至少一个处理器710还用于根据目标命名实体识别模型识别所述待识别形容词语料信息和所述待识别副词语料信息,分别得到所述待识别形容词语料信息对应的命名实体和所述待识别副词语料信息对应的命名实体,所述目标命名实体识别模型通过目标副词语料信息以及目标形容词语料信息训练得到。一种可能的实现方式中,所述至少一个处理器710还用于根据所述待识别形容词语料信息对应的命名实体和所述待识别副词语料信息对应的命名实体确定所述目标命名实体识别模型的召回率、精准率以及f值;若所述召回率、所述精准率和/或所述f值小于预设阈值,则更新所述目标命名识别模型。另一种可能的实现方式中,所述收发器730还用于获取反馈信息;所述至少一个处理器710还用于根据所述反馈信心修正所述目标命名实体识别模型。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1