书籍人物姓名识别模型的训练方法、电子设备及存储介质与流程

文档序号:18643051发布日期:2019-09-11 23:48阅读:295来源:国知局
书籍人物姓名识别模型的训练方法、电子设备及存储介质与流程

本发明涉及信息处理技术领域,具体涉及一种书籍人物姓名识别模型的训练方法、电子设备及存储介质。



背景技术:

人们在利用互联网技术进行书籍搜索的过程中,有些用户可能不记得书籍的名称,而只记得书籍人物的姓名,那么在这种情况下,用户会将书籍人物的姓名作为搜索关键词进行搜索,那么从书籍中准确地识别出书籍人物的姓名是基于书籍人物的姓名提供搜索服务的基础和前提。然而,现有的命名实体识别技术并没有充分考虑书籍人物的姓名的特征,那么利用现有的命名实体识别技术去识别书籍人物的姓名,存在着识别准确率较低的问题。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的书籍人物姓名识别模型的训练方法、电子设备及存储介质。

根据本发明的一个方面,提供了一种书籍人物姓名识别模型的训练方法,该方法包括:

从书籍集合中提取书籍人物的姓名字典;

针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;

针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记;对该语句样本中的每个字进行特征提取,得到每个字的特征;其中特征包含n-gram通用特征以及停用词特征;

根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。

根据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;

存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:

从书籍集合中提取书籍人物的姓名字典;

针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;

针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记;对该语句样本中的每个字进行特征提取,得到每个字的特征;其中特征包含n-gram通用特征以及停用词特征;

根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。

根据本发明的又一方面,提供了一种存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:

从书籍集合中提取书籍人物的姓名字典;

针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;

针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记;对该语句样本中的每个字进行特征提取,得到每个字的特征;其中特征包含n-gram通用特征以及停用词特征;

根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。

根据本发明提供的技术方案,通过将姓名字典中的每个姓名与书籍集合中每本书籍的所有语句进行匹配,能够便捷、自动地产生包含有大量语句样本的语句样本集合,无需人工对语句中出现的姓名进行标注,减少了所投入的人工成本和时间成本,极大地提高了语句样本处理效率;并且,在特征提取过程中,除了提取每个字的n-gram通用特征,还充分结合了姓名在语句中的位置分布特点,提取了每个字的停用词特征,根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的n-gram通用特征和停用词特征进行训练,使得训练得到书籍人物姓名识别模型能够准确地对书籍人物姓名进行识别,有效地提高了识别准确率,优化了姓名识别方式。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明实施例一的一种书籍人物姓名识别模型的训练方法的流程示意图;

图2示出了根据本发明实施例二的一种书籍人物姓名识别模型的训练方法的流程示意图;

图3示出了根据本发明实施例四的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

图1示出了根据本发明实施例一的一种书籍人物姓名识别模型的训练方法的流程示意图,如图1所示,该方法包括如下步骤:

步骤s101,从书籍集合中提取书籍人物的姓名字典。

其中,书籍集合中包含有多本书籍,对于多本书籍的具体数量以及书籍类型,本领域技术人员可根据实际需要进行设置。例如,可从书籍库中选择100本书籍类型为小说的书籍,由这100本书籍构成书籍集合。每本书籍的书籍内容会涉及到一个或多个书籍人物,那么可提取每本书籍所包含的书籍人物的姓名,汇总所有的提取得到的书籍人物的姓名,得到书籍人物的姓名字典。

步骤s102,针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合。

将姓名字典中的每个姓名与书籍集合中的每本书籍的所有语句进行自动匹配,将包含有姓名字典中的姓名的语句作为语句样本,对所有的语句样本进行汇总,从而得到包含姓名的语句样本集合。

步骤s103,针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记,并对该语句样本中的每个字进行特征提取,得到每个字的特征。

在得到了语句样本集合之后,可基于crf(条件随机场,conditionalrandomfield)模型,对语句样本集合中每个语句样本中的每个字进行序列标注,并对该语句样本中的每个字进行特征提取。具体地,可利用不同标记符号分别对每个语句样本中位于姓名起始的字、位于姓名中间的字、位于姓名结尾的字以及除姓名之外的其他字进行标注,得到每个字对应的序列标记。

其中,每个字的特征包含n-gram通用特征。考虑到中文中的姓名一般由2至4个字组成,可将n设置为4,那么针对语句样本中的每个字,该字的n-gram通用特征可包括:该字的单字特征、位于该字之前的三个字的单字特征、位于该字之后的三个字的单字特征、该字与位于该字之前的三个字的组合词特征以及该字与位于该字之后的三个字的组合词特征。

假设某个语句样本由9个字组成,该语句样本为“w1w2w3w4w5w6w7w8w9”,w1表示该语句样本中的第一个字,w2表示该语句样本中的第二个字,以此类推。由于w1为该语句样本中的第一个字,在w1之前不存在其他字,那么w1的n-gram通用特征包括:“w1”、“w2”、“w3”、“w4”、“w1w2”、“w1w2w3”以及“w1w2w3w4”,其中,w1的n-gram通用特征中的“w1”为w1的单字特征,“w2”、“w3”和“w4”为位于w1之后的三个字的单字特征,“w1w2”、“w1w2w3”和“w1w2w3w4”为w1与位于w1之后的三个字的组合词特征。w4的n-gram通用特征包括:“w4”、“w1”、“w2”、“w3”、“w5”、“w6”、“w7”、“w3w4”、“w2w3w4”、“w1w2w3w4”、“w4w5”、“w4w5w6”以及“w4w5w6w7”,其中,w4的n-gram通用特征中的“w4”为w4的单字特征,“w1”、“w2”和“w3”为位于w4之前的三个字的单字特征,“w5”、“w6”和“w7”为位于w4之后的三个字的单字特征,“w3w4”、“w2w3w4”和“w1w2w3w4”为w4与位于w4之前的三个字的组合词特征,“w4w5”、“w4w5w6”以及“w4w5w6w7”为w4与位于w4之后的三个字的组合词特征。

另外,申请人通过对姓名在语句中的位置分布特点进行研究,发现在语句中位于姓名之前的一个字或两个字经常为停用词,基于此,本发明中为每个字增加了停用词特征,即每个字的特征除了包含n-gram通用特征,还包含停用词特征,通过停用词特征能够方便地获知位于该字之前的字以及位于该字之前的字的组合词是否包含停用词。

步骤s104,根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。

在得到语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征之后,就可根据每个字的序列标记以及每个字的特征进行模型训练,训练得到书籍人物姓名识别模型。利用该书籍人物姓名识别模型,能够更为准确地对书籍人物的姓名进行识别。本领域技术人员可根据实际需要确定具体训练方式,此处不做限定。

利用本实施例提供的书籍人物姓名识别模型的训练方法,通过将姓名字典中的每个姓名与书籍集合中每本书籍的所有语句进行匹配,能够便捷、自动地产生包含有大量语句样本的语句样本集合,无需人工对语句中出现的姓名进行标注,减少了所投入的人工成本和时间成本,极大地提高了语句样本处理效率;并且,在特征提取过程中,除了提取每个字的n-gram通用特征,还充分结合了姓名在语句中的位置分布特点,提取了每个字的停用词特征,根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的n-gram通用特征和停用词特征进行训练,使得训练得到书籍人物姓名识别模型能够准确地对书籍人物姓名进行识别,有效地提高了识别准确率,优化了姓名识别方式。

实施例二

图2示出了根据本发明实施例二的一种书籍人物姓名识别模型的训练方法的流程示意图,如图2所示,该方法包括如下步骤:

步骤s201,针对书籍集合中的每本书籍,提取出现频次超过预设频次的书籍人物的姓名,得到该书籍对应的姓名子集。

具体地,预先从书籍库中选择预设数量的书籍,由预设数量的书籍构成书籍集合。针对书籍集合中的每本书籍,可利用如stanfordcorenlp等通用识别工具,对该书籍中出现的书籍人物的姓名进行初步识别,并对识别出的每个姓名的出现频次进行统计,提取出现频次超过预设频次的书籍人物的姓名,得到该书籍对应的姓名子集,即该书籍对应的姓名子集包含有出现频次超过预设频次的书籍人物的姓名。本领域技术人员可根据实际需要对预设频次进行设置,例如可将预设频次设置为3。

可选地,考虑到通用识别工具对书籍人物的姓名的识别准确率较低,可在提取得到出现频次超过预设频次的书籍人物的姓名之后,对所提取的每个姓名进行人工审核,审核所提取的每个姓名是否为一个完整的姓名,在审核通过后,再将该姓名添加至该书籍对应的姓名子集中。通过这种处理方式,能够有效地提高姓名的可靠性,以便将其用于书籍人物姓名识别模型的训练中。

步骤s202,对书籍集合中的所有书籍对应的姓名子集进行汇总,得到书籍人物的姓名字典。

在得到了书籍集合中的所有书籍对应的姓名子集之后,将书籍集合中的所有书籍对应的姓名子集汇总在一起,得到书籍人物的姓名字典。以书籍集合包含有100本书籍,预设频次为3为例,所得到的书籍人物的姓名字典大概包括有2000个姓名。

步骤s203,针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合。

具体地,可利用最大匹配的方法,将姓名字典中的每个姓名与书籍集合中的每本书籍的所有语句进行自动匹配,查找出包含有姓名字典中的姓名的语句,然后将包含有姓名字典中的姓名的语句作为语句样本,对所有的语句样本进行汇总,从而得到包含姓名的语句样本集合。以书籍集合包含有100本书籍,书籍人物的姓名字典包括有2000个姓名为例,所得到的语句样本集合大概包括100万个语句样本。

与通过人工标注方式得到语句样本相比,本发明中的语句样本集合是通过将姓名字典中的每个姓名与书籍集合中每本书籍的所有语句进行匹配自动产生的,无需人工对语句中出现的姓名进行标注,有效地减少了所投入的人工成本和时间成本。

步骤s204,获取扩充姓名字典。

考虑到语句样本集合中的语句样本所包含的姓名可能较少,在步骤s204中可从第三方平台等处获取包含有大量姓名的扩充姓名字典,例如扩充姓名字典包括有100万个姓名。

步骤s205,利用扩充姓名字典中的各个姓名,对语句样本集合中的每个语句样本中包含的姓名进行替换处理,以得到扩充后的语句样本集合。

具体地,可根据随机算法计算随机数,依据随机数从扩充姓名字典中确定待替换的姓名,然后利用待替换的姓名对语句样本集合中的每个语句样本中包含的姓名进行替换处理。通过这种替换姓名的方式,能够方便地对语句样本集合进行扩充,使得语句样本集合中的语句样本所包含的姓名得到有效增加。

步骤s206,针对扩充后的语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记,并对该语句样本中的每个字进行特征提取,得到每个字的特征。

其中,可利用不同标记符号分别对每个语句样本中位于姓名起始的字、位于姓名中间的字、位于姓名结尾的字以及除姓名之外的其他字进行标注,将每个字对应的标记符号作为每个字的序列标记,从而得到每个字的序列标记。

具体地,可分别利用b、i、e和o标记符号对该语句样本中的每个字进行序列标注,其中,b标记符号用于标记位于姓名起始的字,i标记符号用于标记位于姓名中间的字,e标记符号用于标记位于姓名结尾的字,o标记符号用于标记除姓名之外的其他字。以某个语句样本为“他的偶像是王小明”为例,对该语句样本中的每个字进行序列标注。在该语句样本中“王小明”为该语句样本所包含的姓名,“他”字、“的”字、“偶”字、“像”字和“是”字均为除姓名之外的其他字,那么这几个字的序列标记均为o标记符号;“王”字为位于姓名起始的字,其序列标记为b标记符号,“小”字为位于姓名中间的字,其序列标记为i标记符号;“明”字为位于姓名结尾的字,其序列标记为e标记符号。

为了实现书籍人物姓名识别模型的训练,除了需要对每个语句样本中的每个字进行序列标注,还需对每个语句样本中的每个字进行特征提取,提取得到的每个字的特征包含n-gram通用特征以及停用词特征。考虑到中文中的姓名一般由2至4个字组成,可将n设置为4,那么每个字的n-gram通用特征包括:该字的单字特征、位于该字之前的三个字的单字特征、位于该字之后的三个字的单字特征、该字与位于该字之前的三个字的组合词特征以及该字与位于该字之后的三个字的组合词特征。

以某个语句样本为“他的偶像是王小明”为例,该语句样本中的“王”字的n-gram通用特征包括:“王”、“偶”、“像”、“是”、“小”、“明”、“是王”、“像是王”、“偶像是王”、“王小”和“王小明”。

具体地,提取每个语句样本中的每个字的停用词特征的方式可为:对于该语句样本中的任一个字,判断位于该字之前的n-1个字、以及位于该字之前的n-1个字的组合词是否包含停用词,然后根据判断结果,确定该字的停用词特征。其中,停用词为现有技术中常用的停用词,停用词可包括“是”、“的”、“除了”等。在本发明中,将n设置为4。

下面分别以具体的语句样本中的字为例,对停用词特征的提取进行说明。

针对语句样本“他的偶像是王小明”中的“王”字,位于“王”字之前的3个字包括“偶”字、“像”字和“是”字,位于“王”字之前的3个字的组合词包括“像是”组合词和“偶像是”组合词,那么判断“偶”字、“像”字、“是”字、“像是”组合词和“偶像是”组合词是否包含停用词。经判断得到“偶”字、“像”字、“像是”组合词和“偶像是”组合词均不是停用词,只有“是”字是停用词,而“是”字为位于“王”之前的第1个字,那么“王”字的停用词特征可用“-1:word-stop:1”来表示,其中,“-1”表示位于“王”字之前的第1个字,“word-stop”表示由单字作为停用词,“1”表示是停用词。也就是说,针对“王”字,“-1:word-stop:1”表示的是位于“王”字之前的第1个单字为停用词。

针对语句样本“除了李红和赵阳,其他人都去参加了歌唱比赛”中的“李”字,位于“李”字之前只有2个字,这2个字分别为“除”字和“了”字,位于“李”字之前的2个字的组合词为“除了”组合词,那么判断“除”字、“了”字和“除了”组合词是否包含停用词。经判断得到“除”字和“了”字均不是停用词,只有“除了”组合词是停用词,而“除了”组合词为位于“李”字之前的2个字的组合词,那么“李”字的停用词特征可用“-2:gram-stop:1”来表示,其中,“-2”表示位于“李”字之前的2个字,“gram-stop”表示由组合词作为停用词,“1”表示是停用词。也就是说,针对“李”字,“-2:gram-stop:1”表示的是位于“李”字之前的2个字的组合词为停用词。

可选地,考虑到在中文中姓名中的姓氏包括单姓词和复姓词,基于此,本发明中还为每个字增加了复姓词特征,即每个字的特征除了包含n-gram通用特征以及停用词特征,还包含复姓词特征。

具体地,提取每个语句样本中的每个字的复姓词特征的方式可为:对于该语句样本中的任一个字,判断该字与位于该字之前或之后的一个字的组合词是否为复姓词;根据判断结果,确定该字的复姓词特征。其中,复姓词为现有技术中常用的复姓词,复姓词可包括“诸葛”、“欧阳”、“司马”、“公孙”、“令狐”等。

下面以语句样本“他的名字叫做令狐冲”中的“令”字为例,对复姓词特征的提取进行说明。在该语句样本中,位于“令”字之前的一个字为“做”字,位于“令”字之后的一个字为“狐”字,那么“令”字与位于“令”字之前的一个字的组合词为“做令”组合词,“令”字与位于“令”字之后的一个字的组合词为“令狐”组合词,则判断“做令”组合词和“令狐”组合词是否为复姓词。经判断得到“做令”组合词不是复姓词,而“令狐”组合词是复姓词,那么“令”字的复姓词特征可用“+1:gram-compound:1”来表示,其中,“+1”表示位于“令”字之后的1个字,“gram-compound”表示由组合词作为复姓词,“1”表示是复姓词。也就是说,针对“令”字,“+1:gram-compound:1”表示的是“令”字与位于“令”字之后的一个字的组合词为复姓词。

步骤s207,根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。

其中,可根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征构造特征函数集,通过训练确定特征函数集中的参数及权重,得到训练后的书籍人物姓名识别模型。在训练得到书籍人物姓名识别模型之后,就可利用该书籍人物姓名识别模型对书籍人物的姓名进行识别。具体地,在需要识别某本书籍中书籍人物的姓名时,可将该书籍的语句输入至书籍人物姓名识别模型,书籍人物姓名识别模型会自动识别得到所输入的语句中的每个字的序列标记,根据每个字的序列标记确定书籍人物的姓名。

利用本实施例提供的书籍人物姓名识别模型的训练方法,通过将姓名字典中的每个姓名与书籍集合中每本书籍的所有语句进行匹配自动产生包含有大量语句样本的语句样本集合,无需人工对语句中出现的姓名进行标注,有效地提高了语句样本处理效率;还利用扩充姓名字典中的各个姓名,对语句样本集合中的每个语句样本中包含的姓名进行替换处理,使得语句样本集合得到有效扩充;并且,在特征提取过程中,除了提取每个字的n-gram通用特征,还充分结合了姓名在语句中的位置分布特点以及姓氏特点,提取了每个字的停用词特征和复姓词特征,根据语句样本集合中的每个语句样本的每个字的序列标记、每个字的n-gram通用特征、停用词特征以及复姓词特征进行训练,有效地提升了训练得到的书籍人物姓名识别模型的泛化能力和识别准确率,使得利用训练得到的书籍人物姓名识别模型能够准确地对书籍人物姓名进行识别。

实施例三

本发明实施例三提供了一种非易失性存储介质,存储介质存储有至少一可执行指令,该可执行指令可执行上述任意方法实施例中的书籍人物姓名识别模型的训练方法。

可执行指令具体可以用于使得处理器执行以下操作:从书籍集合中提取书籍人物的姓名字典;针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记;对该语句样本中的每个字进行特征提取,得到每个字的特征;其中特征包含n-gram通用特征以及停用词特征;根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。

在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:对于该语句样本中的任一个字,判断位于该字之前的n-1个字、以及位于该字之前的n-1个字的组合词是否包含停用词;根据判断结果,确定该字的停用词特征。

在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:对于该语句样本中的任一个字,判断该字与位于该字之前或之后的一个字的组合词是否为复姓词;根据判断结果,确定该字的复姓词特征。

在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:针对书籍集合中的每本书籍,提取出现频次超过预设频次的书籍人物的姓名,得到该书籍对应的姓名子集;对书籍集合中的所有书籍对应的姓名子集进行汇总,得到书籍人物的姓名字典。

在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:获取扩充姓名字典;利用扩充姓名字典中的各个姓名,对语句样本集合中的每个语句样本中包含的姓名进行替换处理,以得到扩充后的语句样本集合。

在一种可选的实施方式中,可执行指令进一步使处理器执行以下操作:利用不同标记符号分别对每个语句样本中位于姓名起始的字、位于姓名中间的字、位于姓名结尾的字以及除姓名之外的其他字进行标注,得到每个字的序列标记。

实施例四

图3示出了根据本发明实施例四的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。

如图3所示,该电子设备可以包括:处理器(processor)302、通信接口(communicationsinterface)304、存储器(memory)306、以及通信总线308。

其中:

处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。

通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。

处理器302,用于执行程序310,具体可以执行上述书籍人物姓名识别模型的训练方法实施例中的相关步骤。

具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。

处理器302可能是中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。

存储器306,用于存放程序310。存储器306可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

程序310具体可以用于使得处理器302执行以下操作:从书籍集合中提取书籍人物的姓名字典;针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记;对该语句样本中的每个字进行特征提取,得到每个字的特征;其中特征包含n-gram通用特征以及停用词特征;根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。

在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:对于该语句样本中的任一个字,判断位于该字之前的n-1个字、以及位于该字之前的n-1个字的组合词是否包含停用词;根据判断结果,确定该字的停用词特征。

在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:对于该语句样本中的任一个字,判断该字与位于该字之前或之后的一个字的组合词是否为复姓词;根据判断结果,确定该字的复姓词特征。

在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:针对书籍集合中的每本书籍,提取出现频次超过预设频次的书籍人物的姓名,得到该书籍对应的姓名子集;对书籍集合中的所有书籍对应的姓名子集进行汇总,得到书籍人物的姓名字典。

在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:获取扩充姓名字典;利用扩充姓名字典中的各个姓名,对语句样本集合中的每个语句样本中包含的姓名进行替换处理,以得到扩充后的语句样本集合。

在一种可选的实施方式中,程序310进一步使得处理器302执行以下操作:利用不同标记符号分别对每个语句样本中位于姓名起始的字、位于姓名中间的字、位于姓名结尾的字以及除姓名之外的其他字进行标注,得到每个字的序列标记。

程序310中各步骤的具体实现可以参见上述书籍人物姓名识别模型的训练实施例中的相应步骤对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。

通过本实施例提供的方案,充分结合了姓名在语句中的位置分布特点,提取了每个字的停用词特征,根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的n-gram通用特征和停用词特征进行训练,使得训练得到书籍人物姓名识别模型能够准确地对书籍人物姓名进行识别,有效地提高了识别准确率,优化了姓名识别方式。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了:a1.一种书籍人物姓名识别模型的训练方法,包括:

从书籍集合中提取书籍人物的姓名字典;

针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;

针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记;对该语句样本中的每个字进行特征提取,得到每个字的特征;其中所述特征包含n-gram通用特征以及停用词特征;

根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。

a2.根据a1所述的方法,所述对该语句样本中的每个字进行特征提取,得到每个字的特征进一步包括:

对于该语句样本中的任一个字,判断位于该字之前的n-1个字、以及位于该字之前的n-1个字的组合词是否包含停用词;

根据判断结果,确定该字的停用词特征。

a3.根据a1所述的方法,所述特征还包含:复姓词特征;所述对该语句样本中的每个字进行特征提取,得到每个字的特征进一步包括:

对于该语句样本中的任一个字,判断该字与位于该字之前或之后的一个字的组合词是否为复姓词;

根据判断结果,确定该字的复姓词特征。

a4.根据a1-a3任一项所述的方法,所述从书籍集合中提取书籍人物的姓名字典进一步包括:

针对书籍集合中的每本书籍,提取出现频次超过预设频次的书籍人物的姓名,得到该书籍对应的姓名子集;

对书籍集合中的所有书籍对应的姓名子集进行汇总,得到书籍人物的姓名字典。

a5.根据a1-a4任一项所述的方法,在所述针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合之后,所述方法还包括:

获取扩充姓名字典;

利用所述扩充姓名字典中的各个姓名,对语句样本集合中的每个语句样本中包含的姓名进行替换处理,以得到扩充后的语句样本集合。

a6.根据a1-a5任一项所述的方法,所述对该语句样本中的每个字进行序列标注,得到每个字的序列标记进一步包括:

利用不同标记符号分别对每个语句样本中位于姓名起始的字、位于姓名中间的字、位于姓名结尾的字以及除姓名之外的其他字进行标注,得到每个字的序列标记。

本发明还公开了:b7.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:

从书籍集合中提取书籍人物的姓名字典;

针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;

针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记;对该语句样本中的每个字进行特征提取,得到每个字的特征;其中所述特征包含n-gram通用特征以及停用词特征;

根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。

b8.根据b7所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:

对于该语句样本中的任一个字,判断位于该字之前的n-1个字、以及位于该字之前的n-1个字的组合词是否包含停用词;

根据判断结果,确定该字的停用词特征。

b9.根据b7所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:

对于该语句样本中的任一个字,判断该字与位于该字之前或之后的一个字的组合词是否为复姓词;

根据判断结果,确定该字的复姓词特征。

b10.根据b7-b9任一项所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:

针对书籍集合中的每本书籍,提取出现频次超过预设频次的书籍人物的姓名,得到该书籍对应的姓名子集;

对书籍集合中的所有书籍对应的姓名子集进行汇总,得到书籍人物的姓名字典。

b11.根据b7-b10任一项所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:

获取扩充姓名字典;

利用所述扩充姓名字典中的各个姓名,对语句样本集合中的每个语句样本中包含的姓名进行替换处理,以得到扩充后的语句样本集合。

b12.根据b7-b11任一项所述的电子设备,所述可执行指令进一步使所述处理器执行以下操作:

利用不同标记符号分别对每个语句样本中位于姓名起始的字、位于姓名中间的字、位于姓名结尾的字以及除姓名之外的其他字进行标注,得到每个字的序列标记。

本发明还公开了:c13.一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:

从书籍集合中提取书籍人物的姓名字典;

针对姓名字典中的每个姓名,与书籍集合中每本书籍的所有语句作匹配,得到包含姓名的语句样本集合;

针对语句样本集合中的每个语句样本,对该语句样本中的每个字进行序列标注,得到每个字的序列标记;对该语句样本中的每个字进行特征提取,得到每个字的特征;其中所述特征包含n-gram通用特征以及停用词特征;

根据语句样本集合中的每个语句样本的每个字的序列标记以及每个字的特征,训练得到书籍人物姓名识别模型。

c14.根据c13所述的存储介质,所述可执行指令进一步使所述处理器执行以下操作:

对于该语句样本中的任一个字,判断位于该字之前的n-1个字、以及位于该字之前的n-1个字的组合词是否包含停用词;

根据判断结果,确定该字的停用词特征。

c15.根据c13所述的存储介质,所述可执行指令进一步使所述处理器执行以下操作:

对于该语句样本中的任一个字,判断该字与位于该字之前或之后的一个字的组合词是否为复姓词;

根据判断结果,确定该字的复姓词特征。

c16.根据c13-c15任一项所述的存储介质,所述可执行指令进一步使所述处理器执行以下操作:

针对书籍集合中的每本书籍,提取出现频次超过预设频次的书籍人物的姓名,得到该书籍对应的姓名子集;

对书籍集合中的所有书籍对应的姓名子集进行汇总,得到书籍人物的姓名字典。

c17.根据c13-c16任一项所述的存储介质,所述可执行指令进一步使所述处理器执行以下操作:

获取扩充姓名字典;

利用所述扩充姓名字典中的各个姓名,对语句样本集合中的每个语句样本中包含的姓名进行替换处理,以得到扩充后的语句样本集合。

c18.根据c13-c17任一项所述的存储介质,所述可执行指令进一步使所述处理器执行以下操作:

利用不同标记符号分别对每个语句样本中位于姓名起始的字、位于姓名中间的字、位于姓名结尾的字以及除姓名之外的其他字进行标注,得到每个字的序列标记。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1