本发明涉及信息处理技术领域,特别是涉及一种构建命名实体标注资源库方法、装置、存储介质和计算机设备。
背景技术:
命名实体(namedentity)就是指人名、机构名、地名以及其他所有以名称为标识的实体,广义的命名实体还包括数字、日期、货币、地址等。命名实体识别(namedentityrecognition,ner)是自然语言处理的基础技术之一,对于提高许多自然语言处理应用系统的性能都有重要作用。目前ner主要使用统计模型作为处理技术,比如隐马尔可夫模型(hiddenmarkovmodel,hmm)、条件随机场模型(conditionalrandomfield,crf)等统计模型,这类统计模型都需要大量的标注资源库作为训练集,一般常采用人民日报语料资源库等人工标注的资源库作为训练集。这些人工标注的资源库中的资源是非常有限的,不足以适应大规模应用场景比如机器翻译,且随着社会的发展,不断地有新的命名实体诞生,比如机构名、电影名称、产品名称、图书名称等,所以采用人工标注的资源库远远无法满足命名实体识别的需求。因此,建立并维护命名实体标注资源库是众多自然语言处理领域应用(例如搜索系统,机器翻译系统等)的核心。
技术实现要素:
基于此,有必要针对上述技术问题,提供一种构建命名实体标注资源库方法、装置、存储介质和计算机设备。
一种构建命名实体标注资源库方法,所述方法包括:
获取已标注文本集作为本轮迭代的种子库,所述已标注文本集包括已标注文本;
获取未标注文本集,所述未标注文本集包括未标注文本,从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成本轮迭代的资源库;
计算所述未标注文本中每个命名实体的平均效用值;
对所述平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词;
选出包含所述候选词且效用值最大的文本添加到所述种子库中作为下一轮迭代的种子库,再从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成所述下一轮迭代的资源库,直到将所述未标注文本集中的所有未标注文本全部迭代,得到标注资源库;
对所述标注资源库中的候选词进行评分;
获取评分超过设定阈值的候选词对应的包含所述候选词的文本,将所述文本构成的集合作为命名实体标注资源库。
在其中一个实施例中,所述计算所述未标注文本中每个命名实体的平均效用值,包括:
对所述资源库中的未标注文本进行分词,得到分词后的未标注文本;
采用条件随机场crf模型训练所述资源库中的已标注文本,得到预测模型,利用预测模型预测所述资源库中的未标注文本的标注序列,从所述未标注文本的标注序列中获取最优及次优标注序列及所述最优及次优标注序列的条件概率;
对每个未标注文本,根据所述条件概率通过效用评估函数计算所述未标注文本中的每个命名实体的效用值;
获取每个命名实体在包含所述命名实体的未标注文本中的效用值,根据所述效用值计算每个命名实体的平均效用值。
在其中一个实施例中,所述获取已标注文本集作为本轮迭代的种子库之前,还包括:
采集文本信息;
从所述采集的文本信息中选取预设数量的文本信息,对所述预设数量的文本信息中的命名实体进行标注,生成已标注文本集,所述采集的文本信息中余下的未标注文本构成未标注文本集。
在其中一个实施例中,所述效用评估函数为
其中
在其中一个实施例中,所述平均效用计算公式为
其中xt是含有实体候选词t的样例集,|xt|是含有实体候选词t样例的个数,
一种构建命名实体标注资源库装置,所述装置包括:
种子库获取模块,用于获取已标注文本集作为本轮迭代的种子库,所述已标注文本集包括已标注文本;
资源库获取模块,用于获取未标注文本集,所述未标注文本集包括未标注文本,从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成本轮迭代的资源库;
平均效用值计算模块,用于计算所述未标注文本中每个命名实体的平均效用值;
命名实体候选词获取模块,用于对所述平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词;
标注资源库生成模块,用于选出包含所述候选词且效用值最大的文本添加到所述种子库中作为下一轮迭代的种子库,再从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成所述下一轮迭代的资源库,直到将所述未标注文本集中的所有未标注文本全部迭代,得到标注资源库;
候选词评分模块,用于对所述标注资源库中的候选词进行评分;
命名实体标注资源库生成模块,用于获取评分超过设定阈值的候选词对应的包含所述候选词的文本,将所述文本构成的集合作为命名实体标注资源库。
在其中一个实施例中,所述平均效用值计算模块包括:
分词模块,用于对所述资源库中的未标注文本进行分词,得到分词后的未标注文本;
条件概率计算模块,用于采用条件随机场crf模型训练所述资源库中的已标注文本,得到预测模型,利用预测模型预测所述资源库中的未标注文本的标注序列,从所述未标注文本的标注序列中获取最优及次优标注序列及所述最优及次优标注序列的条件概率;
效用值计算模块,用于对每个未标注文本,根据所述条件概率通过效用评估函数计算所述未标注文本中的每个命名实体的效用值;
平均效用值获取模块,用于获取每个命名实体在包含所述命名实体的未标注文本中的效用值,根据所述效用值计算每个命名实体的平均效用值。
在其中一个实施例中,所述装置还包括:
文本信息采集模块,用于采集文本信息;
文本信息分类模块,用于从所述采集的文本信息中选取预设数量的文本信息,对所述预设数量的文本信息中的命名实体进行标注,生成已标注文本集,所述采集的文本信息中余下的未标注文本构成未标注文本集。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取已标注文本集作为本轮迭代的种子库,所述已标注文本集包括已标注文本;
获取未标注文本集,所述未标注文本集包括未标注文本,从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成本轮迭代的资源库;
计算所述未标注文本中每个命名实体的平均效用值;
对所述平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词;
选出包含所述候选词且效用值最大的文本添加到所述种子库中作为下一轮迭代的种子库,再从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成所述下一轮迭代的资源库,直到将所述未标注文本集中的所有未标注文本全部迭代,得到标注资源库;
对所述标注资源库中的候选词进行评分;
获取评分超过设定阈值的候选词对应的包含所述候选词的文本,将所述文本构成的集合作为命名实体标注资源库。
一种计算机设备,所述计算机设备包括存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取已标注文本集作为本轮迭代的种子库,所述已标注文本集包括已标注文本;
获取未标注文本集,所述未标注文本集包括未标注文本,从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成本轮迭代的资源库;
计算所述未标注文本中每个命名实体的平均效用值;
对所述平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词;
选出包含所述候选词且效用值最大的文本添加到所述种子库中作为下一轮迭代的种子库,再从所述未标注文本集中选取预设数量的未标注文本与所述种子库构成所述下一轮迭代的资源库,直到将所述未标注文本集中的所有未标注文本全部迭代,得到标注资源库;
对所述标注资源库中的候选词进行评分;
获取评分超过设定阈值的候选词对应的包含所述候选词的文本,将所述文本构成的集合作为命名实体标注资源库。
上述构建命名实体标注资源库方法、装置、存储介质和计算机设备,将已标注文本集作为本轮迭代的种子库,再将未标注文本集中的预设数量的未标注文本与种子库构成本轮迭代的资源库。计算未标注文本中每个命名实体的平均效用值,对平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词。再选出包含候选词且效用值最大的文本添加到种子库中作为下一轮迭代的种子库,再从未标注文本集中选取预设数量的未标注文本与种子库构成下一轮迭代的资源库,直到将未标注文本集中的所有未标注文本全部迭代,得到标注资源库。最后对标注资源库中的候选词进行评分,获取评分超过设定阈值的候选词对应的包含候选词的文本,将文本构成的集合作为命名实体标注资源库。本发明使用少量种子库与未标注文本集中的未标注文本构成本轮迭代的资源库进行计算,生成下一轮迭代的种子库,再将生成的种子库与其他未标注文本构成下一轮迭代的资源库进行计算出再下一轮的种子库,就这样一直计算直到将未标注文本全部计算,发现新的命名实体,并生成命名实体标注资源库。这种方法实现简单、速度快、可大规模部署,可以无限扩充命名实体标注资源库的规模,满足各种场景需求。
附图说明
图1为一个实施例中构建命名实体标注资源库方法的流程图;
图2为一个实施例中构建命名实体标注资源库方法的流程图;
图3为一个实施例中构建命名实体标注资源库方法的流程图;
图4为一个实施例中构建命名实体标注资源库装置的结构示意图;
图5为图4中平均效用计算模块的结构示意图;
图6为一个实施例中构建命名实体标注资源库装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
在一个实施例中,如图1所示,提供了一种构建命名实体标注资源库方法,包括:
步骤110,获取已标注文本集作为本轮迭代的种子库,已标注文本集包括已标注文本。
首先利用爬虫程序采集互联网文本信息,比如新闻、评论等作为原始资源库。然后,在原始资源库中选取部分文本,利用人工标注的方式对其进行命名实体标注。使用少量的文本进行命名实体人工标注,节约人力成本,这些已标注的文本构成了已标注文本集。例如,原始资源库中有1000条文本信息,选取100条文本信息进行人工标注。已标注的文本构成文本集合,将已标注文本集合作为本轮迭代的种子库。命名实体人工标注是指对文本中的词语属于哪一类命名实体标注出来,例如,对“小牛在线成立于2013年6月。”这个句子进行人工标注,标注结果为:(小牛在线,机构名称)、成立于(2013年6月,时间)。将这个句子中的“小牛在线”标注为“机构名称”,将“2013年6月”标注为“时间”。当然,原始资料库中的文本信息也可以是其他数量。
步骤120,获取未标注文本集,未标注文本集包括未标注文本,从未标注文本集中选取预设数量的未标注文本与种子库构成本轮迭代的资源库。
从原始资源库中去除已标注文本集,剩下的就构成了未标注文本集。从未标注文本集中选取预设数量的未标注文本与种子库一起构成本轮迭代的资源库。例如,在有1000条原始资源库中对100条文本信息进行了人工标注,构成了种子库,剩下900条未标注文本集。本轮从这900条未标注文本集中选取1/9文本即100条文本信息,与种子库一起构成本轮迭代的资源库。当然,也可以选取其他比例的文本。
步骤130,计算未标注文本中每个命名实体的平均效用值。
首先,对资源库中的未标注文本进行分词,得到分词后的未标注文本。
对资源库中的未标注文本进行分词,得到分词后的未标注文本。可以采用例如最大匹配方法、hmm(hiddenmarkovmodel,隐马尔可夫模型)方法等对未标注文本进行分词。例如,对文本“小牛在线在华南地区排名第一。”进行分词,分词切分后得到“小牛在线在华南地区排名第一”。
其次,采用条件随机场crf模型训练资源库中的已标注文本,得到预测模型,利用预测模型预测资源库中的未标注文本的标注序列,从未标注文本的标注序列中获取最优及次优标注序列及最优及次优标注序列的条件概率。条件随机场算法是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。用crf模型对上述本轮迭代的资源库中的每个未标注文本进行训练,得到对每个未标注文本进行标注后的标注序列。获取每个未标注文本的最优和次优的文本标注序列,并计算每个未标注文本的最优及次优文本标注序列的条件概率。
再次,对每个未标注文本,根据条件概率通过效用评估函数计算未标注文本中的每个命名实体的效用值。最后,获取每个命名实体在包含命名实体的未标注文本中的效用值,根据效用值计算每个命名实体的平均效用值。
步骤140,对平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词。
对计算出的平均效用值按照从大到小的顺序进行排序,获取前预设数量的命名实体作为命名实体候选词。例如,获取的可以是前10名的命名实体作为本轮的命名实体候选词,比如是“小牛在线、清华大学、百度、阿里巴巴、大疆、无人机、智能机器人、眼镜、化妆品、人民币”。
步骤150,选出包含候选词且效用值最大的文本添加到种子库中作为下一轮迭代的种子库,再从未标注文本集中选取预设数量的未标注文本与种子库构成下一轮迭代的资源库,直到将未标注文本集中的所有未标注文本全部迭代,得到标注资源库。
对每一个命名实体候选词,在本轮迭代的资源库的文本信息中选出包含该命名实体候选词的文本,且从包含该命名实体候选词的文本集中选出使得该命名实体候选词在该文本中的效用值最大的文本。将每个命名实体候选词对应的效用最大的文本添加到种子库中作为下一轮迭代的种子库。再从未标注文本集中选取预设数量的未标注文本与种子库构成下一轮迭代的资源库,直到将未标注文本集中的所有未标注文本全部迭代,得到标注资源库。利用互联网中的未标注文本进行扩充种子库,可以无限扩充命名实体标注资源库的规模,满足各种场景需求。
例如,上述资源库中剩下的未标注文本的数量为800,那么下一轮迭代就从这800个未标注文本中再选取100个未标注文本,将这100个未标注文本与上一轮得到的种子库构成本轮迭代的资源库。进行计算条件概率、效用值及平均效用值等,直到选出包含候选词且效用值最大的文本添加到种子库中作为下一轮迭代的种子库。再从剩下的700个未标注文本中选出100个,将这100个未标注文本与上一轮得到的种子库构成本轮迭代的资源库。如此迭代循环直至将剩下的未标注文本全部迭代,至此结束,最终得到的即为标注资源库。
步骤160,对标注资源库中的候选词进行评分。
在实际的命名实体识别中用评分公式对标注资源库中的命名实体候选词进行评分,得到评分结果。评分公式为:
其中
步骤170,获取评分超过设定阈值的候选词对应的包含候选词的文本,将文本构成的集合作为命名实体标注资源库。
对评分设置阈值,对评分从大到小进行排序,获取评分超过设定阈值的命名实体候选词,再根据命名实体候选词从标注资源库获取包含该命名实体候选词的文本。这些文本构成的集合即为命名实体标注资源库。
本实施例中,将已标注文本集作为本轮迭代的种子库;将未标注文本集中的预设数量的未标注文本与种子库构成本轮迭代的资源库。计算未标注文本中每个命名实体的平均效用值,对平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词。再选出包含候选词且效用值最大的文本添加到种子库中作为下一轮迭代的种子库,再从未标注文本集中选取预设数量的未标注文本与种子库构成下一轮迭代的资源库,直到将未标注文本集中的所有未标注文本全部迭代,得到标注资源库。最后对标注资源库中的候选词进行评分,获取评分超过设定阈值的候选词对应的包含候选词的文本,将文本构成的集合作为命名实体标注资源库。本发明使用少量种子库与未标注文本集中的未标注文本构成本轮迭代的资源库进行计算,生成下一轮迭代的种子库,再将生成的种子库与其他未标注文本构成下一轮迭代的资源库进行计算出再下一轮的种子库,就这样一直计算直到将未标注文本全部计算,发现新的命名实体,并生成命名实体标注资源库。这种方法实现简单、速度快、可大规模部署,可以无限扩充命名实体标注资源库的规模,满足各种场景需求。
在一个实施例中,如图2所示,计算资源库中每个命名实体候选词在包含命名实体的文本集中的平均效用值,包括:
步骤131,对资源库中的未标注文本进行分词,得到分词后的未标注文本。
对资源库中的未标注文本进行分词,得到分词后的未标注文本。可以采用例如最大匹配方法、hmm(hiddenmarkovmodel,隐马尔可夫模型)方法等对未标注文本进行分词。最大匹配方法属于机械分词方法,是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功即识别出一个词。隐马尔可夫模型在语音识别、自然语言处理以及生物信息等领域体现了很大的价值。到目前为止,它一直被认为是实现快速精确的语音识别系统以及自然语言处理过程中最成功的方法。例如,对文本“小牛在线在华南地区排名第一。”进行分词,分词切分后得到“小牛在线在华南地区排名第一”。
步骤133,采用条件随机场crf模型训练资源库中的已标注文本,得到预测模型,利用预测模型预测资源库中的未标注文本的标注序列,从未标注文本的标注序列中获取最优及次优标注序列及最优及次优标注序列的条件概率。
采用crf(conditionalrandomfield,条件随机场)模型训练资源库中的已标注文本,得到预测模型,利用预测模型预测资源库中的未标注文本的标注序列。利用预测模型对一个未标注文本的标注序列进行预测会产生多个不同的标注序列。从这多个标注序列中获取每个文本的最优和次优的标注序列,并计算每个文本的最优及次优文本标注序列的条件概率。计算最优和次优的文本标注序列的条件概率:
条件随机场是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。用crf模型对上述本轮迭代的资源库中的每个文本进行训练,得到对每个文本进行标注后的文本标注序列。
例如,利用预测模型对分词后的未标注文本“小牛在线在华南地区排名第一”的标注序列进行预测,可能的标注结果及条件概率为:
[(小牛在线,机构名,0.9),(华南地区,地名,0.89)],
[(小牛在线,地名,0.09),(华南地区,时间,0.02)],
[(小牛在线,时间,0.01),(华南地区,机构名,0.09)]等。“小牛在线”的最优标注序列是(小牛在线,机构名,0.9),“小牛在线”次优标注序列是(小牛在线,地名,0.09)。即
步骤135,对每个未标注文本,根据条件概率通过效用评估函数计算未标注文本中的每个命名实体的效用值。
效用评估函数的公式为:
其中
对每个未标注文本,根据在前面计算出的条件概率,利用效用评估函数计算未标注文本中的每个命名实体的效用值。例如,上述的未标注文本“小牛在线在华南地区排名第一”中有2个命名实体候选词,一个是“小牛在线”,一个是“华南地区”,其中“小牛在线”的最优标注序列是(小牛在线,机构名,0.9),“小牛在线”次优标注序列是(小牛在线,地名,0.09)。即
步骤137,获取每个命名实体候选词在包含命名实体的未标注文本中的效用值,根据效用值计算每个命名实体的平均效用值。
平均效用计算公式为:
其中xt是含有实体候选词t的样例集,|xt|是含有实体候选词t样例的个数,
将上述计算出的每个命名实体的效用值,通过平均效用计算公式进行求平均值,即得到每个命名实体候选词的平均效用值。在本实施例中,提出了一种利用crf模型训练输出的每个文本的最优及次优标注序列的条件概率,对每个未标注文本,根据在前面计算出的条件概率,利用效用评估函数计算未标注文本中的每个命名实体的效用值。再获取每个命名实体候选词在包含命名实体的未标注文本中的效用值,根据效用值计算每个命名实体的平均效用值。
在一个实施例中,如图3所示,获取已标注文本集作为本轮迭代的种子库之前,还包括:
步骤180,采集文本信息。
在获取已标注文本集作为本轮迭代的种子库之前,利用爬虫程序采集互联网文本信息,比如新闻、评论等作为原始资源库。
步骤190,从采集的文本信息中选取预设数量的文本信息,对预设数量的文本信息中的命名实体进行标注,生成已标注文本集,采集的文本信息中余下的未标注文本构成未标注文本集。
在原始资源库中选取部分文本,利用人工标注的方式对其进行命名实体标注。人工标注后的这部分已标注文本构成标注文本集,原始资源库中除去这部分已标注文本集后,剩下的全部未标注文本构成未标注文本集。
在本实施例中,先利用爬虫程序获取了一定数量的文本,然后人工对其中的部分文本进行了命名实体标注,将这部分已标注文本集作为后续训练的种子库中的一部分。这样这部分已标注文本会提高后续训练结果的准确性。
在一个实施例中,效用评估函数为:
其中
在本实施例中,首创效用评估函数用于计算每个命名实体在文本标注序列中的效用值,利用crf模型输出的条件概率作为输入,这个方法计算简单,所得结果的置信度高,适合处理大规模文本。文本数据为一种非结构化数据,通常对非结构化数据进行效果评估都比较困难,而该方法可以实现对文本命名实体进行量化评估。
在一个实施例中,平均效用计算公式为:
其中xt是含有实体候选词t的样例集,|xt|是含有实体候选词t样例的个数,
在本实施例中,利用计算出的每个命名实体在文本标注序列中的效用值,在将资源库中每个命名实体候选词在包含命名实体的文本集中的效用值进行加和求平均值,即得到了平均效用值。同样地,这个方法计算简单,可操作性强。
在一个实施例中,如图4所示,还提供了一种构建命名实体标注资源库装置400,该装置包括:种子库获取模块410、资源库获取模块420、平均效用值计算模块430、命名实体候选词获取模块440、标注资源库生成模块450、候选词评分模块460及命名实体标注资源库生成模块470。
种子库获取模块410,用于获取已标注文本集作为本轮迭代的种子库,已标注文本集包括已标注文本。
资源库获取模块420,用于获取未标注文本集,未标注文本集包括未标注文本,从未标注文本集中选取预设数量的未标注文本与种子库构成本轮迭代的资源库。
平均效用值计算模块430,用于计算未标注文本中每个命名实体的平均效用值。
命名实体候选词获取模块440,用于对平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词。
标注资源库生成模块450,用于选出包含候选词且效用值最大的文本添加到种子库中作为下一轮迭代的种子库,再从未标注文本集中选取预设数量的未标注文本与种子库构成下一轮迭代的资源库,直到将未标注文本集中的所有未标注文本全部迭代,得到标注资源库。
候选词评分模块460,用于对标注资源库中的候选词进行评分。
命名实体标注资源库生成模块470,用于获取评分超过设定阈值的候选词对应的包含候选词的文本,将文本构成的集合作为命名实体标注资源库。
在一个实施例中,如图5所示,平均效用值计算模块430包括:分词模块431、条件概率计算模块433、效用值计算模块435及平均效用值获取模块437。
分词模块431,用于对资源库中的未标注文本进行分词,得到分词后的未标注文本。
条件概率计算模块433,用于采用条件随机场crf模型训练资源库中的已标注文本,得到预测模型,利用预测模型预测资源库中的未标注文本的标注序列,从未标注文本的标注序列中获取最优及次优标注序列及最优及次优标注序列的条件概率。
效用值计算模块435,用于对每个未标注文本,根据条件概率通过效用评估函数计算未标注文本中的每个命名实体的效用值。
平均效用值获取模块437,用于获取每个命名实体在包含命名实体的未标注文本中的效用值,根据效用值计算每个命名实体的平均效用值。
在一个实施例中,如图6所示,构建命名实体标注资源库装置400还包括:文本信息采集模块480和文本信息分类模块490。
文本信息采集模块480,用于采集文本信息。
文本信息分类模块490,用于从采集的文本信息中选取预设数量的文本信息,对预设数量的文本信息中的命名实体进行标注,生成已标注文本集,采集的文本信息中余下的未标注文本构成未标注文本集。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取已标注文本集作为本轮迭代的种子库,已标注文本集包括已标注文本;获取未标注文本集,未标注文本集包括未标注文本,从未标注文本集中选取预设数量的未标注文本与种子库构成本轮迭代的资源库;计算未标注文本中每个命名实体的平均效用值;对平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词;选出包含候选词且效用值最大的文本添加到种子库中作为下一轮迭代的种子库,再从未标注文本集中选取预设数量的未标注文本与种子库构成下一轮迭代的资源库,直到将未标注文本集中的所有未标注文本全部迭代,得到标注资源库;对标注资源库中的候选词进行评分;获取评分超过设定阈值的候选词对应的包含候选词的文本,将文本构成的集合作为命名实体标注资源库。
在一个实施例中,上述程序被处理器执行时还实现以下步骤:对资源库中的未标注文本进行分词,得到分词后的未标注文本;采用条件随机场crf模型训练资源库中的已标注文本,得到预测模型,利用预测模型预测资源库中的未标注文本的标注序列,从未标注文本的标注序列中获取最优及次优标注序列及最优及次优标注序列的条件概率;对每个未标注文本,根据条件概率通过效用评估函数计算未标注文本中的每个命名实体的效用值;获取每个命名实体在包含命名实体的未标注文本中的效用值,根据效用值计算每个命名实体的平均效用值。在一个实施例中,上述程序被处理器执行时还实现以下步骤:采集文本信息;从采集的文本信息中选取预设数量的文本信息,对预设数量的文本信息中的命名实体进行标注,生成已标注文本集,采集的文本信息中余下的未标注文本构成未标注文本集。
在一个实施例中,上述程序被处理器执行时还实现以下步骤:效用评估函数为
其中
在一个实施例中,上述程序被处理器执行时还实现以下步骤:平均效用计算公式为
其中xt是含有实体候选词t的样例集,|xt|是含有实体候选词t样例的个数,
在一个实施例中,还提供了一种计算机设备,该计算机设备包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取已标注文本集作为本轮迭代的种子库,已标注文本集包括已标注文本;获取未标注文本集,未标注文本集包括未标注文本,从未标注文本集中选取预设数量的未标注文本与种子库构成本轮迭代的资源库;计算未标注文本中每个命名实体的平均效用值;对平均效用值按照从大到小进行排序,获取排名靠前的预设数量的命名实体作为候选词;选出包含候选词且效用值最大的文本添加到种子库中作为下一轮迭代的种子库,再从未标注文本集中选取预设数量的未标注文本与种子库构成下一轮迭代的资源库,直到将未标注文本集中的所有未标注文本全部迭代,得到标注资源库;对标注资源库中的候选词进行评分;获取评分超过设定阈值的候选词对应的包含候选词的文本,将文本构成的集合作为命名实体标注资源库。
在一个实施例中,上述处理器执行计算机程序时还实现以下步骤:对资源库中的未标注文本进行分词,得到分词后的未标注文本;采用条件随机场crf模型训练资源库中的已标注文本,得到预测模型,利用预测模型预测资源库中的未标注文本的标注序列,从未标注文本的标注序列中获取最优及次优标注序列及最优及次优标注序列的条件概率;对每个未标注文本,根据条件概率通过效用评估函数计算未标注文本中的每个命名实体的效用值;获取每个命名实体在包含命名实体的未标注文本中的效用值,根据效用值计算每个命名实体的平均效用值。在一个实施例中,上述处理器执行计算机程序时还实现以下步骤:采集文本信息;从采集的文本信息中选取预设数量的文本信息,对预设数量的文本信息中的命名实体进行标注,生成已标注文本集,采集的文本信息中余下的未标注文本构成未标注文本集。
在一个实施例中,上述处理器执行计算机程序时还实现以下步骤:效用评估函数为
其中
在一个实施例中,上述处理器执行计算机程序时还实现以下步骤:平均效用计算公式为
其中xt是含有实体候选词t的样例集,|xt|是含有实体候选词t样例的个数,
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。