1.一种医疗命名实体识别系统生成方法,其特征在于,包括:
通过一医疗命名实体识别系统接收多个医疗文本样本,并利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体;
对所述多个候选医疗命名实体进行标注,得到多个推荐医疗命名实体;
计算所述推荐医疗命名实体和所述候选医疗命名实体的数量之比,并判断所述数量之比是否小于第一预设值;
在判断所述数量之比小于所述第一预设值时,将所述推荐医疗命名实体输入至所述医疗命名实体识别系统,并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体并转至对所述多个候选医疗命名实体进行标注的步骤;
在判断所述数量之比不小于所述第一预设值时,以当前医疗命名实体识别系统作为目标医疗命名实体识别系统。
2.根据权利要求1所述的医疗命名实体识别系统生成方法,其特征在于,所述利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体包括:
计算所述多个医疗文本样本中各个命名实体的权重值;
选取权重值最高的多个命名实体作为所述候选医疗命名实体。
3.根据权利要求2所述的医疗命名实体识别系统生成方法,其特征在于,计算所述多个医疗文本样本中各个命名实体的权重值包括:
在spark环境下,通过N-Gram算法和tf-idf算法计算所述多个医疗文本样本中各个命名实体的权重值。
4.根据权利要求2或所述的医疗命名实体识别系统生成方法,其特征在于,所述将所述多个推荐医疗命名实体输入至所述医疗命名实体识别系统,并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体包括:
从所述多个医疗样本文本中获取与所述推荐医疗命名实体的上下文特征相似的命名实体作为补充医疗命名实体;
增加所述补充医疗命名实体在所述多个医疗文本样本中的权重值;
选取权重值最高的多个命名实体作为所述候选医疗命名实体。
5.根据权利要求4所述的医疗命名实体识别系统生成方法,其特征在于,所述从所述多个医疗样本文本中获取与所述推荐医疗命名实体的上下文特征相似的命名实体作为补充医疗命名实体包括:
根据预设模型对所述多个医疗样本文本进行分词,得到多个切分单元;
获取所述多个推荐医疗命名实体的上下文特征,并分别将各所述推荐医疗命名实体的上下文特征表示为第一向量;
获取所述多个切分单元的上下文特征,并分别将各所述切分单元的上下文特征表示为第二向量;
计算所述第一向量与所述第二向量的相似度,并判断所述相似度是否小于第二预设值;
选取与所述第一向量的相似度不小于所述第二预设值的第二向量,并将与所述第二向量表示的上下文特征对应切分单元作为所述候选医疗命名实体。
6.根据权利要求5所述的医疗命名实体识别系统生成方法,其特征在于,所述预设模型为隐马尔科夫模型。
7.根据权利要求5所述的医疗命名实体识别系统生成方法,其特征在于,其中,通过word2vec将各所述推荐医疗命名实体的上下文特征表示为第一向量以及将各所述切分单元的上下文特征表示为第二向量。
8.根据权利要求1-6任一项所述的医疗命名实体识别系统生成方法,其特征在于,所述第一预设值为85%-90%。
9.根据权利要求1-6任一项所述的医疗命名实体识别系统生成方法,其特征在于,其中,在对所述多个候选医疗命名实体进行标注的同时,对被标注的所述推荐医疗命名实体进行分类;
在从所述多个医疗文本样本中获取所述候选医疗命名实体的同时,根据与该所述候选医疗命名实体相似的所述推荐医疗命名实体的分类对该所述候选医疗命名实体推荐分类。
10.一种医疗命名实体识别系统生成装置,其特征在于,包括:
冷启动单元,用于通过一医疗命名实体识别系统接收多个医疗文本样本,并利用机器学习从所述多个医疗文本样本获取多个候选医疗命名实体;
标注单元,用于对所述多个候选医疗命名实体进行标注,得到多个推荐医疗命名实体;
评估单元,用于计算所述推荐医疗命名实体和所述候选医疗命名实体的数量之比,并判断所述数量之比是否小于第一预设值;
反馈单元,用于在判断所述数量之比小于所述第一预设值时,将所述推荐医疗命名实体输入至所述医疗命名实体识别系统,并据以从所述多个医疗文本样本中获取多个所述候选医疗命名实体并反馈至所述标注单元;
输出单元,用于在判断所述数量之比不小于所述第一预设值时,以当前医疗命名实体识别系统作为目标医疗命名实体识别系统。