一种修正实体词识别的方法和装置的制造方法

文档序号:9349933阅读:305来源:国知局
一种修正实体词识别的方法和装置的制造方法
【技术领域】
[0001]本发明涉及计算机语言处理领域,特别涉及一种修正实体词识别的方法和装置。
【背景技术】
[0002]现在很多企业通过大数据来获取具有价值的信息资产,而从大数据的应用现状来看,主要通过基础训练语料来识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类,但是,在实际应用中,因为行业不同、业务不同,专有名称存在一定的差异性,导致识别实体词准确性较低。

【发明内容】

[0003]本发明提供一种修正实体词识别的方法和装置,以提高识别实体词的准确性。
[0004]—种修正实体词识别的方法,为训练语料中的各个类别的实体词配置对应的标注,还包括:
[0005]根据所述训练语料中的各个类别的实体词对应的标注,对文本中分词后的各个实体词进行标注;
[0006]查看具有标注的各个实体词;
[0007]在接收到触发时,修正实体词的标注,并按照修正后的实体词的标注更新所述训练语料中实体词的类别;
[0008]按照更新后的实体词的类别,进行分词。
[0009]优选地,在所述查看具有标注的各个实体词之后,在所述修正实体词的标注之前,进一步包括:在接收到触发时,对所述各个实体词中错误的实体词进行重新分词;
[0010]所述按照更新后的实体词的类别,进行分词,包括:按照重新分词后的各个实体词和更新后的实体词的类别,进行分词。
[0011]优选地,所述为各个类别的实体词配置对应的标注,包括:为各个类别的实体词配置对应的显示颜色;
[0012]所述对文本中分词后的各个实体词进行标注,包括:为文本中分词后的各个实体词分配显示颜色;
[0013]所述查看具有标注的各个实体词,包括:按照所述分配的显示颜色,显示所述各个实体词;
[0014]所述修正实体词的标注,包括:修正实体词的显示颜色。
[0015]优选地,在所述对文本中分词后的各个实体词进行标注之后,在所述查看具有标注的各个实体词之前,进一步包括:将具有标注的文本以html文件的形式保存;
[0016]所述查看具有标注的各个实体词,包括:查看所述html文件中具有标注的各个实体词。
[0017]优选地,所述查看具有标注的各个实体词,包括:通过外设的浏览器查看具有标注的各个实体词。
[0018]优选地,该方法进一步包括:设置修正实体词的反馈阈值;
[0019]在所述对文本中分词后的各个实体词进行标注之前,进一步包括:通过外设的实体词识别模型对文本进行分词;
[0020]在所述按照修正后的实体词的标注更新所述训练语料中实体词的类别之后,在所述按照更新后的实体词的类别,进行分词之前,进一步包括:
[0021]确定修正实体词的反馈值;
[0022]当所述反馈值达到所述反馈阈值时,根据更新后的训练语料,重建所述外设的实体词识别模型;
[0023]所述按照更新后的实体词的类别,进行分词,包括:按照更新后的实体词的类别,利用所述重建的外设的所述实体词识别模型进行分词。
[0024]—种修正实体词识别装置,包括:
[0025]配置单元,用于为训练语料中的各个类别的实体词配置对应的标注;
[0026]修正单元,用于根据所述配置单元为所述各个类别的实体词配置的对应的标注,对文本中分词后的各个实体词进行标注,并查看具有标注的各个实体词,在接收到触发时,修正实体词的标注,并更新所述训练语料中实体词的类别;
[0027]分词单元,用于按照所述修正单元更新后的实体词的类别,进行分词。
[0028]优选地,所述修正单元,进一步用于在接收到触发时,对所述各个实体词中错误的实体词进行重新分词;
[0029]所述分词单元,用于按照所述修正单元进行重新分词后的各个实体词和更新的实体词的类别,进行分词。
[0030]优选地,所述配置单元,用于为各个类别的实体词配置对应的显示颜色;
[0031]所述修正单元,用于为文本中分词后的各个实体词分配显示颜色,按照所述分配的显示颜色,显示所述各个实体词,并修正实体词的显示颜色。
[0032]优选地,所述修正单元,进一步用于将具有标注的文本以html文件的形式保存,并查看所述html文件中具有标注的各个实体词。
[0033]优选地,所述修正单元,用于通过外设的浏览器查看具有标注的各个实体词。
[0034]优选地,该装置进一步包括:重建单元,其中,
[0035]所述配置单元,进一步用于设置修正实体词的反馈阈值;
[0036]所述重建单元,用于确定修正实体词的反馈值,当所述反馈值达到所述确定单元确定的反馈阈值时,根据更新后的训练语料,重建外设的实体词识别模型;
[0037]所述分词单元,用于按照更新后的实体词的类别,触发所述重建的外设的所述实体词识别模型进行分词。
[0038]本发明实施例提供了一种修正实体词识别的方法和装置,该方法包括:为训练语料中的各个类别的实体词配置对应的标注;根据所述训练语料中的各个类别的实体词对应的标注,对文本中分词后的各个实体词进行标注;查看具有标注的各个实体词;在接收到触发时,修正实体词的标注,并更新所述训练语料中实体词的类别;而按照更新后的实体词的类别,即修正后的实体词类别进行分词,可有效提高识别实体词的准确性。
【附图说明】
[0039]图1为本发明实施例提供的一种修正实体词识别的方法的流程图;
[0040]图2为本发明另一实施例提供的一种修正实体词识别的方法的流程图;
[0041]图3为本发明实施例提供的一种修正实体词识别装置所在架构的结构示意图;
[0042]图4为本发明实施例提供的一种修正实体词识别装置的结构示意图。
【具体实施方式】
[0043]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0044]如图1所示,本发明实施例提供一种修正实体词识别的方法,该修正实体词识别的方法可以包括以下步骤:
[0045]步骤101:为训练语料中的各个类别的实体词配置对应的标注;
[0046]步骤102:根据训练语料中的各个类别的实体词对应的标注,对文本中分词后的各个实体词进行标注;
[0047]步骤103:查看具有标注的各个实体词;
[0048]步骤104:在接收到触发时,修正实体词的标注,并按照修正后的实体词的标注更新训练语料中实体词的类别;
[0049]步骤105:按照更新后的实体词的类别,进行分词。
[0050]在本发明一个实施例中,为了进一步提高识别实体词的准确性,同时也提高分词的准确性,在步骤103之后,在步骤104之前,进一步包括:在接收到触发时,对所述各个实体词中错误的实体词进行重新分词;步骤105的【具体实施方式】:按照重新分词后的各个实体词和更新后的实体词的类别,进行分词。
[0051]在本发明一个实施例中,为了能够使标注简单、明显,对于非专业人员也很容易操控,步骤101的【具体实施方式】:为各个类别的实体词配置对应的显示颜色;步骤102的【具体实施方式】:为文本中分词后的各个实体词分配显示颜色;步骤103的【具体实施方式】:按照所述分配的显示颜色,显示所述各个实体词;步骤104的【具体实施方式】:修正实体词的显示颜色。
[0052]在本发明一个实施例中,为了能够使分词后的文本方便管理和调用,在步骤102之后,在步骤103之前,进一步包括:将具有标注的文本以html
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1