一种实体的简称生成方法及装置与流程

文档序号:11654253阅读:286来源:国知局
一种实体的简称生成方法及装置与流程
本发明涉及计算机信息系统深度学习
技术领域
,尤其涉及一种实体的简称生成方法及装置。
背景技术
:当前,随着互联网技术及计算机信息技术的大量普及和发展,互联网和计算机已经进入到了大数据时代。在大数据时代,以文本作为载体对各类实体(如企业、政府机关、社会团体等)的报道和评价的数量越来越大,实体单位需要采集并识别与自身实体(如企业名称、政府机关名称等)关联的新闻信息,进而应用到企业风险识别、舆情分析等场景。而目前的常用采集和识别手段是全量采集各类新闻报道,然后从采集到的文本信息里面识别实体名称,如企业名称、政府机关名称、社会团体名称等,然后将相应的新闻报道确定为关联新闻报道。但是,在很多新闻报道中,基于言简意赅、文体简洁等多种因素,媒体往往会运用简称来描述实体,所谓简称就是从原词语,即全称中抽取具有代表性的词语组成的称谓(例如,中华人民共和国的简称为中国;中国工商银行的简称为工行)。那么,在进行大量信息的采集和分析时,如何判断该新闻信息是否与实体相关,就涉及到对简称的准确判断。因此,当前亟需一种智能生成简称的方法,从而便于从各类新闻报道等网络数据中准确采集到与实体的简称相关的数据。技术实现要素:本发明的实施例提供一种实体的简称生成方法及装置,以解决当前现有技术的简称生成准确度低,结果不唯一的问题。为达到上述目的,本发明采用如下技术方案:一种实体的简称生成方法,包括:获取实体全名称数据,对所述实体全名称数据进行词语加工预处理,将实体全名称数据拆分为多个词语,生成用于表示词语在预先设置的语料库中出现频率的词频编码和用于表示词语属性的词性标注信息;根据进行词语加工预处理后的词语、词频编码和词性标注信息,通过预先训练的第一深度学习模型和第二深度学习模型,分别生成第一初始简称和第二初始简称;根据预先设置的校验纠正规则,对所述第一初始简称和第二初始简称进行校验纠正处理,分别生成第一简称结果和第二简称结果;对所述第一简称结果和第二简称结果进行比较,并根据比较结果生成实体全名称数据的最终简称。具体的,获取实体全名称数据,对所述实体全名称数据进行词语加工预处理,将实体全名称数据拆分为多个词语,生成用于表示词语在预先设置的语料库中出现频率的词频编码和用于表示词语属性的词性标注信息,包括:从预先设置的词频信息表中获取实体全名称数据被拆分后的各词语对应的频率;根据各词语对应的频率,对各词语进行频率由大到小排列,生成各词语对应的词频编码;将所述各词语对应的词频编码存储于预先设置的词频编码表中。进一步的,获取实体全名称数据,对所述实体全名称数据进行词语加工预处理,将实体全名称数据拆分为多个词语,生成用于表示词语在预先设置的语料库中出现频率的词频编码和用于表示词语属性的词性标注信息,还包括:根据预先设置的前后缀词库、地区词库、行业词库、关键词词库确定实体全名称数据被拆分后的各词语所在的词库,并将实体全名称数据被拆分后的各词语进行词性标注,生成所述词性标注信息;所述词性标注信息包括前后缀用词、地区用词、行业用词以及关键词。进一步的,该实体的简称生成方法,还包括:根据预先设置的训练语料库,对所述第一深度学习模型和第二深度学习模型分别进行机器学习训练;所述训练语料库包括预先设置的实体全名称数据和各实体全名称对应的简称。具体的,根据预先设置的校验纠正规则,对所述第一初始简称和第二初始简称进行校验纠正处理,分别生成第一简称结果和第二简称结果,包括:判断词语加工预处理后的词语中是否存在两个相邻的单字词语;若词语加工预处理后的词语中存在两个相邻的单字词语,且第一初始简称为所述两个相邻的单字词语组成的词语,则确定所述第一初始简称为第一简称结果;若词语加工预处理后的词语中存在两个相邻的单字词语,且第二初始简称为所述两个相邻的单字词语组成的词语,则确定所述第二初始简称为第二简称结果;若词语加工预处理后的词语中存在两个相邻的单字词语,且第一初始简称不为所述两个相邻的单字词语组成的词语,则根据所述词频编码获取词语加工预处理后的频率最低的词语,并将两个相邻的单字词语和所述频率最低的词语组成所述第一简称结果;若词语加工预处理后的词语中存在两个相邻的单字词语,且第二初始简称不为所述两个相邻的单字词语组成的词语,则根据所述词频编码获取词语加工预处理后的频率最低的词语,并将两个相邻的单字词语和所述频率最低的词语组成所述第二简称结果。具体的,根据预先设置的校验纠正规则,对所述第一初始简称和第二初始简称进行校验纠正处理,分别生成第一简称结果和第二简称结果,包括:判断所述第一初始简称或第二初始简称是否为单字;若所述第一初始简称为单字,根据所述词频编码获取词语加工预处理后的频率最低的两个词语,并将所述单字与所述频率最低的两个词语组成所述第一简称结果;若所述第二初始简称为单字,根据所述词频编码获取词语加工预处理后的频率最低的两个词语,并将所述单字与所述频率最低的两个词语组成所述第二简称结果。具体的,根据预先设置的校验纠正规则,对所述第一初始简称和第二初始简称进行校验纠正处理,分别生成第一简称结果和第二简称结果,包括:判断所述第一初始简称或所述第二初始简称的简称长度是否大于预先设置的长度阈值;若第一初始简称的简称长度大于预先设置的长度阈值,根据进行词语加工预处理后的词语的词性标注信息和tf-idf值,对第一初始简称中的词语进行降序排列,并从降序排列后的第一初始简称中的词语的最后一个词语依次进行删除,直至第一初始简称的简称长度小于等于预先设置的长度阈值,将进行删除后的第一初始简称作为第一简称结果;若第二初始简称的简称长度大于预先设置的长度阈值,根据进行词语加工预处理后的词语的词性标注信息和tf-idf值,对第二初始简称中的词语进行降序排列,并从降序排列后的第二初始简称中的词语的最后一个词语依次进行删除,直至第二初始简称的简称长度小于等于预先设置的长度阈值,将进行删除后的第二初始简称作为第二简称结果。进一步的,在生成第一初始简称和第二初始简称之后,还包括:将所述第一简称结果和第二简称结果存储入训练语料库,以更新所述训练语料库。具体的,对所述第一简称结果和第二简称结果进行比较,并根据比较结果生成实体全名称数据的最终简称,包括:对所述第一简称结果和第二简称结果进行比较,生成比较结果;若所述比较结果为第一简称结果和第二简称结果不一致,获取第一深度学习模型输出简称的第一生成概率和第二深度学习模型输出简称的第二生成概率;将所述第一生成概率和第二生成概率进行比较,并选择第一生成概率和第二生成概率中的较大值对应的简称结果作为实体全名称数据的最终简称。一种实体的简称生成装置,包括:词语加工预处理单元,用于获取实体全名称数据,对所述实体全名称数据进行词语加工预处理,将实体全名称数据拆分为多个词语,生成用于表示词语在预先设置的语料库中出现频率的词频编码和用于表示词语属性的词性标注信息;初始简称生成单元,用于根据进行词语加工预处理后的词语、词频编码和词性标注信息,通过预先训练的第一深度学习模型和第二深度学习模型,分别生成第一初始简称和第二初始简称;校验纠正处理单元,用于根据预先设置的校验纠正规则,对所述第一初始简称和第二初始简称进行校验纠正处理,分别生成第一简称结果和第二简称结果;最终简称生成单元,用于对所述第一简称结果和第二简称结果进行比较,并根据比较结果生成实体全名称数据的最终简称。此外,所述词语加工预处理单元,具体用于:从预先设置的词频信息表中获取实体全名称数据被拆分后的各词语对应的频率;根据各词语对应的频率,对各词语进行频率由大到小排列,生成各词语对应的词频编码;将所述各词语对应的词频编码存储于预先设置的词频编码表中。另外,所述词语加工预处理单元,具体还用于:根据预先设置的前后缀词库、地区词库、行业词库、关键词词库确定实体全名称数据被拆分后的各词语所在的词库,并将实体全名称数据被拆分后的各词语进行词性标注,生成所述词性标注信息;所述词性标注信息包括前后缀用词、地区用词、行业用词以及关键词。进一步的,所述实体的简称生成装置,还包括:机器学习训练单元,用于根据预先设置的训练语料库,对所述第一深度学习模型和第二深度学习模型分别进行机器学习训练;所述训练语料库包括预先设置的实体全名称数据和各实体全名称对应的简称。另外,所述校验纠正处理单元,具体用于:判断词语加工预处理后的词语中是否存在两个相邻的单字词语;若词语加工预处理后的词语中存在两个相邻的单字词语,且第一初始简称为所述两个相邻的单字词语组成的词语,则确定所述第一初始简称为第一简称结果;若词语加工预处理后的词语中存在两个相邻的单字词语,且第二初始简称为所述两个相邻的单字词语组成的词语,则确定所述第二初始简称为第二简称结果;若词语加工预处理后的词语中存在两个相邻的单字词语,且第一初始简称不为所述两个相邻的单字词语组成的词语,则根据所述词频编码获取词语加工预处理后的频率最低的词语,并将两个相邻的单字词语和所述频率最低的词语组成所述第一简称结果;若词语加工预处理后的词语中存在两个相邻的单字词语,且第二初始简称不为所述两个相邻的单字词语组成的词语,则根据所述词频编码获取词语加工预处理后的频率最低的词语,并将两个相邻的单字词语和所述频率最低的词语组成所述第二简称结果。此外,所述校验纠正处理单元,具体用于:判断所述第一初始简称或第二初始简称是否为单字;若所述第一初始简称为单字,根据所述词频编码获取词语加工预处理后的频率最低的两个词语,并将所述单字与所述频率最低的两个词语组成所述第一简称结果;若所述第二初始简称为单字,根据所述词频编码获取词语加工预处理后的频率最低的两个词语,并将所述单字与所述频率最低的两个词语组成所述第二简称结果。另外,所述校验纠正处理单元,具体用于:判断所述第一初始简称或所述第二初始简称的简称长度是否大于预先设置的长度阈值;若第一初始简称的简称长度大于预先设置的长度阈值,根据进行词语加工预处理后的词语的词性标注信息和tf-idf值,对第一初始简称中的词语进行降序排列,并从降序排列后的第一初始简称中的词语的最后一个词语依次进行删除,直至第一初始简称的简称长度小于等于预先设置的长度阈值,将进行删除后的第一初始简称作为第一简称结果;若第二初始简称的简称长度大于预先设置的长度阈值,根据进行词语加工预处理后的词语的词性标注信息和tf-idf值,对第二初始简称中的词语进行降序排列,并从降序排列后的第二初始简称中的词语的最后一个词语依次进行删除,直至第二初始简称的简称长度小于等于预先设置的长度阈值,将进行删除后的第二初始简称作为第二简称结果。进一步的,所述的实体的简称生成装置,还包括:存储单元,用于将所述第一简称结果和第二简称结果存储入训练语料库,以更新所述训练语料库。此外,所述最终简称生成单元,具体用于:对所述第一简称结果和第二简称结果进行比较,生成比较结果;若所述比较结果为第一简称结果和第二简称结果不一致,获取第一深度学习模型输出简称的第一生成概率和第二深度学习模型输出简称的第二生成概率;将所述第一生成概率和第二生成概率进行比较,并选择第一生成概率和第二生成概率中的较大值对应的简称结果作为实体全名称数据的最终简称。本发明实施例提供的一种实体的简称生成方法及装置,首先获取实体全名称数据,对所述实体全名称数据进行词语加工预处理,将实体全名称数据拆分为多个词语,生成用于表示词语在预先设置的语料库中出现频率的词频编码和用于表示词语属性的词性标注信息;之后,根据进行词语加工预处理后的词语、词频编码和词性标注信息,通过预先训练的第一深度学习模型和第二深度学习模型,分别生成第一初始简称和第二初始简称;根据预先设置的校验纠正规则,对所述第一初始简称和第二初始简称进行校验纠正处理,分别生成第一简称结果和第二简称结果;对所述第一简称结果和第二简称结果进行比较,并根据比较结果生成实体全名称数据的最终简称。本发明实施例通过采用深度学习的方法,利用了深度学习模型无需人工设计特征的优点,并将词性和词频信息融合到模型中,扩展特征范围,对全称自主迭代学习后,最终形成实体全称与简称的精确的、唯一的对应关系,可以解决当前现有技术的简称生成准确度低,结果不唯一的问题。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种实体的简称生成方法的流程图一;图2为本发明实施例提供的一种实体的简称生成方法的流程图二;图3为本发明实施例中的第一深度学习模型的框架示意图;图4为本发明实施例中的第二深度学习模型的框架示意图;图5为本发明实施例中的第一深度学习模型的训练流程示意图;图6为本发明实施例中的第二深度学习模型的训练流程示意图;图7为本发明实施例提供的一种实体的简称生成装置的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。如图1所示,本发明实施例提供一种实体的简称生成方法,包括:步骤101、获取实体全名称数据,对所述实体全名称数据进行词语加工预处理,将实体全名称数据拆分为多个词语,生成用于表示词语在预先设置的语料库中出现频率的词频编码和用于表示词语属性的词性标注信息。步骤102、根据进行词语加工预处理后的词语、词频编码和词性标注信息,通过预先训练的第一深度学习模型和第二深度学习模型,分别生成第一初始简称和第二初始简称。步骤103、根据预先设置的校验纠正规则,对所述第一初始简称和第二初始简称进行校验纠正处理,分别生成第一简称结果和第二简称结果。步骤104、对所述第一简称结果和第二简称结果进行比较,并根据比较结果生成实体全名称数据的最终简称。本发明实施例提供的一种实体的简称生成方法,首先获取实体全名称数据,对所述实体全名称数据进行词语加工预处理,将实体全名称数据拆分为多个词语,生成用于表示词语在预先设置的语料库中出现频率的词频编码和用于表示词语属性的词性标注信息;之后,根据进行词语加工预处理后的词语、词频编码和词性标注信息,通过预先训练的第一深度学习模型和第二深度学习模型,分别生成第一初始简称和第二初始简称;根据预先设置的校验纠正规则,对所述第一初始简称和第二初始简称进行校验纠正处理,分别生成第一简称结果和第二简称结果;对所述第一简称结果和第二简称结果进行比较,并根据比较结果生成实体全名称数据的最终简称。本发明实施例通过采用深度学习的方法,利用了深度学习模型无需人工设计特征的优点,并将词性和词频信息融合到模型中,扩展特征范围,对全称自主迭代学习后,最终形成实体全称与简称的精确的、唯一的对应关系,可以解决当前现有技术的简称生成准确度低,结果不唯一的问题。为了使本领域的技术人员更好的了解本发明,下面列举一个更为详细的实施例,如图2所示,本发明实施例提供一种实体的简称生成方法,包括:步骤201、获取实体全名称数据,对所述实体全名称数据进行词语加工预处理,将实体全名称数据拆分为多个词语。此处将实体全名称数据拆分为多个词语,是以词语为基本语义单元,这样可以符合中文语言的语法。例如可以采用中文分词工具jieba进行分词处理,但不仅局限于此。例如可以将“大唐电信科技股份有限公司”拆分为多个词语,即“大唐”、“电信”、“科技”、“股份”、“有限”、“公司”。步骤202、从预先设置的词频信息表中获取实体全名称数据被拆分后的各词语对应的频率。值得说明的是,该预先设置的词频信息表记载有大量的词语、文字对应的频率信息,该频率信息可以是在各种实体全名称数据中出现的词语或文字的应用频率。具体可以用——词语:数字的方式来表示,以数字来表示频率,例如:耀:8;新锐:1;茂:13;发电:54;漳州:2;奥迪:1;包装:19;涪陵:2;第二:3;伊:2;河南:34;铜箔:1;平安:2;炭黑:1;洁柔:1;抗:1;工艺:3;微:1;乐园:2;铅锌:1;百川:1。步骤203、根据各词语对应的频率,对各词语进行频率由大到小排列,生成各词语对应的词频编码。例如,此处以企业名称“大唐电信科技股份有限公司”为例,假设“有限”出现的频率是100,“股份”出现的频率是20,“公司”出现的频率是150,那么词频编码可以如下:公司:1;有限:2;股份:3。步骤204、将所述各词语对应的词频编码存储于预先设置的词频编码表中。这样,词频编码表中即可存储各词语对应的词频编码,以便于训练语料库等的应用。步骤205、根据预先设置的前后缀词库、地区词库、行业词库、关键词词库确定实体全名称数据被拆分后的各词语所在的词库,并将实体全名称数据被拆分后的各词语进行词性标注,生成所述词性标注信息。其中,所述词性标注信息包括前后缀用词、地区用词、行业用词以及关键词。例如,前后缀词库中可以记载有“公司”、“责任”、“有限”、“实业”等经常在企业、单位等实体前后出现的词语。地区词库中可以记载有“中国”、“北京”、“上海”、“河南”等用于表示地区的词语。行业词库中可以记载有“知识产权”、“专利代理”、“银行”、“制药”等用于表示行业的词语。关键词词库中可以记载有具体的实体的全名称的关键词,例如“中国工商银行”的关键词为“工商”,“北京三友知识产权代理有限公司”的关键词为“三友”,“北京现代汽车有限公司”的关键词为“现代”。通过查询预先设置的前后缀词库、地区词库、行业词库、关键词词库,即可确定实体全名称数据被拆分后的各词语所在的词库,从而确定实体全名称数据被拆分后的各词语的词性。例如“北京三友知识产权代理有限公司”,“北京”为地区用词,“三友”为关键词,“知识产权代理”为行业用词,“有限公司”为前后缀用词。步骤206、根据预先设置的训练语料库,对所述第一深度学习模型和第二深度学习模型分别进行机器学习训练。所述训练语料库包括预先设置的实体全名称数据和各实体全名称对应的简称。而各实体全名称对应的简称可以由人工进行标注,也可以是由步骤209中的第一简称结果和第二简称结果存储入训练语料库。值得说明的是,数据量越大,深度学习模型学习出来的特征会越准确。一般情况下训练语料库占整个样本库的80%左右。另外,为了验证深度学习模型的泛化能力,还需要设置验证语料库。验证语料需要和训练语料库保持独立同分布,如此训练语料库的深度学习模型也能在验证语料库中有比较好的效果。一般情况下验证语料库占整个样本库的20%左右。此处,具体的学习训练过程可以参见后续图5和图6所示。步骤207、根据进行词语加工预处理后的词语、词频编码和词性标注信息,通过预先训练的第一深度学习模型和第二深度学习模型,分别生成第一初始简称和第二初始简称。此处通过第一深度学习模型生成第一初始简称的过程与后续图5中步骤504至步骤505相一致。而通过第二深度学习模型生成第二初始简称的过程与后续图5中的步骤504至步骤506相一致,主要是简称生成的过程不再进行误差回传。步骤208、根据预先设置的校验纠正规则,对所述第一初始简称和第二初始简称进行校验纠正处理,分别生成第一简称结果和第二简称结果。具体的,此处的步骤208可以采用如下方式,例如根据初始简称的词语长度来进行校验和纠正,如以下几种方式:①判断词语加工预处理后的词语中是否存在两个相邻的单字词语。若词语加工预处理后的词语中存在两个相邻的单字词语,且第一初始简称为所述两个相邻的单字词语组成的词语,则确定所述第一初始简称为第一简称结果;若词语加工预处理后的词语中存在两个相邻的单字词语,且第二初始简称为所述两个相邻的单字词语组成的词语,则确定所述第二初始简称为第二简称结果。若词语加工预处理后的词语中存在两个相邻的单字词语,且第一初始简称不为所述两个相邻的单字词语组成的词语,则根据所述词频编码获取词语加工预处理后的频率最低的词语,并将两个相邻的单字词语和所述频率最低的词语组成所述第一简称结果;若词语加工预处理后的词语中存在两个相邻的单字词语,且第二初始简称不为所述两个相邻的单字词语组成的词语,则根据所述词频编码获取词语加工预处理后的频率最低的词语,并将两个相邻的单字词语和所述频率最低的词语组成所述第二简称结果。②判断所述第一初始简称或第二初始简称是否为单字。若所述第一初始简称为单字,根据所述词频编码获取词语加工预处理后的频率最低的两个词语,并将所述单字与所述频率最低的两个词语组成所述第一简称结果;若所述第二初始简称为单字,根据所述词频编码获取词语加工预处理后的频率最低的两个词语,并将所述单字与所述频率最低的两个词语组成所述第二简称结果。③判断所述第一初始简称或所述第二初始简称的简称长度是否大于预先设置的长度阈值。若第一初始简称的简称长度大于预先设置的长度阈值,根据进行词语加工预处理后的词语的词性标注信息和tf-idf值,对第一初始简称中的词语进行降序排列,并从降序排列后的第一初始简称中的词语的最后一个词语依次进行删除,直至第一初始简称的简称长度小于等于预先设置的长度阈值,将进行删除后的第一初始简称作为第一简称结果。若第二初始简称的简称长度大于预先设置的长度阈值,根据进行词语加工预处理后的词语的词性标注信息和tf-idf值,对第二初始简称中的词语进行降序排列,并从降序排列后的第二初始简称中的词语的最后一个词语依次进行删除,直至第二初始简称的简称长度小于等于预先设置的长度阈值,将进行删除后的第二初始简称作为第二简称结果。步骤209、将所述第一简称结果和第二简称结果存储入训练语料库,以更新所述训练语料库。步骤210、对所述第一简称结果和第二简称结果进行比较,生成比较结果,确定第一简称结果和第二简称结果是否一致。若所述比较结果为第一简称结果和第二简称结果一致,执行步骤211。否则,若所述比较结果为第一简称结果和第二简称结果不一致,执行步骤212。步骤211、选择第一简称结果或第二简称结果作为实体全名称数据的最终简称。步骤212、获取第一深度学习模型输出简称的第一生成概率和第二深度学习模型输出简称的第二生成概率,将所述第一生成概率和第二生成概率进行比较,并选择第一生成概率和第二生成概率中的较大值对应的简称结果作为实体全名称数据的最终简称。为了使本领域的技术人员了解上述步骤206对所述第一深度学习模型和第二深度学习模型分别进行机器学习训练,下面对第一深度学习模型和第二深度学习模型和其训练过程做如下阐述:上述两种深度学习模型相互独立,是并行的训练学习和输出的,互不干扰。如图3所示,是第一深度学习模型的框架示意图,第一深度学习模型采用多层网络结构,包括:输入层301,单层embedding层302,多层brnn303,多层rnn304,单层softmax层305。如图3中两层brnn303,一层rnn304的仅为本发明的示例,可以根据实际训练结果进行调整。输入层301从数据库中获取训练语料,传入神经网络embedding层302,由embedding层302进行词向量编码,然后传入神经网络处理。由于神经网络输入需要固定的维度,因此embedding层302会将高维度特征的词向量降维为128维的词向量模式,词向量降维的技术可以使用现有的word2vec方法。本发明实施例中语料库中的词用现有的one-hotrepresentation方法表示,此方法也是目前自然语言处理中最直观、最常见的表示方式,这种方法把每个词表示为一个很长的向量,这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1,这个向量就代表了当前的词,示例如下:“水电”可以表示为[0001000000000000…]“电力”可以表示为[0000000010000000…]词向量编码能通过计算向量之间的距离发现两个词语之间的关系。每个词除了词所在位置上为1,其他都是0,任意两个词之间都是孤立的,仅从这两个向量中看不出两个词是否有关系,例如“水电”和“电力”这两个相似词之间没有任务关系。而通过词向量编码成128维向量后,假设“水电”用u向量表示,而“电力”用v向量表示,余弦距离度量这两个向量的差异,越是接近1的数字,说明这两个词在语义上越接近。递归神经网络rnn(recurrentneuralnetwork)是一种具有反馈结构的神经网络,主要特点是每次隐藏层的输出作为下一个时间点隐藏层的输入。双向递归神经网络brnn(bidirectionalrecurrentneuralnetwork)是在rnn基础上增加反向的输入序列,例如一个实体全名称词语序列为w1w2...wn,brnn的输出是正向w1w2...wn的rnn输出和反向wnwn-1...w1的rnn输出平均值。递归神经网络和传统神经网络相比,层间具有记忆功能,词与词之间不再独立,对词间关系学习能力更强。如图3所示,在层间输入增加dropout操作,dropout操作的动机来自于模型的集成训练,如果有大量数据,用不同数据来训练出不同网络,预测时取多个网络的输出平均值,将显著提升预测准确率,防止过拟合。或者用不同参数训练多个不同网络也可以达到同样目的,但是这样做训练成本较高,dropout操作是一种简单的实现思路,即以一定概率随机使网络中的一些神经元失效,变相造出多样变化的网络。softmax层305,使用softmax多分类激活函数,采用多分类的交叉熵损失函数训练样本。多分类激活函数如下:其中,neti表示第i个神经元的输出,o是遍历所有神经元的输出变量,neto表示第o个神经元的输出。多分类交叉熵损失函数e(error的缩写)如下:其中o是遍历所有神经元的输出变量,to表示第o个神经元在样本中的标签值,yo表示输出值。求解交叉熵损失函数的导数,进而可以根据bp算法原则求解得到参数偏移量。其中,neti表示第i个神经元的输出,yi是neti对应的softmax函数值,ti表示第i个神经元在样本中的标签值。模型1采用的标签是r10*3两维矩阵,也就是输入的全名称最多有10个关键词,每个关键词对应3种标签值(全部出现,首字,不出现)。模型在输出yi值的同时也输出每个yi值对应的置信度。图4是本发明实施例采用的第二深度学习模型的框架示意图,第二深度学习模型主要包括输入层401(前一个词、当前词、当前词词性、当前词词频编码)、rnn层402、全连接层403、输出层404。第二深度学习模型与第一深度学习模型的结构相似,主要是增加了词性和词频信息,这样增加了行业,地区,关键词的信息。与词语不同,词性和词频的直接经过全连接层,连接到最后一层输出层,其他层与第一深度学校模型类似。另外,第二深度学习模型输出采用的标签值是0或者1,0表示该词语不出现,1表示出现,同样地,第二深度学习模型在输出标签的也会输出标签的置信度。为了提升第二深度学习模型的泛化能力,需要对词频范围进行压缩,把词频范围分成5类区间,处理过程和设计方法如下:首先使用归一化方法min-max标准化,对样本原始词频数据x的线性变换,使结果值映射到[0-1]之间。转换函数如下:y=(x-minvalue)/(maxvalue-minvalue);其中maxvalue为样本数据的最大值,minvalue为样本数据的最小值。得到转换后的y值后根据tf-idf(termfrequency–inversedocumentfrequency,一种用于信息检索与数据挖掘的常用加权技术)方法,映射到5类区间。在实体简称生成中,词频tf(termfrequency)是每个词语在实体中出现的频率,文件频率df(documentfrequency)是词语在所有样本中的出现频率。以企业名称为例,企业名称中tf一般都为1,df越大的值一般在简称中出现的概率越小,所以一般用逆向词频idf(inversedocumentfreqency)来计算,传统idf一般是求样本总数除以df的对数,即,逆向词频|d|为语料库中条目总数,j表示包含词语的条目数。如果词语不在语料库中,就会导致分母为0,因此一般情况适用加1方法处理。词频范围y通过归一化将频率映射到1到5之间,如下表1所示。表1:词频映射表词频范围(y)映射值(idf)[0,0.2]5(0.2,0.4]4(0.4,0.6]3(0.6,0.8]2(0.8,1]1以下,是第一深度学习模型的训练流程,如图5所示,包括以下步骤:步骤501,初始化第一深度学习模型的网络参数。本发明中采取随机方式。步骤502,读取数据库中的训练语料。步骤503,对输入语料进行词向量编码。步骤504,将词向量输入神经网络进行前向计算。步骤505,softmax层分类计算。步骤506,计算输出和人工标注的简称间的误差。步骤507,梯度计算,并将误差进行层层回传,更新网络参数。步骤508,判断是否训练停止,达到迭代次数或者满足提前停止条件停止训练,否则回到步骤502进行继续训练。步骤509,训练结束,存储第一深度学习模型的参数。以下,是第二深度学习模型的训练流程,如图6所示,包括以下步骤:步骤601,初始化第二深度学习模型的网络参数。本发明中采取随机方式。步骤602,读取数据库中的训练语料。步骤603,对输入语料进行词向量编码,同时读取行业,地区,关键词,词频,进行词性编码和词频编码。步骤604,将词向量输入rnn层进行前向计算。步骤605,使用全连接层处理rnn输出,另一全连接层处理当前词词性和频率。步骤606,输出层处理,使用softmax函数输出结果。步骤607,计算输出和人工标注的简称间的误差。步骤608,梯度计算,并将误差进行层层回传,更新网络参数。步骤609,判断是否训练停止,达到迭代次数或者满足提前停止条件停止训练,否则回到步骤602进行继续训练。步骤610,训练结束,存储第二深度学习模型的参数。通过本发明实施例,本发明可以打破简称生成过程中过度依赖人工规则设计的瓶颈,能自动、快速、批量生成实体全名称的简称信息,利用深度学习自主学习简称生成规律,随着后续不断迭代学习,所生成简称的准确率也在反复学习过程中逐步提升,生成的简称具有与实体具有唯一的对应关系,使得实体单位能快速将围绕实体的结构化、非结构化片段信息串联起来形成360度知识网络。根据多次实验结果,本发明在企业名称简称场景下有如下规律:“股份有限公司”这种后缀几乎不出现在简称中。例如“平安银行股份有限公司”简称“平安银行”不出现“股份有限公司”后缀。企业全名称中的省市地区信息有时出现在简称中,有时则不出现。例如“青岛双星股份有限公司”的简称“青岛双星”含有地区,而“江西万年青水泥股份有限公司”的简称“万年青”不含有地区。根据上下文相关关键词能正常获取简称,例如“集团”、“股份”和“控股”有时候出现在简称中,有时候不出现。“方大集团股份有限公司”的简称“方大集团”含有“集团”,而“中国宝安集团股份有限公司”的简称“中国宝安”,则不含“集团”。抽取核心关键词,一部分行业会出现在简称中,一部分行业不出现。企业全名称“安徽省司尔特肥业股份有限公司”的简称“司尔特”不包含行业词,而“成都市新都化工股份有限公司”的简称“新都化工”含有行业词。公司全名称拆分成词语之后,每个词语结果中可能不出现、出现首字或者出现两个字。“浙江古越龙山绍兴酒股份有限公司”的简称“古越龙山”,“浙江”不出现,“古越”出现两字;在“上海汽车集团股份有限公司”的简称“上汽集团”中,“上海”和“汽车”各出现一字。对应于上述图1和图2所示的方法实施例,如图7所示,本发明实施例还提供一种实体的简称生成装置,包括:词语加工预处理单元71,用于获取实体全名称数据,对所述实体全名称数据进行词语加工预处理,将实体全名称数据拆分为多个词语,生成用于表示词语在预先设置的语料库中出现频率的词频编码和用于表示词语属性的词性标注信息。初始简称生成单元72,用于根据进行词语加工预处理后的词语、词频编码和词性标注信息,通过预先训练的第一深度学习模型和第二深度学习模型,分别生成第一初始简称和第二初始简称。校验纠正处理单元73,用于根据预先设置的校验纠正规则,对所述第一初始简称和第二初始简称进行校验纠正处理,分别生成第一简称结果和第二简称结果。最终简称生成单元74,用于对所述第一简称结果和第二简称结果进行比较,并根据比较结果生成实体全名称数据的最终简称。此外,所述词语加工预处理单元71,具体用于:从预先设置的词频信息表中获取实体全名称数据被拆分后的各词语对应的频率。根据各词语对应的频率,对各词语进行频率由大到小排列,生成各词语对应的词频编码。将所述各词语对应的词频编码存储于预先设置的词频编码表中。另外,所述词语加工预处理单元71,具体还用于:根据预先设置的前后缀词库、地区词库、行业词库、关键词词库确定实体全名称数据被拆分后的各词语所在的词库,并将实体全名称数据被拆分后的各词语进行词性标注,生成所述词性标注信息;所述词性标注信息包括前后缀用词、地区用词、行业用词以及关键词。进一步的,如图7所示,所述实体的简称生成装置,还包括:机器学习训练单元75,用于根据预先设置的训练语料库,对所述第一深度学习模型和第二深度学习模型分别进行机器学习训练;所述训练语料库包括预先设置的实体全名称数据和各实体全名称对应的简称。另外,所述校验纠正处理单元73,具体用于:判断词语加工预处理后的词语中是否存在两个相邻的单字词语。在词语加工预处理后的词语中存在两个相邻的单字词语,且第一初始简称为所述两个相邻的单字词语组成的词语时,则确定所述第一初始简称为第一简称结果;若词语加工预处理后的词语中存在两个相邻的单字词语,且第二初始简称为所述两个相邻的单字词语组成的词语,则确定所述第二初始简称为第二简称结果。在词语加工预处理后的词语中存在两个相邻的单字词语,且第一初始简称不为所述两个相邻的单字词语组成的词语时,则根据所述词频编码获取词语加工预处理后的频率最低的词语,并将两个相邻的单字词语和所述频率最低的词语组成所述第一简称结果;若词语加工预处理后的词语中存在两个相邻的单字词语,且第二初始简称不为所述两个相邻的单字词语组成的词语,则根据所述词频编码获取词语加工预处理后的频率最低的词语,并将两个相邻的单字词语和所述频率最低的词语组成所述第二简称结果。此外,所述校验纠正处理单元73,具体用于:判断所述第一初始简称或第二初始简称是否为单字。在所述第一初始简称为单字时,根据所述词频编码获取词语加工预处理后的频率最低的两个词语,并将所述单字与所述频率最低的两个词语组成所述第一简称结果;若所述第二初始简称为单字,根据所述词频编码获取词语加工预处理后的频率最低的两个词语,并将所述单字与所述频率最低的两个词语组成所述第二简称结果。另外,所述校验纠正处理单元73,具体用于:判断所述第一初始简称或所述第二初始简称的简称长度是否大于预先设置的长度阈值。在第一初始简称的简称长度大于预先设置的长度阈值时,根据进行词语加工预处理后的词语的词性标注信息和tf-idf值,对第一初始简称中的词语进行降序排列,并从降序排列后的第一初始简称中的词语的最后一个词语依次进行删除,直至第一初始简称的简称长度小于等于预先设置的长度阈值,将进行删除后的第一初始简称作为第一简称结果;在第二初始简称的简称长度大于预先设置的长度阈值时,根据进行词语加工预处理后的词语的词性标注信息和tf-idf值,对第二初始简称中的词语进行降序排列,并从降序排列后的第二初始简称中的词语的最后一个词语依次进行删除,直至第二初始简称的简称长度小于等于预先设置的长度阈值,将进行删除后的第二初始简称作为第二简称结果。进一步的,如图7所示,所述的实体的简称生成装置,还包括:存储单元76,用于将所述第一简称结果和第二简称结果存储入训练语料库,以更新所述训练语料库。此外,所述最终简称生成单元74,具体用于:对所述第一简称结果和第二简称结果进行比较,生成比较结果。在所述比较结果为第一简称结果和第二简称结果不一致时,获取第一深度学习模型输出简称的第一生成概率和第二深度学习模型输出简称的第二生成概率。将所述第一生成概率和第二生成概率进行比较,并选择第一生成概率和第二生成概率中的较大值对应的简称结果作为实体全名称数据的最终简称。值得说明的是,本发明实施例提供的一种实体的简称生成装置的具体实现方式可以参见上述图1和图2对应的方法实施例,此处不再赘述。本发明实施例提供的一种实体的简称生成装置,首先获取实体全名称数据,对所述实体全名称数据进行词语加工预处理,将实体全名称数据拆分为多个词语,生成用于表示词语在预先设置的语料库中出现频率的词频编码和用于表示词语属性的词性标注信息;之后,根据进行词语加工预处理后的词语、词频编码和词性标注信息,通过预先训练的第一深度学习模型和第二深度学习模型,分别生成第一初始简称和第二初始简称;根据预先设置的校验纠正规则,对所述第一初始简称和第二初始简称进行校验纠正处理,分别生成第一简称结果和第二简称结果;对所述第一简称结果和第二简称结果进行比较,并根据比较结果生成实体全名称数据的最终简称。本发明实施例通过采用深度学习的方法,利用了深度学习模型无需人工设计特征的优点,并将词性和词频信息融合到模型中,扩展特征范围,对全名称自主迭代学习后,最终形成实体全名称与简称的精确的、唯一的对应关系,可以解决当前现有技术的简称生成准确度低,结果不唯一的问题。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1