简写字符的还原方法、装置、设备及存储介质与流程

文档序号:17264325发布日期:2019-03-30 09:53阅读:273来源:国知局
简写字符的还原方法、装置、设备及存储介质与流程

本发明涉及语义识别技术领域,尤其涉及一种简写字符的还原方法、装置、设备及存储介质。



背景技术:

目前,简写形式越来越频繁的出现在各种数据集合中,对非结构化数据,据维基百科统计显示,平均每篇英文文献中含有9.7个简写,同时超过63%的网页中含有至少一个简写。对结构化数据,例如关系数据库等,半结构化数据,例如可扩展标记语言(extensiblemarkuplanguage,xml)、知识图谱等),简写形式的出现更为频繁。

简写的大量使用对语义分析提出了更大的挑战,目前常用的处理办法是构建简写还原词典,在语义分析时以词典中的相应语义为基础进行简写语义消歧,这类方法称为基于词典的方法,简称dicbased方法,但dicbased方法存在如下两个问题:首先,需要不断的对词典进行维护,费时费力,且由于语言表现形式的快速演化,其完整性无法保证;其次,仅能处理那些经常出现,被广泛认可的简写,如通用简写,对用户根据个人意愿随机给出的简写,如随机简写,则毫无办法。



技术实现要素:

本发明的主要目的在于提出一种简写字符的还原方法、装置、设备及存储介质,旨在提高简写语义识别的覆盖面。

为实现上述目的,本发明提供一种简写字符的还原方法,所述简写字符的还原方法包括以下步骤:

将目标文本中的待还原字符进行划分,获得字符划分集;

根据预设评分规则对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤;

获取预设词典,根据所述预设词典对过滤后的字符划分集中各个分块进行还原,得到候选语义集;

根据预设语言模型对所述候选语义集合进行评价,根据评价结果得到目标语义集;

通过预设筛选规则从所述目标语义集中选取目标短语,将选取出的目标短语作为所述待还原字符的还原短语。

优选地,所述将目标文本中的待还原字符进行划分,获得字符划分集,包括:

获取目标文本中的待还原字符、待分解起始位置信息、待分解结束位置信息、待分解总分块数以及已划分得到的分块数;

在所述待分解起始位置信息、待分解结束位置信息、待分解总分块数以及已划分得到的分块数满足预设条件时,采用预设规则对所述待还原字符进行划分,得到划分后的字符划分集;

所述在所述待分解起始位置信息、待分解结束位置信息、待分解总分块数以及已划分得到的分块数满足预设条件时,采用预设规则对所述待还原字符进行划分,得到划分后的字符划分集,包括:

在所述待分解总分块数以及已划分得到的分块数满足第一预设条件时,根据所述待分解起始位置信息和待分解结束位置信息获取第一采样区间,将所述第一采样区间的字符串作为分块,将所述分块作为所述划分后的字符划分集;

在所述待分解起始位置信息、待分解结束位置信息、待分解总分块数以及已划分得到的分块数满足第二预设条件时,将所述第一采样区间中的各个字符作为分块,将所述分块作为所述划分后的字符划分集;

在所述待分解起始位置信息、待分解结束位置信息以及待分解总分块数满足第三预设条件时,获取第二采样区间和第三采样区间,将所述第二采样区间中预设长度的字符串作为当前分块,对所述第三采样区间中的有序字符串进行递归分解得到若干分块,将所述当前分块与所述若干分块作为所述划分后的字符划分集。

优选地,所述将目标文本中的待还原字符进行划分,获得字符划分集,包括:

提取所述待还原字符的字符长度,在所述字符长度满足预设阈值时,将所述待还原字符进行划分,得到划分后的字符划分集。

优选地,所述根据预设评分规则对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤,包括:

获取所述字符划分集中的划分的分块数以及预设单词的数量,根据所述分块数以及预设单词的数量通过第一预设公式对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤。

优选地,所述获取预设词典,根据所述预设词典对过滤后的字符划分集中各个分块进行还原,得到候选语义集,包括:

获取预设词典,根据所述预设词典查找所述过滤后的字符划分集中各个分块的前缀还原集合;

将各个前缀还原集合通过笛卡尔积构成划分还原集合,将各个划分还原集合的交集构成所述候选语义集。

优选地,所述根据预设语言模型对所述候选语义集合进行评价,根据评价结果得到目标语义集,包括:

根据预设语言模型对所述候选语义集合中的每个单词序列进行评价,得到合理组合的概率;

获取所述字符划分集中的划分的分块数以及预设单词的数量,根据所述分块数以及预设单词的数量通过第一预设公式得到合理性评价指标;

根据所述合理组合的概率和合理性评价指标对所述候选语义集合进行评价,根据评价结果从所述候选语义集合中选取所述目标语义集。

优选地,所述通过预设筛选规则从所述目标语义集中选取目标短语,将选取出的目标短语作为所述待还原字符的还原短语之后,所述方法还包括:

提取所述目标语义集中的预设短语,计算所述预设短语的欧氏距离,根据所述欧式距离得到所述目标语义集中的相似短语;

将所述相似短语通过预设聚类算法进行聚类,得到所述待还原字符的还原短语集。

此外,为实现上述目的,本发明还提出一种简写字符的还原装置,其特征在于,所述简写字符的还原装置包括:

获取模块,用于将目标文本中的待还原字符进行划分,获得字符划分集;

过滤模块,用于根据预设评分规则对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤;

还原模块,用于获取预设词典,根据所述预设词典对过滤后的字符划分集中各个分块进行还原,得到候选语义集;

评价模块,用于根据预设语言模型对所述候选语义集合进行评价,根据评价结果得到目标语义集;

选取模块,用于通过预设筛选规则从所述目标语义集中选取目标短语,将选取出的目标短语作为所述待还原字符的还原短语。

此外,为实现上述目的,本发明还提出一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的简写字符的还原程序,所述简写字符的还原程序配置为实现如上所述的简写字符的还原方法的步骤。

此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有简写字符的还原程序,所述简写字符的还原程序被处理器执行时实现如上文所述的简写字符的还原方法的步骤。

本发明提出的简写字符的还原方法,通过将目标文本中的待还原字符进行划分,获得字符划分集;根据预设评分规则对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤;获取预设词典,根据所述预设词典对过滤后的字符划分集中各个分块进行还原,得到候选语义集;根据预设语言模型对所述候选语义集合进行评价,根据评价结果得到目标语义集;通过预设筛选规则从所述目标语义集中选取目标短语,将选取出的目标短语作为所述待还原字符的还原短语,从而通过预设词典以及语言模型实现对通用简写以及随机简写的语义还原,提高简写语义识别的覆盖面。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;

图2为本发明简写字符的还原方法第一实施例的流程示意图;

图3为本发明简写字符的还原方法整体流程示意图;

图4为本发明简写字符的还原方法第二实施例的流程示意图;

图5为短语单词数量分类统计;

图6为本发明实施例中简写字符的还原方法进行划分时不同长度随机前缀的合理比率示意图;

图7为本发明实施例中简写字符的还原方法进行划分时的合理分块数量与串长的数量示意图;

图8为本发明简写字符的还原方法第三实施例的流程示意图;

图9为本发明实施例中简写字符的还原方法进行划分后所有分块可能的还原形式分析表;

图10为本发明实施例中简写字符的还原方法前缀数与前缀长度进行统计分析表;

图11a为本发明实施例中简写字符的还原方法自动还原结果相对词典的准确率曲线;

图11b为本发明实施例中简写字符的还原方法自动还原结果相对词典的全面率曲线;

图12为本发明实施例中简写字符的还原方法进行自动还原后统计表;

图13为本发明简写字符的还原装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

如图1所示,该设备可以包括:处理器1001,例如cpu,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如按键,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及简写字符的还原程序。

在图1所示的设备中,网络接口1004主要用于连接外网,与其他网络设备进行数据通信;用户接口1003主要用于连接用户设备,与设备进行数据通信;本发明设备通过处理器1001调用存储器1005中存储的简写字符的还原程序,并执行本发明实施例提供的简写字符的还原的实施方法。

基于上述硬件结构,提出本发明简写字符的还原方法实施例。

参照图2,图2为本发明简写字符的还原方法第一实施例的流程示意图。

在第一实施例中,所述简写字符的还原方法包括以下步骤:

步骤s10,将目标文本中的待还原字符进行划分,获得字符划分集。

需要说明的是,所述待还原字符可为英文字符,还可为中文字符,本实施例对此不作限制,在本实施例中,以待还原字符为英文字符进行说明,通过φ表示字符集,即φ={26个英文字母|a,b,c,……,z},将字符集中任意可重复的n个字符组成的有序序列称为有序字符串s,记为s={α1,α2,α3,…αn},其中,n为有序字符串的长度,记为len(s),若有序字符串s被赋予特定的意义,则称该字符串s为单词w,所有有意义的单词w构成的全集,记为d,若干个单词构成的有序序列称为一个短语phrase=(w1w2…wn-1wn),其中n称为短语的长度,记为len(phrase),对任意短语,对其中每个单词wi的前若干个字符按照其所在单词的先后顺序构成一个有序字符串s称为短语的前缀缩写,记为s=prefixabbr(phrase),对简写字符串s,在给定的单词表d和语言模型(languagemode,lm)下,获取其所有可能的还原形式组成的集合,记为ard,lm(s)。

将有序字符串s中任意个连续的字符构成该有序字符串中的一个分块。例如:分块为s中的一个分块,把一个有序字符串s分成m个分块使得s中每个字符至少属于一个分块,那么这些分块的全体构成的集合称为有序字符串s的一个覆盖,对于s的一个覆盖若s中的每个字符αi仅属于其中一个分块,那么称为有序字符串s的一个划分,m为该划分的分块数,记为对划分中的一个分块若d中存在以为前缀的单词,则称为合理分块,否则称为不合理分块,对字符串s的一个划分若其中所有分块都是合理分块,则称该划分为合理划分,否则称为不合理划分,有序字符串s的所有合理划分构成s的划分库partiset(s)。

步骤s20,根据预设评分规则对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤。

需要说明的是,所述预设评分规则可为通过划分后的分块数以及完成单词的数量对所述字符划分集进行评价,得到合理性评价指标,根据所述合理性评价指标对所述字符划分集进行过滤。

在具体实现中,可根据评分规则得到所述字符划分集中各个分块的合理性评价分数,将分数低于预设阈值的分块进行删除,从而实现对待还原字符的更合理的划分。

步骤s30,获取预设词典,根据所述预设词典对过滤后的字符划分集中各个分块进行还原,得到候选语义集。

需要说明的是,所述预设词典为预先建立的词典,用于实现对划分集中的各个分块的还原,若有序字符串s被赋予特定的意义,则称该字符串s为单词w,所有有意义的单词w构成的全集,记为d,将具有特定意义的单词构成所述预设词典,从而实现对字符划分集的合理性检查以及对字符划分集的还原。

在本实施例中,利用语言模型为简写自动生成其还原(languagemodelbasedautomaticabbreviationexpansion,lmaae)方法,实现对简写字符的还原,如图3所示,lmaae方法的执行流程。

首先通过预设词典,即单词词典或特殊简写词典辅助对字符划分集进行划分,以及对字符划分集进行评价,所述预设单词通过根据海量文本以及短语库进行特征提取,将提取后的特征加入神经网络模型中进行训练,生成所述单词词典,从而有效的提高字符划分集的准确性,另外所述即单词词典或特殊简写词典还辅助进行字符划分集的还原和过滤,从而提高还原短语的准确性。

步骤s40,根据预设语言模型对所述候选语义集合进行评价,根据评价结果得到目标语义集。

继续如图3所示,所述预设语言模型为根据网络网络模型进行训练之后得到语言模型以及相应的词向量,通过所述语言模型以及相应的词向量对候选语义集合进行过滤,从而使过滤后的目标语言及更符合所处语言环境下人们日常的行为说话方式。

步骤s50,通过预设筛选规则从所述目标语义集中选取目标短语,将选取出的目标短语作为所述待还原字符的还原短语。

需要说明的是,所述预设筛选规则可为通过设定的合理概率的比例值或者宝百分比阈值的方式实现对目标语义集的筛选。

在本实施中,lmaae方法以语言模型为基础,首先对简缩写字符串进行划分,还原单词划分信息,并依据单词词典及评分规则对划分结果进行评价选择,然后结合词典获取该简写所有的还原形式并依据统计语言模型进行过滤后构成该简写的语义集合,最后对改语义集合进行聚类并将聚类结果作为该简写的语义还原集合,如图3所示,可通过所述语言模型以及相应的词向量实现对目标语义集的聚类,从而实现对还原短语的管理,以便对对语义集中的相似短语进行有效的研究和分析。

所述lmaae进行自动还原的过程如下,

lmaae-method(s,d,lm){

列举所有可能的划分构成划分集partiset;

对partiset中的每个划分进行评价,并按照评价分值对partiset进行过滤;

对partiset中的每个划分{

扩展中的每个分块得到前缀还原集合

将所有前缀还原集合的笛卡尔积添加到s的候选语义集合candsem(s)

}

利用lm对candsem(s)中的语义进行评价和选择,形成s的语义集合sem(s);

对sem(s)中的语义进行聚类,得到聚类语义集合clusem(s)

}

在具体实现中,以简写字符串,词典和语言模型为输入,首先对前缀简写字符串进行划分,获取所划分形式并根据一定的规则对划分进行评价排序,然后对每个划分依据词典进行还原并得到所有可能的候选还原形式构成候选语义集,接下来依据语言模型对候选语义集进行评价选择后得到语义集,最后对语义集进行聚类后得到聚类语义集作为还原结果。

本实施例通过上述方案,通过将目标文本中的待还原字符进行划分,获得字符划分集;根据预设评分规则对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤;获取预设词典,根据所述预设词典对过滤后的字符划分集中各个分块进行还原,得到候选语义集;根据预设语言模型对所述候选语义集合进行评价,根据评价结果得到目标语义集;通过预设筛选规则从所述目标语义集中选取目标短语,将选取出的目标短语作为所述待还原字符的还原短语,从而通过预设词典以及语言模型实现对通用简写以及随机简写的语义还原,提高简写语义识别的覆盖面。

进一步地,如图4所示,基于第一实施例提出本发明简写字符的还原方法第二实施例,在本实施例中,所述步骤s10,包括:

步骤s101,获取目标文本中的待还原字符、待分解起始位置信息、待分解结束位置信息、待分解总分块数以及已划分得到的分块数。

需要说明的是,所述待还原字符用s表示,待分解起始位置信息用start表示,待分解结束位置信息用end表示,待分解总分块数用n表示,已划分得到的分块数用m表示。

步骤s102,在所述待分解起始位置信息、待分解结束位置信息、待分解总分块数以及已划分得到的分块数满足预设条件时,采用预设规则对所述待还原字符进行划分,得到划分后的字符划分集。

在本实施例中,通过待还原字符的排列方式的不同,采用不同的划分方式进行合理划分,从而实现对各个不同字符的划分方式。

在具体实现中,通过以下方式实现对待还原字符的划分。

进一步地,所述步骤s102,包括:

在所述待分解总分块数以及已划分得到的分块数满足第一预设条件时,根据所述待分解起始位置信息和待分解结束位置信息获取第一采样区间,将所述第一采样区间的字符串作为分块,将所述分块作为所述划分后的字符划分集。

在本实施例中,所述第一预设条件为m+1=n,所述第一采样区间为将[start,end]区间。

在所述待分解起始位置信息、待分解结束位置信息、待分解总分块数以及已划分得到的分块数满足第二预设条件时,将所述第一采样区间中的各个字符作为分块,将所述分块作为所述划分后的字符划分集。

在本实施例中,所述第二预设条件为end-start+1==n-m。

在所述待分解起始位置信息、待分解结束位置信息以及待分解总分块数满足第三预设条件时,获取第二采样区间和第三采样区间,将所述第二采样区间中预设长度的字符串作为当前分块,对所述第三采样区间中的有序字符串进行递归分解得到若干分块,将所述当前分块与所述若干分块作为所述划分后的字符划分集。

在本实施例中,所述第三预设条件为cur=1;cur<=end-start-n+2;cur++,所述第二采样区间为[start,start+cur-1]区间,所述第三采样区间为[start+1,end]区间,从而根据不同的待还原字符进行相应的划分,提高字符划分的合理性。

在具体实现中,能够获取s中所有长度为n的划分,通过修改n的值能够获取所有可能的划分。理论上,n的值不超过s的长度值len(s)即可。设|partition(s)|为s的划分库中包含划分的数量;p(len(s),i)为将长度为len(s)的有序字符串划分为i个分块的不同划分的总数,则存在如下公式(1)所示关系:

其中对于不同的i值,取值如下:

p(len(s),1)=1;

…….

对上述公式和得到如下公式(2):

通过公式(2)可知,该问题的最坏情况复杂度为o(2len(s)-1)。若实际问题的复杂度为该数量级,则该问题近似不可解。

进一步地,所述步骤s10,包括:

获取待还原字符,提取所述待还原字符的字符长度,在所述字符长度满足预设阈值时,执行将所述待还原字符进行划分,得到划分后的字符划分集。

需要说明的是,所述预设阈值为8,还可为其他阈值,本实施例对此不作限制,在本实施例中,以字符长度8为最佳进行说明。

在具体实现中,短语中单词的数量具有上限n,直观上看,n的值一定存在,这里通过对线数据库中的所有简写进行统计得到如下图5所示的统计结果。该数据中一共收录了约900000条简缩写记录,图5中数据显示:当单词数量超过7时,相应的短语数量较少,但单词数量达到8时,能够囊括约99.5%的短语,所以在实际执行过程中,n取一个大于等于8的整数既能降低算法的复杂度,同时也能取得较好的还原准确率。

将单词数量上限限制为n后,算法的复杂度降为如下公式(3)所示:

根据公式(3),当s长度超过一定阈值时,复杂度有指数级变为多项式级。但在实际应用中,这仍然是一个较高的时间复杂度,当且仅当一个划分为合理划分时,才是一个有效的划分,若在划分过程中提前根据当前分块的合理性对划分算法中的部分递归过程提前进行剪枝,则可进一步降低算法复杂度。下面对采取该措施后问题的复杂度进行分析。

对任意前缀简写进行划分时,必然存在一种与其还原形式对应的正确划分,同时也存在着大量的其他划分结果,这些划分结果中的分块随机分布在字符序列空间中,其中可能有合理的划分,同时也有大量不合理划分,为对其中合理划分的数量进行定量分析,给出如下概念:

字典树:是一个度为26的完全树,根结点为起始字符,每个节点的26个孩子结点依次对应字母表中的26个字符。

单词结点:若字典树中由根结点root到某一结点的路径上的字符序列对应字典中的一个单词w,则称该结点为单词结点。

前缀结点:根结点到单词结点路径上的所有结点称为该单词的前缀结点。

前缀数:以结点node为根结点的子树中单词结点的总数称为结点node的前缀数。

非前缀结点:前缀数为0的结点称为非前缀结点。

由于对字符序列进行划分时,除正确划分外,其余划分结果中的分块随机分布于字典树中。假设一个随机分块的长度为5,则对应的所有前缀数为265=11881376,而单词表的总数为1193517,长度为5的合理分块数一定少于该值,意味着长度为5的随机前缀为合理前缀的比例为约为10%。如图6给出了对单词表的实际统计结果。

根据上述分析及图6的统计结果,选取分块长度为4作为平均情况以分析对长度为l的字符串进行划分时的合理分块数量。分析结果如下图7所示,可以看出,合理划分的数量首先随着长度l的增长缓慢增长,在l<=8的范围内时,其数量在100以内,随着l的增长到19到达最大值9867,而后快速下降直到32时降为1,对于长度大于32的串,其合理划分的数量约为0,据上述分析,根据分块合理性提前进行剪枝后,复杂度由原来的多项式级大幅降低为常数级。这是一个在实际应用中可接受的复杂度。

本实施例通过上述方案,根据待还原字符的特征进行判断,根据判断结果采用不同的划分方式进行划分,从而提高划分的合理性,并通过对字符长度的限制使划分后的字符划分集进行提前剪枝,从而降低划分的复杂度,提高系统处理的效率。

进一步地,如图8所示,基于第一实施例或第二实施例提出本发明简写字符的还原方法第三实施例,在本实施例中,基于第一实施例进行说明,所述步骤s20,包括:

步骤s201,获取所述字符划分集中的划分的分块数以及预设单词的数量,根据所述分块数以及预设单词的数量通过第一预设公式对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤。

需要说明的是,在限制n的值后,根据元素名称分解中的算法可对每个元素名称获取其所有划分,在实际生活中:

1、用户总是试图用尽可能简易、通俗的词汇去描述一个属性,例如:用户显然会从airline和alineforairplane两种表示航线的词组中选择前者。所以对多个可行的划分,我们总是偏向于选取分块数少的划分,将其称为划分的简易性。

2、避免歧义,用户总是尽量用完整的单词来描述属性名称,所以若划分中出现了完整单词则该划分为最终结果的可能性相应增加。例如:deptime的如下两个划分:deptime和deptime,其中前者为合理划分的可能性更大;friendship的两个划分:friendship和friendship,其中前者为合理划分的可能性更大。所以当划分中出现完整单词的数量越多,单词的长度越长时,其为合理划分的可能性越大。

需要说明的是,所述第一预设公式为公式4,利用如下公式(4)对每个划分进行评价,计算其合理性评价指标

其中,表示当前分块的长度,表示当前分块出现的完整单词的数量,通过公式(4)可计算所有划分的合理性评价指标。

进一步地,所述步骤s30,包括:

步骤s301,获取预设词典,根据所述预设词典查找所述过滤后的字符划分集中各个分块的前缀还原集合。

在本实施例中,通过得到每个前缀缩写的合理划分后,可对每个合理划分,穷举其所有可能的还原形式,但所有可能的还原结果集合是海量的,显然无法应用于实际情况,在本实施例中给出一种基于统计语言模型的优化方法,并对其复杂度进行了分析,分析结果显示本方法能够将结果集合限制在一定范围内,从而提高还原的准确性。

在具体实现中,首先给出相关的定义:

前缀还原集合对任意前缀在d中所有以其为前缀的单词构成了的还原集合,记为其中,为以为前缀的单词,n为还原集合长度,记为

步骤s302,将各个前缀还原集合通过笛卡尔积构成划分还原集合,将各个划分还原集合的交集构成所述候选语义集。

划分还原集合对前缀简写的任意划分而言,其还每个前缀的前缀还原集合的笛卡尔积构成其划分还原集合记为其中每个可能的还原形式为一个单词串,记为(对任意)

候选语义集candsem(s):对前缀简写s,其每个合理划分的划分还原集合的交集构成其候选语义集,记为

例如对划分(airline),其中所有分块可能的还原形式如图9所示,对每列对应的集合进行笛卡尔积得到该划分的划分还原集划分还原集中元素个数可通过如下公式(5)求出:

公式(5)中的为单词树中对应节点的前缀数。该值随着的增大而减小,在本实施例中,为对的值进行定量分析,通过平均前缀数mpn(n):所有长度为n前缀的前缀数的平均值。

对每个前缀根据其长度取平均前缀数作为其前缀还原集合的长度可对每个划分求划分还原集的平均长度为公式(6)所示。

若能使用一个函数关系式刻画平均前缀数与前缀长度之间的关系,可得到划分还原集长度与各前缀长度之间的关系表达式。通过对单词表建立单词树,并对其中前缀数与前缀长度n进行统计分析得到如图10所示的数据:

通过对图10中的数据可知:

……

根据上述公式,假定n较小时,

若将一长度为l的字符串划分为m块,将上述假设带入后可知,则该划分还原集长度约为264m-l。该划分还原集包含所有单词的任意可能组合,显然其中很多组合不构成一个有意义的短语,称为不合理短语,否则称为合理短语,应将其从还原结果集合中去除,仅保留合理短语作为还原结果的一部分,从而实现删除不合理短语的有效方式,提高还原短语的准确性。

进一步地,所述步骤s40,包括:

步骤s401,根据预设语言模型对所述候选语义集合中的每个单词序列进行评价,得到合理组合的概率。

需要说明的是,所述预设语言模型为统计语言模型(statisticallanguagemodel,slm),用于判断某个词序列是否符合所处语言环境下人们日常的行文说话方式。在本实施例中利用其对每个候选组合进行评价得到每个候选组合wsi的slm概率slmpro(wsi),然后根据给定阈值过滤候选语义集中的不合理组合。下面对统计语言模型过滤后合理组合的数量进行分析。

在统计语言模型通过统计单词间共同出现的次数,二元模型统计任意两个单词,三元模型统计任意三个单词,并以此为基础建立语言模型。

在本实施例中,定义单词共现率,即能够与单词w相邻出现的单词在所有单词集合中所占的比率,如下公式(7)所示,词典d中所有单词的共现率的平均值,成为词典d的平均共现率,记为ρ(d)。

显然根据统计语言模型能够统计出词典的平均共现率,上述共现率仅适用于二元模型),假设ρ=0.0005,len(s)=10,分块数m=5时,通过上式可计算出有效还原形式约为9种。

步骤s402,获取所述字符划分集中的划分的分块数以及预设单词的数量,根据所述分块数以及预设单词的数量通过第一预设公式得到合理性评价指标。

步骤s403,根据所述合理组合的概率和合理性评价指标对所述候选语义集合进行评价,根据评价结果从所述候选语义集合中选取所述目标语义集。

得到每个单词序列的slm概率后,结合划分评价中的划分合理性指标,可得到每个单词序列的综合概率,采用如下公式(8)计算划分对应的任意还原单词序列wsi的综合概率。然后以综合概率为依据,采用maxdelta和threshold策略相结合选取一定量的还原结果作为字符串s最终的语义集sem(s)。

进一步地,所述步骤s50之后,所述方法还包括:

步骤s501,提取所述目标语义集中的预设短语,计算所述预设短语的欧氏距离,根据所述欧式距离得到所述目标语义集中的相似短语。

对语义集合进行分析后发现,其中存在大量语义相近的短语,仅有个别短语的词性发生变化),对语义集合中的相似短语进行聚类显然有助于后续的研究,下面介绍一种聚类方法。

短语语义相似度计算:集合中的基本元素为短语,所以聚类以及类间相似度的计算都以短语间的语义相似度为基础,本方法中对任意两个短语phrase1和phrase2,其语义相似度定义如下公式(9)所示:

其中:表示单词对应的词向量,em为取两个向量间的欧氏距离。与句子相比,短语中的单词数目较少,语义较为单一,选取简单的词向量取平均作为短语的向量表示,也能够取得较为不错的效果。

步骤s502,将所述相似短语通过预设聚类算法进行聚类,得到所述待还原字符的还原短语。

需要说明的是,所述预设聚类算法可为mean-shift聚类算法,还可为其他形式的聚类算法,本实施例对此不作限制,在本实施例中,以mean-shift聚类算法为例进行说明,对短语的聚类选择mean-shift聚类算法,具体如下:

在未被分类的数据点中随机选择一个点n作为中心。

1、找出与点n距离在bandwidth内的所有短语,组成新类m,将所有短语属于该类的概率加1。

2、以n为中心点,计算从n到m中每个元素的向量,并求向量和shift。

3、n=n+shift.

4、重复2-4,直到shift值很小,即迭代收敛。

5、如果收敛时n与已经存在的类中心点n’的距离小于阈值,将n与n’合并,否则将n作为新类的中心点。

6、重复1-6步骤,直到所有点都被标记为已分类。

7、根据每个点属于每个类的概率,取概率最大的那个类作为该点的所属类。

将短语根据其语义距离划分为若干类,每个类别中选取统计概率最高的短语作为该类语义表示,构成前缀简写s的聚类语义集合clusem(s)。clusem(s)即为简写s的语义集合。

本实施例提供的方案,利用聚类的思路解决自动还原结果中大量语义相近结果的问题,提高的算法的适用性。

实验

本方法首先对简缩写进行还原,然后以还原结果为基础,结合统计语言模型计算元素名称间的语义相似度。为验证本方法的有效性,设计多个实验方案将本方法与已有算法进行对比,下面分别介绍各个实验的具体情况。

1、针对通用简写与词典方式进行对比

lmaae-method根据词典对简写形式进行还原,还原结果的质量直接影响后续语义消歧操作。为验证还原结果的质量,从abbreviations.com网站(该网站为目前最大/最全的分类简写网站)中选取了约1000个前缀简写及所有扩展形式,利用lmaae-method对这些简写进行还原后将还原结果与抽取的扩展集合在准确率/全面性(如公式(10)和(11))指标上进行对比,lmaae-method对聚类语义结果选取前100个(若存在)作为最终结果参与比较。

准确率:还原结果中已被广泛认可的扩展形式占所有还原结果的比率。如公式(10)所示。

全面率:已被广泛认可的扩展形式被算法还原的比例。如公式(10)所示。

公式(10)和公式(11)中rs(abbr)为通过缩写abbr得到的所有还原短语的集,exp(abbr)为缩写abbr在缩写验证集中对应的所有还原短语的集合。实验结果如图11所示,图11a中是自动还原结果相对词典的准确率曲线,其横轴简写还原的准确率,纵轴为相应准确率简写所占的百分比。例如:3-gram曲线横坐标为30位置的纵坐标为11.9,其意义为有11.9%的简写还原结果的准确率在30%到35%之间。图中数据显示,当使用2-gram模型时,仅有0.1%的简写还原结果准确率达到70%,多数简写还原结果的准确率集中在30%左右,最低的还原准确率为约10%。当使用3-gram模型时,有0.1%的简写还原结果准确率达到75%,多数简写还原结果的准确率集中在35%左右,最低的还原准确率仍然为约10%。3-gram的准确率明显优于2-gram模型。

图11b中是自动还原结果相对词典的全面率曲线,图中数据显示,当使用2-gram模型时,有2.2%的简写还原结果全面率达到100%,大多数简写还原结果的全面率集中在90%以上,最低的还原全面率指标为50%,约89.4%的还原结果全面率超过80%。当使用3-gram模型时,有3.5%的简写还原结果全面率达到100%,大多数简写还原结果的全面率集中在90%以上,最低的还原全面率指标为55%,约89.8%的还原结果全面率超过85%。同样,在全面率指标上,3-gram明显优于2-gram模型。

综合上述两个指标可知,自动还原结果一方面具有较高的全面率,能够包含词典中的绝大多数还原形式;另一方面,在准确率指标上的平均值约为30%,即约70%的还原结果未出现在词典中,但对这部分结果进行简要分析可发现,其中仍然存在部分常见的短语缩写,例如:简写“sb”的一个常见还原结果“somebody”在词典中未列举,但却是一个常见的简写形式。所以自动还原方法能够对词典形式进行有效的补充,简写消歧过程中若词典中无有效的匹配语义,则可通过自动还原方法获取简写更全面的语义信息。

2、随机简写还原测试

一个简写若未被词典收录,则无法进行后续的语义消歧,这对随机简写尤为重要。为验证本方法对随机简写的还原效果,从oaei/知识图谱/等应用领域的数据集中抽取了约500个随机简写并根据上下文信息进行手工还原后作为测试集(其中仅73个能在词典中查询出手工还原结果)。然后针对这些简写进行自动还原后统计其top1,top3,top5,top10,top20结果中包含手工还原结果的比率。结果如图12数据显示,利用2-gram和3-gram模型,对随机简写还原的top20的正确率都能达到约75%,能够为后期的语义分析提供有效的辅助。

实验结果表明,针对通用简写,本实施例能够具有较高的全面率,其还原结果能够覆盖到词典中的绝大多数结果;针对随机简写,本实施例也具有较高的准确率。

本发明进一步提供一种简写字符的还原装置。

参照图13,图13为本发明简写字符的还原装置第一实施例的功能模块示意图。

本发明简写字符的还原装置第一实施例中,该简写字符的还原装置包括:

获取模块10,用于将目标文本中的待还原字符进行划分,获得字符划分集。

过滤模块20,用于根据预设评分规则对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤。

还原模块30,用于获取预设词典,根据所述预设词典对过滤后的字符划分集中各个分块进行还原,得到候选语义集。

评价模块40,用于根据预设语言模型对所述候选语义集合进行评价,根据评价结果得到目标语义集。

选取模块50,用于通过预设筛选规则从所述目标语义集中选取目标短语,将选取出的目标短语作为所述待还原字符的还原短语。

本实施例通过上述方案,可实现简写字符的还原方法各实施例的步骤,通过将目标文本中的待还原字符进行划分,获得字符划分集;根据预设评分规则对所述字符划分集进行评价,根据评价结果对所述字符划分集进行过滤;获取预设词典,根据所述预设词典对过滤后的字符划分集中各个分块进行还原,得到候选语义集;根据预设语言模型对所述候选语义集合进行评价,根据评价结果得到目标语义集;通过预设筛选规则从所述目标语义集中选取目标短语,将选取出的目标短语作为所述待还原字符的还原短语,从而通过预设词典以及语言模型实现对通用简写以及随机简写的语义还原,提高简写语义识别的覆盖面。

此外,为实现上述目的,本发明还提出一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的简写字符的还原程序,所述简写字符的还原程序配置为实现如上文所述的简写字符的还原方法的步骤。

此外,本发明实施例还提出一种存储介质,所述存储介质上存储有简写字符的还原程序,所述简写字符的还原程序被处理器执行如上文所述的简写字符的还原方法的步骤。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台智能终端设备(可以是手机,计算机,终端设备,空调器,或者网络终端设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1