一种装置信息词典的生成方法及计算装置与流程

文档序号:18619743发布日期:2019-09-06 22:22阅读:165来源:国知局
一种装置信息词典的生成方法及计算装置与流程

本发明涉及计算机领域,尤其涉及一种装置信息词典的生成方法及计算装置、可读存储介质。



背景技术:

在现有的电力行业中,由于缺少相关行业规范,电力系统保护装置的信息的命名并不统一,尤其是目前已经大量投入运行的传统保护装置,不同厂家、不同型号和版本的信息表差异较大。对于采集这些信息的控制系统来说,想进一步利用这些信息将面临很大的挑战,例如进行故障信息判断、事故分析方面,需要对信息语义进行理解;在系统与系统之间需要交换数据的应用中,需要知道信息如何匹配。



技术实现要素:

本发明实施例提供了一种装置信息词典的生成方法及计算装置、可读存储介质,用于通过统计在保护装置信息中出现的字词的频率,按照给定的阈值判断相邻字词的互信息值是否满足连接的条件,并生成新的词典,通过多次迭代直至算法收敛,得到最终的参考词典。

有鉴于此,本发明第一方面提供一种装置信息词典的生成方法,可以包括:

获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;

根据所述第一当前词典对所述原始保护装置信息进行分词处理,得到第一分词结果;

对所述第一分词结果进行频率统计,得到每个字词的第一出现频率;

构造第一向量,所述第一向量包括所述每个字词及对应的第一出现频率,以及所述每个字词右侧出现的字词及对应的第二出现频率;

将所述第一向量添加到第一集合中,其中,所述第一集合中的元素按照对应的出现频率从大到小排序;

若第一字词对应的第一目标出现频率满足第一预设条件,则计算所述第一字词的左侧字词与所述第一字词的第一互信息最大值,所述第一集合包括所述第一字词;

计算所述第一字词与所述第一字词的第一右侧字词的第一互信息;

若所述第一互信息大于所述第一互信息最大值,则在所述第一当前词典中删除所述第一字词,且将所述第一字词和所述第一右侧字词组成的第一目标字词添加到所述第一当前词典中,得到第二当前词典;

若所述第一字词的右侧字词中未包括除所述第一右侧字词之外的其他右侧字词,则根据所述第二当前词典对所述原始保护装置信息进行分词处理,得到第二分词结果;

对所述第二分词结果进行频率统计,得到每个字词的第三出现频率;

构造第二向量,所述第二向量包括所述每个字词及对应的第三出现频率,以及所述每个字词右侧出现的字词及对应的第四出现频率,其中,所述第二向量中的字词按照对应的出现频率从大到小排序;

将所述第二向量添加到第二集合中,其中,所述第二集合中的元素按照对应的出现频率从大到小排序;

若第二字词对应的第二目标出现频率满足第二预设条件,则计算所述第二字词的左侧字词与所述第二字词的第二互信息最大值,所述第二集合包括所述第二字词;

计算所述第二字词与所述第二字词的第二右侧字词的第二互信息;

若所述第二互信息小于等于所述第二互信息最大值,则所述第二当前词典为参考词典。

可选的,在本发明的一些实施例中,所述根据所述当前词典对所述原始保护装置信息进行分词处理,包括:

根据所述当前词典,采用最大正向匹配方式,对所述原始保护装置信息进行分词处理。

可选的,在本发明的一些实施例中,所述方法还包括:

将所述第一右侧字词从所述第一集合中删除。

可选的,在本发明的一些实施例中,所述将所述第一字词和所述第一右侧字词组成的第一目标字词添加到所述当前词典中,得到第二当前词典之后,所述方法还包括:

将迭代次数加1,得到更新后的迭代次数。

可选的,在本发明的一些实施例中,所述方法还包括:

若所述第一字词的右侧字词中包括除所述第一右侧字词之外的第三右侧字词,则计算所述第一字词与所述第一字词的第三右侧字词的第三互信息;

若所述第三互信息大于所述第一互信息最大值,则在所述第二当前词典中删除所述第一字词,且将所述第一字词和所述第三右侧字词组成的第三目标字词添加到所述第二当前词典中,得到第三当前词典。

本发明第二方面提供一种计算装置,可以包括:

获取模块,用于获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;

处理模块,用于执行以下步骤:

根据所述第一当前词典对所述原始保护装置信息进行分词处理,得到第一分词结果;

对所述第一分词结果进行频率统计,得到每个字词的第一出现频率;

构造第一向量,所述第一向量包括所述每个字词及对应的第一出现频率,以及所述每个字词右侧出现的字词及对应的第二出现频率;

将所述第一向量添加到第一集合中,其中,所述第一集合中的元素按照对应的出现频率从大到小排序;

若第一字词对应的第一目标出现频率满足第一预设条件,则计算所述第一字词的左侧字词与所述第一字词的第一互信息最大值,所述第一集合包括所述第一字词;

计算所述第一字词与所述第一字词的第一右侧字词的第一互信息;

若所述第一互信息大于所述第一互信息最大值,则在所述第一当前词典中删除所述第一字词,且将所述第一字词和所述第一右侧字词组成的第一目标字词添加到所述第一当前词典中,得到第二当前词典;

若所述第一字词的右侧字词中未包括除所述第一右侧字词之外的其他右侧字词,则根据所述第二当前词典对所述原始保护装置信息进行分词处理,得到第二分词结果;

对所述第二分词结果进行频率统计,得到每个字词的第三出现频率;

构造第二向量,所述第二向量包括所述每个字词及对应的第三出现频率,以及所述每个字词右侧出现的字词及对应的第四出现频率,其中,所述第二向量中的字词按照对应的出现频率从大到小排序;

将所述第二向量添加到第二集合中,其中,所述第二集合中的元素按照对应的出现频率从大到小排序;

若第二字词对应的第二目标出现频率满足第二预设条件,则计算所述第二字词的左侧字词与所述第二字词的第二互信息最大值,所述第二集合包括所述第二字词;

计算所述第二字词与所述第二字词的第二右侧字词的第二互信息;

若所述第二互信息小于等于所述第二互信息最大值,则所述第二当前词典为参考词典。

可选的,在本发明的一些实施例中,

所述处理模块,具体用于根据所述当前词典,采用最大正向匹配方式,对所述原始保护装置信息进行分词处理。

可选的,在本发明的一些实施例中,

所述处理模块,还用于将所述第一右侧字词从所述第一集合中删除。

可选的,在本发明的一些实施例中,

所述处理模块,还用于将迭代次数加1,得到更新后的迭代次数。

可选的,在本发明的一些实施例中,

所述处理模块,还用于若所述第一字词的右侧字词中包括除所述第一右侧字词之外的第三右侧字词,则计算所述第一字词与所述第一字词的第三右侧字词的第三互信息;若所述第三互信息大于所述第一互信息最大值,则在所述第二当前词典中删除所述第一字词,且将所述第一字词和所述第三右侧字词组成的第三目标字词添加到所述第二当前词典中,得到第三当前词典。

本发明第三方面提供一种计算装置,可以包括:

收发器,处理器,存储器,其中,所述收发器,所述处理器和所述存储器通过总线连接;

所述存储器,用于存储操作指令;

所述收发器,用于获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;

所述处理器,用于调用所述操作指令,执行如前述第一方面实施例中所述的装置信息词典的生成方法的步骤。

本发明第四方面提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述第一方面实施例中所述的装置信息词典的生成方法的步骤。

从以上技术方案可以看出,本发明实施例具有以下优点:

在本发明实施例中,获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;根据所述第一当前词典对所述原始保护装置信息进行分词处理,得到第一分词结果;对所述第一分词结果进行频率统计,得到每个字词的第一出现频率;构造第一向量,所述第一向量包括所述每个字词及对应的第一出现频率,以及所述每个字词右侧出现的字词及对应的第二出现频率;将所述第一向量添加到第一集合中,其中,所述第一集合中的元素按照对应的出现频率从大到小排序;若第一字词对应的第一目标出现频率满足第一预设条件,则计算所述第一字词的左侧字词与所述第一字词的第一互信息最大值,所述第一集合包括所述第一字词;计算所述第一字词与所述第一字词的第一右侧字词的第一互信息;若所述第一互信息大于所述第一互信息最大值,则在所述第一当前词典中删除所述第一字词,且将所述第一字词和所述第一右侧字词组成的第一目标字词添加到所述第一当前词典中,得到第二当前词典;

若所述第一字词的右侧字词中未包括除所述第一右侧字词之外的其他右侧字词,则根据所述第二当前词典对所述原始保护装置信息进行分词处理,得到第二分词结果;对所述第二分词结果进行频率统计,得到每个字词的第三出现频率;构造第二向量,所述第二向量包括所述每个字词及对应的第三出现频率,以及所述每个字词右侧出现的字词及对应的第四出现频率,其中,所述第二向量中的字词按照对应的出现频率从大到小排序;将所述第二向量添加到第二集合中,其中,所述第二集合中的元素按照对应的出现频率从大到小排序;若第二字词对应的第二目标出现频率满足第二预设条件,则计算所述第二字词的左侧字词与所述第二字词的第二互信息最大值,所述第二集合包括所述第二字词;计算所述第二字词与所述第二字词的第二右侧字词的第二互信息;若所述第二互信息小于等于所述第二互信息最大值,则所述第二当前词典为参考词典。

即在本发明实施例中,基于互信息原理,可以设计出自动生成保护装置信息词典的方法,通过统计在保护装置信息中出现的字词的频率,按照给定的阈值判断相邻字词的互信息值是否满足连接的条件,并生成新的词典,通过多次迭代直至算法收敛,得到最终的参考词典。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,还可以根据这些附图获得其它的附图。

图1为本发明实施例中装置信息词典的生成方法的一个实施例示意图;

图2为本发明实施例中装置信息词典的生成方法的流程示意图;

图3为本发明实施例中计算装置的一个实施例示意图;

图4为本发明实施例中计算装置的一个实施例示意图。

具体实施方式

本发明实施例提供了一种装置信息词典的生成方法及计算装置、可读存储介质,用于通过统计在保护装置信息中出现的字词的频率,按照给定的阈值判断相邻字词的互信息值是否满足连接的条件,并生成新的词典,通过多次迭代直至算法收敛,得到最终的参考词典。

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,都应当属于本发明保护的范围。

为了减少人工操作,可以采用基于成熟的文本搜索和匹配技术,解决保护装置的信息解析和识别问题,但一般需要采用词典对原始信息进行向量化,然后对结果向量进行后续处理。因此所使用的词典是对原始信息处理的关键,决定了了后续处理的质量,而采用一般电力行业词典则不能很好满足这一需求。

目前电力行业的应用系统中所使用的词典,都是采用人工维护的方式进行管理。在词语生成方式方面,由使用人员来自行定义,因此容易受到使用人员的知识经验的限制。另外,由于保护装置的信息受不同地区、不同应用场合的影响较大,需要根据实际应用的需要调整词典的构成,由人工的方式也难以保证质量。如何保证词典的一致性,保证词典及时更新,需要耗费大量的人力和时间,也是需要解决的问题。

在本发明实施例中,主要涉及的方法原理如下所示:

在概率论和信息论中,两个随机变量的互信息是变量间相互依赖性的量度,对于x和y两个字/词,其互信息计算方法为:

其中,先验概率p(x)和p(y)分别是x和y出现的概率,后验概率p(x,y)则是x和y联合出现的概率;用h(y)表示y的熵,则h(y|x)表示在x时y的不确定程度。

在保护装置信息中,如果两个字/词出现相邻的频率明显高于这两个字/词与其他字/词相邻的频率,则它们更可能连接成一个专用词汇。因此,基于互信息原理,可以设计出自动生成保护装置信息词典的方法。其基本思路为通过统计在保护装置信息中出现的字/词的频率,按照给定的阈值判断相邻字词的互信息值是否满足连接的条件,并生成新的词典,通过多次迭代直至算法收敛,得到最终的保护装置信息词典。

下面以实施例的方式,对本申请技术方案做进一步的说明,如图1所示,为本发明实施例中装置信息词典的生成方法的一个实施例示意图,可以包括:

101、获取原始保护装置信息和第一当前词典。

需要说明的是,在第一次迭代时,第一当前词典d为初始空值,即

可选的,先设置好迭代中使用的参数,包括:可信度的频率阈值r(其最小值为rmin)、系数λ、聚合阈值η。

102、根据所述第一当前词典对所述原始保护装置信息进行分词处理,得到第一分词结果。

可以理解的是,根据所述第一当前词典对所述原始保护装置信息进行分词处理,得到第一分词结果,包括:

根据所述第一当前词典,采用最大正向匹配方式,对所述原始保护装置信息进行分词处理,得到第一分词结果。

示例性的,采用基于规则的分词算法,即最大正向匹配算法。先统计当前词典d中最长词语的长度lmax,对原始的保护装置信息进行逐条处理。取其前lmax个字w1作为当前匹配字段,在当前词典d中查找,如果当前词典d中含有该词,即w1∈d则匹配成功,分出该词;然后从被比较字符串的lmax+1处开始再取lmax个字组成的字段w2重新在当前词典d中匹配;如果没有匹配成功,则将这lmax个字组成的字段的最后一位剔除,用剩下的lmax-1个字组成的字段w′1在词典中进行匹配,如此进行下去,直到切分成功或者成为单字为止。

需要说明的是,每次迭代开始时,清空集合s。

103、对所述第一分词结果进行频率统计,得到每个字词的第一出现频率。

对第一分词结果进行合并重复字词,统计出现次数,得到每个字词的第一出现频率f(x)。

104、构造第一向量,所述第一向量包括所述每个字词及对应的第一出现频率,以及所述每个字词右侧出现的字词及对应的第二出现频率。

统计每个字词及其每个字词右侧字词的索引信息、次数信息,全部数据生成一个向量v。其中,采用二元组数据结构进行保存。

105、将所述第一向量添加到第一集合中,其中,所述第一集合中的元素按照对应的出现频率从大到小排序。

将第一向量v放在集合s中。即将全部分词结果进行处理,合并相同的字词并统计每个字词的出现频率,构造向量v保存每个字词及其出现频率、以及每个字词右侧出现的字词及其出现频率,采用二元组数据结构进行保存,将向量v添加到集合s中。

106、若第一字词对应的第一目标出现频率满足第一预设条件,则计算所述第一字词的左侧字词与所述第一字词的第一互信息最大值,所述第一集合包括所述第一字词。

示例性的,由于互信息没有考虑特征出现的频率,因此需要增加一个可信度的频率阈值r(其最小值为rmin),只处理高于阈值的字词,以提高词典的准确程度;同时,为了平衡词粒度,平衡发生碎片或者过度聚合,引入一个系数λ(0<λ<1),使处理的字词出现频率f(x)满足第一预设条件:

其中,第一预设条件为:f(x)>(1-λ)nr且f(x)>rmin;

即随着迭代次数的增加,逐渐放宽可信度的门槛值,但不能低于最小的频率阈值rmin。由于随词语不断的聚合,在原始保护装置信息中其出现概率小于聚合前的概率,呈现逐渐下降的趋势,因此过高的限值会导致词语不能进一步聚合而出现残缺,同时过低的限值则很可能导致过度聚合甚至整个原始保护装置信息直接出现在词典中。

为保证处理的一致性,词语的生成均采用向右聚合的方式。设置聚合阈值η;对于出现在原始信息中的连续字词…xy…,x,y∈s,计算两者之间的互信息值i(x;y)。

遍历集合s中的所有元素,每次选择s中出现频率最高的字词x进行如下计算:

(a)对于所有出现在原始信息中的…pmx…,pm,x∈s,计算互信息最大值:

其中,pm为x的左侧字词。

107、计算所述第一字词与所述第一字词的第一右侧字词的第一互信息。

(b)对于所有出现在原始保护装置信息中的连续字词…xqn…,x,qn∈s,如果满足下列条件,则继续进行c)中的处理,否则进行d)中的处理:

i(x;qn)>imax且i(x;qn)>η

其中,qn为x的右侧字词。

108、若所述第一互信息大于所述第一互信息最大值,则在所述第一当前词典中删除所述第一字词,且将所述第一字词和所述第一右侧字词组成的第一目标字词添加到所述第一当前词典中,得到第二当前词典。

可选的,将所述第一右侧字词从所述第一集合中删除。

示例性的,(c)如果x在第一当前词典d中(x∈d),从d中删除x,添加xqn到词典d,从s中删除qn,继续(b)中的操作;(d)如果处理完所有的qn,从集合s中删除x。

109、若所述第一字词的右侧字词中未包括除所述第一右侧字词之外的其他右侧字词,则根据所述第二当前词典对所述原始保护装置信息进行分词处理,得到第二分词结果。

可选的,若所述第一字词的右侧字词中包括除所述第一右侧字词之外的第三右侧字词,则计算所述第一字词与所述第一字词的第三右侧字词的第三互信息;若所述第三互信息大于所述第一互信息最大值,则在所述第二当前词典中删除所述第一字词,且将所述第一字词和所述第三右侧字词组成的第三目标字词添加到所述第二当前词典中,得到第三当前词典。

110、对所述第二分词结果进行频率统计,得到每个字词的第三出现频率。

111、构造第二向量,所述第二向量包括所述每个字词及对应的第三出现频率,以及所述每个字词右侧出现的字词及对应的第四出现频率,其中,所述第二向量中的字词按照对应的出现频率从大到小排序。

112、将所述第二向量添加到第二集合中,其中,所述第二集合中的元素按照对应的出现频率从大到小排序。

113、若第二字词对应的第二目标出现频率满足第二预设条件,则计算所述第二字词的左侧字词与所述第二字词的第二互信息最大值,所述第二集合包括所述第二字词。

114、计算所述第二字词与所述第二字词的第二右侧字词的第二互信息。

需要说明的是,步骤109-114可以参考步骤102-107所描述的内容,此处不再赘述。

115、若所述第二互信息小于等于所述第二互信息最大值,则所述第二当前词典为参考词典。

在本发明实施例中,基于互信息原理,可以设计出自动生成保护装置信息词典的方法,通过统计在保护装置信息中出现的字词的频率,按照给定的阈值判断相邻字词的互信息值是否满足连接的条件,并生成新的词典,通过多次迭代直至算法收敛,得到最终的参考词典。

如图2所示,为本发明实施例中装置信息词典的生成方法的流程示意图。在图2所示中,执行步骤说明如下:

(a)首先设置迭代中使用的参数,包括:可信度的频率阈值r(其最小值为rmin)、系数λ、聚合阈值η;清空当前字典d;并计数迭代次数;

(b)每次迭代开始时清空集合s,依据当前词典d,采用最大正向匹配方式对原始保护装置信息进行分词处理;

(c)将全部分词结果进行处理,合并相同的字词并统计出现频率,构造向量v保存字词及其频率,计算右侧出现的字词及出现的频率,采用二元组数据结构并保存在向量v中;将v添加到s中;

(d)对s中的所有v按照出现频率元素由大到小进行排序;

(e)从s中取出下一个元素x;

(f)检查f(x)是否满足:f(x)>(1-λ)nr且f(x)>rmin,如果不满足继续(e);

(g)计算所有x左侧字词pm与x的互信息值并取其中最大值:

(h)取下一个x的右侧字词qn;

(i)计算x与qn的互信息值i(x;qn),并检查:i(x;qn)>imax且i(x;qn)>η,如不满足继续h);

(j)在词典d中查找并删除x,将xqn添加到词典d中,将qn从s中删除,如果x还有未处理的qn,继续h);

(k)从s中删除x,如果s中还有为处理的x,继续e);

(l)完成本次迭代,迭代次数n增加1;

(m)如果本次迭代d中有新增词,继续b);

(n)完成词典生成。

如图3所示,为本发明实施例中计算装置的一个实施例示意图,可以包括:

获取模块301,用于获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;

处理模块302,用于执行以下步骤:

根据所述第一当前词典对所述原始保护装置信息进行分词处理,得到第一分词结果;

对所述第一分词结果进行频率统计,得到每个字词的第一出现频率;

构造第一向量,所述第一向量包括所述每个字词及对应的第一出现频率,以及所述每个字词右侧出现的字词及对应的第二出现频率;

将所述第一向量添加到第一集合中,其中,所述第一集合中的元素按照对应的出现频率从大到小排序;

若第一字词对应的第一目标出现频率满足第一预设条件,则计算所述第一字词的左侧字词与所述第一字词的第一互信息最大值,所述第一集合包括所述第一字词;

计算所述第一字词与所述第一字词的第一右侧字词的第一互信息;

若所述第一互信息大于所述第一互信息最大值,则在所述第一当前词典中删除所述第一字词,且将所述第一字词和所述第一右侧字词组成的第一目标字词添加到所述第一当前词典中,得到第二当前词典;

若所述第一字词的右侧字词中未包括除所述第一右侧字词之外的其他右侧字词,则根据所述第二当前词典对所述原始保护装置信息进行分词处理,得到第二分词结果;

对所述第二分词结果进行频率统计,得到每个字词的第三出现频率;

构造第二向量,所述第二向量包括所述每个字词及对应的第三出现频率,以及所述每个字词右侧出现的字词及对应的第四出现频率,其中,所述第二向量中的字词按照对应的出现频率从大到小排序;

将所述第二向量添加到第二集合中,其中,所述第二集合中的元素按照对应的出现频率从大到小排序;

若第二字词对应的第二目标出现频率满足第二预设条件,则计算所述第二字词的左侧字词与所述第二字词的第二互信息最大值,所述第二集合包括所述第二字词;

计算所述第二字词与所述第二字词的第二右侧字词的第二互信息;

若所述第二互信息小于等于所述第二互信息最大值,则所述第二当前词典为参考词典。

可选的,在本发明的一些实施例中,

所述处理模块,具体用于根据所述当前词典,采用最大正向匹配方式,对所述原始保护装置信息进行分词处理。

可选的,在本发明的一些实施例中,

所述处理模块,还用于将所述第一右侧字词从所述第一集合中删除。

可选的,在本发明的一些实施例中,

所述处理模块,还用于将迭代次数加1,得到更新后的迭代次数。

可选的,在本发明的一些实施例中,

所述处理模块,还用于若所述第一字词的右侧字词中包括除所述第一右侧字词之外的第三右侧字词,则计算所述第一字词与所述第一字词的第三右侧字词的第三互信息;若所述第三互信息大于所述第一互信息最大值,则在所述第二当前词典中删除所述第一字词,且将所述第一字词和所述第三右侧字词组成的第三目标字词添加到所述第二当前词典中,得到第三当前词典。

如图4所示,为本发明实施例中计算装置的另一个实施例示意图,可以包括:

收发器401,处理器402,存储器403,其中,收发器401,处理器402和存储器403通过总线连接;

存储器403,用于存储操作指令;

收发器401,用于获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;

处理器402,用于通过调用所述操作指令,执行以下步骤:

根据所述第一当前词典对所述原始保护装置信息进行分词处理,得到第一分词结果;

对所述第一分词结果进行频率统计,得到每个字词的第一出现频率;

构造第一向量,所述第一向量包括所述每个字词及对应的第一出现频率,以及所述每个字词右侧出现的字词及对应的第二出现频率;

将所述第一向量添加到第一集合中,其中,所述第一集合中的元素按照对应的出现频率从大到小排序;

若第一字词对应的第一目标出现频率满足第一预设条件,则计算所述第一字词的左侧字词与所述第一字词的第一互信息最大值,所述第一集合包括所述第一字词;

计算所述第一字词与所述第一字词的第一右侧字词的第一互信息;

若所述第一互信息大于所述第一互信息最大值,则在所述第一当前词典中删除所述第一字词,且将所述第一字词和所述第一右侧字词组成的第一目标字词添加到所述第一当前词典中,得到第二当前词典;

若所述第一字词的右侧字词中未包括除所述第一右侧字词之外的其他右侧字词,则根据所述第二当前词典对所述原始保护装置信息进行分词处理,得到第二分词结果;

对所述第二分词结果进行频率统计,得到每个字词的第三出现频率;

构造第二向量,所述第二向量包括所述每个字词及对应的第三出现频率,以及所述每个字词右侧出现的字词及对应的第四出现频率,其中,所述第二向量中的字词按照对应的出现频率从大到小排序;

将所述第二向量添加到第二集合中,其中,所述第二集合中的元素按照对应的出现频率从大到小排序;

若第二字词对应的第二目标出现频率满足第二预设条件,则计算所述第二字词的左侧字词与所述第二字词的第二互信息最大值,所述第二集合包括所述第二字词;

计算所述第二字词与所述第二字词的第二右侧字词的第二互信息;

若所述第二互信息小于等于所述第二互信息最大值,则所述第二当前词典为参考词典。

可选的,在本发明的一些实施例中,

处理器402,具体用于根据所述当前词典,采用最大正向匹配方式,对所述原始保护装置信息进行分词处理。

可选的,在本发明的一些实施例中,

处理器402,还用于将所述第一右侧字词从所述第一集合中删除。

可选的,在本发明的一些实施例中,

处理器402,还用于将迭代次数加1,得到更新后的迭代次数。

可选的,在本发明的一些实施例中,

处理器402,还用于若所述第一字词的右侧字词中包括除所述第一右侧字词之外的第三右侧字词,则计算所述第一字词与所述第一字词的第三右侧字词的第三互信息;若所述第三互信息大于所述第一互信息最大值,则在所述第二当前词典中删除所述第一字词,且将所述第一字词和所述第三右侧字词组成的第三目标字词添加到所述第二当前词典中,得到第三当前词典。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1