结合内部聚合度和外部离散信息熵的网络新词发现方法

文档序号:6617066阅读:220来源:国知局
专利名称:结合内部聚合度和外部离散信息熵的网络新词发现方法
技术领域
本发明涉及一种网络新词发现的方法,属于计算机自然语言处理领域。
背景技术
随着互联网的快速发展和网民规模不断膨胀,新词大量出现在网络并迅速渗入人们的日常生活,这已经成为一种语言现象。同时,在诸如信息检索、自动分词、词典编纂以及机器翻译等众多中文信息处理领域,新词发现的效果,在很大程度上影响着这些中文信息处理领域的效果,尤其以中文自动分词技术最为明显,由于中文自身的特点,它不像英文那样在词与词之间有明显的空格间隔,如何将不断涌现的新词准确切分出来已经是中文信息处理中至关重要的一步,因此,有效的识别新词,将对提高中文信息处理相关领域的效果起到重要的作用。
在新词发现方法方面,目前主要有基于规则和基于统计两大类方法。基于规则的网络新词发现方法其主要思想是根据新词的字与字的组合方式、词语外型特点或词语内部构造特征建立规则库,然后通过规则匹配方法来识别新词。具体是通过一方面以新词的词语内部构词特征为基础建立常规新词识别规则库,另一方面从网上词语的构词特点出发建立特殊新词识别规则库,并将这些规则分为常规构词规则、词语过滤规则、特殊构词规则等,利用这些规则组合过滤识别网络新词。但是,由于建立新词发现规则的过程需要对大量新词的特点进行细致的分析,这个过程需要投入大量的人力和时间,且新词发现规则通常都与具体的领域相关,只能在有限的领域中发现新词时使用,不易移植到其他领域中;另外,该新词发现方法关于抽取出来的规则的形式较单一,很难将所有的情况都覆盖到,因此这种方法通常准确率不高且建立一个新词识别系统的周期很长。基于统计的网络新词发现方法,一般是基于统计概论,利用词频过滤策略提取出候选字串,然后再利用语言学知识将不是新词语的候选字串排除;或者是基于统计字与字的共现频率,计算字与字之间的相关度,寻找相关度最大的字与字的组合。基于统计的网络新词发现方法可以较好的利用统计信息来发现新词,但是,缺少对词语的内部和外部结构特征的考虑,同时,这种方法,在识别出现频率较低的词语时,效果不好,且基于统计的方法在发现较长的新词语时,将导致时间复杂度急剧增大,因此基于统计的新词发现方法一般会受限在识别比较短的新词语。

发明内容
本发明的目的是提供一种结合内部聚合度和外部离散信息熵的网络新词发现的新方法。为实现上述目的,本发明所采取的技术方案是本发明结合内部聚合度和外部离散信息熵的网络新词发现方法包括步骤I):对网络语料库包含的所有文本句子进行切词处理,将每个文本句子中的长度小于等于η的字串切分出来,并将切分出来的所有互不相同的字串作为候选字串;其中,η为整数且η > 1,每个所述文本句子是一个不包含任何标点符号的语句;步骤2):任意选出一个未作过新词判断处理的候选字串;步骤3):判断所选出的当前候选字串在所述网络语料库中出现的频率是否小于阈值M,M > O ;如果不是,则执行步骤4),否则在仍然存在未作过新词判断处理的候选字串时返回执行步骤2);步骤4):对当前候选字串作k-ι种切分,每一种切分都将当前候选字串切分成两个子字串,其中,k为当前候选字串的长度;分别计算每一种切分所获得的两个子字串随机结合构成当前候选字串的概率,并进一步计算当前候选字串的内部聚合度;在所有候选字串中找出以当前候选字串为前缀的全部字串,并将以当前候选字串为前缀的全部字串构成当前候选字串的右邻接字串集,计算所述右邻接字串集的信息熵;在所有候选字串中找出以当前候选字串为后缀的全部字串,并将以当前候选字串为后缀的 全部字串构成当前候选字串的左邻接字串集,计算所述左邻接字串集的信息熵;以所述右邻接字串集的信息熵和左邻接字串集的信息熵中的较小者作为当前候选字串的外部离散信息熵;步骤5):如果当前候选字串的内部聚合度超过预先设定的内部聚合度阈值,并且,当前候选字串的外部离散信息熵超过预先设定的外部离散信息熵阈值,那么判断当前候选字串为网络新词,并在仍然存在未作过新词判断处理的候选字串时返回执行步骤2),其中,所述内部聚合度的阈值和外部离散信息熵的阈值均大于O ;如果当前候选字串的内部聚合度未超过预先设定的所述内部聚合度阈值,或者,当前候选字串的外部离散信息熵未超过预先设定的所述外部离散信息熵阈值,那么判断当前候选字串不是网络新词,并在仍然存在未作过新词判断处理的候选字串时返回执行步骤2)。进一步地,本发明所述步骤I)中的n=5。进一步地,本发明所述步骤3)中的M=25。进一步地,本发明在所述步骤4)中,当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率的计算公式如式(I )所示Pj(subl_j, sub2_j) =p (subl_j) Xp(sub2_j) (I)式(I )中,Pj(subl_j,sub2_j)表示当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率;subl_j、sub2_j分别表示对当前候选字串进行一种切分时所获得的两个子字串;p(subl_j)和p(sub2_j)分别对应表示子字串subl_j、sub2_j在网络语料库中出现的概率,且 P (subl_j) =Count (subl_j) /L, p (sub2_j) =count (sub2_j) /L ;count (subl_j) >count (sub2_j)分别对应表示子字串subl_j、sub2_j在网络语料库中出现的频率山表示所有候选字串在网络语料库中出现的频率之和。进一步地,本发明在所述步骤4)中,当前候选字串的内部聚合度的计算公式如式
(II)所示IC(Wi) =p (Wi)/max(ρ」(subl_j, sub2_j)) I ^ j < k (II)式(II)中,Wi表示当前候选字串,IC(Wi)表示当前候选字串的内部聚合度,P(Wi)表示当前候选字串在网络语料库中出现的概率,且P (Wi) =count (Wi) /L, count (Wi)表示当前候选字串在网络语料库中出现的频率,L表示所有候选字串在网络语料库中出现的频率之和,Pj(subl_j,sub2_j)表示当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率,max(Pj(subl_j, sub2_j))表示按所有切分方法对当前候选字串进行切分而对应得到的所有h(subl_j,sub2_j)中的最大值,k表示当前候选字串的长度,k的大小与当前候选字串中包含的字符个数相等。进一步地,本发明在所述步骤4)中,所述右邻接字串集的信息熵的计算公式如式
(III)所示
权利要求
1.一种结合内部聚合度和外部离散信息熵的网络新词发现方法,其特征在于,包括 步骤I):对网络语料库包含的所有文本句子进行切词处理,将每个文本句子中的长度小于等于η的字串切分出来,并将切分出来的所有互不相同的字串作为候选字串;其中,η为整数且η > 1,每个所述文本句子是一个不包含任何标点符号的语句; 步骤2):任意选出一个未作过新词判断处理的候选字串; 步骤3):判断所选出的当前候选字串在所述网络语料库中出现的频率是否小于阈值Μ,M > O ;如果不是,则执行步骤4),否则在仍然存在未作过新词判断处理的候选字串时返回执行步骤2); 步骤4):对当前候选字串作k-Ι种切分,每一种切分都将当前候选字串切分成两个子 字串,其中,k为当前候选字串的长度;分别计算每一种切分所获得的两个子字串随机结合构成当前候选字串的概率,并进一步计算当前候选字串的内部聚合度; 在所有候选字串中找出以当前候选字串为前缀的全部字串,并将以当前候选字串为前缀的全部字串构成当前候选字串的右邻接字串集,计算所述右邻接字串集的信息熵;在所有候选字串中找出以当前候选字串为后缀的全部字串,并将以当前候选字串为后缀的全部字串构成当前候选字串的左邻接字串集,计算所述左邻接字串集的信息熵;以所述右邻接字串集的信息熵和左邻接字串集的信息熵中的较小者作为当前候选字串的外部离散信息熵; 步骤5):如果当前候选字串的内部聚合度超过预先设定的内部聚合度阈值,并且,当前候选字串的外部离散信息熵超过预先设定的外部离散信息熵阈值,那么判断当前候选字串为网络新词,并在仍然存在未作过新词判断处理的候选字串时返回执行步骤2),其中,所述内部聚合度的阈值和外部离散信息熵的阈值均大于O ; 如果当前候选字串的内部聚合度未超过预先设定的所述内部聚合度阈值,或者,当前候选字串的外部离散信息熵未超过预先设定的所述外部离散信息熵阈值,那么判断当前候选字串不是网络新词,并在仍然存在未作过新词判断处理的候选字串时返回执行步骤2)。
2.根据权利要求I所述的方法,其特征是所述步骤I)中的n=5。
3.根据权利要求I所述的方法,其特征是所述步骤3)中的M=25。
4.根据权利要求I所述的方法,其特征是在所述步骤4)中,当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率的计算公式如式(I )所示Pj(subl_j, sub2_j) =p (subl_j) X p (sub2_j) (I) 式(I )中,Pj(subl_j,sub2_j)表示当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率;subl_j、sub2_j分别表示对当前候选字串进行一种切分时所获得的两个子字串;p(subl_j)和p(sub2_j)分别对应表示子字串subl_j、sub2_j在网络语料库中出现的概率,且 P (subl_j) =count (subl_j)/L, p (sub2_j) =count (sub2_j)/L ;count (subl_j) >count (sub2_j)分别对应表示子字串subl_j、sub2_j在网络语料库中出现的频率山表示所有候选字串在网络语料库中出现的频率之和。
5.根据权利要求I或4所述的方法,其特征是在所述步骤4)中,当前候选字串的内部聚合度的计算公式如式(II)所示IC(Wi) =p (Wi)/max(p」(subl_j, sub2_j)) I ^ j < k (II) 式(II)中,Wi表示当前候选字串,IC(Wi)表示当前候选字串的内部聚合度,P(Wi)表示当前候选字串在网络语料库中出现的概率,且P (Wi) =Count (Wi) /L, count (Wi)表示当前候选字串在网络语料库中出现的频率,L表示所有候选字串在网络语料库中出现的频率之和,Pj(subl_j, sub2_j)表示当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率,max(Pj(subl_j, sub2_j))表示按所有切分方法对当前候选字串进行切分而对应得到的所有Pj(subl_j, sub2_j)中的最大值,k表示当前候选字串的长度,k的大小与当前候选字串中包含的字符个数相等。
6.根据权利要求I或4所述的方法,其特征是在所述步骤4)中,所述当前候选字串的右邻接字串集的信息熵的计算公式如式(III)所示
7.根据权利要求I或4所述的方法,其特征是在所述步骤4)中,所述当前候选字串的左邻接字串集的信息熵的计算公式如式(IV)所示
8.根据权利要求5所述的方法,其特征是在所述步骤4)中,所述当前候选字串的右邻接字串集的信息熵的计算公式如式(ΠΙ)所示
9.根据权利要求I所述的方法,其特征是在所述步骤5)中,所述内部聚合度的阈值等于4. 5。
10.根据权利要求I或9所述的方法,其特征是在所述步骤5)中,所述外部离散信息熵的阈值等于O. 8。
全文摘要
本发明公开了一种结合内部聚合度和外部离散信息熵的网络新词发现方法,包括对网络语料库包含的所有文本句子进行切词处理,并将切分出来的所有互不相同的字串作为候选字串;对在网络语料库中出现的频率超过固定阈值的候选字串,计算其内部聚合度和外部离散信息熵,并根据该候选字串的内部聚合度和外部离散信息熵进一步判断候选目标词串是否为网络新词。本发明方法提出针对判断一个候选字串是否为网络新词的两个关键因素候选字串的内部聚合度和外部离散信息熵,同时考虑了候选字串的稳定性、独立性和完整性,能够有效的发现网络上出现的新词。
文档编号G06F17/30GK102930055SQ20121046989
公开日2013年2月13日 申请日期2012年11月18日 优先权日2012年11月18日
发明者林怀忠, 陈泽锋, 李鹏飞 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1