一种新词自动提取方法

文档序号:6545696阅读:167来源:国知局
一种新词自动提取方法
【专利摘要】一种新词自动提取方法,包括:对文本句子进行切词处理,并将其中字数长度不大于S+1的候选词提取出来,然后将提取出的所有互不相同的候选词保存在候选词库中;计算候选词库中每个候选词的支持度,并将所有支持度大于支持度阈值的候选词构成一个频繁词组;为频繁词组中的每个候选词构建一个子词组,并将候选词和频繁词组中的所有其他候选词相比较,如果候选词中包含有其他候选词时,则将其他候选词保存在该候选词的子词组中,然后根据候选词、以及子词组中每个子词在知识库中出现的频数,计算候选词的置信度,当候选词的置信度大于置信度阈值时,则候选词是提取的新词。本发明属于计算机自然语言处理领域,能从海量文本中准确且快速的提取新词。
【专利说明】一种新词自动提取方法
【技术领域】
[0001]本发明涉及一种新词自动提取方法,属于计算机自然语言处理领域。
【背景技术】
[0002]随着互联网的快速发展和网民规模不断膨胀,新词大量出现在网络并迅速渗入人们的日常生活,这已经成为一种语言现象。同时,在诸如信息检索、自动分词、词典编纂以及机器翻译等众多中文信息处理领域,新词提取的效果,在很大程度上影响着这些中文信息处理领域的效果,由于中文自身的特点,它不像英文那样在词与词之间有明显的空格间隔,如何将不断涌现的新词准确提取出来已经是中文信息处理中至关重要的一步,因此,有效的提取新词,将对提高中文信息处理相关领域的效果起到重要的作用。
[0003]专利申请CN201210469892.0(专利名称:结合内部聚合度和外部离散信息熵的网络新词发现方法,申请日:2012-11-18, 申请人::浙江大学)公开了一种结合内部聚合度和外部离散信息熵的网络新词发现方法,包括:对网络语料库包含的所有文本句子进行切词处理,并将切分出来的所有互不相同的字串作为候选字串;对在网络语料库中出现的频率超过固定阈值的候选字串,计算其内部聚合度和外部离散信息熵,并根据该候选字串的内部聚合度和外部离散信息熵进一步判断候选目标词串是否为网络新词。该技术方案实现较复杂,当判断一个候选字串是否为新词时需考虑两个因素:内部聚合度和外部离散信息熵。当针对于互联网上的海量文本时,该技术方案所产生的计算量较大,并不能快速、有效的发现和提取新词。
[0004]因此,如何从海量文本中准确且快速的提取新词,仍是一个值得深入研究的技术问题。

【发明内容】

[0005]有鉴于此,本发明的目的是提供一种新词自动提取方法,能从海量文本中准确且快速的提取出新词。
[0006]为了达到上述目的,本发明提供了一种新词自动提取方法,包括有:
[0007]步骤一、对语料库包含的所有文本句子进行切词处理,并将每个文本句子中字数长度不大于S+1的候选词提取出来,然后将提取出的所有互不相同的候选词保存在候选词库中,其中,S是预先设定的新词的字数长度上限;
[0008]步骤二、根据候选词在知识库中出现的频数与相同字数长度的所有候选词在知识库中出现的频数的比值,计算候选词库中每个候选词的支持度,并将所有支持度大于支持度阈值的候选词构成一个频繁词组;
[0009]步骤三、为频繁词组中的每个候选词C构建一个子词组Z (C),并将候选词C和频繁词组中的所有其他候选词相比较,如果候选词C中包含有其他候选词时,则将其他候选词保存在候选词C的子词组Z(C)中,然后根据候选词C、以及子词组Z(C)中每个子词在知识库中出现的频数,计算频繁词组中的每个候选词C的置信度,当候选词C的置信度大于置信度阈值时,则候选词C是提取的新词。
[0010]与现有技术相比,本发明的有益效果是:本发明计算每个候选词的支持度,并以支持度较大的候选词来构建频繁词组,然后根据频繁词组中每个候选词所包含的子词的出现频数来计算置信度,最后根据候选词的置信度来判断是否是新词,实现方法简单可行,并且计算量小,从而能准确而快速的从海量文本中提取出新词;计算候选词的置信度时,仅选取比自身的字数长度小I的其他候选词来作为子词,有效降低了计算量;在考虑置信度的基础上,还可以进一步结合离散度,从而大大提高了新词提取的准确度;从比自身的字数长度大I的其他候选词中挑选单字来构建左邻字组和右邻字组,极大简化了计算的复杂度,由于分布越平均信息熵越大,因此,相较于信息熵,GINI指数更适合于作为提取新词的考虑因素;支持度阈值、置信度阈值、或离散度阈值还可以根据候选词C的字数长度、以及所有相同字数长度的候选词的支持度、置信度、或离散度来灵活设置,从而使得本发明在各个应用场景中更具有通用性。
【专利附图】

【附图说明】
[0011]图1是本发明一种新词自动提取方法的流程图。
[0012]图2是图1步骤一的具体操作流程图。
[0013]图3是图1步骤二的具体操作流程图。
[0014]图4是图1步骤三的具体操作流程图。
[0015]图5是图1步骤三中,结合候选词的离散度继续提取新词的具体操作流程图。
[0016]图6是图5步骤A3的具体操作流程图。
【具体实施方式】
[0017]为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
[0018]如图1所示,本发明一种新词自动提取方法,进一步包括有:
[0019]步骤一、对语料库包含的所有文本句子进行切词处理,并将每个文本句子中字数长度不大于S+1的候选词提取出来,然后将提取出的所有互不相同的候选词保存在候选词库中,其中,S是预先设定的新词的字数长度上限,由于新词的字数长度上限一般为4,所以可以优选S = 4;
[0020]步骤二、根据候选词在知识库中出现的频数与相同字数长度的所有候选词在知识库中出现的频数(即次数)的比值,计算候选词库中每个候选词的支持度,并将所有支持度大于支持度阈值的候选词构成一个频繁词组;
[0021]步骤三、为频繁词组中的每个候选词C构建一个子词组Z(C),并将候选词C和频繁词组中的所有其他候选词相比较,如果候选词C中包含有其他候选词时,则将其他候选词保存在候选词C的子词组Z(C)中,然后根据候选词C、以及子词组Z(C)中每个子词在知识库中出现的频数,计算频繁词组中的每个候选词C的置信度,当候选词C的置信度大于置信度阈值时,则候选词C是提取的新词;
[0022]步骤四、将步骤三提取的新词和现有词库进行比较,当现有词库中不存在有所述提取的新词时,则所述提取的新词是最终提取的新词。[0023]所述步骤一中,可以通过标点符号,将语料库中的所有文本句子分割成多个短句,再将短句中字数长度不大于S+1的候选词提取出来。其中,如图2所示,将每个短句中字数长度不大于S+1的候选词提取出来,进一步包括有:
[0024]步骤11、设定截词窗口的宽度width为I ;
[0025]步骤12、将截词窗口设置在短句的开始处,截取字数长度为width的候选词,然后再将截词窗口向右移动一个字,继续截取短句中下一个字数长度为width的候选词,直至截词窗口到达短句的结尾处;
[0026]步骤13、修改截词窗口的宽度width:width = width+1,当width小于或等于S+1时,转向步骤12。
[0027]例如:对于短句“小说剧情精彩”来说,当截词窗口的宽度width为I时,所截取的字数长度为I的候选词有:小、说、剧、情、精、彩;当截词窗口的宽度width为2时,所截取的字数长度为2的候选词有:小说、说剧、剧情、情精、精彩;当截词窗口的宽度width为3时,所截取的字数长度为3的候选词有:小说剧、说剧情、剧情精、情精彩;当截词窗口的宽度width为4时,所截取的字数长度为4的候选词有:小说剧情、说剧情精、剧情精彩;当截词窗口的宽度width为5时,所截取的字数长度为5的候选词有:小说剧情精、说剧情精彩。
[0028]如图3所示,图1步骤二进一步包括有:
[0029]步骤21、构建一个频繁词组;
[0030]步骤22、从候选词库中读取一个未计算支持度、且字数长度不大于S的候选词C,
计算所述候选词C的支持度:
【权利要求】
1.一种新词自动提取方法,其特征在于,包括有: 步骤一、对语料库包含的所有文本句子进行切词处理,并将每个文本句子中字数长度不大于S+1的候选词提取出来,然后将提取出的所有互不相同的候选词保存在候选词库中,其中,S是预先设定的新词的字数长度上限; 步骤二、根据候选词在知识库中出现的频数与相同字数长度的所有候选词在知识库中出现的频数的比值,计算候选词库中每个候选词的支持度,并将所有支持度大于支持度阈值的候选词构成一个频繁词组; 步骤三、为频繁词组中的每个候选词C构建一个子词组Z (C),并将候选词C和频繁词组中的所有其他候选词相比较,如果候选词C中包含有其他候选词时,则将其他候选词保存在候选词C的子词组Z(C)中,然后根据候选词C、以及子词组Z(C)中每个子词在知识库中出现的频数,计算频繁词组中的每个候选词C的置信度,当候选词C的置信度大于置信度阈值时,则候选词C是提取的新词。
2.根据权利要求1所述的方法,其特征在于,还包括有: 步骤四、将步骤三提取的新词和现有词库进行比较,当现有词库中不存在有所述提取的新词时,则所述提取的新词是最终提取的新词。
3.根据权利要求1所述的方法,其特征在于,S= 4。
4.根据权利要求1所述的方法,其特征在于,步骤一中,通过标点符号,将语料库中的所有文本句子分割成多个短句,再将短句中字数长度不大于S+1的候选词提取出来,其中,将每个短句中字数长度不大于S+1的候选词提取出来,进一步包括有: 步骤11、设定截词窗口的宽度width为I ; 步骤12、将截词窗口设置在短句的开始处,截取字数长度为width的候选词,然后再将截词窗口向右移动一个字,继续截取短句中下一个字数长度为width的候选词,直至截词窗口到达短句的结尾处; 步骤13、修改截词窗口的宽度width:width = width+1,当width小于或等于S+1时,转向步骤12。
5.根据权利要求1所述的方法,其特征在于,步骤二进一步包括有: 步骤21、构建一个频繁词组; 步骤22、从候选词库中读取一个未计算支持度、且字数长度不大于S的候选词C,计算
所述候选词C的支持度
6.根据权利要求1所述的方法,其特征在于,步骤三进一步包括有: 步骤31、从频繁词组中挑选出一个未计算置信度的候选词C ;步骤32、为候选词C构建一个子词组Z (C),根据候选词C的字数长度n (C),判断频繁词组中的其他候选词的字数长度是否是n(C)-l、且被包含在所述候选词C中,如果是,则说明其他候选词是候选词C的一个子词,将所有字数长度是n (C) -1、且包含在候选词C中的其他候选词保存在Z(C)中;如果否,则说明其他候选词不是候选词C的子词;

步骤33、计算候选词C的置信度:
7.根据权利要求1所述的方法,其特征在于,步骤三中,还包括有: 步骤Al、从频繁词组中挑选出一个未计算离散度的候选词C ; 步骤A2、从候选词库中找出候选词C的所有左邻字和右邻字; 步骤A3、根据候选词C的每个左或右邻字在所有左或右邻字中的出现概率,计算候选词C的离散度,然后判断候选词C的离散度是否大于离散度阈值,如果是,则说明候选词C是提取的新词,当频繁词组中仍然存在有未计算离散度的候选词C时,转向步骤Al ;如果否,则说明候选词C不是提取的新词,将候选词C从频繁词组中删除,当频繁词组中仍然存在有未计算离散度的候选词C时,转向步骤Al。
8.根据权利要求7所述的方法,其特征在于,步骤A2进一步包括有: 步骤A21、为候选词C构建一个左邻字组和一个右邻字组,并根据候选词C的字数长度n(C),从候选词库中挑选出所有字数长度为n(C)+l、且以候选词C为前缀或后缀的其他候选词,如果候选词C是挑选出的候选词的前缀,则将挑选出的候选词中的最后一个字保存到候选词C的右邻字组中,如果候选词C是挑选出的候选词的后缀,则将挑选出的候选词中的最前一个字保存到候选词C的左邻字组中。
9.根据权利要求7所述的方法,其特征在于,步骤A3进一步包括有: 步骤A31、分别计算候选词C的左邻字和右邻字的GINI指数值:
10.根据权利要求5、6、或7所述的方法,其特征在于,支持度阈值、置信度阈值、或离散
度阈值的计算公式是
11.根据权利要求10所述的方法,其特征在于,当候选词的字数长度为2时,还包括有:对支持度阈值、置信度阈值、或离散度阈值进行调整:
【文档编号】G06F17/27GK103955450SQ201410188050
【公开日】2014年7月30日 申请日期:2014年5月6日 优先权日:2014年5月6日
【发明者】廖建新, 赵海秀, 李亚松, 康潮明, 赵贝尔, 崔晓茹 申请人:杭州东信北邮信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1