一种从文档集中自动发现新词的方法及装置制造方法

文档序号:6547427阅读:181来源:国知局
一种从文档集中自动发现新词的方法及装置制造方法
【专利摘要】本发明公开了一种从文档集中自动发现新词的方法及装置,其中,模板获取单元获取一个或多个模板;词语提取单元从所述文档集中提取出与所述一个或多个模板中的各模板相匹配的词语;候选模板集合加入单元从所述一个或多个模板中至少选取一部分模板加入到候选模板集合;候选词集合加入单元从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合;新词集合加入单元基于候选模板集合中的模板对所述候选词集合中的候选词排序,基于所述排序将一定数量的候选词加入到新词集合。与现有技术相比,本发明提供的方法和装置可以有效地发现新词。
【专利说明】—种从文档集中自动发现新词的方法及装置
【技术领域】
[0001]本发明涉及自然语言处理技术,尤其涉及一种从文档集中自动发现新词的方法及装置。【背景技术】
[0002]在社交网络中,网民喜欢用自己个性化的语言表达对政治、社会、文化等的看法。通常,个性化语言被越多的人传播越容易成为新的网络热词(简称“新词”)。目前,新词在自动文摘、文本聚类/分类、信息检索等方面有着很重要的应用,据统计,每年互联网上出现超过1000个的中文新词,这些新词大多为各个领域具有时效性的专业术语,由于这些新词大多不存在字典中,因而使得现有的分词算法很难将这些新词从文档集中识别。以情感类的新词“给力(形容词)”,文档“表演非常给力”为例,现有的分词算法通常对其进行如下分词:表演/名词非常/副词给/动词力/名词,从而使得新词“给力”不能作为一个完整的词进行切分,进行影响新词的识别。

【发明内容】

[0003]本发明解决的技术问题之一为提升新词识别的准确性。
[0004]根据本发明的一个方面的一个实施例,提供了一种从文档集中自动发现新词的方法,包括:
[0005]获取一个或多个模板;
[0006]从所述文档集中提取出与所述一个或多个模板中的各模板相匹配的词语;
[0007]从所述一个或多个模板中至少选取一部分模板加入到候选模板集合;
[0008]从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合;
[0009]基于候选模板集合中的模板对所述候选词集合中的候选词排序,基于所述排序将一定数量的候选词加入到新词集合。
[0010]根据本发明的一个实施例,通过以下任一方式获取所述一个或多个模板:
[0011]预先规定所述一个或多个模板,或
[0012]在获取文档集后,对所述文档集进行切词处理,从经过切词处理的文档集中提取出与特定正则表达式相匹配的所述一个或多个模板。
[0013]根据本发明的一个实施例,从所述一个或多个模板中至少选取一部分模板加入到候选模板集合的步骤包括以下中的任一个:
[0014]将所述一个或多个模板全部加入候选模板集合;
[0015]基于所述一个或多个模板的每个模板在所述文档集中出现的次数,将一部分模板加入候选模板集合。
[0016]根据本发明的一个实施例,基于所述一个或多个模板的每个模板在所述文档集中出现的次数将一部分模板加入候选模板集合的步骤包括:[0017]将在所述文档集中出现的次数排在前f名的模板加入候选模板集合,f为正整数;或
[0018]将在所述文档集中出现的次数超过特定阈值的模板加入候选模板集合。
[0019]根据本发明的一个实施例,从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合的步骤包括以下中的任一个:
[0020]将所述匹配的词语全部加入到候选词集合;
[0021]基于所述匹配的词语与各模板的匹配次数,将一部分词语加入候选词集合。
[0022]根据本发明的一个实施例,基于所述匹配的词语与各模板的匹配次数,将一部分词语加入候选词集合的步骤包括:
[0023]将匹配的词语中与各模板的匹配次数排在前g名的词语加入候选词集合,g为正整数;或
[0024]将匹配的词语中与各模板的匹配次数超过特定阈值的词语加入候选词集合。
[0025]根据本发明的一个实施例,本方法还包括:在基于候选模板集合中的模板对所述候选词集合中的候选词排序之前,用预先规定的新词集合对候选模板集合中的模板进行排序,并基于所述排序过滤候选模板集合。
[0026]根据本发明的一个实施例,本方法还包括:用得到的新词集合对候选模板集合中的模板进行排序,并基于所述排序过滤候选模板集合,并用过滤后的候选模板集合再次对所述候选词集合中的候选词排序并基于所述排序再次将一定数量的候选词加入到新词集合。
[0027]根据本发明的一个实施例,对候选模板集合中的模板进行排序是通过基于以下公式计算候选模板集合中的模板权重并根据所计算的模板权重对候选模板集合中的模板进行排序来进行的:
【权利要求】
1.一种从文档集中自动发现新词的方法(1),包括: 获取一个或多个模板(101); 从所述文档集中提取出与所述一个或多个模板中的各模板相匹配的词语(102); 从所述一个或多个模板中至少选取一部分模板加入到候选模板集合(103); 从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合(104); 基于候选模板集合中的模板对所述候选词集合中的候选词排序,基于所述排序将一定数量的候选词加入到新词集合(105)。
2.根据权利要求1所述的方法(I),其中通过以下任一方式获取所述一个或多个模板: 预先规定所述一个或多个模板,或 在获取文档集后,对所述文档集进行切词处理,从经过切词处理的文档集中提取出与特定正则表达式相匹配的所述一个或多个模板。
3.根据权利要求1所述的方法(I),其中从所述一个或多个模板中至少选取一部分模板加入到候选模板集合 的步骤包括以下中的任一个: 将所述一个或多个模板全部加入候选模板集合; 基于所述一个或多个模板的每个模板在所述文档集中出现的次数,将一部分模板加入候选模板集合。
4.根据权利要求3所述的方法(I),其中基于所述一个或多个模板的每个模板在所述文档集中出现的次数将一部分模板加入候选模板集合的步骤包括: 将在所述文档集中出现的次数排在前f名的模板加入候选模板集合,f为正整数;或 将在所述文档集中出现的次数超过特定阈值的模板加入候选模板集合。
5.根据权利要求1所述的方法(I),其中从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合的步骤包括以下中的任一个: 将所述匹配的词语全部加入到候选词集合; 基于所述匹配的词语与各模板的匹配次数,将一部分词语加入候选词集合。
6.根据权利要求5所述的方法(I),其中基于所述匹配的词语与各模板的匹配次数,将一部分词语加入候选词集合的步骤包括: 将匹配的词语中与各模板的匹配次数排在前g名的词语加入候选词集合,g为正整数;或 将匹配的词语中与各模板的匹配次数超过特定阈值的词语加入候选词集合。
7.根据权利要求1所述的方法(1),还包括:在基于候选模板集合中的模板对所述候选词集合中的候选词排序之前,用预先规定的新词集合对候选模板集合中的模板进行排序,并基于所述排序过滤候选模板集合。
8.根据权利要求1所述的方法(1),还包括:用得到的新词集合对候选模板集合中的模板进行排序,并基于所述排序过滤候选模板集合,并用过滤后的候选模板集合再次对所述候选词集合中的候选词排序并基于所述排序再次将一定数量的候选词加入到新词集合。
9.根据权利要求7或8所述的方法(I),其中对候选模板集合中的模板进行排序是通过基于以下公式计算候选模板集合中的模板权重并根据所计算的模板权重对候选模板集合中的模板进行排序来进行的:
10.一种从文档集中自动发现新词的装置(2),包括: 模板获取单元(201),被配置为获取一个或多个模板; 词语提取单元(202),被配置为从所述文档集中提取出与所述一个或多个模板中的各模板相匹配的词语; 候选模板集合加入单元(203),被配置为从所述一个或多个模板中至少选取一部分模板加入到候选模板集合; 候选词集合加入单元(204),被配置为从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合; 新词集合加入单元(205),被配置为基于候选模板集合中的模板对所述候选词集合中的候选词排序,基于所述排序将一定数量的候选词加入到新词集合。
【文档编号】G06F17/30GK103955453SQ201410220317
【公开日】2014年7月30日 申请日期:2014年5月23日 优先权日:2014年5月23日
【发明者】黄民烈, 朱小燕 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1