新词搜索方法及系统的制作方法

文档序号:6518229阅读:336来源:国知局
新词搜索方法及系统的制作方法
【专利摘要】本发明提出一种新词搜索方法及系统,其中方法包括以下步骤:提供多个语料,并对多个语料分别进行分词以得到多个单词;获取多个单词中第一单词在对应的语料中与第一单词相邻的单词集合;根据单词集合中不同单词的数量得到停用词集合;分别将单词集合中的每个单词与第一单词进行组合以得到组合后的多个候选单词;分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量;如果上下文熵增量大于第一预设值且对应的候选单词不包含停用词集合中的停用词,则将对应的候选单词作为新词。根据本发明实施例的方法,通过计算上下文熵以获得候选新词,并根据停用词集合对候选新词进行过滤,因此提高新词搜索的准确性,简化搜索过程提高搜索效率。
【专利说明】新词搜索方法及系统
【技术领域】
[0001]本发明涉及网络【技术领域】,特别涉及一种新词搜索方法及系统。
【背景技术】
[0002]在中文信息处理过程中,由于中文不像英文等西方语言,词与词之间有固定的分隔符,因此,中文自动分词往往作为中文信息处理任务最开始的一个重要步骤。
[0003]随着互联网技术的不断发展,各行各业多随之出现了“新词”例如网上出现的“肿么办”、“神马”、“给力”等新词汇频繁在网络上出现。其中web2.0应用允许用户创造网页内容,使得出现了大量的新词。新词的出现很大程度上影响了自动分词工具的准确性。经研究者研究显示60%的分词错误是由新词导致的。因此,新词发现是中文自然语言处理领域非常重要的意义。
[0004]现有的新词搜索方法主要有两种,一种是基于规则的方法,另一种是基于统计的方法。基于规则的方法是利用构词原理,并结合语义、词性等信息构造模板,通过匹配来搜索新词。例如通过计算语料库中分词后词语之间的静态联合率,并提取具有紧密关系的词语,再利用语法规则、领域特征进行过滤,进而得到具有高置信度的领域术语。虽然该方法可以提高小规模数据的新词搜索,而无法适用于大规模数据的处理。另外该方法中对规则的维护比较困难,且该规则与领域相关,因此覆盖面窄,适应性差。基于统计的方法是通过对语料中的词项信息进行统计来搜索新词。例如采用独立词概率、词语在文档中的频率等作为SVM的训练特征,将新词搜索的问题转化为二分类问题,通过使用训练好的SVM进行分类,实现在线新词搜索。例如对文本进行分词,然后统计其中2-gram到8-gram的搭配,以统计出现频率,最终选择频率高的词作为新词。该方法需要以较大规模的语料进行统计和模型训练数据处理量较大,且准确率相对较低。

【发明内容】

[0005]本发明的目的旨在至少解决上述的技术缺陷之一。
[0006]为此,本发明一方面提供一种新词搜索方法。该搜索方法可以解决搜索准确性差且搜索复杂、效率低的问题。
[0007]本发明另一方面提供一种新词搜索系统。
[0008]有鉴于此,本发明一方面的实施例提供一种新词搜索方法,包括以下步骤:A:提供多个语料,并对所述多个语料分别进行分词以得到多个单词:获取多个单词中第一单词在对应的语料中与所述第一单词相邻的单词集合;C:根据所述单词集合中不同单词的数量得到停用词集合;D:分别将所述单词集合中的每个单词与所述第一单词进行组合以得到组合后的多个候选单词;E:分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量;以及F:如果所述上下文熵增量大于第一预设值且对应的候选单词不包含所述停用词集合中的停用词,则将所述对应的候选单词作为搜索到的新词。
[0009]根据本发明实施例的方法,通过计算上下文熵以获得候选新词,并根据停用词集合对候选新词进行过滤,因此提高了新词搜索的准确性,同时简化了搜索过程提高了搜索效率。
[0010]在本发明的一个实施例中,还包括:G:如果所述上下文熵不大于所述第一预设值,则将所述对应的候选单词作为所述第一单词并执行步骤B至步骤F以便进行进一步的新词搜索。
[0011]在本发明的一个实施例中,所述根据所述单词集合中不同单词的数量得到停用词集合,进一步包括:如果所述单词集合中不同单词的数量大于第二预设值,则判定所述第一单词为停用词,并将所述停用词添加到所述停用词集合中。
[0012]在本发明的一个实施例中,还包括:根据所述新词的特征训练分类器,并根据训练后的分类器对多个语料进行搜索以找到新词。
[0013]在本发明的一个实施例中,所述特征包括词频、第一单词的词性和末尾单词的词性。
[0014]有鉴于此,本发明另一方面的实施例提供一种新词搜索系统,包括:分词模块,用于获取提供多个语料,并对所述多个语料分别进行分词以得到多个单词;获取模块,用于获取多个单词中第一单词在对应的语料中与所述第一单词相邻的单词集合;获得模块,用于根据所述单词集合中不同单词的数量得到停用词集合;组合模块,用于分别将所述单词集合中的每个单词与所述第一单词进行组合以得到组合后的多个候选单词;判断模块,用于分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量;以及确定模块,用于将所述上下文熵增量大于第一预设值且对应的候选单词不包含所述停用词集合中的停用词的对应候选单词作为搜索到的新词。
[0015]根据本发明实施例的系统,通过计算上下文熵以获得候选新词,并根据停用词集合对候选新词进行过滤,因此提高了新词搜索的准确性,同时简化了搜索过程提高了搜索效率。
[0016]在本发明的一个实施例中,还包括:迭代模块,用于对所述上下文熵不大于所述第一预设值的对应候选单词作为所述第一单词并通过所述获取模块、所述获得模块、所述组合模块、所述判断模块和所述确定模块进行迭代处理以进一步搜索新词。
[0017]在本发明的一个实施例中,所述获得模块具体包括:计算单元,用于计算所述单词集合中不同单词的数量;获得单元,用于当所述单词集合中不同单词的数量大于第二预设值时,将所述第一单词为停用词,并将所述停用词添加到所述停用词集合中。
[0018]在本发明的一个实施例中,还包括:训练搜索模块,用于根据所述新词的特征训练分类器,并根据训练后的分类器对多个语料进行搜索以找到新词。
[0019]在本发明的一个实施例中,所述特征包括词频、第一单词的词性和末尾单词的词性。
[0020]本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
【专利附图】

【附图说明】
[0021]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:[0022]图1为根据本发明一个实施例的新词搜索方法的流程图;以及
[0023]图2为根据本发明另一个实施例的新词搜索系统的结构框图。
【具体实施方式】
[0024]下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0025]在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0026]在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0027]图1为根据本发明一个实施例的新词搜索方法的流程图。如图1所示,根据本发明实施例的新词搜索方法包括以下步骤:提供多个语料,并对多个语料分别进行分词以得到多个单词(步骤101)。获取多个单词中第一单词在对应的语料中与第一单词相邻的单词集合(步骤103)。根据单词集合中不同单词的数量得到停用词集合(步骤105)。分别将单词集合中的每个单词与第一单词进行组合以得到组合后的多个候选单词(步骤107)。分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量(步骤109)。如果上下文熵增量大于第一预设值且对应的候选单词不包含停用词集合中的停用词,则将对应的候选单词作为搜索到的新词(步骤111)。
[0028]根据本发明实施例的方法,通过计算上下文熵以获得候选新词,并根据停用词集合对候选新词进行过滤,因此提高了新词搜索的准确性,同时简化了搜索过程提高了搜索效率。
[0029]下面对上述各步骤进行详细说明。
[0030]在步骤101和步骤103中,可从互联网网页、微博、搜索引擎查询日志等中提取数据中的中文文本,并将对应的中文文本转化为统一的编码格式以便统一地进行处理。通过分词工具对web中转化所获得的中文文本数据进行分词进而得到多个单词。该分词工具可以是 ICTCLAS5.0 中文分词系统(http://ictclas.0rg), SCWS 中文分词(http://www.xunsearch.com/sews/index, php)等工具。对于多个单词中的第一单词,在对应的语料中将与该第一单词相邻的单词添加到该第一单词邻接的单词集合中。该第一单词为分词所获得的多个单词中的任意一个单词。
[0031]下面将详细描述步骤105。在步骤105中,对于该第一单词的单词集合统计该单词集合中与该第一单词相邻的不同单词的数量。当单词集合中不同单词的数量大于第二预设值(例如大于整个语料中单词数量的百分之一)时,则判定第一单词为停用词,并将停用词添加到停用词集合中。该停用词集合分为左侧停用词集合和右停用词集合,根据作为停用词的单词是在该第一单词的左边还是右边分别将停用词分为左侧停用词和右停用词,并放入左侧停用词集合和右停用词集合中。例如在ABC、FBK、DBV的语料中,对于单词B而言单词A、C、F、K、D和单词V构成单词B的单词集合。具体而言,根据单词集合的单词与单词B的位置关系可分为左侧邻接单词或右侧邻接单词。左侧停用词和右侧停用词的原理也类似上述方式。
[0032]在本发明的一个实施例中,左侧停用词右停用词定义为,
[0033]Stopwordleft= {w | w G S,| | {w, |w' G S,(w, , w)} | | > c}
[0034]Stopwordritght= {w | w G S, | | {w, |w' e S, (w, w1 )} | | > c}
[0035]其中,Stopwordleft表示左侧停用词,Stopwordright表示右侧停用词,S表示语料中所有单词的集合,(w',w)表示单词w'在单词w左侧并与其相邻,c是常数,表示一个单词左(右)侧与其相邻的不同单词个数超过c时,该单词即为左(右)侧停用词。
[0036]下面将详细描述步骤107、步骤109和步骤111。
[0037]在本发明的一个实施例中,左侧上下文熵和右侧上下文熵便是表示词语组合的概率。对于一个单词W,假设在语料X中他出现的次数是n,出现在它左侧的词语的集合为a ={a” a2,...,aj,出现在它右侧的词语的集合为β =Ib1, b2,...,bj。那么w的左侧上下文熵和右侧上下文熵可定义为:
[0038]
【权利要求】
1.一种新词搜索方法,其特征在于,包括以下步骤: A:提供多个语料,并对所述多个语料分别进行分词以得到多个单词; B:获取多个单词中第一单词在对应的语料中与所述第一单词相邻的单词集合; C:根据所述单词集合中不同单词的数量得到停用词集合; D:分别将所述单词集合中的每个单词与所述第一单词进行组合以得到组合后的多个候选单词; E:分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量;以及 F:如果所述上下文熵增量大于第一预设值且对应的候选单词不包含所述停用词集合中的停用词,则将所述对应的候选单词作为搜索到的新词。
2.根据权利要求1所述的新词搜索方法,其特征在于,还包括: G:如果所述上下文熵不大于所述第一预设值,则将对应的候选单词作为所述第一单词并执行步骤B至步骤F以便进行进一步的新词搜索。
3.如权利要求1所述的新词发现的方法,其特征在于,所述根据所述单词集合中不同单词的数量得到停用词集合,进一步包括: 如果所述单词集合中不同单词的数量大于第二预设值,则判定所述第一单词为停用词,并将所述停用词添加到所述停用词集合中。
4.根据权利要求1或·2所述的新词搜索方法,其特征在于,还包括: 根据所述新词的特征训练分类器,并根据训练后的分类器对多个语料进行搜索以找到新词。
5.根据权利要求4所述的新词搜索方法,其特征在于,所述特征包括词频、第一单词的词性和末尾单词的词性。
6.一种新词搜索系统,其特征在于,包括: 分词模块,用于获取提供多个语料,并对所述多个语料分别进行分词以得到多个单词; 获取模块,用于获取多个单词中第一单词在对应的语料中与所述第一单词相邻的单词集合; 获得模块,用于根据所述单词集合中不同单词的数量得到停用词集合; 组合模块,用于分别将所述单词集合中的每个单词与所述第一单词进行组合以得到组合后的多个候选单词; 判断模块,用于分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量;以及 确定模块,用于将所述上下文熵增量大于第一预设值且对应的候选单词不包含所述停用词集合中的停用词的对应候选单词作为搜索到的新词。
7.根据权利要求6所述的新词搜索系统,其特征在于,还包括: 迭代模块,用于对所述上下文熵不大于所述第一预设值的候选单词作为所述第一单词并通过所述获取模块、所述获得模块、所述组合模块、所述判断模块和所述确定模块进行迭代处理以进一步搜索新词。
8.根据权利要求6所述的新词搜索系统,其特征在于,所述获得模块具体包括: 计算单元,用于计算所述单词集合中不同单词的数量;获得单元,用于当所述单词集合中不同单词的数量大于第二预设值时,将所述第一单词为停用词,并将所述停用词添加到所述停用词集合中。
9.根据权利要求6或7所述的新词搜索系统,其特征在于,还包括: 训练搜索模块,用于根据所述新词的特征训练分类器,并根据训练后的分类器对多个语料进行搜索以找到新词。
10.根据权利要求9所述的新词搜索系统,其特征在于,所述特征包括词频、第一单词的词性和末尾单词的词性。
【文档编号】G06F17/30GK103593427SQ201310551747
【公开日】2014年2月19日 申请日期:2013年11月7日 优先权日:2013年11月7日
【发明者】霍帅, 张敏, 刘奕群, 马少平, 金奕江 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1