一种新词获取方法及系统的制作方法

文档序号:6380668阅读:346来源:国知局
专利名称:一种新词获取方法及系统的制作方法
技术领域
本发明涉及互联网信息处理领域,尤其涉及一种新词获取方法与系统。
背景技术
在自然语言处理或计算机语言中,新词是指以前从来没有出现过的词汇,或者在词典中没有收录的词汇。随着计算机网络技术的快速发展和推广,网络数据急剧膨胀,这些数据具有更新速度快,数据量庞大、数据组织形式不规范等特点,但也蕴藏着极多的有价值信息。另外由于人们相互交流需求的增加,网络成为信息发布、传播的平台。由此产生的一些网络用语、热门词汇,被广泛的运用到了实际生活中,影响着人们的生活,一些新词逐渐被人们所接受,扩充了汉语词汇。这些新出现的词汇呈现出产生速度快、覆盖领域广的特点,往往散落在海量的网络文本中,靠人工去查看和检索是不可想象的,因此亟需一个快速高效的新词 发现方法。为了能够获取新词,现有技术和专利主要提供了的方法如下专利CN200910237979. 3提供了中文网页新词自动获取方法,该方法利用不同时间的网页,进行一个时间序列的对比,去挖掘新词。这种新词获取方法,缺乏对不同网页内容特点的充分分析利用,挖掘出的新词结果数量巨大,人工过滤成本高。专利CN200710175229.9提供了一种新词发现方法和系统,从语料中挖掘高频字符串,然后到搜索引擎去检索,根据检索结果去判断新词。这种新词发现方法,首先没有对不同特定的语料进行重复利用;其次,对搜索引擎的检索结果依赖太大;还有就是要不停的去抓取搜索引擎的检索结果,可能需要很长的时间。专利CN201010113873. 5提供了一种提供新词或热词的方法及系统,其中提到的新词发现方法利用输入法的用户输入信息进行新词发现。这种新词发现的缺点有,一是输入法用户数据很难获取,其次,新词发现中过滤模块不完善,人工过滤工作量太大。因此,现有的新词识别技术的主要缺点有一是,选出的新词结果数量太庞大,需要大量的人工过滤;二是,对不同数据的特点没有充分的分析利用;三是,由于候选新词数量太庞大,在规则过滤时,可能过滤掉一些出现频次少的新词。

发明内容
本发明解决的技术问题在于提供了一种新词获取方法,以解决目前方案中工作量大,检索结果不准确的问题。本发明还提供了一种新词获取系统。为解决上述问题,本发明提供了一种新词获取方法,包括,收集最新具有时效性的规范数据集和不规范数据集,以及收集历史规范数据集;挖掘规范数据集中的可能新词作为第一候选新词集,挖掘不规范数据集中的可能新词作为第二候选新词集,挖掘历史规范数据集中的可能新词作为初始化的非词高频串;将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集;从第三候选新词集中过滤掉非词的高频串,获得新词集。
进一步地,上述的方法,还包括,人工过滤新词集,得到最终的新词结果;进一步地,上述的方法,还包括,将不是新词的串加入到非词的高频串集合中。上述的方法,其中,所述最新具有时效性的规范数据集包括一些新闻网页和最新编辑的正规网页数据;所述最新具有时效性的不规范数据集包括用户查询日志、微博和聊天记录等一些短文本的数据;历史规范数据集包括一些历史的规范网页数据。 上述的方法,其中,所述第一候选新词包含,真正的新词、汉语高频串;第二候选新词集中包含,真正的新词、汉语高频串、错误串。上述的方法,其中,所述将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集具体包括,将第一候选新词集和第二候选新词集匹配,过滤掉短文本中常用的错误串,同时发现在第二候选新词集中出现频次不高但是在第一候选新词集中出现的新词以挖掘出现频次不高的新词。本发明还提供了一种新词获取系统,包括,数据收集模块,用于收集最新具有时效性的规范数据集和不规范数据集,以及,收集历史规范数据集;新词挖掘模块,用于挖掘规范数据集中的可能新词作为第一候选新词集,挖掘不规范数据集中的可能新词作为第二候选新词集,以及挖掘历史规范数据集中的可能新词作为初始化的非词闻频串;新词过滤模块,用于将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集;从第三候选新词集中过滤掉非词的高频串,获得新词集。上述的方法,其中,所述新词过滤模块还用于,人工过滤新词集,得到最终的新词结果,以及将不是新词的串加入到非词的高频串集合中。上述的方法,其中,所述最新具有时效性的规范数据集包括一些新闻网页和最新编辑的正规网页数据;所述最新具有时效性的不规范数据集包括用户查询日志、微博和聊天记录等一些短文本的数据;历史规范数据集包括一些历史的规范网页数据;所述第一候选新词包含,真正的新词、汉语高频串;第二候选新词集中包含,真正的新词、汉语高频串、错误串。上述的方法,其中,所述新词过滤模块用于将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集具体包括,所述新词过滤模块用于将第一候选新词集和第二候选新词集匹配,过滤掉短文本中常用的错误串,同时发现在第二候选新词集中出现频次不高但是在第一候选新词集中出现的新词以挖掘出现频次不高的新词。
采用本发明的技术方案,充分利用了不同数据集的特点,通过合理的过滤算法,大大提高了新词发现的准确性,减少了人工过滤的时间,提高了新词发现的效率。


此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图I是本发明第一实施例流程图;图2是本发明第二实施例结构图。
具体实施例方式为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结 合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明实施例把规范网络数据集、不规范网络数据集和历史规范网络数据集结合起来作为新词发现的数据集,通过不同数据集的有效组合,然后挖掘数据集中的候选新词,然后利用三种数据集的不同特点对挖掘的新词通过合理的过滤后获取新词。这样获取的新词准确性高,数据量少,大大减少了人工过滤的时间。如图I所示,是本发明第一实施例流程图,提供了一种新词获取方法及系统,具体包括,步骤S101,收集最新具有时效性的规范数据集和不规范数据集,以及,收集历史规范数据集;所述收集最新具有时效性的规范数据集具体包括,所述最新具有时效性的规范数据集主要是指本月或者本周内一些新闻网页和最新编辑的正规网页数据,因为这些网页语言非常规范,内容中常常会用最新的一些新词;因此,可以收集最新的具有时效性的规范数据集作为新词发现的数据集。最新数据确定时主要取决于新词挖掘的频率;收集数据的主要方法就是去网上抓取网页,然后解析抓取的网页,保存这些网页的内容。所述收集最新具有时效性的规范数据集具体包括,所述最新具有时效性的不规范数据集主要是指用户查询日志、微博和聊天记录等一些短文本的数据,这些短文本数据一般是所有的网民都可以编辑,语言往往不规范,但其内容中常常含有当前最新的新词用语;因此,可以收集最新的具有时效性的不规范数据集作为新词发现的数据集。所述收集历史规范数据集具体包括,历史规范数据集主要指一些历史的规范网页数据,由于常用的文本数据中往往包括一些常用的高频串,但是这些高频串已经不是一个词(一般历史数据集中的词都已经加入词典,在切词时可以识别),而是我们汉语语言中通用的一些语言词与词的连接习惯;因此,需要从历史网页数据中挖掘出常用的非词高频串,可以用于过滤候选新词。步骤S102,挖掘规范数据集中的可能新词作为第一候选新词集,挖掘不规范数据集中的可能新词作为第二候选新词集,挖掘历史规范数据集中的可能新词作为初始化的非词闻频串;
其中,所述挖掘规范数据集中的可能新词作为第一候选新词集具体包括,从规范数据集中挖掘出可能的新词作为第一候选新词集。所述第一候选新词一般可能包含真正的新词、汉语闻频串等。
挖掘新词的算法有很多,比如可以使用nagao串频统计算法来发现新词。
nagao串频统计算法是1954年由东京大学的长尾真(makoto nagao)提出的一种串频统计算法。这种算法的核心就是对文本中的射串进行排序构成一个有序射串。
nagao串频统计算法的处理流程如下
(I)读入汉语语料库C,包括汉字、标点、段落分隔标识、文件分隔标识等所有字符, 都看成一个很长的字符串读入内存,并以Unicode编码。每个字符占2字节空间。用Ci表示C中第i个字符。
(2)构造一个长为m的P表P表的每一项Pi保存一个指向C中子串Si的指针。 Pi指向的子串Si定义为从Pi所指字符Ci到C中最后一个字符Cm中的m-i+1个字符所组成的字符串。
(3)构造一个长为m的L表在已排序的P表的基础上构建记录相邻子串相同最长左子串长度的L表,L表与P表大小相同,其中的表项Li记录排序后相邻子串Spi-I 和Spi相同最长左子串长度,即从串首开始相同字符的个数(Ll=O)。
(4)提取N元统计串的输入包括P表、L表、N, N是指要提取的几元串,输出是所有N元统计串及其频次。
提取流程如下
Pl指向的N元串赋给X,X的频次置为I
For i=2 to m
If Li>=N
X的频次加I
Else
输出X及其频次
Pi指向的N元串赋给X,X的频次置为I
输出最后的X及其频次。
其中,挖掘不规范数据集中可能新词作为第二候选新词集具体包括,
从不规范数据集中挖掘出可能的新词作为第二候选新词集。当然可以使用从规范数据集中挖掘新词的算法。第二候选新词集中可能包含真正的新词、汉语高频串、错误的串等。
其中,挖掘历史规范数据集中可能新词作为初始化的非词高频串具体包括,
由于历史规范数据集中的词基本都在分词的词表中,几乎没有新词。因此,通过新词挖掘算法从历史规范数据集中挖掘的新词基本上全是非词的高频串,也就是汉语高频串O
从历史规范数据集中挖掘出可能的新词作为非词的高频串。当然挖掘算法可以使用从规范数据集中挖掘新词的算法。
步骤S103,将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候CN 102929862 A书明说5/6页选新词集;从第三候选新词集中过滤掉非词的高频串,获得新词集;
所述将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集具体包括,
第一候选新词集主要是从规范数据集中挖掘的新词,这里面主要包括新词和汉语高频串。第二候选新词集中主要是从不规范数据集中挖掘的新词,这里面主要包括新词、汉语高频串和短文本中一些常用错误串。将第一候选新词集和第二候选新词集匹配,可以过滤掉短文本中常用的错误串,同时也可以发现在第二候选新词集中出现频次不高但是在第一候选新词集中出现的新词。
因此,将第一候选新词集和第二候选新词集进行加权匹配过滤得到的第三候选新词集,可以过滤掉一些常用错误串,充分利用规范数据集和不规范数据集的特点,挖掘一下出现频次不高的新词。
所述从第三候选新词集中过滤掉非词的高频串,获得新词集,具体包括,
经过过滤,第三候选新词集中错误串比例大幅度下降,但是还含有很多非词的高频串。
因此,从第三候选新词集中过滤掉非词的高频串,得到新词集。新词集4中的词基本上就是新词。
在该实施例中,还可以包括,
步骤S104,人工过滤新词集,得到最终的新词结果;同时,将不是新词的串加入到非词的高频串集合中。
具体地,人工过滤主要就是指人工审查一下挖掘出的新词,判断一下这些词是否是真正的新词,把真正的新词筛选出来,不是新词的串加入到非词的高频串集合中。
经过过滤算法后获得的新词集中噪音基本上非常小,新词集的数据量不好很庞大。然后,人工过滤一遍新词集,获得最终的新词结果;同时,将不是新词的串加入非词的高频串集合。
如图2所述,是本发明第二实施例结构图,提供了一种新词获取系统,具体包括,
数据收集模块201,用于收集最新具有时效性的规范数据集和不规范数据集,以及,收集历史规范数据集;
新词挖掘模块202,用于挖掘规范数据集中的可能新词作为第一候选新词集,挖掘不规范数据集中的可能新词作为第一候选新词集,以及挖掘历史规范数据集中的可能新词作为初始化的非词高频串;
新词过滤模块203,用于将第一候选新词集和第二候选新词集进行加权匹配过滤, 得到第三候选新词集;从第三候选新词集中过滤掉非词的高频串,获得新词集。
上述系统中,所述新词过滤模块还用于,人工过滤新词集,得到最终的新词结果, 以及将不是新词的串加入到非词的高频串集合中。
上述系统中,所述最新具有时效性的规范数据集包括一些新闻网页和最新编辑的正规网页数据;
所述最新具有时效性的不规范数据集包括用户查询日志、微博和聊天记录等一些短文本的数据;
历史规范数据集包括一些历史的规范网页数据;8
所述第一候选新词包含,真正的新词、汉语高频串;
第二候选新词集中包含,真正的新词、汉语高频串、错误串。
上述系统中,所述新词过滤模块用于将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集具体包括,
所述新词过滤模块用于将第一候选新词集和第二候选新词集匹配,过滤掉短文本中常用的错误串,同时发现在第二候选新词集中出现频次不高但是在第一候选新词集中出现的新词以挖掘出现频次不高的新词。
由上述技术方案可见,本发明实施例在发现新词时,充分利用了不同数据集的特点,采用了规范数据集与非规范数据集以及历史数据集结合的方法,通过合理的过滤算法, 大大提高了新词发现的准确性,减少了人工过滤的时间,提高了新词发现的效率,有效的减省了人力。
上述说明示出并描述了本发明的一个优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、 修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
权利要求
1.一种新词获取方法,其特征在于,包括, 收集最新具有时效性的规范数据集和不规范数据集,以及,收集历史规范数据集; 挖掘规范数据集中的可能新词作为第一候选新词集,挖掘不规范数据集中的可能新词作为第二候选新词集,挖掘历史规范数据集中的可能新词作为初始化的非词高频串; 将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集;从第三候选新词集中过滤掉非词的高频串,获得新词集。
2.根据权利要求I所述的方法,其特征在于,还包括, 人工过滤新词集,得到最终的新词结果。
3.根据权利要求2所述的方法,其特征在于,还包括, 将不是新词的串加入到非词的高频串集合中。
4.根据权利要求I至3任一所述的方法,其特征在于,所述最新具有时效性的规范数据集包括一些新闻网页和最新编辑的正规网页数据; 所述最新具有时效性的不规范数据集包括用户查询日志、微博和聊天记录等一些短文本的数据; 历史规范数据集包括一些历史的规范网页数据。
5.根据权利要求4所述的方法,其特征在于, 所述第一候选新词包含,真正的新词、汉语高频串; 第二候选新词集中包含,真正的新词、汉语高频串、错误串。
6.根据权利要求5所述的方法,其特征在于,所述将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集具体包括, 将第一候选新词集和第二候选新词集匹配,过滤掉短文本中常用的错误串,同时发现在第二候选新词集中出现频次不高但是在第一候选新词集中出现的新词以挖掘出现频次不闻的新词。
7.一种新词获取系统,其特征在于,包括, 数据收集模块,用于收集最新具有时效性的规范数据集和不规范数据集,以及,收集历史规范数据集; 新词挖掘模块,用于挖掘规范数据集中的可能新词作为第一候选新词集,挖掘不规范数据集中的可能新词作为第二候选新词集,以及挖掘历史规范数据集中的可能新词作为初始化的非词闻频串; 新词过滤模块,用于将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集;从第三候选新词集中过滤掉非词的高频串,获得新词集。
8.根据权利要求7所述的系统,其特征在于,所述新词过滤模块还用于,人工过滤新词集,得到最终的新词结果,以及将不是新词的串加入到非词的高频串集合中。
9.根据权利要求8所述的系统,其特征在于,所述最新具有时效性的规范数据集包括一些新闻网页和最新编辑的正规网页数据; 所述最新具有时效性的不规范数据集包括用户查询日志、微博和聊天记录等一些短文本的数据; 历史规范数据集包括一些历史的规范网页数据; 所述第一候选新词包含,真正的新词、汉语高频串;第二候选新词集中包含,真正的新词、汉语高频串、错误串。
10.根据权利要求9所述的系统,其特征在于,所述新词过滤模块用于将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集具体包括, 所述新词过滤模块用于将第一候选新词集和第二候选新词集匹配,过滤掉短文本中常用的错误串,同时发现在第二候选新词集中出现频次不高但是在第一候选新词集中出现的新词以挖掘出现频次不高的新词。
全文摘要
本发明涉及互联网信息处理领域,提供了一种新词获取方法,包括,收集最新具有时效性的规范数据集和不规范数据集,以及,收集历史规范数据集;挖掘规范数据集中的可能新词作为第一候选新词集,挖掘不规范数据集中的可能新词作为第二候选新词集,挖掘历史规范数据集中的可能新词作为初始化的非词高频串;将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集;从第三候选新词集中过滤掉非词的高频串,获得新词集。本发明还提供了一种新词获取系统。采用本发明的技术方案,充分利用了不同数据集的特点,通过合理的过滤算法,大大提高了新词发现的准确性,减少了人工过滤的时间,提高了新词发现的效率。
文档编号G06F17/27GK102929862SQ20121043856
公开日2013年2月13日 申请日期2012年11月6日 优先权日2012年11月6日
发明者周步恋, 雷大伟, 石志伟, 车天文, 杨振东, 王更生, 王喜民, 何宏靖, 徐忆苏 申请人:深圳市宜搜科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1