一种短文本的新词发现方法和系统的制作方法

文档序号:6610316阅读:179来源:国知局
专利名称:一种短文本的新词发现方法和系统的制作方法
技术领域
本发明涉及一种文本信息处理领域,特别是涉及一种从短文本中发现新词 的方法和系统。
背景技术
在自然语言处理或计算语言学中,新词是指以前从来没有出现过的词汇, 或者是以前出现过的词汇的新用法。新词一般在词典中没有收录,因此也有不 少人把新词等同于未登录词。
随着时代的进歩和经济的发展,在人们日常生活的各方各面都不断涌现出 大量的新词,尤其是随着互联网在中国的日益普及,大量网络新词层出不穷, 日常生活中产生的新词也得以更快的传播。据报道,我国每年至少出现汉语新词或新用法1000个以上。由于移动通信在中国的普及,手机短信在中国成了 男女老少都喜欢的交流方式,在手机短信中也产生了很多新词语、新说法;即
时通信软件,如腾讯QQ、微软MSN、雅虎通、Google Talk、 AOL的ICQ等,都拥有庞大的用户群,每时每刻都有无数即时消息从互联网发送;在线聊天室、 BBS等也都有集聚了众多的眼球……有大量新词是通过手机短信、即时消息、 BBS等创造并传播的,从这些短文本中发现新词也具有巨大的商业价值。
现有技术的一种利用搜索引擎的用户搜索日志来发现新词的方法,在大量 用户提交的搜索关键词中统计各关键词的出现频次,如果大于某个预先设定的 阈值,则作为新词输出。该技术能够比较准确、实时地发现互联网的新词,但 是该方法所需要的搜索日志一般只有商用搜索引擎公司可以获得,一般用户根 本无法使用该方法。也有学者提出了 "有意义串"的概念,有意义串一般认为是具有特定语义, 能够独立使用的语言单位,其很大一部分就是新词。
现有技术中通过考査字符串的稳定性、独立性和完整性三个方面来判断字 符串是否是有意义串。有意义串的稳定性是指一个有意义串应该具有一定的使 用频次,不是偶尔出现的字符串;有意义串的独立性是指有意义串应该使用灵 活,可以在很多语用环境中出现;有意义串的完整性是指有意义串应具有完整 的语义。现有技术中,判断一个字符串是否是有意义的, 一般也可以从稳定性、独 立性和完整性三个方面考査。首先统计字符串在语料中的出现频次,如果字符 串的出现频次大于一定阈值, 一般认为字符串是稳定的;再统计字符串在语料 中所有出现位置左侧和右侧不同的字符或词语的数量,如果左右两侧不同的字 符或词语数量大于一定阈值,则认为字符串是独立的;然后判断字符串是否是 完整的,即当且仅当不存在任何字符串B,字符串A是字符串B的子串,且 字符串A的出现频次也大于预先设定的阈值,则认为字符串A是完整的。但是,基于字符串的稳定性、独立性和完整性三个方面判断字符串是否为 有意义串或新词的方法,只适合于从大规模语料中发现新词。当给定的语料只是一个较短的文本,如一篇文章, 一个段落,甚至只有一 个句子, 一条手机短信或一条即时消息时, 一般情况下该短文本中很难出现频 次较高的字符串。而现有技术基于搜索日志的新词发现方法需要大量的搜索日 志,基于字符串稳定性、独立性和完整性的新词发现方法也需要大规模的语料, 这些新词发现方法几乎都不可能发现单个短文本中的新词。例如,如果用户只 给定了一个句子"今年的足球宝贝真漂亮!",假定词典中已经包含词语今年、 的、足球、宝贝、真、漂亮,现有方法不能从单独的这个句子中发现"足球宝 贝"是一个新词。发明内容本发明所要解决的技术问题在于提供一种短文本的新词发现方法和系统, 能够有效地从很短的文本中发现新词。为了解决上述问题,本发明提供了一种短文本的新词发现方法,包括以下 步骤步骤A,获取短文本的所有连续的多个字符或词语的组合,构成候选新词隹厶.朱口 ;步骤B,利用设置的系统词典库,过滤并确定符合预先设定规则的候选新词;
步骤C,将候选新词作为査询关键词,在搜索引擎中搜索,并由此统计返 回的搜索结果数量以及搜索结果记录;歩骤D,根据搜索模块得到的精确搜索结果数和模糊搜索结果数,以及搜 索结果记录,判断候选新词是否为最终新词。所述搜索为精确搜索,或者精确搜索和模糊搜索; 所述搜索结果数量为精确搜索结果数量、模糊搜索结果数量; 所述搜索结果记录为精确搜索结果中的前多条精确搜索结果记录。 所述判断候选新词是否为最终新词,包括以下步骤中的一个或者一个以上步骤的组合歩骤D1,如果精确搜索结果数量大于第一预定阈值,则将候选新词作为 最终新词输出;步骤D2,如果精确搜索结果数与模糊搜索结果数的比值大于第二预定阈 值,则将候选新词作为最终新词输出;步骤D3,如果在前多条精确搜索结果记录中候选新词左右侧不同的字符 或词语数量均大于第三预定阈值,则将候选新词作为最终新词输出。所述歩骤A还可以包括下列步骤步骤A1,设定一预定阀值,短文本中所有连续多个字符或者词语组合所 包含的字符或词语长度小于所述预定阈值。步骤A2,将所述组合限制在一个句子, 一个分句或所有以标点符号隔开 的句子单元中。所述步骤B可以包括下列步骤步骤B1,在确定符合预先设定规则的候选新词时,如果一个候选新词在 系统词典库出现,则去掉该候选新词;步骤B2,在确定符合预先设定规则的候选新词时,去掉以特定字符或词 语开始的候选新词。为实现本发明还提供一种短文本的新词发现系统,包括获取模块,过滤模 块、搜索模块、判断模块,其中-所述获取模块,获取短文本的所有连续的多个字符或词语的组合,构成候 选新词集合;所述过滤模块,用于利用设置的系统词典库,过滤并确定符合预先设定规
则的候选新词;所述搜索模块,用于将候选新词作为査询关键词,在搜索引擎中搜索,并由此统计返回的搜索结果数量以及搜索结果记录;所述判断模块,用于根据搜索模块得到的精确搜索结果数和模糊搜索结果数,以及搜索结果记录,判断候选新词是否为最终新词。 所述搜索为精确搜索,或者精确搜索和模糊搜索; 所述搜索结果数量为精确搜索结果数量、模糊搜索结果数量; 所述搜索结果记录为精确搜索结果中的前多条精确搜索结果记录。 所述判断模块,包括第一判断模块,第二判断模块,第三判断模块,其中 所述第一判断模块,用于当精确搜索结果数量大于第一预定阈值,则将候选新词作为最终新词输出;所述第二判断模块,用于当精确搜索结果数与模糊搜索结果数的比值大于第二预定阈值,则将候选新词作为最终新词输出;所述第三判断模块,用于当前多条精确搜索结果记录中候选新词左右侧不同的字符或词语数量均大于第三预定阈值,则将候选新词作为最终新词输出。 所述的阀值分别通过预先设定而得到,或者通过语料训练而得到。 本发明的短文本的新词发现方法和系统与现有技术相比,具有以下优点1、采用计算机自动处理,能够有效发现短文本中的新词。2、能够有效发现那些在语料中出现频次非常低,甚至只出现一次的新词。


图1是本发明短文本的新词发现方法的流程示意图; 图2是本发明短文本的新词发现系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明的一种短文本的新词发现方法和系统进行进一步详细说明。应 当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明的核心思想在于,当文本规模非常小,甚至只有一个句子时,能够 有效发现短文本中的新词。并且,本发明用搜索引擎分别精确搜索和模糊搜索
短文本中的候选新词,这相当于使用了搜索引擎庞大的数据库作为语料,相当 于扩展文本的规模,从而能够发现短文本中的新词。如图1所示,本发明利用搜索引擎从短文本中发现新词的方法包括以下歩骤步骤IOI,获取短文本的所有连续的多个字符或词语的组合,构成候选新 词集合;获取短文本中所有候选新词,产生短文本中所有连续的字符或词语的组合。其中,既可以获取短文本中所有连续若干字符的组合,也可以获取连续若 干词语的组合。所述短文本既可以是一个句子,也可以是多个句子的组合。 较佳地,为了降低处理规模,可以对组合包含的字符或词语数设定一个最 大值,即候选新词长度小于一阈值。并且,可以将组合限制在一个句子, 一个 分句或所有以标点符号隔开的句子单元中,即保证候选新词中不出现逗号、句 号、疑问号、感叹号等标点符号。歩骤102,利用设置的系统词典库,过滤并确定符合预先设定规则的候选 新词。其中,可以设置一个系统词典库,如果一个候选新词在系统词典库中出现, 则去掉该候选新词。还可以去掉以某些特定字符或词语开始的候选新词。步骤103,将候选新词作为査询关键词,在搜索引擎中进行精确搜索,或 进行精确搜索和模糊搜索,并由此统计返回的精确搜索结果数量、模糊搜索结 果数量、以及返回的精确搜索结果中的前多条精确搜索结果记录。其中,通过将候选新词作为査询关键词,到搜索引擎进行精确搜索,可获 得返回的精确搜索结果数量和前多条精确搜索结果记录。通过将候选新词作为 查询关键词直接输入到搜索框査询,到搜索引擎进行模糊搜索,可获得返回的 模糊搜索结果数量。所述的前多条精确搜索结果记录,指利用搜索引擎进行精确搜索,得到的 结果记录中,排序在前的,并被搜索引擎认为,与査询关键词相关度较高的多 条搜索结果记录,例如,利用Google搜索引擎进行精确搜索,返回得到10000 条搜索结果记录,则前多条精确搜索结果记录,可以是其返回结果中的前10
条或者前100条等精确搜索结果记录。
所述搜索引擎是一种现有技术,如Google搜索引擎,百度搜索引擎,Yahoo 搜索引擎等各种公开公用的搜索引擎或者其它的专用搜索引擎。在这些搜索引 擎中,可以进行精确搜索和模糊搜索,并获得搜索结果及其排名。本领域技术 人员根据本发明的描述,可以实现通过现有搜索引擎利用精确搜索和模糊搜 索,获得搜索结果和排名,因此,在本发明中不再一一详细描述。
步骤104,根据搜索模块得到的精确搜索结果数和模糊搜索结果数,以及 精确搜索结果记录,判断候选新词是否为最终新词。
在本发明中,可以通过如下几个步骤中的其中一个或任意几个步骤来判断确定最终新词(1) 如果精确搜索结果数量大于第一预定阈值,则将候选新词作为 最终新词输出。(2) 如果精确搜索结果数与模糊搜索结果数的比值大于第二预定阈 值,则将候选新词作为最终新词输出。(3) 如果在前多条精确搜索结果记录中候选新词左右侧不同的字符 或词语数量均大于第三预定阈值,则将候选新词作为最终新词 输出。
例如,如果对于候选新词"足球宝贝",在比较常用的搜索引擎如百度中 精确搜索"足球宝贝"可以返回4,440,000个返回结果,模糊搜索"足球宝贝" 可以返回4,450,000个返回结果,可以看出"足球宝贝" 一词在互联网上已经 非常频繁地出现了,把"足球宝贝"作为新词输出。
再例如,若将第二阈值设为60%,如果某个候选新词的精确搜索结果为 2000个,模糊搜索结果为3000个,那么两者比值为66.6%,大于该第二阈值 60%,故应将该候选新词作为新词输出。
再例如,若候选新词"禽流感"有如下五条返回结果记录 钟南山透霧禽流感病毒滞未剪显^异。 广东游你控禽流感形势遭缓。 有7 乂感染禽流感事伴。 发观 一宗禽流感疑似病树。
领布5条禁令防控禽流感。 则"禽流感"左侧的字符分别为{露,控,染,宗,控},右侧的字符为{病,形,事,疑,EOS},因此左侧不同的字符为{露,控、染,宗},右侧不同的 字符为{病,形,事,疑,EOS},其中EOS表示句子结束。在百度中精确搜索"火速桌面搜索"返回2,690个结果,而模糊搜索"火 速桌面搜索"返回250,000个结果。获取精确搜索"火速桌面搜索"的前100 条结果记录,"火速桌面搜索"左右侧不同的字符数分别为124和97,若左 右侧不同字符数阈值为90,则"火速桌面搜索"作为新词输出。相应于本发明的短文本新词发现方法,本发明还提供一种短文本的新词发 现系统,如图2所示,其包括获取模块21,过滤模块22、搜索模块23、判断 模块24,其中所述获取模块21,获取短文本的所有连续的多个字符或词语的组合,构 成候选新词集合。所述过滤模块22,用于利用设置的系统词典库,过滤并确定符合预先设 定规则的候选新词。所述搜索模块23,用于将候选新词作为查询关键词,在搜索引擎中搜索, 并由此统计返回的搜索结果数量以及搜索结果记录。所述判断模块24,用于根据搜索模块得到的精确搜索结果数和模糊搜索 结果数,以及精确搜索结果记录,判断候选新词是否为最终新词。较佳地,所述判断模块24,包括第一判断模块241,第二判断模块242, 第三判断模块243,其中所述第一判断模块241,用于当精确搜索结果数量大于第一预定阈值,则 将候选新词作为最终新词输出;所述第二判断模块242,用于当精确搜索结果数与模糊搜索结果数的比值 大于第二预定阈值,则将候选新词作为最终新词输出;所述第三判断模块243,用于当前多条精确搜索结果记录中候选新词左右 侧不同的字符或词语数量均大于第三预定阈值,则将候选新词作为最终新词输 出。本发明的短文本新词发现系统,以与本发明的短文本新词发现方法相同的
过程工作,因此,在本发明实施例中,不再一一重复描述。下面结合图1,以一具体实施例详细说明本发明在短文本中发现新词的方 法和系统。例如,如果用户只给定了一个句子"今年的足球宝贝真漂亮!",如系统 词典库只已经包含词语今年、的、足球、宝贝、真、漂亮,现有方法几乎都不 可能从单独的这个句子中发现"足球宝贝"是一个新词,而候选新词"足球宝贝"在比较常用的搜索引擎如百度中精确搜索"足球宝贝"可以返回4,440,000 个返回结果,模糊搜索"足球宝贝"可以返回4,450,000个返回结果,可以看 出在一般网页中若既出现"足球"一词,又出现"宝贝"一词,则很可能是"足 球"和"宝贝"连续出现且"足球"在"宝贝"之前,候选新词"足球宝贝" 很可能是一个新词。如图1中步骤101所示,获取文本中所有候选新词,就是产生文本中所 有连续的字符或词语的组合。例如若字符组合最大长度为4,则文本"今年的 足球宝贝真漂亮"包含的候选新词有*今年、年的、的足、足球、球宝、宝贝、贝真、真漂、漂亮 *今年的、年的足、的足球、足球宝、球宝贝、宝贝真、真漂亮 *今年的足、年的足球、的足球宝、足球宝贝、球宝贝真、宝贝真漂、 贝真漂亮如图1步骤102所示,确定符合预先设定规则的候选新词,就是对歩骤 101中产生的候选新词按照一些规则进行过滤,例如,系统词典库已经包含词语今年、足球、宝贝、漂亮,则可以过滤掉这些词典已有词语。确定符合预先设定规则的候选新词,还可以过滤掉一些不能成为新词的字 符串,如过滤掉以特定字符开始或结束的字符串,例如以"的"开始的候选新词不能为新词,从而可以过滤掉候选新词的足、的足球、的足球宝。如图1步骤103所示,将候选新词作为出现关键词到搜索引擎(如Google) 做精确搜索和模糊搜索,获取精确搜索和模糊搜索的返回结果数,以及精确搜 索的前多条搜索返回结果记录。如图1歩骤104所示,判断候选新词是否为新词,可以从精确搜索返回结 果数、模糊搜索返回结果数来判断,例如若精确搜索返回结果数大于一阈值, 且精确搜索返回结果数与模糊搜索返回结果数之比大于一阈值,则将候选新词
作为新词输出。或者,如图1步骤104所示,判断候选新词是否为新词,还可以统计在精 确搜索前多条记录中候选新词左侧和右侧的不同字符(或词语)数量,如果不 同字符(或词语)的数量大于一阈值,则将字符串作为新词输出。本发明中所述的所有阀值可以分别通过预先设定而得到,也可以通过语料 训练而得到。语料训练方法是一种现有技术,如通过隐马尔可夫模型(Hidden Markov Model, HMM)对训练语料进行训练的方法。其不是本发明的发明点,因此, 在本发明中不再一一详细描述。本发明的短文本新词发现方法和系统与现有技术相比,采用计算机自动处 理,能够有效发现短文本中的新词,发现那些在语料中出现频次非常低,甚至 只出现一次的新词。当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情 况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变型,但 这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
权利要求
1、一种短文本的新词发现方法,其特征在于,包括以下步骤步骤A,获取短文本的所有连续的多个字符或词语的组合,构成候选新词集合;步骤B,利用设置的系统词典库,过滤并确定符合预先设定规则的候选新词;步骤C,将候选新词作为查询关键词,在搜索引擎中搜索,并由此统计返回的搜索结果以及搜索结果记录;步骤D,根据搜索模块得到的精确搜索结果数和模糊搜索结果数,以及精确搜索结果记录,判断候选新词是否为最终新词。
2、 根据权利要求1所述的短文本的新词发现方法,其特征在于,所述搜 索为精确搜索,或者精确搜索和模糊搜索-,所述搜索结果数量为精确搜索结果数量、模糊搜索结果数量; 所述搜索结果记录为精确搜索结果中的前多条精确搜索结果记录。
3、 根据权利要求1或2所述的短文本的新词发现方法,其特征在于,所 述判断候选新词是否为最终新词,包括以下步骤中的一个或者一个以上步骤的 组合步骤D1,如果精确搜索结果数量大于第一预定阈值,则将候选新词作为 最终新词输出;步骤D2,如果精确搜索结果数与模糊搜索结果数的比值大于第二预定阈 值,则将候选新词作为最终新词输出;步骤D3,如果在前多条精确搜索结果记录中候选新词左右侧不同的字符 或词语数量均大于第三预定阈值,则将候选新词作为最终新词输出。
4、 根据权利要求1所述的短文本的新词发现方法,其特征在于,所述步 骤A还包括下列步骤步骤A1,设定一预定阀值,短文本中所有连续多个字符或者词语组合所 包含的字符或词语长度小于所述预定阈值。步骤A2,将所述组合限制在一个句子, 一个分句或所有以标点符号隔开 的句子单元中。
5、 根据权利要求1所述的短文本的新词发现方法,其特征在于,所述步 骤B包括下列步骤步骤Bl,在确定符合预先设定规则的候选新词时,如果一个候选新词在 系统词典库出现,则去掉该候选新词;歩骤B2,在确定符合预先设定规则的候选新词时,去掉以特定字符或词语开始的候选新词。
6、 一种短文本的新词发现系统,其特征在于,包括获取模块,过滤模块、搜索模块、判断模块,其中所述获取模块,获取短文本的所有连续的多个字符或词语的组合,构成候选新词集合;所述过滤模块,用于利用设置的系统词典库,过滤并确定符合预先设定规则的候选新词;所述搜索模块,用于将候选新词作为查询关键词,在搜索引擎中搜索,并 由此统计返回的搜索结果以及搜索结果记录;所述判断模块,用于根据搜索模块得到的精确搜索结果数和模糊搜索结果 数,以及搜索结果记录,判断候选新词是否为最终新词。
7、 根据权利要求6所述的短文本的新词发现系统,其特征在于,所述搜 索为精确搜索,或者精确搜索和模糊搜索;所述搜索结果为精确搜索结果数量、模糊搜索结果数量; 所述搜索结果记录为精确搜索结果中的前多条精确搜索结果记录。
8、 根据权利要求6或7所述的短文本的新词发现系统,其特征在于,所 述判断模块,包括第一判断模块,第二判断模块,第三判断模块,其中所述第一判断模块,用于当精确搜索结果数量大于第一预定阈值,则将候 选新词作为最终新词输出;所述第二判断模块,用于当精确搜索结果数与模糊搜索结果数的比值大于 第二预定阈值,则将候选新词作为最终新词输出;所述第三判断模块,用于当前多条精确搜索结果记录中候选新词左右侧不 同的字符或词语数量均大于第三预定阈值,则将候选新词作为最终新词输出。
9、 根据权利要求8所述的短文本的新词发现系统,其特征在于,所述的 阀值分别通过预先设定而得到,或者通过语料训练而得到。
全文摘要
本发明公开了一种从短文本中发现新词的方法,包括以下步骤获取短文本中所有多个连续字符或词语,构成候选新词集合;确定符合预先设定规则的候选新词;将候选新词作为查询关键词,在搜索引擎中进行精确搜索和模糊搜索,获取返回结果的数量和前多条精确搜索结果记录;利用搜索引擎精确搜索返回结果数、模糊搜索结果数、精确搜索前多条结果记录等判断候选新词是否为新词。本发明所述方法能够发现短文本中出现的新词,即便该新词在短文本中就只出现一次,同时新词发现的准确率也很高。
文档编号G06F17/27GK101118556SQ20071012187
公开日2008年2月6日 申请日期2007年9月17日 优先权日2007年9月17日
发明者黄玉兰, 龚才春 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1