一种提取新词的方法和系统的制作方法

文档序号:6560150阅读:141来源:国知局
专利名称:一种提取新词的方法和系统的制作方法
技术领域
本发明涉及互联网信息处理领域,特别是涉及一种从互联网信息中提取新词的方法和系统。
背景技术
互联网的出现在很大程度上是对语言文字发展的一大革命,文字内容的剧增,崭新的内容的出现都使得语言文字经历了一次大的变革。人们不仅仅看报纸杂志上面的文章,更多的会阅读互联网上的文章。随着时间的推移,互联网上的文字内容越来越丰富,已经是传统报纸杂志的文字信息所不能比拟的了。而且,随着信息传播的加速,新的字词以超乎寻常的速度在互联网上传播,短时间内就会有大量的新词出现。以前,个人在报纸杂志上发表文章很困难,而进入互联网时代,每个人都可以在网络上发表自己的看法,输入的文字也会越来越个性化,随着互联网用户的不断增多,个人的文章文字也不断增多,个性化的新的字词也不断的涌现出来。例如,“互联网”在若干年以前不是一个词,但现在它却作为一个词在广泛地使用。
由于在很多语言处理技术中,词是最基本的分析元素,因此需要及时有效的获取新出现的词,以保证语言处理技术的准确性。例如,具有不同属性的词汇表是自然语言理解、机器翻译、自动撰写摘要等的基础。为了检索信息,总是用词作为搜索单位来减少检索结果的冗余。在语音识别中,也通常把词作为最低层次的语言信息,并基于词建立语言模型,以解决单字层次上的声觉不确定性。
但是由于新词不断出现,并且分散在庞杂的语料库中,很难及时有效的将新词分辨出来。现有技术一般采用由人工收集新词,加入到现有词库中的方式。
例如,新词由搜索网站的管理者人工收集,然后加入该网站使用的定制词库;或者由词库开发者人工收集,然后归入下一代使用的系统词典中(通常可以用于输入法等领域);或者设置一公共词库(例如,紫光),然后由网友或者其他公众人工累积收集新词,加入到该公共词库中,可以集合大量人工的力量。但是上述的这些方式,都非常耗费时间、工作繁重、劳动密集、效率低下。因此,人们迫切需要一种能够从庞杂的语言使用中及时有效获取新词的方法。

发明内容
本发明所要解决的技术问题是提供一种新词提取方法和系统,可以简单方便、及时有效的自动获取互联网上出现的新词。
为解决上述技术问题,本发明提供了一种提取新词的方法,包括以下步骤获取搜索引擎的查询关键词字符串;确定符合预置规则的字符串;对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;如果所述符合预置规则的字符串的出现次数大于或者等于预置阀值,则将该字符串作为新词输出。
优选的,通过以下步骤确定符合预置规则的字符串将所述获取的查询关键词字符串与原有词库中的词条记录进行比对;去除在原有词库中已有记录的查询关键词字符串。
优选的,所述确定符合预置规则的字符串的步骤包括去除在查询日志中出现次数小于或者等于预置阀值的查询关键词字符串。
所述确定符合预置规则的字符串的步骤还可以包括去除字符串长度不在预置范围内的查询关键词字符串;或者去除不符合构词法则的查询关键词字符串。
优选的,所述的提取新词的方法,还包括搜索引擎判断所述查询关键词字符串是否具有对应的用户点击行为;如果有,则存储该查询关键词字符串;如果没有,则丢弃该查询关键词字符串。
优选的,所述确定符合预置规则的字符串的步骤包括去除所述获取的查询关键词字符串中的无效字符;或者根据分隔符对所述获取的查询关键词字符串进行分割。
优选的,所述的提取新词的方法,还包括根据输出的新词生成新词库或者将得到的新词添加至原有词库,得到新词库或者新版的全词库。
优选的,所述的提取新词的方法,还包括设置包含系统词库的输入法系统位于第一计算设备中,所述新词库或者新版的全词库位于第二计算设备中;所述输入法系统通过第一计算设备连接所述第二计算设备完成系统词库的更新。
优选的,所述的提取新词的方法,还包括设置输入法系统中用于接收用户输入信息和显示相应字符的单元位于第一计算设备中;设置所述新词库或者新版的全词库为输入法系统的系统词库,所述系统词库位于第二计算设备中;所述输入法系统根据用户输入的信息,从位于第二计算设备中的系统词库获取相应信息,在第一计算设备显示相应字符。
优选的,通过以下步骤获得预置的互联网页面数据库对互联网页面进行权重赋值;将权重值大于或者等于预置阀值的互联网页面存储至互联网页面数据库。
本发明还提供了一种提取新词的系统,包括接口单元,用于获取搜索引擎的查询关键词字符串;过滤单元,用于确定符合预置规则的字符串;互联网页面数据库,用于存储互联网页面信息;统计单元,对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;新词确定单元,判断所述符合预置规则的字符串的出现次数是否大于或者等于预置阀值;如果是,则将该字符串作为新词输出。
其中,所述过滤单元可以包括以下模块中的任一个或者多个比对模块,用于将所述获取的查询关键词字符串与原有词库中的词条记录进行比对;原有词库过滤模块,用于去除在原有词库中已有记录的查询关键词字符串。
频率过滤模块,用于去除在查询日志中出现次数小于或者等于预置阀值的查询关键词字符串。
长度过滤模块,用于去除字符串长度大于或者等于预置阀值的查询关键词字符串;或者构词法过滤模块,用于去除不符合构词法则的查询关键词字符串。
无效字符过滤模块,用于去除所述获取的查询关键词字符串中的无效字符;或者分割模块,用于根据分隔符对所述获取的查询关键词字符串进行分割。
优选的,所述的提取新词的系统,还包括词库管理单元,用于根据得到的新词生成新词库或者将得到的新词添加至原有词库。
优选的,所述词库管理单元位于第二计算设备中,所述的提取新词的系统还包括输入法单元,位于第一计算设备中,其中设置有系统词库;所述输入法单元通过第一计算设备连接所述词库管理单元完成系统词库的更新。
优选的,所述词库管理单元位于第二计算设备中,所述的提取新词的系统还包括输入法接收模块,用于接收用户输入信息,位于第一计算设备中;输入法显示模块,用于显示相应字符,位于第一计算设备中;所述输入法接收模块、输入法显示模块和词库管理单元相连接,根据用户输入的信息,从词库管理单元获取相应信息,在第一计算设备显示相应字符。
优选的,所述的提取新词的系统,还包括互联网页面数据库生成单元,用于对互联网页面进行权重赋值;并将权重值大于或者等于预置阀值的互联网页面存储至互联网页面数据库。
与现有技术相比,本发明具有以下优点首先,由于本发明以互联网搜索引擎的查询日志中的关键词为新词来源,可以大大减少对新词的初步分析的工作量(尤其相比于直接从语料库中分析而言);并且搜索引擎的查询日志中的关键词可以准确反映人们在语言使用上的趋势,几乎所有的互联网新词都会在这里出现,因此以互联网搜索引擎的查询日志中的关键词为新词来源可以保证获取得到的新词的代表性、全面性。
其次,本发明还可以对查询日志中的关键词字符串进行过滤和筛选,例如,去除现有词库中已有的、去除搜索频率较低的、去除格式不符的、去除用户输入后没有在搜索结果页面中进行点击行为的等等。上述过滤和筛选规则中,有些还可以直接在查询日志存储时就过滤掉,例如,存储时去除标点等无效字符、或者仅仅存储用户有点击行为的关键词字符串。通过上述的过滤规则的单独使用或者组合使用,可以大大增加本发明获取新词的速度和效率。
再者,本发明将获取的可能是新词的字符,放置在本发明提供的一精选互联网页面数据库中,进行匹配验证,如果在该数据库中出现的频率大于一预置阀值,则将该字符设置为新词。这样可以提高提取出来的新词的准确性,即真正属于语言意义上的新词,而非不具有普遍意义的词汇或者错误词汇。
另外,如果采用本发明所述方法提取出的新词应用在搜索领域,当用户的查询关键词字符串中包括新词时,可以提高搜索结果的精确度和覆盖度;如果采用本发明所述方法提取出的新词应用在输入法领域,则可以方便用户更快更准确的输入新词,不需要经过繁琐的候选词选择过程就可以在第一个或者第一页候选词中得到希望输入的字词。


图1是本发明实施例1的步骤流程图;图2是本发明实施例2的步骤流程图;图3是本发明实施例3的步骤流程图;图4是本发明应用于输入法的实施例4的步骤流程图;图5是本发明应用于输入法的实施例5的步骤流程图;图6是本发明所述新词提取系统的结构框图;图7a和图7b是图6所示系统应用于输入法中的系统框图。
具体实施例方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。
本发明的核心思想在于,以人们经常使用的搜索引擎的查询关键词字符串作为新词的来源,从中找出符合一定要求的字符串,然后将这些字符串放置在互联网环境中进行频率统计,如果被频繁使用,则认为该字符串为一个新词。依次对所有的查询关键词字符串完成上述步骤,就可以找出当前情况下互联网上使用的新词。当然,由于新词是随着社会的发展而不断出现的,因此需要周期性的进行新词的自动提取。
本发明所述提取新词的方法可以应用于各种语言,例如,中文、日文、韩文以及英文等,因为本发明在新词提取过程中,可以不进行分词处理。由于本发明在上述几种语言文字中的应用流程都是相似的,所以为了方便说明,下面仅仅对本发明应用在中文的情况进行说明。
参照图1,是本发明实施例1的步骤流程图,包括以下步骤步骤101、获取搜索引擎的查询关键词字符串。
搜索引擎在互联网信息传播中的作用非常重要。例如,百度搜索引擎可以搜索超过亿计的中文网页,接受来自全球各个国家的中文搜索请求。每一年可以完成对数十亿次搜索的响应,数千万的网民从百度分享到最纯粹的搜索体验,徜徉信息之海。
再例如,Google开发出了目前世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对40多亿网页进行整理,Google可为世界各地的用户提供适需的搜索结果。现在,Google每天可以提供超过2亿次查询服务。
总之,搜索引擎在互联网中的应用越来越广泛,由于其直接面对用户,所以可以保证新词的来源和准确性。
用户进行搜索的时候,需要输入查询关键词字符串,搜索引擎根据该查询关键词字符串在浩瀚的网页信息中寻找最符合该条件的网页信息。所述查询关键词字符串可以为较短的字符串,例如,“花”;也可以为较长的字符串,例如,“什么是组织单位代码证”;也可以为采用分隔符连接的多个字符串,例如,“酒吧 浪漫 静 北京”就是一个由四个字符串通过空格连接而成的查询关键词字符串。
当用户利用搜索引擎进行查询,则就可以在服务器上生成查询日志的一记录。如下为查询日志的一个片断,包括一条记录,对应某个用户使用搜索引擎的信息,包括日期Sun Dec 1 00:00:05 2002IP61.183.77.20是否在缓冲区命中Cache搜索关键字联合国查找到的结果数7其中是否在缓冲区命中一栏中cache表示命中,database表示没有命中;查询关键词字符串就为“联合国”。只要有一个用户使用一次搜索引擎,就会生成一条这样的日志记录。本发明就是利用该记录实现对新词的提取。
在实际的日志记录中,可以根据具体搜索引擎的设置如何存储关键词字符串,例如,对于“什么是组织单位代码证?”可以存储为“什么是组织单位代码证”,即仅仅去除标点字符;也可以存储为“组织单位代码证”,即还去除了疑问词等对搜索无效的字符。再例如,对于“酒吧 浪漫 静 北京”,可以直接存储为“酒吧 浪漫 静 北京”;也可以存储为“酒吧”“浪漫”“静”“北京”,因为用户采用了分隔符,故可以将其分别作为关键词字符串进行存储。
优选的,搜索引擎还可以设置仅仅存储用户根据搜索得到的结果进行了相关点击行为的查询关键词字符串,即如果用户对搜索得到的结果没有进行任何相应的点击,该查询关键词字符串可能输入错误或者在互联网信息中没有最相关信息,则将该查询关键词字符串丢弃,不予存储。例如,搜索引擎判断所述查询关键词字符串是否具有对应的用户点击行为;如果有,则存储该查询关键词字符串;如果没有,则丢弃该查询关键词字符串。这样可以减少日志存储量,也可以减少新词发现的数据分析量,提高效率。
当然,上述去除用户没有相应点击行为的查询关键词字符串的步骤,也可以作为步骤102中预置的过滤规则的一种情况,例如,从日志记录中获取查询关键词字符串以及相应的点击次数或者点击链接,如果没有相应点击行为,则去除该查询关键词字符串,不予进行后续的分析步骤。
上面对一些可能的查询关键词字符串的存储情况进行了简单说明,本领域技术人员可以根据具体应用进行相关设置即可,本发明不需要对此加以限制。
步骤102、确定符合预置规则的字符串。
所述预置规则可以为任意的规则,本领域技术人员可以根据需要、或者根据经验进行设定即可,对此本发明并不加以限定。下面举出一些比较优选的过滤规则进行说明。
优选的,本发明可以通过以下步骤确定符合预置规则的字符串将所述获取的查询关键词字符串与原有词库中的词条记录进行比对;去除在原有词库中已有记录的查询关键词字符串,得到在原有词库中没有记录的字符串。在该方法中所述预置规则即为在原有词库中没有记录,过滤掉已有词汇,可以避免无效、重复的计算过程,有助于节约资源和提高效率。
优选的,本发明还可以通过以下步骤确定符合预置规则的字符串去除在查询日志中出现次数小于或者等于预置阀值的查询关键词字符串。采用该预置规则可以淘汰那些在查询日志中出现不够频繁的查询,而仅仅对发生足够频繁的查询关键词字符串进行下一步骤的计算,因为出现不够频繁的查询一般对于语言意义上的新词发现而言是无效的或者意义不大的,所以采用该预置规则可以进一步减少计算量。
优选的,本发明还可以通过以下步骤确定符合预置规则的字符串去除所述获取的查询关键词字符串中的无效字符;或者根据分隔符对所述获取的查询关键词字符串进行分割,得到多个字符串。由于在有的查询日志中,“搜索关键字”一栏中存储的是“什么是组织单位代码证”而不是“组织单位代码证”,或者存储的是“酒吧 浪漫 静 北京”而不是“酒吧”、“浪漫”、“静”、“北京”,因此该步骤中可以去除无效字符“什么”和“是”,或者将“酒吧 浪漫 静 北京”根据分隔符(空格)进行分割得到单独的关键词,然后再进行下一步的计算。
去除无效字符的原因在于该无效字符并不是本发明感兴趣的新词。例如,在英文中的“a”、“the”,以及中文和日文中的“的”、“了”、“什么”等都是无效的功能字符。这些字符通常不能成为一个新词的结尾或者开头部分,因此,不管它们的词频统计有多少,都可以直接去除,对本发明的新词提取没有影响。
上述随意举出了几种优选过滤采用的预置规则,本领域技术人员可以在其中选用,也可以设定其他各种预置规则。并且,本领域技术人员可以仅仅采用一种过滤预置规则,也可以采用多种;在多种预置规则过滤步骤中,可以进行任意组合,也没有顺序限制。
例如,可能的其他过滤规则为去除字符串长度大于或者等于预置阀值的查询关键词字符串,用于去除可能为句子的查询;去除字符串长度小于或者等于预置阀值的查询关键词字符串,用于去除过短的查询(用户无意点击等);去除不符合构词法则的查询关键词字符串,用于去除那些明显不符合一般构词原则的查询;甚至还可以采用人工进行模糊过滤等方式。本领域技术人员根据具体情况(例如,不同时间进行不同的过滤策略),适当组合、选择预置规则,可以最佳的发挥本发明的技术功效。
另外,对于中文、日文和韩文等没有自然分隔符的文字而言,还有可能存在以下的情况对于类似“组织单位代码证”这样的查询,是否还需要进行分词,得到更为简短(通常为四字以下)的字符进行下一步计算。本发明对此并不加以限制,即可以分词,也可以不分词。将上述较长的字符串分词后再进行下一步计算,可以减少计算量,因为如果分词之后的单独的字符都是原有词的话,就可以不进行下一新词判断步骤了;但是有可能导致新词提取不全面的情况出现。而如果不进行分词,则会增加计算量,但是可以增加新词提取的全面性。本领域技术人员根据具体需要选择即可。
步骤103、对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计。
所述预置的互联网页面数据库可以为本领域技术人员精选出来的具有代表性的互联网页面信息数据库。优选的,本发明可以通过以下步骤获得预置的互联网页面数据库对互联网页面进行权重赋值;将权重值大于或者等于预置阀值的互联网页面存储至互联网页面数据库。对所述符合预置规则的字符串进行出现次数的统计即为词频统计。
在权重赋予的步骤中,根据网页形成的时间和网页的类型赋予相应的权重值是一个比较重要的情形。因为对于词频统计而言,网页时间对其的影响非常重要,所以网页时间对权重值的影响也就较大,距离词频统计的时间点越远,则权重值就越低,如果时间差大于一定的值,则可以赋予该网页较低的权重值,甚至排除在词频统计之外。其次网页类型对词频统计的影响也很大,所述网页类型一般是指门户网站、论坛或者其他一些已经确定的网页,这些网页的权重值就较高,因为这些网页中参与者较多、信息更新较快、能够较好的反应词频的最新变化趋势。对于网页类型的判定,可以通过设定一个规则库,该库中存储了一些网页的URL地址,从而确定这些URL的网页是对词频统计比较重要的,在这些网页上出现的字词会是优选统计的,则对该网页赋予更大的权重值。
其次,本发明还可以通过赋予较低权重值的方式去除一些重复网页、黄色网页和垃圾网页,从而可以进一步保证新词验证的准确性。
再者,由于要想得到的结果更准确,就需要统计的词汇尽量都是用户的“输入行为”,因此本发明还可以对以上精选出来的页面进行再处理,例如,去除页面的冗余信息等,所述页面冗余信息一般都是一些无效信息;如果不去除将会增加新词提取的计算量,以及导致统计出来的词频不客观,结果不准确。
步骤104、如果所述符合预置规则的字符串的出现次数大于或者等于预置阀值,则将该字符串作为新词输出。通过阀值的设定,可以去除一些出现频率较低的字符,从而避免将不具有普遍意义的词汇或者错误词汇作为新词提取出来。例如,“瑜迦”一词,在查询日志中出现的频率很高,但是在互联网页面信息中的频率却较低,原因就在于该词是一个错误字符,正确的应为“瑜伽”,该词在互联网页面信息中的频率是非常高的。本发明就可以很好的避免将“瑜迦”作为新词提出。
参照图2,是本发明实施例2的步骤流程图,包括以下步骤步骤201、获取搜索引擎的查询关键词字符串;步骤202、去除在查询日志中出现次数小于或者等于预置阀值的查询关键词字符串;步骤203、对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;步骤204、如果所述符合预置规则的字符串的出现次数大于或者等于预置阀值,则将该字符串输出至步骤205;步骤205、将所述获取的字符串与原有词库中的词条记录进行比对;去除在原有词库中已有记录的字符串,得到在原有词库中没有记录的字符串,作为新词输出。
由于在图1的相关介绍中,已经详细介绍了本发明的整个步骤流程,因此,实施例2中的未详尽之信息可以参见前述。
上述实施例也可以实现本发明的技术效果,虽然由于上述的步骤安排会增加相当的数据计算量。但是该实施例可以很好的证明本发明所述过滤预置规则的任意选择、安排的特点,因此在这里加以说明。从理论上讲,本发明即使完全不设置过滤规则,仍然可以实现本发明新词提取的目的。
参照图3,是本发明实施例3的步骤流程图,包括以下步骤步骤301、获取搜索引擎的查询关键词字符串;步骤302、去除所述获取的查询关键词字符串中的无效字符;或者根据分隔符对所述获取的查询关键词字符串进行分割;步骤303、去除在查询日志中出现次数小于或者等于预置阀值的查询关键词字符串;例如,去除了“吃虾”、“山鸽子”等;步骤304、将所述获取的查询关键词字符串与原有词库中的词条记录进行比对;去除在原有词库中已有记录的查询关键词字符串;例如,去除了“美女”、“连锁”、“减肥”、“韩剧”等;步骤305、去除字符串长度大于或者等于预置阀值的查询关键词字符串,以及去除不符合构词法则的查询关键词字符串;步骤306、去除输入法能够智能组词的查询关键词字符串;例如,去除了“英语世界”等;智能组词能力是指输入法对于词库中没有的词或短语,可以搜寻相关的字和词,帮助用户组成所需的词或短语。由于一般的输入法都具有智能组词能力,因此不会特别影响用户的输入效率,所以在此本发明为了提高计算效率,减少计算量,增加了智能组词过滤规则。
步骤307、对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;步骤308、如果所述符合预置规则的字符串的出现次数大于或者等于预置阀值,则将该字符串作为新词输出。例如,去除了“小懒猫”、“校庆贺词”、“瑜迦”等;采用本发明,最后作为新词输出的为“知荣知耻”、“建信恒久”、“青藏铁路”、“罢扁”、“郝菲尔”、“波多尔斯基”、“九部委”等等。
从最后输出的新词可以看出,本发明的技术效果还是很明显的,其中,新闻中常出现“知荣知耻”和“青藏铁路”、娱乐体育中常出现的“郝菲尔”和“波多尔斯基”等最新词汇都被提取出来了。尤其当本发明应用在输入法上时,可以大大的提高用户输入新词的效率,上述新词采用现有的输入法很难第一次或者在候选词第一页就能够找到正确的字符输入,但是将本发明提取的新词更新至输入法词库就可以帮助用户在第一次或者在候选词第一页就能够找到正确的字符输入,大大提高用户的输入效率。以上为本发明较为复杂的一个实现,未详尽之处可以参见前述相关内容。
参照图4,是本发明应用于输入法的实施例4的步骤流程图,假设已经采用本发明得到提取出来的新词,更新过程可以包括以下步骤步骤401、根据得到的新词生成新词库或者将得到的新词添加至原有词库,即形成新词库或者新版的全词库。
步骤402、设置包含系统词库的输入法系统位于第一计算设备中,步骤401得到的新词库或者新版的全词库位于第二计算设备中;步骤403、所述输入法系统通过第一计算设备连接所述第二计算设备完成系统词库的更新。
所述存储得到的新词库或者新版的全词库的第二计算设备可以通过服务器的形式存在于网络中,向其他任何需要输入法新词信息的客户端程序提供词库更新服务。当然,并不需要一定通过固定服务器的形式出现,也可以存在于某个本地计算设备中,通过P2P(点对点)技术向其他终端的任何需要输入法新词信息的客户端程序提供词库更新服务。
上述更新的实施例中,所述更新的方式可以为当输入法系统更新时,同时更新所述系统词库;或者,由服务器主动推送的方式进行系统词库的在线更新;或者,由用户发起请求,服务器根据请求返回数据进行系统词库的更新。当然,也可以采用移动存储器更新的方式或者版本更新的方式。总之,可以采用各种数据更新的方式,本发明对此并不加以限定,本领域技术人员可以根据需要选择即可。
参照图5,是本发明应用于输入法的实施例5的步骤流程图,假设已经采用本发明得到提取出来的新词,则可以包括以下步骤步骤501、根据得到的新词生成新词库或者将得到的新词添加至原有词库,即形成新词库或者新版的全词库。
步骤502、设置输入法系统中用于接收用户输入信息和显示相应字符的单元位于第一计算设备中;设置步骤501得到的新词库或者新版的全词库为输入法系统的系统词库,所述系统词库位于第二计算设备中。
步骤503、所述输入法系统根据用户输入的信息,从位于第二计算设备中的系统词库获取相应信息,在第一计算设备显示相应字符,完成文字输入。
实施例5中,直接将根据本发明新词提取方法获得的新词库或者新版的全词库直接作为输入法系统的系统词库,则可以实现在线词库使用,而不需要更新操作了。其中,将输入法系统分为了两部分,接收和显示单元位于第一计算设备,词库信息则位于第二计算设备,可以完美的实现输入法的在线应用;当然,对于输入法系统需要的编码匹配过程可以根据需要任意设置在某个计算设备中均可。
优选的,本发明还可以应用在搜索领域,当用户的查询关键词字符串中包括新词时,可以根据通过本发明提取新词方法得到的词库对用户的查询关键词字符串进行准确分词,然后根据分词结果进行搜索,可以提高搜索结果的精确度和覆盖度。
参照图6,是本发明所述新词提取系统的系统框图,包括以下部件接口单元601,用于获取搜索引擎的查询关键词字符串;过滤单元602,用于确定符合预置规则的字符串;互联网页面数据库603,用于存储互联网页面信息;统计单元604,对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;新词确定单元605,判断所述符合预置规则的字符串的出现次数是否大于或者等于预置阀值;如果是,则将该字符串作为新词输出。
优选的,还可以包括互联网页面数据库生成单元607,用于对互联网页面进行权重赋值;并将权重值大于或者等于预置阀值的互联网页面存储至互联网页面数据库。当然,也可以采用人工管理和设置所述精选的互联网页面数据库。
优选的,还可以包括词库管理单元606,用于根据得到的新词生成新词库或者将得到的新词添加至原有词库,即可以得到新词库或者新版的全词库。
其中,所述的过滤单元602可以包括以下模块比对模块,用于将所述获取的查询关键词字符串与原有词库中的词条记录进行比对;原有词库过滤模块,用于去除在原有词库中已有记录的查询关键词字符串。
频率过滤模块,用于去除在查询日志中出现次数小于或者等于预置阀值的查询关键词字符串。
长度过滤模块,用于去除字符串长度不符合预置范围的查询关键词字符串。
构词法过滤模块,用于去除不符合构词法则的查询关键词字符串。
无效字符过滤模块,用于去除所述获取的查询关键词字符串中的无效字符;或者分割模块,用于根据分隔符对所述获取的查询关键词字符串进行分割。
对于上述模块,所述过滤单元择一使用、或者组合使用都是可行的。
参照图7a和图7b,是根据本发明所述方法得到的新词在输入法中的应用。
参照图7a,可以应用于输入法系统词库的更新,其中,所述词库管理单元701位于第二计算设备中;输入法单元702,位于第一计算设备中,其中设置有系统词库;所述输入法单元702通过第一计算设备连接所述词库管理单元完成系统词库的更新。
参照图7b,可以应用于在线使用的输入法系统,其中,所述词库管理单元701位于第二计算设备中;输入法接收模块7021,用于接收用户输入信息,位于第一计算设备中;输入法显示模块7022,用于显示相应字符,位于第一计算设备中;所述输入法接收模块7021、输入法显示模块7022和词库管理单元701相连接,根据用户输入的信息,从词库管理单元701获取相应信息,在第一计算设备显示相应字符。
对于输入法系统还需要的编码匹配模块7023可以根据需要任意设置即可。例如,图7所示实施例中,将输入接收模块7021和显示模块7022设置在用户第一计算设备中,包括编码匹配模块7023的其他功能模块设置在第二计算设备中,通过第一计算设备连接第二计算设备共同完成输入过程。即图7b所示情况中,新词库不提供给用户本地,而是由用户每次输入时从网络中获取相关信息。
由于现有的输入法采用封闭语料库分析的字词,无法获知新词,只能靠用户输入选字才能逐渐学习并记住新词。当用户需要输入新词时,用户通过不断的让输入法自学习更新用户词库才能使用户的输入更快,但是由于随着信息膨胀,新词的出现也越来越频繁,用户输入时繁琐的选字过程也越来越频繁了。本发明所述提取新词的方法应用于输入法上,就可以很好的解决上述问题。
本发明由于使用基于互联网信息的词频统计技术,并以搜索引擎的查询日志作为新词的来源,可以方便快捷的得到了大量的互联网中使用的新词,这些新词又不断的提供给输入法用户使用,使得这些用户在使用过程中能够时刻跟踪互联网信息的变化,不断的能够输入新词而又不用每次输入新词的时候都要经过繁琐的选词过程,使得新词也能够成为用户的首选词,提高用户输入新词时的首选词命中率。
由于本发明篇幅有限,在方法的描述部分较为详细,系统部分的描述未详尽之处。请参见前述相关部分。
以上对本发明所提供的一种提取新词的方法和系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1.一种提取新词的方法,其特征在于,包括以下步骤获取搜索引擎的查询关键词字符串;确定符合预置规则的字符串;对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;如果所述符合预置规则的字符串的出现次数大于或者等于预置阀值,则将该字符串作为新词输出。
2.如权利要求1所述的提取新词的方法,其特征在于,通过以下步骤确定符合预置规则的字符串将所述获取的查询关键词字符串与原有词库中的词条记录进行比对;去除在原有词库中已有记录的查询关键词字符串。
3.如权利要求1或2所述的提取新词的方法,其特征在于,所述确定符合预置规则的字符串的步骤包括去除在查询日志中出现次数小于或者等于预置阀值的查询关键词字符串。
4.如权利要求2所述的提取新词的方法,其特征在于,所述确定符合预置规则的字符串的步骤还包括去除字符串长度不在预置范围内的查询关键词字符串;或者去除不符合构词法则的查询关键词字符串。
5.如权利要求1所述的提取新词的方法,其特征在于,还包括搜索引擎判断所述查询关键词字符串是否具有对应的用户点击行为;如果有,则存储该查询关键词字符串;如果没有,则丢弃该查询关键词字符串。
6.如权利要求1所述的提取新词的方法,其特征在于,所述确定符合预置规则的字符串的步骤包括去除所述获取的查询关键词字符串中的无效字符;或者根据分隔符对所述获取的查询关键词字符串进行分割。
7.如权利要求1所述的提取新词的方法,其特征在于,还包括根据输出的新词生成新词库或者将得到的新词添加至原有词库,得到新词库或者新版的全词库。
8.如权利要求7所述的提取新词的方法,其特征在于,还包括设置包含系统词库的输入法系统位于第一计算设备中,所述新词库或者新版的全词库位于第二计算设备中;所述输入法系统通过第一计算设备连接所述第二计算设备完成系统词库的更新。
9.如权利要求7所述的提取新词的方法,其特征在于,还包括设置输入法系统中用于接收用户输入信息和显示相应字符的单元位于第一计算设备中;设置所述新词库或者新版的全词库为输入法系统的系统词库,所述系统词库位于第二计算设备中;所述输入法系统根据用户输入的信息,从位于第二计算设备中的系统词库获取相应信息,在第一计算设备显示相应字符。
10.如权利要求1所述的提取新词的方法,其特征在于,通过以下步骤获得预置的互联网页面数据库对互联网页面进行权重赋值;将权重值大于或者等于预置阀值的互联网页面存储至互联网页面数据库。
11.一种提取新词的系统,其特征在于,包括接口单元,用于获取搜索引擎的查询关键词字符串;过滤单元,用于确定符合预置规则的字符串;互联网页面数据库,用于存储互联网页面信息;统计单元,对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;新词确定单元,判断所述符合预置规则的字符串的出现次数是否大于或者等于预置阀值;如果是,则将该字符串作为新词输出。
12.如权利要求11所述的提取新词的系统,其特征在于,所述过滤单元包括以下模块比对模块,用于将所述获取的查询关键词字符串与原有词库中的词条记录进行比对;原有词库过滤模块,用于去除在原有词库中已有记录的查询关键词字符串。
13.如权利要求11或12所述的提取新词的系统,其特征在于,所述过滤单元还包括频率过滤模块,用于去除在查询日志中出现次数小于或者等于预置阀值的查询关键词字符串。
14.如权利要求12所述的提取新词的系统,其特征在于,所述过滤单元还包括长度过滤模块,用于去除字符串长度大于或者等于预置阀值的查询关键词字符串;或者构词法过滤模块,用于去除不符合构词法则的查询关键词字符串。
15.如权利要求11所述的提取新词的系统,其特征在于,所述过滤单元包括以下模块无效字符过滤模块,用于去除所述获取的查询关键词字符串中的无效字符;或者分割模块,用于根据分隔符对所述获取的查询关键词字符串进行分割。
16.如权利要求11所述的提取新词的系统,其特征在于,还包括词库管理单元,用于根据得到的新词生成新词库或者将得到的新词添加至原有词库。
17.如权利要求16所述的提取新词的系统,其特征在于,所述词库管理单元位于第二计算设备中,该系统还包括输入法单元,位于第一计算设备中,其中设置有系统词库;所述输入法单元通过第一计算设备连接所述词库管理单元完成系统词库的更新。
18.如权利要求16所述的提取新词的系统,其特征在于,所述词库管理单元位于第二计算设备中,该系统还包括输入法接收模块,用于接收用户输入信息,位于第一计算设备中;输入法显示模块,用于显示相应字符,位于第一计算设备中;所述输入法接收模块、输入法显示模块和词库管理单元相连接,根据用户输入的信息,从词库管理单元获取相应信息,在第一计算设备显示相应字符。
19.如权利要求11所述的提取新词的系统,其特征在于,还包括互联网页面数据库生成单元,用于对互联网页面进行权重赋值;并将权重值大于或者等于预置阀值的互联网页面存储至互联网页面数据库。
全文摘要
本发明公开了一种提取新词的方法,包括以下步骤获取搜索引擎的查询关键词字符串;确定符合预置规则的字符串;对所述符合预置规则的字符串在预置的互联网页面数据库中出现的次数进行统计;如果所述符合预置规则的字符串的出现次数大于或者等于预置阀值,则将该字符串作为新词输出。本发明所述方法提取出的新词应用在搜索领域,当用户的查询关键词字符串中包括新词时,可以提高搜索结果的精确度和覆盖度;如果采用本发明所述方法提取出的新词应用在输入法领域,则可以方便用户更快更准确的输入新词,不需要经过繁琐的候选词选择过程就可以在第一个或者第一页候选词中得到希望输入的字词。
文档编号G06F17/30GK1912872SQ20061010359
公开日2007年2月14日 申请日期2006年7月25日 优先权日2006年7月25日
发明者佟子健, 郭奇 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1