一种智能组词输入的方法和一种输入法系统及其更新方法

文档序号:6574178阅读:561来源:国知局
专利名称:一种智能组词输入的方法和一种输入法系统及其更新方法
技术领域
本发明涉及输入法系统数据处理领域,特别是涉及一种智能组词输入的方法、一种输入法系统、一种生成多元表的装置以及一种更新输入法系统的方法。
背景技术
当前的输入法系统(包括中文、日文以及韩文等等)都不可避免地存在相同编码对应多个候选词的问题,以拼音输入法为例,如拼音加加输入法、紫光华宇拼音输入法等,这种现有的输入法都是基于其词库以及词库中的词频(字词的使用频度)来为用户在信息输入过程中提供候选词的排序,优先显示词频最高的常用字词,即首选词。候选词的排序是用户在信息输入过程中首选词命中率高低的一个重要指标。所述首选词命中率是指,当用户输入一定的键盘信息后,排序在前的字、词或句是用户最需要的。例如,输入拼音“guan xi tui 1i”(关系推理),所述现有的输入法会根据拼音“guan xi”获取词库中所有的候选词,如“关系”、“盥洗”和“关西”等,然后优先显示词频最高的常用词“关系”为首选词,同时,根据“tui li”获取词库中词频最高的词“推理”为首选词,组成“关系推理”提供给用户输入。在此例中,首选词的命中率是100%,即完全符合用户的需要。
当然,从技术上讲,输入法系统本身是无法知悉哪个字词是用户最需要的,但是在浩如烟海的中文字词中,各个字词的使用和出现频率是不同的,将出现频率较高的字词排序在前就可以大大提高输入法系统的首选词命中率,即可以从概率上提高排序在前的字词满足用户需要的可能性。
然而,如果用户所需要的字词并不对应于词频最高的字词,例如,用户输入“zi zhu xue xiao”(资助学校),而输入法对应地获取到词频最高的词为“自主学校”,在这种情况下,就需要用户在所有候选词中选择“资助”,以获得所需要的结果。在实际中,用户采用现有的输入法通过选择候选词获得需要的结果的机率比直接获取到有效首选词的机率要高得多,这就表明,现有输入法的首选词命中率并不高,从而导致用户的输入速度减慢,输入效率降低,用户体验差。
对于上述问题,现有技术提出了以下两种解决办法第一种、增加所述输入法词库中的字词;在这种情况下,所述输入法的词库中需要增加足够多的字词,才能达到相应的效果。例如,如果用户想要输入“智能组词”,则必须在词库中存储“智能”、“组词”和“智能组词”三个词,甚至可能还必须存储“智能组”这种没有具体含义的词。对于一些多个词组成的词组或句子,所需要添加的词将更多。这样一来,词库会越来越臃肿,同时会占用更多的空间、浪费更多的资源。
第二种、应用NLP(Nature Language Process自然语言处理)技术。
在所述输入法系统中应用这种技术可以通过词性、句法分析等方式提高首选词命中率,例如,微软拼音输入法就应用了一种NLP技术,该技术把N-gram统计语言模型与语言规则结合起来共同指导拼音流到文字流的转换过程,主要根据《现代汉语语法信息词典详解》和《同义词词林》的语法语义分类体系,通过总结各种词性之间的语法语义,以及人工编辑这些词类之间的搭配规则和相应的属性词汇集来体现。
然而,实现这种输入法系统需要本领域技术人员基于固定语料库进行分析和编辑,技术实现过程复杂且繁琐;并且所述固定语料库也不能进行任意更新,导致用户体验差;此外,这种输入法系统需要占用较大的空间,比如微软拼音输入法,其安装包的大小就超过了70兆,使用门槛较高,浪费用户的系统资源。
因此,现阶段需要本领域技术人员迫切解决的一个技术问题就是,如何在尽可能地节约资源的情况下,提高输入法系统对于多个字词、词组、短语、短句或长句的首选词命中率。

发明内容
本发明所要解决的技术问题是提供一种智能组词输入的方法和一种输入法系统,以解决现有技术中对于多个字词、词组、短语、短句或长句的首选词命中率不高、资源占用过多等问题。
本发明的另一个目的是提供了一种生成多元表的方法以及一种更新输入法系统的方法,以保证输出字词的准确性、代表性和全面性,从而提高用户输入多个字词、词组、短语、短句或长句的首选词命中率,进而有效提高了用户的输入效率。
为了解决上述技术问题,本发明实施例公开了一种智能组词输入的方法,包括从预置的互联网语料库中,获取至少两个基础字词相邻同现的组合信息,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率;根据所述组合信息生成多元表;接收用户输入的编码字符串,并对所述编码字符串进行切分;根据所述切分后的编码字符串在所述多元表中获取对应的组合信息,并提取所述组合信息中相应搭配关系的对应字词为候选字词。
优选的是,所述的方法,还包括根据所述候选字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算同现概率,以及,根据所述同现概率进行排序,并将排序结果作为候选项输出。
优选的是,所述多元表存储有同现概率,所述同现概率为根据所述至少两个基础字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算获得,所述的方法还包括根据所述候选字词的同现概率以及输入法系统的词库中已有字词的词频计算权重值,以及,根据所述权重值进行排序,并将排序结果作为候选项输出。
优选的是,所述多元表存储有连接强度值,所述连接强度值为根据所述至少两个基础字词的相邻同现频率和同现概率计算获得,所述的方法还包括根据所述候选字词的连接强度值以及输入法系统的词库中已有字词的词频计算权重值,以及,根据所述权重值进行排序,并将排序结果作为候选项输出。
优选的是,所述的方法,还包括从输入法系统的词库中选取符合预置条件的基础字词。
优选的是,所述的方法,在生成多元表之前,还包括
如果一组合信息中的相邻同现频率低于一定阈值,则去除该组合信息;如果一组合信息中的对应字词为两个或者多个词频最高的字词组成,则去除该组合信息;如果一条组合信息被另一条组合信息部分或全部覆盖的,则去除该组合信息。
优选的是,通过以下步骤预置所述互联网语料库通过网络爬虫技术获取互联网的网页;选取符合预置条件的网页信息,并保存形成互联网语料库。
优选的是,所述互联网语料库为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库。
优选的是,所述的方法,在接收用户输入的编码字符串之前还包括步骤将所述多元表加载至存储设备中。
优选的是,所述的方法,还包括对所述编码字符串的切分方法进行优化。
优选的是,所述的方法,还包括根据用户新增的编码字符串在所述多元表中获取对应的组合信息。
本发明实施例还提供了一种输入法系统,所述输入法系统包括输入接口单元和显示单元,还包括多元表所述多元表由至少两个基础字词相邻同现的组合信息生成;所述组合信息从预置的互联网语料库中获取,包括所述至少两个基础字词之间的搭配关系和相邻同现频率;切分单元用于对用户输入的编码字符串进行切分;提取单元用于根据所述切分后的编码字符串在所述多元表中获取对应的组合信息,并提取所述组合信息中相应搭配关系的对应字词为候选字词。
优选的是,所述输入法系统还包括第一输出单元用于根据所述候选字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算同现概率,以及,根据所述同现概率进行排序,并将排序结果作为候选项输出。
优选的是,所述多元表存储有同现概率,所述同现概率为根据所述至少两个基础字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算获得,所述输入法系统还包括第二输出单元用于根据所述候选字词的同现概率以及输入法系统的词库中已有字词的词频计算权重值,以及,根据所述权重值进行排序,并将排序结果作为候选项输出。
优选的是,所述多元表存储有连接强度值,所述连接强度值为根据所述至少两个基础字词的相邻同现频率和同现概率计算获得,所述输入法系统还包括第三输出单元用于根据所述候选字词的连接强度值以及输入法系统的词库中已有字词的词频计算权重值,以及,根据所述权重值进行排序,并将排序结果作为候选项输出。
优选的是,所述互联网语料库为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库。
优选的是,所述输入法系统还包括加载单元用于将所述多元表加载至存储设备中。
优选的是,所述输入法系统还包括切分优化单元用于对所述编码字符串的切分方法进行优化。
优选的是,所述输入法系统还包括新增获取单元用于根据用户新增的编码字符串在所述多元表中获取对应的组合信息。
优选的是,所述输入法系统的输入接口单元、显示单元以及多元表位于同一计算设备中;或者,所述输入法系统的输入接口单元、显示单元位于第一计算设备中,多元表位于第二计算设备中,所述输入法系统根据用户输入的信息,从位于第二计算设备的多元表中获取相应的组合信息,在第一计算设备显示相应字词。
本发明实施例还提供了一种生成多元表的装置,包括获取模块用于从预置的互联网语料库中,获取至少两个基础字词相邻同现的组合信息,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率;生成模块用于根据所述组合信息生成多元表。
优选的是,所述的装置,还包括选取模块用于从输入法系统的词库中选取符合预置条件的基础字词。
优选的是,所述的装置,还包括第一去除模块用于当一组合信息中的相邻同现频率低于一定阈值时去除该组合信息;和/或,第二去除模块用于当一组合信息中的对应字词为两个或者多个词频最高的字词组成时去除该组合信息;和/或,第三去除模块用于当一条组合信息被另一条组合信息部分或全部覆盖时去除该组合信息。
优选的是,所述的装置,还包括网页获取模块用于通过网络爬虫技术获取互联网的网页;语料库生成模块用于选取符合预置条件的网页信息,并保存形成互联网语料库。
优选的是,所述互联网语料库为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库。
本发明实施例还提供了一种更新输入法系统的方法,包括更新互联网语料库;从预置的互联网语料库中,获取至少两个基础字词相邻同现的组合信息,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率;根据所述组合信息生成多元表;将所述多元表发送至输入法系统。
优选的是,所述的方法,还包括从输入法系统的词库中选取符合预置条件的基础字词。
优选的是,所述的方法,在生成多元表之前,还包括如果一组合信息中的相邻同现频率低于一定阈值,则去除该组合信息;如果一组合信息中的对应字词为两个或者多个词频最高的字词组成,则去除该组合信息;如果一条组合信息被另一条组合信息部分或全部覆盖的,则去除该组合信息。
与现有技术相比,本发明具有以下优点首先,由于本发明以预置互联网语料库中为输入法系统输出字词的基础,可以准确反映人们在语言使用上的趋势,可以保证组合信息的准确性、代表性、全面性,从而提高用户输入多个字词、词组、短语、短句或长句的首选词命中率,进而有效提高了用户的输入效率。
其次,本发明通过生成多元表作为输出字词的主要渠道,技术实现简单、无特殊保密算法,并可以有效避免无效、重复的计算过程,有助于节约资源和提高效率;再者,本发明的互联网语料库可以由本领域技术人员任意设置、更新或更换,从而可以获得不同的智能组词版本,以满足各种用户的不同需求;此外,本发明通过设置过滤规则选择有效的组合信息生成多元表,还可以避免多元表的冗余,有效节约了系统资源;最后,本发明还应用了多种优化策略,以避免系统无效、重复的计算过程,减轻系统负担,从而有效提高了用户的输入效率。


图1是本发明实施例在输入法系统中智能组词输入的方法的流程图;图2是本发明一种智能组词输入方法的优选实施例的流程图;图3是本发明的一种输入法系统实施例的结构框图;图4是本发明一种生成多元表的装置实施例的结构框图;图5是应用图4所示的生成多元表的装置生成多元表的优选实施例的流程图;图6是本发明更新输入法系统的实施例1的流程图;图7是本发明更新输入法系统的实施例2的流程图。
具体实施例方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。
参照图1,是本发明实施例在输入法系统中智能组词输入的方法的流程图,包括以下步骤步骤101、从预置的互联网语料库中,获取至少两个基础字词相邻同现的组合信息;其中,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率;步骤102、根据所述组合信息生成多元表;步骤103、接收用户输入的编码字符串,并对所述编码字符串进行切分;步骤104、根据所述切分后的编码字符串在所述多元表中获取对应的组合信息,并提取所述组合信息中相应搭配关系的对应字词为候选字词。
随着社会节奏的加快,文化冲突和融合的不断进行,导致现代社会中许多词汇的使用,采用现有的固定语料库已经远远不能涵盖了,尤其随着互联网的普及,导致信息迅速膨胀,上述问题越来越突出了。由于固定语料库的规模较小,内容固定,形成的时间较早,更新很慢,根据其得来的字词频率不符合互联网使用的活跃性,例如“顶”、“网游”、“财报”等互联网常用词汇使用的频率相当高,但是在现有技术中,这些词汇的一般的排序都比较靠后,与用户需要频繁使用这样的需求不符。
在这种情况下,本实施例通过从预置互联网语料库中,获取至少两个基础字词相邻同现的组合信息,即以公开、实时变化的互联网信息为多元表的统计来源,当用户输入信息时,互联网上使用频率高的字词能够成为用户输入的首选词或首页候选词,从而提高用户的输入速度和效率。
本领域技术人员可以根据需要任意预置所述互联网语料库,例如,预置所述互联网语料库为互联网博客语料库、互联网新闻语料库或互联网论坛语料库等等。可以理解的是,根据不同的互联网语料库可以获得不同的组合信息,从而使用该输入法系统获得的输出结果也有可能是不同的。优选的是,所述互联网语料库还可以更换,以满足各种用户的不同需求。
所述基础字词可以来源于各种特定的封闭的文档集合(例如,传统新闻、报纸),本领域技术人员在实际中根据需要任意选择即可。优选的是,从输入法系统的词库中获取所述基础字词。可能的是,尽管输入法系统的词库包括非常庞大的字词信息,但事实上却只有一部分是有效的字词,即,使用频度较高及常用的词。还有一部分是生僻字词或使用频度非常低的字词。如果基于输入法系统的词库中所有基础字词进行计算,显然,会导致计算量过大、重复计算过多等问题。
需要说明的是,本文中所述输入法系统的词库可以为现有技术中的任一种词库或其组合,也可以为由本领域技术人员根据预置规则获取的任一种词库,并且所述词库的存储位置,例如,存在于服务器端或客户端,本发明都无需要对此进行限定。可以理解,现有技术中所述输入法系统的系统词库、用户自定义词库、通用词库、专业词库等都在本发明所述输入法系统的词库范围之内。
因此,优选的是,本实施例还可以包括步骤从所述输入法系统的词库中选取符合预置条件的基础字词。例如,根据词频从高到低选取所述输入法系统的词库中TOP60000的字词。基于选取过的字词进行后续处理,可以有效避免无效、重复的计算过程,有助于节约资源和提高效率。
然而,基于所述筛选的基础字词获取的组合信息仍有可能包含冗余或无效的组合信息,例如,相邻同现频率过低的组合信息、具有重复含义的组合信息或者被部分或全部覆盖的组合信息等,优选的是,在生成多元表之前,本实施例还包括一些优化步骤,在下文中将对这些优化步骤进行详述。
需要说明的是,生成所述多元表的核心构思之一在于将组合信息按照一定规则删除低价值信息之后,保留高价值信息作为多元表的部分。根据组合信息生成的多元表是指行或列的变项为两个或两个以上的表。所述多元表的形式可以如下表所示

在上表中,第一列表示多个字词之间的搭配关系,第二列表示这种字词搭配的连接参数,所述连接参数包括相邻同现频率、同现概率或连接强度值等。其中,所述相邻同现频率可从预置的互联网语料库中统计获得,所述同现概率可由所述至少两个基础字词的相邻同现频率以及词库中已有字词的词频计算获得,所述连接强度值可由根据所述至少两个基础字词的相邻同现频率和同现概率计算获得。当然,所述连接参数可以是任一种表明字词之间连接关系的数值,本发明对此并不加以限制,此外,所述多元表的形式可以根据需要任意设置,本发明对此也不需要进行限定。
在实际中,还可以将所述多元表打包存储至所述输入法系统中,用以提供给用户下载到本地安装使用。本领域技术人员可以根据需要、或者根据经验选择任一种存储方式进行存储,对此本发明并不加以限定。例如,将所述组合信息及其加权值按照词序增量存储到一个文件中,其中,所述加权值可以根据相邻同现频率配置,相邻同现频率越大,则该加权值越大。然后用通用压缩算法,如RAR压缩算法、ZIP压缩算法等将所述文件打包存储至所述输入法系统中。
在接收用户输入的编码字符串之前,优选的是,本实施例还可以包括步骤将所述多元表加载至存储设备中。在这种情况下,如果用户在本地计算机启动所述输入法系统,则会将所述多元表加载至内存中,从而提高输入法系统的应用性能。一旦加载后,随后对数据的读操作全部在内存中进行,无需硬盘操作,从而可以有效提高用户的输入速度和效率。如果输入法系统为网络输入法系统,当用户使用时,则会将所述多元表加载至服务器的存储设备中,随后对数据的读操作全部基于该服务器的存储设备进行。
当用户使用该输入法系统时,该输入法系统会对用户输入的编码字符串进行切分,所述切分可以通过采用现有技术中的任一切分方法实现,本发明对此不需要进行限定。
优选的是,本实施例还可以采用一些优化策略对所述输入法系统进行优化。以下以几种优选的优化策略为例进行说明。
优化策略A对所述编码字符串的切分方法进行优化。例如,采用分支定界法对切分方法进行剪枝。
分支定界法的工作原理是首先确定目标值的上下界,边搜索边减掉搜索树的某些枝,提高搜索效率。应用到本发明的实施例中,对于一个编码字符串,有很多种切分的方法,对于每一个切分方法,每个编码也有很多种可能的字词的选择,如果全部计算,计算量将是个天文数字。在这种情况下,采用所述分支定界法对每一种可能的字词的切分方法进行概率计算,如果发现这种切分方法最优的可能性微乎其微,就终止当前的计算,选择下一种可能。通过所述优化策略A可以有效减少计算量,保证系统在指定时间范围内输出结果,从而有效提高了系统的处理效率。
当然,本领域技术人员可以根据需要、或者根据经验预置各种优化策略,对此本发明并不加以限定。
优选的是,在本实施例中还可以包括步骤根据所述候选字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算同现概率,以及,根据所述同现概率进行排序,并将排序结果作为候选项输出。当然,所述排序还可以根据需要附加其它条件,对此本发明不需要进行限定。
以下以一种优选的同现概率计算方法为例P(w1,w2,w3,...,wn)=P(w1)*P(w2)*...*P(wn)*P(w1,w2)*P(w2,w3)*...*P(wn-1,wn);其中,wn为一个基础字词,P(wn)为该基础字词的概率,P(wn-1,wn)为两个相邻基础字词之间的搭配关系的概率。可以得知,本实施例对于两个或两上以上的基础字词,会考虑任意两个相邻的基础字词之间的搭配关系,然后计算所有概率的乘积。
例如,对于两个基础字词A和B,则其同现概率为A的概率、B的概率以及AB同时出现的概率的乘积;对于三个基础字词A、B和C,则其同现概率为A、AB、B、BC、C的概率的乘积。
上述算法是统计同现概率的一种算法,本领域技术人员也可以根据需要和经验采用其它方法,如直接存储N元矩阵的方法等。上述方法仅仅用于举例,本发明并不限于上述几种方法。
作为另一实施例,当所述多元表中存储有同现概率时,本实施例可以包括步骤根据所述候选字词的同现概率以及输入法系统的词库中已有字词的词频计算权重值,以及,根据所述权重值进行排序,并将排序结果作为候选项输出。其中,优选的是,所述同现概率为根据所述至少两个基础字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算获得,所述同现概率的获得方法可以采用上例中的方法,也可以采用现有技术中的其它方法,本发明对此不作限制。
作为另一实施例,当所述多元表中存储有连接强度值时,本实施例可以包括步骤根据所述候选字词的连接强度值以及输入法系统的词库中已有字词的词频计算权重值,以及,根据所述权重值进行排序,并将排序结果作为候选项输出。其中,优选的是,所述连接强度值为根据所述至少两个基础字词的相邻同现频率和同现概率计算获得。
当然,所述多元表中还可以存储其它任一种表明字词之间连接关系的数值,本领域技术人员根据经验或需要选用即可,本发明对此并不加以限制。
一种可能的情况是,用户在原始输入的编码字符串的基础上新增输入编码字符串,针对这种情况,本实施例还可以应用优化策略B仅根据用户新增的编码字符串在所述多元表中获取对应的组合信息;使系统的计算仅限于更改部分,避免系统重复操作。例如,用户输入拼音编码字符串zhongguorenminjiefang(中国人民解放),此时用户再输入字母j,则采用优化策略B只根据用户新增的字母“j”在所述多元表中获取对应的组合信息(如“军”、“君”、“机”等),而无需再重复获取前面的拼音编码字符串“zhongguorenminjiefang”对应的组合信息。
为了提高输入法系统的有效利用率,本实施例还可以应用优化策略C预置系统的计算时间,如100ms或50ms,用以控制系统在所述预置时间内完成计算,如果超过了所述预置时间系统尚未计算完成,则将已完成部分的计算结果上屏显示。例如,用户输入拼音编码字符串“renshengzigushuiwusi”,当超过50ms时,本发明的输入法系统仅获取到“renshengzigushuiwu”对应的候选字词为“人生自古谁无”、“人生”、“人声”、“认生”等,但对于“si”的计算尚未完成,在应用所述优化策略C时,则本发明的输入法系统仅将上述已获取到的候选字词上屏显示。这种处理方式的核心思想之一在于将输入法系统的后台处理和前台控制分离开来进行处理,这样就可以保证将所述输入法系统安装在不同机器上或者同一机器的不同负载下的效果是一样的。
优选的是,所述优化策略A、B和C在输入法系统中组合使用。当然,本领域技术人员可以仅仅采用一种优化策略,也可以采用多种;在多种优化策略中,可以进行任意组合。此外,本领域技术人员还可以根据需要自行设定其它各种优化策略,本发明对此不作限制。
为了使所述输入法系统便于网络传输、减少用户的内存资源占用以及提高系统处理效率,在本实施例中还可以将所述多元表中的组合信息与所述输入法系统的词库中的字词进行比对;如果所述词库中存在与所述组合信息重复的字词,则在输入法词库中去除该字词。例如,对于拼音shangwuhuiyi,对应的组合信息为“商务会议”、“上午会议”、“晌午回忆”、“上午回忆”、“商务会意”等;如果在输入法系统的词库中有一条对应的字词为“商务会议”,则与组合信息中的“商务会议”重复,在这种情况下,可以把词库中的“商务会议”清除。
参考图2,是本发明一种智能组词输入方法的优选实施例的流程图,包括预置步骤和输入步骤,具体地说,包括一、预置步骤步骤201、通过网络爬虫技术获取互联网的网页;例如,通过几十台网络爬虫服务器,按照网站域名列表,实时抓取互联网中近40亿的最新网页,这些互联网网页中可以包括网络新闻,论坛,博客,聊天室等等网络内容。
步骤202、选取符合预置条件的网页信息,并保存形成互联网语料库;例如,选择4000万互联网网页,原始语料规模超过1Terabyte的海量网络页面语料库为所述互联网语料库。
由于本实施例以公开、实时变化的互联网信息为输出字词的基础,生成的多元表可以准确反映人们在语言使用上的趋势,可以保证组合信息的准确性、代表性和全面性,从而提高用户输入多个字词、词组、短语、短句或长句的首选词命中率,进而有效提高了用户的输入效率。
当然,本领域技术人员可以根据需要或者根据经验选择任一种方法来预置所述互联网语料库,对此本发明并不加以限定。并且所述预置互联网语料库的方法也可以为更新互联网语料库的方法,例如,将所述互联网语料库更新为新闻语料库、博客语料库或者论坛语料库等,本发明对此亦不作限制。
步骤203、从输入法系统的词库中选取符合预置条件的基础字词;例如,根据词频从高到低选取所述输入法系统的词库中TOP60000的字词。
步骤204、从预置的互联网语料库中,获取至少两个基础字词相邻同现的组合信息;
其中,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率;步骤205、如果一组合信息中的相邻同现频率低于一定阈值,则去除该组合信息;例如,如果一组合信息的相邻同现频率低于0.001的组合信息,则去除这条组合信息。去除相邻同现频率较低的阈值并不影响用户的一般操作,但能很好地节省系统资源,减轻系统负担,从而有效提高系统的处理效率。
步骤206、如果一组合信息中的对应字词为两个或者多个词频最高的字词组成,则去除该组合信息;例如,对于拼音qinghuadaxuebiye;获取到的组合信息为清华大学毕业,然而在输入法系统的词库中对于拼音“qinghua”对应的首选词为“清华”;对于拼音“daxue”对应的首选词为“大学”;对于拼音“biye”对应的首选词为“毕业”,在这种情况下,即使该组合信息不存在,也不会影响其首选效果,因此可以将该组合信息去除。
步骤207、如果一条组合信息被另一条组合信息部分或全部覆盖的,则去除该组合信息;例如,对于拼音wohenkaixin;获取到的组合信息为我很开心,如果对于拼音henkaixin,已有的一条组合信息为很开心;由于拼音“wo”在输入法系统的词库中已有的首选词是“我”,那么可以得出,“很开心”这条组合信息可以部分覆盖“我很开心”这条组合信息,在这种情况下,即使“我很开心”这条组合信息不存在,也不会影响其首选效果,因此可以将该组合信息去除。可以理解的是,对于完全重复的组合信息也可以去除。
通过上述步骤205-步骤207,可以有效避免组合信息中的冗余信息和无效信息,有助于减轻系统负担、节省系统空间和资源、提高系统的有效利用率。
需要说明的是,上述步骤205-步骤207可以根据需要单独设置或任意组合设置,也就是说,本领域技术人员可以仅仅采用单独一个步骤,也可以采用多个步骤;在上述步骤中,可以进行任意组合,也没有顺序限制。此外,本领域技术人员还可以根据需要自行设定其它各种预置规则,本发明对此不作限制。例如,可能的其它选取规则为去除字符串长度小于或者等于预置阈值的组合信息(用户无意输入等)等。
步骤208、根据筛选出的组合信息生成多元表。
二、输入步骤步骤209、将所述多元表加载至存储设备中;步骤210、接收用户输入的编码字符串,并对所述编码字符串进行切分;在此还可以通过切分优化单元对所述编码字符串的切分方法进行优化,例如,采用分支定界法对切分方法进行剪枝。
步骤211、根据所述切分后的编码字符串在所述多元表中获取对应的组合信息,并提取所述组合信息中相应搭配关系的对应字词为候选字词。
如果用户在原始输入的编码字符串的基础上新增输入编码字符串,则本实施例还可以根据用户新增的编码字符串在所述多元表中获取对应的组合信息。使系统的处理仅限于更改部分,避免系统重复操作。
步骤212、根据所述候选字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算同现概率;步骤213、根据所述同现概率进行排序,并将排序结果作为候选项输出。
作为另一实施例,当所述多元表中存储有同现概率时,所述步骤212和步骤213可以为根据所述候选字词的同现概率以及输入法系统的词库中已有字词的词频计算权重值;根据所述权重值进行排序,并将排序结果作为候选项输出。
作为另一实施例,当所述多元表中存储有连接强度值时,所述步骤212和步骤213可以为根据所述候选字词的连接强度值以及输入法系统的词库中已有字词的词频计算权重值;根据所述权重值进行排序,并将排序结果作为候选项输出。
对于图2所示的方法描述未详尽之处可以参见本说明书前面相应部分的描述。
参考图3,是本发明的一种输入法系统实施例的结构框图,包括输入接口单元301和显示单元302;所述输入法系统还包括
多元表303所述多元表由至少两个基础字词相邻同现的组合信息生成;所述组合信息从预置的互联网语料库中获取,包括所述至少两个基础字词之间的搭配关系和相邻同现频率;切分单元304用于对用户输入的编码字符串进行切分;提取单元305用于根据所述切分后的编码字符串在所述多元表中获取对应的组合信息,并提取所述组合信息中相应搭配关系的对应字词为候选字词。
优选的是,所述输入法系统还包括第一输出单元用于根据所述候选字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算同现概率,以及,根据所述同现概率进行排序,并将排序结果作为候选项输出。
作为另一实施例,当所述多元表中存储有同现概率时,所述输入法系统还包括第二输出单元用于根据所述候选字词的同现概率以及输入法系统的词库中已有字词的词频计算权重值,以及,根据所述权重值进行排序,并将排序结果作为候选项输出。其中,所述同现概率为根据所述至少两个基础字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算获得。
作为另一实施例,当所述多元表中存储有连接强度值时,所述输入法系统还包括第三输出单元用于根据所述候选字词的连接强度值以及输入法系统的词库中已有字词的词频计算权重值,以及,根据所述权重值进行排序,并将排序结果作为候选项输出。其中,所述连接强度值为根据所述至少两个基础字词的相邻同现频率和同现概率计算获得。
当然,所述多元表中还可以存储其它任一种表明字词之间连接关系的数值,本领域技术人员根据经验或需要选用即可,本发明对此并不加以限制。
优选的是,所述互联网语料库为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库。
本实施例通过以互联网语料库为输入法系统输出字词的基础,生成的组合信息可以准确反映人们在语言使用上的趋势,可以保证组合信息的准确性、代表性和全面性,从而提高用户输入多个字词、词组、短语、短句或长句的首选词命中率,进而有效提高了用户的输入效率。
优选的是,所述输入法系统还可以包括加载单元用于将所述多元表加载至存储设备中。该存储设备可以为客户端的存储设备,也可以为服务器端的存储设备。
为了避免本实施例中无效、重复的计算过程,有效节约系统资源、提高系统的处理效率,所述输入法系统还可以包括以下系统优化单元切分优化单元用于对所述编码字符串的切分方法进行优化;和/或,新增获取单元用于根据新增的编码字符串在所述多元表中获取对应的组合信息。
上述系统优化单元也可以根据需要任意组合使用,本领域技术人员可以仅仅使用一个系统优化单元,也可以采用多个系统优化单元;并且在所述多个系统优化单元中,可以进行任意组合。此外,本领域技术人员还可以根据需要自行设定其它各种系统优化单元,本发明对此不作限制。
为了使所述输入法系统便于网络传输、减少用户的内存资源占用以及提高系统处理效率,在本实施例中还可以将所述多元表中的组合信息与所述输入法系统的词库中的字词进行比对;如果所述词库中存在与所述组合信息重复的字词,则在输入法词库中去除该字词。从而使得生成的输入法系统安装包文件较小,极大地降低了用户使用门槛,减少了用户存储空间的占用,并有效提高了系统的使用效率。
图3所示的输入法系统可以为普通输入法系统,在这种情况下,所述输入法系统的输入接口单元、显示单元以及多元表位于同一计算设备中;图3所示的输入法系统也可以为网络输入法系统,在这种情况下,所述输入法系统的输入接口单元、显示单元位于第一计算设备中,多元表位于第二计算设备中,所述输入法系统根据用户输入的信息,从位于第二计算设备的多元表中获取相应的组合信息,在第一计算设备显示相应字词。
由于图3所示的系统可以对应适用于前述的各种方法的实施例中,所以描述较为简略,未详尽之处可以参见本说明书前面相应部分的描述。
参考图4,是本发明一种生成多元表的装置实施例的结构框图,包括以下模块
获取模块401用于从预置的互联网语料库中,获取至少两个基础字词相邻同现的组合信息;其中,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率;生成模块402用于根据所述组合信息生成多元表。
为了避免无效、重复的计算过程,优选的是,本实施例的装置还可以包括选取模块403用于从输入法系统的词库中选取符合预置条件的基础字词。
基于本发明所述多元表的核心构思之一,将组合信息按照一定规则删除低价值信息之后,保留高价值信息作为多元表的部分。优选的是,本实施例的装置还可以包括第一去除模块404用于当一组合信息中的相邻同现频率低于一定阈值时去除该组合信息;和/或,第二去除模块405用于当一组合信息中的对应字词为两个或者多个词频最高的字词组成时去除该组合信息;和/或,第三去除模块406用于当一条组合信息被另一条组合信息部分或全部覆盖时去除该组合信息。上述去除模块404-406可以根据需要单个或组合使用,本发明对此不作限制。
为了使生成的多元表可以准确反映人们在语言使用上的趋势,可以保证组合信息的代表性、全面性,从而提高用户输入多个字词、词组、短语、短句或长句的首选词命中率,优选的是,本实施例的装置还可以包括网页获取模块407用于通过网络爬虫技术获取互联网的网页;和语料库生成模块408用于选取符合预置条件的网页信息,并保存形成互联网语料库。更为优选的是,所述互联网语料库为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库。并可以由本领域技术人员任意设置、更新以及更换,对此本发明并不需要进行限定。
参考图5,是应用图4所示的生成多元表的装置生成多元表的优选实施例的流程图,包括以下步骤步骤501、所述网页获取模块通过网络爬虫技术获取互联网的网页;步骤502、所述语料库生成模块选取符合预置条件的网页信息,并保存形成互联网语料库;其中,所述互联网语料库为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库。还可以由本领域技术人员任意设置、更新以及更换。
步骤503、所述选取模块从输入法系统的词库中选取符合预置条件的基础字词;例如,根据词频从高到低选取所述输入法系统的词库中TOP60000的字词。
步骤504、所述获取模块从预置的互联网语料库中获取至少两个基础字词相邻同现的组合信息;其中,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率;步骤505、当一组合信息中的相邻同现频率低于一定阈值时,由所述第一去除模块去除该组合信息;步骤506、当一组合信息中的对应字词为两个或者多个词频最高的字词组成时,由所述第二去除模块去除该组合信息;步骤507、当一条组合信息被另一条组合信息部分或全部覆盖时,由所述第三去除模块去除该组合信息;步骤508、所述生成模块根据筛选出的组合信息生成多元表。
由于图5所示的方法可以对应适用于前述的各种方法和系统的实施例中,所以描述较为简略,未详尽之处可以参见本说明书前面相应部分的描述。
参考图6,是本发明更新输入法系统的实施例1的流程图,包括以下步骤步骤601、更新互联网语料库;本领域技术人员可以根据经验和需要选择任一种更新互联网语料库的算法,本实施例在此不作限制。
优选的是,所述互联网语料库为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库。还可以由本领域技术人员任意设置、更新以及更换。
步骤602、从预置的互联网语料库中,获取至少两个基础字词相邻同现的组合信息;
其中,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率。
步骤603、根据所述组合信息生成多元表;步骤604、将所述多元表发送至所述输入法系统。
参考图7,是本发明一种更新输入法系统的实施例2的流程图,包括以下步骤步骤701、更新互联网语料库;其中,所述互联网语料库可以为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库。还可以由本领域技术人员任意设置、更新以及更换。
步骤702、从输入法系统的词库中选取符合预置条件的基础字词;例如,根据词频从高到低选取所述输入法系统的词库中TOP60000的字词。
步骤703、从所述互联网语料库中获取至少两个基础字词相邻同现的组合信息;其中,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率。
步骤704、如果一组合信息中的相邻同现频率低于一定阈值,则去除该组合信息;步骤705、如果一组合信息中的对应字词为两个或者多个词频最高的字词组成,则去除该组合信息;步骤706、如果一条组合信息被另一条组合信息部分或全部覆盖的,则去除该组合信息;步骤707、根据筛选出的组合信息生成多元表;步骤708、将所述多元表发送至所述输入法系统。
作为另一实施例,所述步骤704-步骤706可以根据需要单独设置或组合设置,本发明对此不需要进行限定。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见前述部分的相关描述即可。上述随意举出了本发明的几种实施例,本领域技术人员根据具体情况适当组合、选择,可以充分地发挥本发明的技术功效。基于上述实施例的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
由于图6和图7所示的方法都可以对应适用于前述的各种方法和系统的实施例中,所以描述较为简略,未详尽之处可以参见本说明书前面相应部分的描述。
以上对本发明所提供的一种智能组词的方法、一种输入法系统、一种生成多元表的装置及一种更新输入法系统的方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1.一种智能组词输入的方法,其特征在于,包括从预置的互联网语料库中,获取至少两个基础字词相邻同现的组合信息,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率;根据所述组合信息生成多元表;接收用户输入的编码字符串,并对所述编码字符串进行切分;根据所述切分后的编码字符串在所述多元表中获取对应的组合信息,并提取所述组合信息中相应搭配关系的对应字词为候选字词。
2.如权利要求1所述的方法,其特征在于,还包括根据所述候选字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算同现概率,以及,根据所述同现概率进行排序,并将排序结果作为候选项输出。
3.如权利要求1所述的方法,其特征在于,所述多元表存储有同现概率,所述同现概率为根据所述至少两个基础字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算获得,所述的方法还包括根据所述候选字词的同现概率以及输入法系统的词库中已有字词的词频计算权重值,以及,根据所述权重值进行排序,并将排序结果作为候选项输出。
4.如权利要求1所述的方法,其特征在于,所述多元表存储有连接强度值,所述连接强度值为根据所述至少两个基础字词的相邻同现频率和同现概率计算获得,所述的方法还包括根据所述候选字词的连接强度值以及输入法系统的词库中已有字词的词频计算权重值,以及,根据所述权重值进行排序,并将排序结果作为候选项输出。
5.如权利要求1所述的方法,其特征在于,还包括从输入法系统的词库中选取符合预置条件的基础字词。
6.如上述任一项权利要求所述的方法,其特征在于,在生成多元表之前,还包括如果一组合信息中的相邻同现频率低于一定阈值,则去除该组合信息;如果一组合信息中的对应字词为两个或者多个词频最高的字词组成,则去除该组合信息;如果一条组合信息被另一条组合信息部分或全部覆盖的,则去除该组合信息。
7.如上述任一项权利要求所述的方法,其特征在于,通过以下步骤预置所述互联网语料库通过网络爬虫技术获取互联网的网页;选取符合预置条件的网页信息,并保存形成互联网语料库。
8.如权利要求7所述的方法,其特征在于,所述互联网语料库为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库。
9.如权利要求1所述的方法,其特征在于,在接收用户输入的编码字符串之前还包括步骤将所述多元表加载至存储设备中。
10.如权利要求1所述的方法,其特征在于,还包括对所述编码字符串的切分方法进行优化。
11.如权利要求1或10所述的方法,其特征在于,还包括根据用户新增的编码字符串在所述多元表中获取对应的组合信息。
12.一种输入法系统,包括输入接口单元和显示单元,其特征在于,所述输入法系统还包括多元表所述多元表由至少两个基础字词相邻同现的组合信息生成;所述组合信息从预置的互联网语料库中获取,包括所述至少两个基础字词之间的搭配关系和相邻同现频率;切分单元用于对用户输入的编码字符串进行切分;提取单元用于根据所述切分后的编码字符串在所述多元表中获取对应的组合信息,并提取所述组合信息中相应搭配关系的对应字词为候选字词。
13.如权利要求12所述的系统,其特征在于,所述输入法系统还包括第一输出单元用于根据所述候选字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算同现概率,以及,根据所述同现概率进行排序,并将排序结果作为候选项输出。
14.如权利要求12所述的系统,其特征在于,所述多元表存储有同现概率,所述同现概率为根据所述至少两个基础字词的相邻同现频率以及输入法系统的词库中已有字词的词频计算获得,所述输入法系统还包括第二输出单元用于根据所述候选字词的同现概率以及输入法系统的词库中已有字词的词频计算权重值,以及,根据所述权重值进行排序,并将排序结果作为候选项输出。
15.如权利要求12所述的系统,其特征在于,所述多元表存储有连接强度值,所述连接强度值为根据所述至少两个基础字词的相邻同现频率和同现概率计算获得,所述输入法系统还包括第三输出单元用于根据所述候选字词的连接强度值以及输入法系统的词库中已有字词的词频计算权重值,以及,根据所述权重值进行排序,并将排序结果作为候选项输出。
16.如权利要求12所述的系统,其特征在于,所述互联网语料库为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库。
17.如权利要求12所述的系统,其特征在于,所述输入法系统还包括加载单元用于将所述多元表加载至存储设备中。
18.如权利要求12所述的系统,其特征在于,所述输入法系统还包括切分优化单元用于对所述编码字符串的切分方法进行优化。
19.如权利要求12或18所述的系统,其特征在于,所述输入法系统还包括新增获取单元用于根据用户新增的编码字符串在所述多元表中获取对应的组合信息。
20.如权利要求12所述的系统,其特征在于,所述输入法系统的输入接口单元、显示单元以及多元表位于同一计算设备中;或者,所述输入法系统的输入接口单元、显示单元位于第一计算设备中,多元表位于第二计算设备中,所述输入法系统根据用户输入的信息,从位于第二计算设备的多元表中获取相应的组合信息,在第一计算设备显示相应字词。
21.一种生成多元表的装置,其特征在于,包括获取模块用于从预置的互联网语料库中,获取至少两个基础字词相邻同现的组合信息,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率;生成模块用于根据所述组合信息生成多元表。
22.如权利要求21所述的装置,其特征在于,还包括选取模块用于从输入法系统的词库中选取符合预置条件的基础字词。
23.如权利要求21或22所述的装置,其特征在于,还包括第一去除模块用于当一组合信息中的相邻同现频率低于一定阈值时去除该组合信息;和/或,第二去除模块用于当一组合信息中的对应字词为两个或者多个词频最高的字词组成时去除该组合信息;和/或,第三去除模块用于当一条组合信息被另一条组合信息部分或全部覆盖时去除该组合信息。
24.如权利要求21或22所述的装置,其特征在于,还包括网页获取模块用于通过网络爬虫技术获取互联网的网页;语料库生成模块用于选取符合预置条件的网页信息,并保存形成互联网语料库。
25.如权利要求24所述的装置,其特征在于,所述互联网语料库为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库。
26.一种更新输入法系统的方法,其特征在于,包括更新互联网语料库;从预置的互联网语料库中,获取至少两个基础字词相邻同现的组合信息,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率;根据所述组合信息生成多元表;将所述多元表发送至输入法系统。
27.如权利要求26所述的方法,其特征在于,还包括从输入法系统的词库中选取符合预置条件的基础字词。
28.如权利要求26或27所述的方法,其特征在于,在生成多元表之前,还包括如果一组合信息中的相邻同现频率低于一定阈值,则去除该组合信息;如果一组合信息中的对应字词为两个或者多个词频最高的字词组成,则去除该组合信息;如果一条组合信息被另一条组合信息部分或全部覆盖的,则去除该组合信息。
全文摘要
本发明公开了一种在输入法系统中智能组词输入的方法,包括从预置的互联网语料库中,获取至少两个基础字词之间的组合信息,所述组合信息包括所述至少两个基础字词之间的搭配关系和相邻同现频率;根据所述组合信息生成多元表;接收用户输入的编码字符串,并对所述编码字符串进行切分;根据所述切分后的编码字符串在所述多元表中获取对应的组合信息,并提取所述组合信息中相应搭配关系的对应字词为候选字词。本发明可以有效提高用户输入多个字词、词组、短语、短句或长句的首选词命中率,避免无效、重复的计算过程,进而有效提高了用户的输入效率。
文档编号G06F3/023GK101013443SQ20071007926
公开日2007年8月8日 申请日期2007年2月13日 优先权日2007年2月13日
发明者郭奇 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1