提供新词或热词的方法及系统的制作方法

文档序号:6598531阅读:355来源:国知局
专利名称:提供新词或热词的方法及系统的制作方法
技术领域
本发明涉及输入法技术领域,特别是涉及提供新词或热词的方法及系统。
背景技术
随着互联网的普及、时代的进步,每个人都可以在网络上发表自己的看法,输入的文字也越来越个性化,同时,随着互联网用户的不断增多,个人的文章文字也不断增多,个性化的新词也不断的涌现出来。此外,通过网络,不同的用户之间还可以进行互动,例如,可以就某些共同关注的话题发起讨论等等,当然,这种讨论通常是以文字为载体进行,在这一过程中,也会涌现出一些热词。其中,新词是对新事件、新事物的高度概括,广义来讲包括新的词条、旧词新用、新的词组等语言现象,如“悦宴”等;热词即热门词汇,作为一种词汇现象,反映了一个国家、一个地区在一个时期人们普遍关注的问题或事物。输入法系统作为人机对话的接口,提供了将各种符号输入计算机或其他设备(如手机)而采用的编码方法。对于需要编码才能完成输入的文字,如果想要将某些文字内容输入到计算机中,则需要借助于输入法系统,新词、热词的输入当然也不例外。但是,新词、 热词由于区域和时间上的特点,缺乏与通用词条对等的累积统计信息,如果不进行特殊的处理,则在针对新词、热词进行字词转换时,输入法系统可能无法体现出与输入其他普通词条时一样的智能性。针对上述问题,现有技术的方法是输入法服务器通过搜索引擎、网络爬虫等技术从网络上抓取新词、热词,形成专门的新词、热词词库,输入法客户端可以将服务器上的该词库下载到本地;当然服务器也可以将该词库主动发送到输入法客户端,然后采用固定的更新周期更新客户端的新词、热词词库。例如,更新周期可以为一天,即客户端的新词、热词词库可以每天更新一次。但是,该现有技术的方法中,获取到的新词或热词无法得到实时地应用。

发明内容
本发明提供了提供新词或热词的方法及系统,有利于使获取到的新词或热词得到实时地应用。本发明提供了如下方案一种提供新词或热词的方法,包括对用户通过输入法系统输入的字词进行统计,从中获取新词或热词;通过输入法服务器,实时将所述新词或热词提供给网络中的用户。优选的,所述实时将所述新词或热词提供给网络中的用户包括在用户进行字词输入的过程中,实时应用所述新词或热词为网络中的用户提供字词候选项。优选的,所述实时应用所述新词或热词为网络中的用户提供字词候选项包括
当所述字词候选项中包含与所述新词或热词重码的候选项时,判断网络中的用户需要输入所述新词或热词的概率,如果所述概率满足预置条件,则将所述新词或热词作为候选项提供给所述网络中的用户。优选的,还包括获取所述新词或热词对应的用户特征信息;所述判断网络中的用户需要输入所述新词或热词的概率,如果所述概率满足预置条件,则将所述新词或热词作为候选项提供给所述网络中的用户包括如果所述网络中的用户具有所述新词或热词对应的用户特征信息,则将所述新词或热词作为候选项提供给所述网络中的用户。优选的,所述用户特征信息包括用户的所在地信息,所述如果所述网络中的用户具有所述新词或热词对应的用户特征信息,则将所述新词或热词作为候选项提供给所述网络中的用户包括如果所述网络中的用户位于所述所在地信息对应的区域,则将所述新词或热词作为候选项提供给所述网络中的用户。优选的,还包括获取与所述新词或热词具有语义搭配关系的关键词;所述判断网络中的用户需要输入所述新词或热词的概率,如果所述概率满足预置条件,则将所述新词或热词作为候选项提供给所述网络中的用户包括如果所述网络中的用户当前输入的上下文中包含所述关键词,则将所述新词或热词作为候选项提供给所述网络中的用户。优选的,当网络中的用户输入的编码字符串中包含至少两个词条时,所述实时应用所述新词或热词为网络中的用户提供字词候选项还包括实时应用所述新词或热词与所述关键词的对应关系,针对所述编码字符串进行组词,并将组词结果提供给所述网络中的用户。优选的,所述实时应用所述新词或热词与所述关键词的对应关系,针对所述编码字符串进行组词,并将组词结果提供给所述网络中的用户包括获取针对所述编码字符串的组词结果,并对各组词结果进行打分;当某组词结果中包含所述新词或热词,且该组词结果中包含与该新词或热词对应的关键词,则增加该组词结果的分数;根据各组词结果最终的分数,将所述组词结果提供给所述网络中的用户。优选的,当所述提供的组词结果为至少两个时,还包括将包含有所述新词或热词的组词结果与其他组词结果进行区别展现。优选的,当网络中的用户输入的编码字符串中包含至少两个词条时,所述实时应用所述新词或热词为网络中的用户提供字词候选项还包括当所述至少两个词条中包含所述新词或热词时,将所述新词或热词作为候选项提供给所述网络中的用户;如果所述网络中的用户接受所述新词或热词,从所述新词或热词处开始向前和/ 或向后进行组词,为网络中的用户提供针对所述编码字符串的完整的候选项。优选的,所述实时将所述新词或热词提供给网络中的用户包括
实时为网络中的用户展现所述新词或热词,并提供获取所述新词或热词对应的相关信息的入口。优选的,所述对用户通过输入法系统输入的字词进行统计,从中获取新词或热词包括获取网络中各用户的用户特征信息,基于所述用户特征信息对网络中的各用户进行分类,得到至少两个用户类别;从所述用户输入的字词中获取针对各用户类别的新词或热词。优选的,所述实时将所述新词或热词提供给网络中的用户包括判断所述网络中的用户是否属于所述新词或热词对应的用户类别,如果属于,则将所述新词或热词提供给所述网络中的用户。优选的所述对用户通过输入法系统输入的字词进行统计,从中获取新词或热词包括收集用户通过输入法选择的字词,统计该字词是否符合新词或热词的预置条件,如果是,输入法服务器将该新词或热词进行记录;所述通过输入法服务器,实时将所述新词或热词提供给网络中的用户包括将所述记录的新词或热词以预置规则实时提供给输入法用户。优选的,所述获取新词或热词之后还包括将所述新词或热词保存在输入法服务器端的新词或热词词库中;所述通过输入法服务器,实时将所述新词或热词提供给网络中的用户包括通过输入法服务器,实时将所述新词或热词词库中的新词或热词提供给网络中的用户。一种提供新词或热词的系统,包括获取单元,用于对用户通过输入法系统输入的字词进行统计,从中获取新词或热词;新词或热词提供单元,用于通过输入法服务器,实时将所述新词或热词提供给网络中的用户。优选的,所述新词或热词提供单元包括
候选项提供单元,用于在用户进行字词输入的过程中,实时应用所述新词或热词为网络中的用户提供字词候选项。优选的,所述候选项提供单元包括判断单元,用于当所述字词候选项中包含与所述新词或热词重码的候选项时,判断网络中的用户需要输入所述新词或热词的概率,如果所述概率满足预置条件,则将所述新词或热词作为候选项提供给所述网络中的用户。优选的,还包括特征信息获取单元,用于获取所述新词或热词对应的用户特征信息;所述判断单元具体用于,判断所述网络中的用户是否具有所述新词或热词对应的用户特征信息,如果有,则将所述新词或热词作为候选项提供给所述网络中的用户。优选的,所述用户特征信息包括用户的所在地信息,所述判断单元具体用于,判断所述网络中的用户是否位于所述所在地信息对应的区域,如果是,则将所述新词或热词作为候选项提供给所述网络中的用户。
优选的,还包括关键词获取单元,用于获取与所述新词或热词具有语义搭配关系的关键词;所述判断单元具体用于,判断所述网络中的用户当前输入的上下文中是否包含所述关键词,如果包含,则将所述新词或热词作为候选项提供给所述网络中的用户。优选的,当网络中的用户输入的编码字符串中包含至少两个词条时,所述候选项提供单元还包括组词单元,用于实时应用所述新词或热词与所述关键词的对应关系,针对所述编码字符串进行组词,并将组词结果提供给所述网络中的用户。优选的,所述组词单元包括组词结果获取子单元,用于获取针对所述编码字符串的组词结果,并对各组词结果进行打分;分数调整子单元,用于当某组词结果中包含所述新词或热词,且该组词结果中包含与该新词或热词对应的关键词,则增加该组词结果的分数;结果提供子单元,用于根据各组词结果最终的分数,将所述组词结果提供给所述网络中的用户。优选的,当所述提供的组词结果为至少两个时,还包括第一展现单元,用于将包含有所述新词或热词的组词结果与其他组词结果进行区别展现。优选的,当网络中的用户输入的编码字符串中包含至少两个词条时,所述候选项提供单元还包括首次提供单元,用于当所述至少两个词条中包含所述新词或热词时,将所述新词或热词提供给所述网络中的用户;重新组词单元,用于判断所述网络中的用户是否接受所述新词或热词,如果接受, 则从所述新词或热词处开始向前和/或向后进行组词,为网络中的用户提供针对所述编码字符串的完整的候选项。优选的,所述新词或热词提供单元包括相关信息展现单元,用于实时为网络中的用户展现所述新词或热词,并提供获取所述新词或热词对应的相关信息的入口。优选的,所述获取单元包括分类子单元,用于获取网络中各用户的用户特征信息,基于所述用户特征信息对网络中的各用户进行分类,得到至少两个用户类别;获取子单元,用于从所述用户输入的字词中获取针对各用户类别的新词或热词。优选的,所述新词或热词提供单元具体用于,判断所述网络中的用户是否属于所述新词或热词对应的用户类别,如果属于,则将所述新词或热词提供给所述网络中的用户。优选的,所述获取单元具体用于收集用户通过输入法选择的字词,统计该字词是否符合新词或热词的预置条件,如果是,输入法服务器将该新词或热词进行记录;所述新词或热词提供单元具体用于将所述记录的新词或热词以预置规则实时提供给输入法用户。
优选的,还包括保存单元,用于获取新词或热词之后,将所述新词或热词保存在输入法服务器端的新词或热词词库中;所述新词或热词提供单元具体用于,通过输入法服务器,实时将所述新词或热词词库中的新词或热词提供给网络中的用户。根据本发明提供的具体实施例,本发明公开了以下技术效果本发明能够对用户通过输入法系统输入的字词进行统计,从中获取新词或热词, 通过输入法服务器,实时将所述新词或热词提供给网络中的用户。可见,通过本发明,使得获取到的新词或热词能够得到实时的应用。此外,本发明能够从用户输入的字词中获取新词或热词,因此,可以提高获取新词、热词的准确度及效率。另外,由于在获取新词或热词时考虑了用户所在地等信息,因此,可以将小范围用户使用的新词或热词提取出来,供该小范围内的其他用户使用。换言之,由于新词或热词可能具有地域性等特点,如果基于网络中的全部用户进行统计,可能无法发现这些新词或热词,但是本发明能够基于某些用户进行统计,可以最大限度地发现这些新词或热词,并提供给网络中其他的用户使用。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本发明实施例提供的方法的流程图;图2是本发明实施例提供的另一方法的流程图;图3是本发明实施例提供的再一方法的流程图;图4是本发明实施例提供的系统的示意图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例一参见图1,本发明实施例提供的提供新词或热词的方法包括以下步骤SlOl 对用户通过输入法系统输入的字词进行统计,从中获取新词或热词;本发明实施例中,可以直接从用户输入的字词中获取新词或热词,相对于从网络上的文章中获取新词或热词,这种方法的好处在于由于用户在进行字词输入的过程中,会主动对自己想要输入的句子进行分词,相当于充分利用了用户在使用输入法进行字词输入时的信息,收集到的是一些以用户认为是词或短语的形式存在的字词。而如果是从网络上的文章中获取新词或热词,那么需要首先根据标点符号将文章切分成一个一个的句子,然后还要对长的句子进行分词(通过程序将完整的句子切分成字或词),最后才能判断切分出来的字或词中是否包含新词或热词;但是机器分词的过程难免会产生误差,而且需要耗费较多的计算及存储资源。因此,利用直接从用户输入的字词中获取新词或热词的方法,可以提高获取新词的效率,而且可以避免机器分词带来的误差。具体实现时,在用户输入过程中,获取用户选择的字词,其中,用户选择的字词是指用户每输入完一串编码字符串后、在输入法给出的多个候选词中选择并确定的字词;然后,将该用户所选字词与现有字词进行比较,根据比对结果获取用户个性字词,然后根据用户个性字词的时间标签、频率特性等,对这些个性字词进行筛选,便可以从中获取新词或热词。更为具体的,可以通过以下方式判断用户输入的字词是否为新词或热词如果发现某个性字词不属于现有字词,则可以判断出该个性字词是新词;如果发现某个性字词在一段时间内的使用频率非常高,则可以继续判断该个性字词是否为现有字词,如果是现有字词,则该个性字词可能是热词,或者是旧词新用,如果不是现有字词,则该个性字词可能不仅是热词,而且还是新词。同时,通过该方法来获取新词或热词,具有较高的灵活性,还可以允许用户通过一些主动的操作来提高服务器获取热词的效率。例如,如果某用户希望将某词条被服务器识别为热词,则该用户可以在短时间内反复输入该词条,或者,连续多次输入该词条;对于服务器而言,如果发现用户有这种行为,则可以直接将该词条作为热词添加到热词词库中。从以上描述也可以看出,新词与热词之间的关系如果某个字词是新词,但不一定是热词,如果是热词,也不一定是新词,但是也存在既是新词又是热词的情况。S102 通过输入法服务器,实时将所述新词或热词提供给网络中的用户。在步骤SlOl中获取新词或热词之后,还可以将新词或热词保存在输入法服务器端的新词或热词词库中;然后通过输入法服务器,实时将所述新词或热词词库中的新词或热词提供给网络中的用户。首先需要说明的是,本发明实施例提供的方法既可以适用于桌面输入法,也可以适用于网络输入法。对于网络输入法而言,由于客户端仅具有输入输出及通信功能,具体的计算由输入法服务器完成,因此,步骤SlOl的执行主体是输入法服务器,即,输入法服务器可以综合统计网络中各个用户输入的字词,并从中判断出新词或热词,然后在步骤S102 中,直接保存在服务器的新词或热词词库中即可。对于桌面输入法而言,由于输入系统的客户端具有计算及存储功能,因此,步骤 SlOl的执行主体可以是输入法系统的客户端,即可以由客户端对使用该客户端的用户输入的字词进行判断,如果发现新词,则在该步骤S102中,将该新词发送到输入法服务器即可; 当然,步骤SlOl的执行主体也可以是输入法服务器,例如,客户端可以定时或者主动地上传用户词库,由于用户词库中记录了用户输入的字词及其使用频率,因此,相当于将用户字词及使用频率等同步到输入法服务器;然后由输入法服务器将各个用户的用户字词与现有字词进行比较,获取新词或热词,并在步骤S102中直接将获取到的新词或热词保存在服务器的新词或热词词库中即可。需要说明的是,如果是在客户端进行新词或热词的判断,则相当于是针对单个用户的输入字词判断新词;而如果是由服务器进行新词或热词的判断,则可以针对网络中的所有用户输入的字词,判断是否存在新词或热词,这种方式对获取热词而言尤为有效。因为热词是依据用户字词的使用频率来判断的,如果对于某个词条,每个用户使用这个词条的频率可能并不是非常高,因此,客户端可能不会将该词条判断为热词;但是,实际上在同一时间段,有很多用户都使用了该词条,因此,该词条有可能是热词,而只有通过服务器进行判断时,服务器才能够从整体上看到各个用户的词条使用情况,才可能将该词条判断为热词。此外,由于网络输入法实时的记录上屏信息,可以捕获词条的短时输入高峰,在实时性方面具有优越性。总之,在获取到新词或热词之后,都能够及时地将这些新获取到的新词或热词保存到输入法服务器上,因此,可以通过输入法服务器,实时将这些新获取到的新词或热词提供给网络中各个用户,而不用等到用户本地的词库完成更新。综上可见,本发明实施例在对用户通过输入法系统输入的字词进行统计,从中获取新词或热词时,具体可以这样进行收集用户通过输入法选择的字词(包括用户选择过但是没有上屏输出的字词,或者选择了并且上屏输出的字词),统计该字词是否符合新词或热词的预置条件,如果是,输入法服务器将该新词或热词进行记录。其中,预置条件可以根据需要进行设置,例如,如果某词条在短时间内(具体的时间长度也可以根据需要设定)被很多个用户使用,则将该词条作为热词进行记录;或者,如果某词条在之前的词库中没有出现过,并且输入该词条的用户数目超过某阈值(该阈值也可以根据需要设定),则将该词条作为新词记录;当然,还可以是前文所述的用户干预的方式,即如果某用户连续多次输入某词条,或者在短时间内,同一用户多次输入同一词条,则认为该用户可能想要使该词条被识别为热词,此时,也可以将该词条作为热词收录,等等。相应的,通过输入法服务器,实时将所述新词或热词提供给网络中的用户具体可以是将所述记录的新词或热词以预置规则实时提供给输入法用户。这里的预置规则可以是多种,例如,可以是在用户进行字词输入的过程中,实时应用所述新词或热词为网络中的用户提供字词候选项;即用户在输入编码字符串之后,输入法系统需要根据词库将编码字符串对应的字词显示出来供用户选择,在此过程中,用户可能会需要输入某新词或热词,此时,输入法服务器就可以直接利用收集到的新词或热词向用户提供候选项。下面针对在用户进行字词输入的过程中,实时应用所述新词或热词为网络中的用户提供字词候选项的情况进行详细地介绍。具体的,对于网络输入法而言,服务器在接收到用户输入的编码字符串等待转换内容之后,可以直接按照输入法规则匹配相应的新词或者热词,如果有匹配的新词或热词, 则直接把新词或热词反馈给用户即可。对于桌面输入法而言,由于输入法客户端也具有与服务器进行交互的通道,因此, 输入法客户端在接收到用户输入的编码字符串或者其他形式的待转换内容之后,可以首先利用本地的数据库进行转换,如果本地词库中没有完全匹配的词条,则认为用户需要的可能是本地未更新过的新词,因此可以将用户输入的编码字符串发送到服务器,服务器在接收到用户的编码字符串之后,可以利用新词或热词词库进行匹配,如果有匹配的词条,返回给相应的客户端即可。当然,客户端也可以直接将用户输入的编码字符串发送给服务器,此时,相当于在本地及服务器并行对编码字符串进行转换。即,由客户端实现编码字符串转换候选项的计算,并且客户端向服务器发送编码字符串,如果用户输入的编码字符串比较长,由服务器对编码字符串切分,判断其中是否含有新词或者热词,如果查找到新词或热词,则发送给客户端进行展现,或者用来影响客户端的候选项。展现时可以仅展现新词或热词,如果用户接受该展现结果,则客户端以该新词或热词为基础重新生成针对全部编码字符串的候选项。同时,客户端还可以将用户选择了该新词或热词的信息反馈给服务器,增加该新词或热词的使用频率。可见,通过本发明,相当于实现了一个迭代的过程,S卩,从用户输入的字词中获取新词或热词,同时,实时利用获取到的新词或热词为其他用户提供输入法服务;当用户使用了提供了新词或热词时,还可以将选择信息反馈给服务器,以便服务器及时地优化、更新其保存的信息,为输入法用户提供更优的候选项。下面通过一个实际应用中的例子,来体现该实施例的应用。假设1月1日出了一部电视剧叫做“兵圣”,用户A在原有的定时更新模式下更新周期为2天,则该用户A最快在1月3日才能得到“兵圣”这一新词,因此,该用户A如果在 1月1日或1月2日想要输入“兵圣”时,则只能采用逐字选择的方式,即先选择“兵”,然后再选择“圣”;而使用本发明实施例一的方案,只要输入法服务器将“兵圣”作为新词保存到了新词或热词词库,那么用户输入“兵圣”的拼音“bingsheng”时,就会立即激活客户端对于服务器的访问,无论用户A使用的是网络输入法或者是本地客户端,均可以在1月1日当天就直接敲打出“兵圣”这个词条。在上述实施例中,获得新词或热词之后,在应用所述新词或热词为网络中的用户提供字词候选项时,对所有用户都是无差别的。但是在实际应用中可能存在这样的情况有一些新词可能是通过取现有字词的谐音得到的,一些热词本身可能是现有词条,因此,使得有些新词或热词可能与现有字词重码。例如,新词“博斗”与现有字词“搏斗”就是重码的。 那么如果用户输入了拼音串“bodou”,应该如何给出相应的候选项是个值得考虑的问题。现有技术中的方法是预先设定新词的权重大于现有字词的权重,即当出现重码时,则优先将新词推荐给用户;但是,如果某用户就是想要输入现有字词“搏斗”,则无法通过按空格键直接上屏,甚至可能需要增加按键的次数;如果该用户没有听说过“博斗”的写法,还可能会感到莫名其妙。为了解决该问题,本发明实施例可以当字词候选项中包含与所述新词或热词重码的候选项时,判断网络中的用户需要输入所述新词或热词的概率,如果所述概率满足预置条件,则将所述新词或热词作为首选的候选项提供给所述网络中的用户。以此来解决当出现重码时,应如何保证首选候选项的准确率的问题。其中,判断网络中的用户需要输入所述新词或热词的概率的具体实施方式
可以有多种,下面示例性地介绍其中的几种。
具体实施方式
一在实际应用中,可能存在以下情况某些新词或热词可能只对具有某些共同特征的用户(如某些特殊身份、或者特殊地域的用户等)才是需要的。例如,对于某网络游戏中出现的新词,可能仅仅是同样在玩这款游戏的用户才是需要的;对于某城市出现新的建筑名、饭店名等对应的新词,可能只有这个城市的用户才会用到;对于某地区发生的某一新闻事件,也可能只有这个地区的用户才会关心等等。因此,在该具体实施方式
一,在判断出新词或热词之后,可以获取这些新词或热词
13对应的用户特征信息,将这些新词或热词对应的用户特征信息保存到输入法服务器;然后, 当向网络中的各个用户提供候选项时,实时应用所述新词或热词为网络中具有所述用户特征的用户提供字词候选项。具体的,参见图2,该具体实施方式
一提供的方法可以包括以下步骤S201 对用户通过输入法系统输入的字词进行统计,从中获取新词或热词;该步骤S201可以与SlOl相同,这里不再赘述。S202 获取所述新词或热词对应的用户特征信息;由于步骤SlOl中是从用户输入的字词中来获取新词或热词的,无论是网络输入法还是桌面输入法,都可以获知各个新词或热词是从哪个或哪些用户输入的字词,进而可以通过获知这些用户特征信息,来获知新词或热词对应的用户特征信息。其中,用户特征信息可以从用户的注册信息中获取,例如,可以包括用户的所在地、身份、年龄、兴趣爱好等信息。具体的,当获取到某新词或热词之后,可以首先该新词或热词来自哪些用户,然后从这些用户的注册信息中,获取用户的各个特征信息,并从中选择出具有共性的特征,作为该新词或热词对应的用户特征信息即可。当然,用户的特征信息也可以通过其他途径来获取,例如,还可以获取用户的IP 地址,通过IP段来判断用户当前的所在地;或者,可以获取用户勾选的细胞词库,通过对细胞词库的选择可以简单判断出用户的兴趣等等。S203:在用户进行字词输入的过程中,通过输入法服务器,实时应用所述新词或热词为网络中具有所述用户特征的用户提供字词候选项。具体的,如果所述网络中的用户具有所述新词或热词对应的用户特征信息,则将所述新词或热词作为候选项提供给所述网络中的用户。S卩,在应用新词或热词为网络中的用户提供字词候选项之前,需要对用户的用户特征进行判断。具体的,如果发现某用户输入的编码字符串能够命中某新词或热词,则在向该用户返回该新词或热词之前,可以首先取出该用户的注册信息,判断该用户是否具有该新词或热词对应的用户特征信息,如果有,再将该新词或热词提供给用户。其中,可以将该新词或热词作为首选的候选项提供给用户,这样如果该用户确实想要输入该新词或热词, 则直接按下空格键即可完成该词条的上屏输出,明显提高了输入效率。当然,也可以将该新词或热词显示在候选框以外的地方,例如可以显示在输入框的空白部分,以此来提示该词条相对其他词条而言具有特殊性,当然也可以为其提供相应的选择键,当用户按下该选择键时,将该词条上屏输出。其中,用户特征信息可以包括用户的所在地信息,此时,可以实时应用所述新词或热词为网络中所述所在地信息对应区域的用户提供字词候选项。例如,当获取到“大火”这一热词时,通过分析输入过这一词条的用户的特征信息发现,这些用户都是位于北京市五道口附近,因此,可以确定“大火”这一热词对应的用户特征信息是用户所在地是北京市五道口附近,并保存该信息。然后,当有用户输入“dahuo”这一拼音时,可以首先判断从该用户的注册信息中获取该用户的所在地,如果该用户确实位于北京市五道口附近,则直接将“大火”作为首选的候选项提供给该用户;否则,如果用户不在该区域,则可以认为该用户可能不是想要输入“大火”这一热词,因此,按照常规的方式向用户提供或选项即可,如,按照词频、用户词库等对各个候选项进行排序,给出“大伙”、“大货”、“大获”等候选项,或者,也可以将“大火”展现在次选或首屏的末尾选项上,由用户自行确认是否需要输入“大火”。由此可见,由于在获取新词或热词时考虑了用户所在地等信息,因此,可以将小范围用户使用的新词或热词提取出来,供该小范围内的其他用户使用。换言之,由于新词或热词可能具有地域性等特点,如果基于网络中的全部用户进行统计,可能无法发现这些新词或热词,但是本发明能够基于某些用户进行统计,可以最大限度地发现这些新词或热词,并提供给网络中其他的用户使用。
具体实施方式
二在前述具体实施方式
一中,当候选项中存在与所述新词或热词重码的候选项时, 是利用新词或热词本身的一些特征,去判断是否应有作为首选项提供给某用户。但是,有些新词或热词可能并不具有明显的用户特征信息。例如,前文例子中提到的新词“博斗”,该新词可能无法获得用户特征信息,如果利用具体实施方式
一的方法,可能还是无法判断是否应该作为首选项将这种新词或热词提供给用户。为此,在该具体实施方式
二中提供了如下方法在获取新词或热词的同时或之后, 还可以获取该新词或热词的语言环境、前后词条的邻接次数等信息,通过这些信息可以获取经常与该新词或热词同现的关键词等信息,将这些关键词与相应的新词或热词构成语义搭配关系,并将该语义搭配关系进行保存。这样,当用户输入的编码字符串命中某新词或热词时,可以获取该用户当前输入的上下文等信息,如果这些信息中包含某个该新词或热词对应的关键词,则可以将该新词或热词提供给该用户。同样,此时也可以将该新词或热词作为首选的候选项提供给该用户,当然也可以采用其他方式。前文所述都是假设用户仅针对新词或热词输入编码字符串,如,用户想要输入“大火”,则输入的编码字符串为“dahuo”。但是,在实际应用中,还可能存在这样的情况用户输入的编码字符串可能会比较长,其中可能包含至少两个词条,当然,其中也可能包含某些新词或热词。针对这种情况,还可以利用上述具体实施方式
二中提供的语义搭配关系,实现针对包含新词的编码字符串的组词。即实时应用所述新词或热词与所述关键词的对应关系, 针对所述编码字符串进行组词,并将组词结果提供给所述网络中的用户。例如,与新词“博斗”(指网民之间利用网络博客进行的“吵架”或互相攻击)构成语义搭配关系的关键词有“韩寒”、“博客”、“在网上”、“李承鹏”等等。如果用户输入的拼音串为“hanhanzaiwangshangyurenbodou(韩寒在网上与人(博斗或搏斗等))”时,在组词时发现“在网上”与“博斗”之间的语义搭配关系,于是优选给出“韩寒在网上与人博斗”候选项。当然,也可以先通过上下文的语义搭配关系进行组词,然后再判断有没有匹配的新词或热词。由于除了需要处理针对新词或热词的候选项之外,还要得到其他的候选项,为了便于处理,在本发明实施例中,可以在原有的通用模型、用户模型的基础上,加入新词或热词模型。其中,通用模型为一个总体架构,可以给出常规的词汇、语法及语义给出多个候选项及相应的评分λ common ;用户模型在通用模型候选项中查找包含用户词及用户习惯用法,为与用户习惯匹配的候选项加上相应的分数λ user ;
新词或热词模型则将包含新词或热词及其前后环境、应用搭配的候选项加上相应的分数λ new。最终,将三个分数加权即可得到最好的候选项,然后按照用户配置进行打包发送回客户端即可。当然,并不是说在每次转换过程中都必须将三个模型都用到,根据实际情况使用即可。即,可以利用通用模型和/或用户模型得到针对所述编码字符串的组词结果, 并对各组词结果进行打分;然后再利用新词模型进行判断,当某组词结果中包含所述新词或热词,且该组词结果中包含与该新词或热词对应的关键词,则增加该组词结果的分数;最后,根据各组词结果最终的分数,将所述组词结果提供给所述网络中的用户。例如,可以按照各组词结果最终的分数,对各组词结果进行排序,并将各组词结果按顺序提供给所述网络中的用户;或者,也可以仅将得分最高的组词结果提供给所述网络中的用户,等等。仍以用户输入“hanhanzaiwangshangyurenbodou”为例,首先,可以利用通用模型从通用词库、用户词库、新词或热词词库的所有词汇中,按照通用模型构建出来若干个候选项,如1. “韩寒在网上搏斗”;2. “韩寒在网上博斗”;3. “韩寒在网上剥豆”......而新词或热词模型通过保存的语义搭配关系对各个候选项进行打分,调整候选项的综合权值。如对于上述例子,发现“博斗”与其余部分关系密切,则为第二个候选项增加相应的分数,然后,将各个候选项所得的分数合并,并将最高分的组词结果选出发送给用户, 或者,将最高分的候选项作为首选项发送给用户。需要说明的是,通常是在所有词库(包括新词库)中都得不到词条时则进入组词过程,对于桌面输入法而言,如果组词的新词条不在本地,此时并行的新词通讯已经发出, 组词模块首先会自行进行常规的组词,一旦得到与服务器端的通讯结果,则立即读取新词库更新组词结果;若等待超时则返回原先的组词结果。服务器在向用户提供组词结果时,可以提供完整的组词词条,也可以仅将组词词条中包含的新词或热词返回到客户端(如对于新词“悦宴”可能的请求为“吃过悦宴吗”), 客户端展现出该新词之后,如果用户接受了该新词,则可以由服务器或客户端从该新词或热词开始向前和/或向后进行组词,给出针对整个编码字符串的完整的候选项。对于桌面输入法而言,当用户编辑完词条之后,则对比其编辑步骤查阅是否涉及已有的新词,若最后上屏词串包含已有新词,则记录该句子中该新词的上下文,及时更新本地新词的使用频率;否则不包含已有新词,也有可能是未被发现的新词,则将其发送至新词通讯模块,上报服务器,即时监控新词。实施例二在前述实施例一中,是在假设发现了新词或热词之后,获取该新词或热词对应的用户特征信息或具有语义搭配关系的关键词,但是,在发现新词或热词时,是针对网络中的单个用户或全部用户进行统计的,因此可能无法获得某些具有领域性、地域性的新词或热词。例如,北京地区新开了一家饭店叫“悦宴”,则“悦宴”对于北京地区具有新词的高频及突发性的特征,但是,如果放在全体用户集合中则其频率特征可能很难被发现出来。又如, 实施例二的例子中,北京市五道口附近可能发生了一场大火,对于五道口附近的用户来讲,
16“大火”的使用频率可能是在短时间内突然升高,但是如果基于全体用户来统计,则可能无法发现这一热词。为了解决该问题,本发明实施例二提供了相应的方法首先,可以获取网络中各用户的用户特征信息,利用用户特征信息对用户进行分类,例如,用户的IP段、用户的输入法系统当前所处的应用程序、用户所勾选的偏好的细胞词库等都可以作为分类的依据;显然, 同一个用户可以同时属于不同的类别。然后,在判断用户输入的字词是否为新词或热词时, 可以分别判断该字词在各种类别下是否具有新词或热词的特征,如果某字词在某类别下具有新词或热词的特征,则可以将该字词作为该类别下的新词或热词,然后保存到该类别对应的分类词库中,或者为该新词或热词赋予该类别的标签。参见图3,该实施例二提供的方法包括以下步骤S301 获取用户特征信息,基于用户特征信息对用户进行分类,得到多个用户类别;S302 从所述用户输入的字词中获取针对各用户类别的新词或热词;S304:通过所述输入法服务器,实时将所述针对各用户类别的新词或热词提供给网络中的相应类别的用户。总之,在该实施例二中,在判断用户输入的字词中是否包括新词或热词的过程中, 不仅要获知用户选择的字词,还要获知各用户的IP段、各用户的输入法系统当前所处的应用程序或各用户所勾选的偏好的细胞词库等信息。需要说明的是,由于有些用户特征可能会发生变化,因此,对用户的分类并不是一成不变的,可能会是一个动态的过程。例如,在用户进行字词输入的过程中,输入法系统当前所处的应用程序可能会发生变化,如原来用户正在玩某网络游戏,则该用户会与其他玩该网络游戏的用户一起被分到该网络游戏的类别中;但是,后来用户退出该网络游戏,并打开某即时通信软件与好友聊天,此时,该用户又会被分到其他与正在使用该软件的用户一起被分到该即时通信软件的类别。当然,用户也可能在打网络游戏的同时,利用即时通信软件与好友聊天,此时,该用户的输入法所处的应用程序可能会经常发生切换,相应的,该用户所处的类别也可以随时发生变化,在不同应用程序中输入的字词可以单独进行判断。另外,可能会不断有用户登录或退出输入法服务器,因此,也使得各个类别中的用户可能是不断变化的,即可能不断有新用户加入某个类别,或者原来的用户退出该类别,等等。另外需要说明的是,在对用户输入字词按照上述类别分别进行判断的同时,还可以基于所有用户的所有字词进行判断,两者之间并不冲突,反而互为补充,相互促进。在该实施例二的方法中,由于可以基于不同的用户类别来发现新词或热词,因此, 提高了新词或热词能够被发现的可能性。同时,如果基于某类别的用户发现了某新词或热词,则使得该新词或热词具有了该类别的属性。换言之,可以通过用户的喜好标签、地域标签等统计该标签下的用户输入的高频、热点词汇作为分类词条。比如当前按照I P段对所有的用户进行分类索引,发现北京地区的IP段中,“悦宴”的频率特征具有短期高频的特点,则可以将“悦宴”作为新词或热词更新至北京地区的分类词库中。如表1所示,在该分类词库中可以增加“悦宴”词条。表 1“悦宴”ip: 3匕京地区范畴地点需要说明的是,虽然各类别中的用户可能会不断发生变化,但是对于某种分类词库中或属于某类别的已经发现的新词或热词而言,不会因为各类别中用户的变化而变化。 例如,通过北京地区的用户,发现了“悦宴”这一新词,如果某个时刻,该类别下的用户都离线了,则“悦宴”会仍然被保存,并且仍然具有“北京地区”这一类别属性。因此,在一种优选的实施方式中,可以利用这一特点,来解决当候选项中存在与所述新词或热词重码的候选时,如何对各候选项进行排序的问题。具体的,在步骤S303实时应用所述针对各用户类别的新词或热词为网络中各个用户提供字词候选项时,可以判断所述网络中的用户是否属于所述新词或热词对应的用户类别,如果属于,则将所述新词或热词提供给所述网络中的用户,同样,此时也可以将该新词或热词作为首选的候选项提供给该用户,这样,可以提高首选项的准确率。当然,也可以采用其他的方式提供新词或热词,避免影响用户的正常输入。也就是说,由于有些新词或热词可能是基于某种类别的用户发现的,因此,说明这些新词或热词可能具有某种类别属性,并且可能该类别下的用户才可能需要使用该新词或热词,因此,当发现某用户输入的编码字符串能够命中某新词或热词时,可以首先判断该新词或热词是否具有类别属性,如果具有,还可以判断该用户是否属于该类别,如果属于,则可以将该新词或热词提供给该用户,否则,按照常规的方式给出候选项,或者,也可以将该新词或热词展现在次选或首屏的末尾选项上,由用户自行确认是否进行新词或热词的展现。需要说明的是,由于是由服务器将新词或热词提供给网络中的用户,因此,服务器可以记录各个新词或热词相对网络中所有用户的整体词频,即假设用户A输入某新词的次数是10次,用户B输入该新词的次数的5次,用户C输入该新词的次数是20次,并假设其他用户没有输入过该新词,则该新词的整体词频为35 ;此时,可以将该整体词频作为网络中各用户的本地词频,这样,即使某用户使用该新词的次数还比较少,也可以获得较高的本地词频,下次再输入该新词时,该新词在候选项中的位置可能会上升。或者,也可以利用针对所有网络用户获取新词或热词的相对词频,来更新用户的本地词频。例如,假设某新词在规定时间内的使用次数是50次,而新词同音下的所有的词条的使用次数共为100次(假设为50次的使用次数在新词获取的采集阈值内,可以被记录为新词的情况下),则该新词在服务器端的相对词频是50%,也就是说,如本地新词同音下的所有词条的使用次数为20次,则使在词库中加入新词时的词频设为20次,形成使新词在本地词库中的使用次数占总使用次数的比为50%。此时,也可以将用户本地词库中该新词的相对词频修改为50%。通过前文各个实施例将本发明提供的提供字词候选项的方法进行了详细地介绍, 在其他实施例中,针对新词或热词的特点,还可以在发现新词或热词之后,通过搜索引擎等资源获取关于该新词或热词的一些外部资源信息,例如,如果是新词,可以获取该新词的释义,或者相关新闻摘要等;如果是热词,则可以获取与该热词相关的热点新闻等。当某用户输入了新词或热词时,则可以将这些外部资源信息提供给用户,使得用户能够通过输入法
18获得更多的信息。例如,在用户点击、鼠标经过等动作时展示百科解释、事件导航等信息的显示。或者,也可以将外部资源的链接提供给用户,这样,用户能够直接点击链接进入相应的页面,这相当于提供了一种获取信息的快捷方式,例如,如果是热词,可在展现同时给出进入相关热点新闻的快捷方式,如果是新词,可以展现同时给出进入新词百科或相关新闻的快捷方式。在具体实施时,各实施例及各种具体实施方式
可以互相结合使用,并且,可以同时获取各种具体实现方式下所需的用户信息、环境信息等,具体可以包括词条的拼音、频率、 前后词条的邻接次数、词条适用的应用程序环境、词条适用的网页交互环境等等,当然还可以从外部资源获取一些外部资源信息,包括词条的百科释义、相关新闻等等。在本发明实施例中,可以将这些信息称为词条的富信息,保存这些信息的数据库可以称为富信息库。在采用具体的实施方式时,可以到该富信息库中获取所需的信息。另外,在本发明的各个实施例中,当所述字词候选项中包含与所述新词或热词重码的候选项时,在客户端可以将新词或热词与其他候选项进行区别展现。具体的,可以在提示位置给予特殊字体或颜色等的标明。例如,可以将新词或热词独立展现在与编码展现框等位置,而不是展现在候选展现框中,并且,还可以根据新词或热词的应用环境、短期输入历史等信息提升或者降低新词或热词的展现位置;也可以改变新词或热词的颜色,还可以为该新词或热词加上特殊的标识等等。通过这些方式,可以向用户提供更多的信息,让用户获知该词语其他的普通词汇相比具有特殊性。当用户输入的编码字符串包含多个词条时,如果将多个组词结果都提供给用户, 则在客户端也可以将包含有新词或热词的词条与其他词条进行区别展现,同样,可以在提示位置给予特殊字体或颜色等的标明。例如,可以将该词条独立展现在与编码展现框位置, 而不是展现在候选展现框中,类似的,也可以根据新词或热词的应用环境、短期输入历史等信息提升或者降低新词或热词的展现位置;也可以改变该词条的颜色,还可以将该词条中的新词或热词突出显示,或者为该新词或热词加上特殊的标识等等。通过这些方式,同样可以向用户提示该词条中含有新词或热词。以上所述介绍了新词或热词在为用户提供输入候选项方面的应用,在实际应用中,还可以实时为网络中的用户展现所述新词或热词,并提供获取所述新词或热词对应的相关信息的入口。在这种情况下,即使用户当前不是正在进行字词输入,也可以通过输入法系统将新获取到的新词或热词提示给用户。此时,输入法系统可以作为用户获取信息的工具,通过输入法系统可以实时地将新收集到的新词或热词提供给用户,同时还可以向用户提供获取相关信息的入口,这样,在用户发现输入法提供的新词或热词之后,如果对其感兴趣,可以通过该入口获取与该新词或热词相关的信息,例如,某热词可能对应某新闻热点事件,将该热词展现给用户之后,用户就可以通过相应的入口,获取到该新闻热点事件的详细内容。其中,所述新词或热词本身就可以作为获取信息的入口,即,新词或热词可以展现为类似链接的形式,用户通过鼠标点击该新词或热词,就可以直接获取到相关信息。具体在向用户提供相关信息时,可能需要使用浏览器,具体如何通过输入法系统调用浏览器,则属于现有技术,这里不再赘述。与本发明实施例提供的提供新词或热词的方法相对应,本发明实施例还提供了一种提供新词或热词的系统,参见图4,该系统包括
获取单元401,用于对用户通过输入法系统输入的字词进行统计,从中获取新词或热词;候选项提供单元402,用于通过输入法服务器,实时将所述新词或热词提供给网络中的用户。具体的,新词或热词提供单元可以是在用户进行字词输入的过程中,用于为用户提供候选项;如果用户当前并不是在输入与某新词或热词相关的词条,甚至可能并没有进行字词输入,则也可以将新获取到的新词或热词显示给用户,由于该新词或热词通常与某新闻事件、热点事件等相关联,具有某些相关信息,因此,同时还可以为用户提供显示这些相关信息的入口。相应的,新词或热词提供单元402可以包括候选项提供单元,用于在用户进行字词输入的过程中,实时应用所述新词或热词为网络中的用户提供字词候选项。或者,新词或热词提供单元402也可以包括相关信息展现单元,用于实时为网络中的用户展现所述新词或热词,并提供获取所述新词或热词对应的相关信息的入口。其中,所述候选项提供单元可以包括判断单元,用于当所述字词候选项中包含与所述新词或热词重码的候选项时,判断网络中的用户需要输入所述新词或热词的概率,如果所述概率满足预置条件,则将所述新词或热词作为候选项提供给所述网络中的用户。具体实现时,该系统还可以包括特征信息获取单元,用于获取所述新词或热词对应的用户特征信息;所述判断单元具体用于,判断所述网络中的用户是否具有所述新词或热词对应的用户特征信息,如果有,则将所述新词或热词作为候选项提供给所述网络中的用户。其中,所述用户特征信息包括用户的所在地信息,所述首选项确定单元具体用于, 判断所述网络中的用户是否位于所述所在地信息对应的区域,如果是,则将所述新词或热词作为候选项提供给所述网络中的用户。或者,该系统还可以包括关键词获取单元,用于获取与所述新词或热词具有语义搭配关系的关键词;所述首选项确定单元具体用于,判断所述网络中的用户当前输入的上下文中是否包含所述关键词,如果包含,则将所述新词或热词作为候选项提供给所述网络中的用户。当网络中的用户输入的编码字符串中包含至少两个词条时,所述候选项提供单元还包括组词单元,用于实时应用所述新词或热词与所述关键词的对应关系,针对所述编码字符串进行组词,并将组词结果提供给所述网络中的用户。其中,所述组词单元包括组词结果获取子单元,用于获取针对所述编码字符串的组词结果,并对各组词结果进行打分;分数调整子单元,用于当某组词结果中包含所述新词或热词,且该组词结果中包含与该新词或热词对应的关键词,则增加该组词结果的分数;结果提供子单元,用于根据各组词结果最终的分数,将所述组词结果提供给所述网络中的用户。
20
相应的,当所述提供的组词结果为至少两个时,还包括第一展现单元,用于将包含有所述新词或热词的组词结果与其他组词结果进行区别展现。或者,当网络中的用户输入的编码字符串中包含至少两个词条时,所述候选项提供单元还包括首次提供单元,用于当所述至少两个词条中包含所述新词或热词时,将所述新词或热词提供给所述网络中的用户;重新组词单元,用于判断所述网络中的用户是否接受所述新词或热词,如果接受, 则从所述新词或热词处开始向前和/或向后进行组词,为网络中的用户提供针对所述编码字符串的完整的候选项。为了能够及时获取到新词或热词,获取单元401可以包括分类子单元,用于获取网络中各用户的用户特征信息,基于所述用户特征信息对网络中的各用户进行分类,得到至少两个用户类别;获取子单元,用于从所述用户输入的字词中获取针对各用户类别的新词或热词。其中,所述新词或热词提供单元具体用于,判断所述网络中的用户是否属于所述新词或热词对应的用户类别,如果属于,则将所述新词或热词作为候选项提供给所述网络中的用户。在实际应用中,获取单元401具体可以用于,收集用户通过输入法选择的字词,统计该字词是否符合新词或热词的预置条件,如果是,输入法服务器将该新词或热词进行记录;相应的,新词或热词提供单元402具体可以用于,将所述记录的新词或热词以预置规则实时提供给输入法用户。其中,该装置还可以包括保存单元,用于获取新词或热词之后,将所述新词或热词保存在输入法服务器端的新词或热词词库中;相应的,新词或热词提供单元402具体用于,通过输入法服务器,实时将所述新词或热词词库中的新词或热词提供给网络中的用户。以上对本发明所提供的提供新词或热词的方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想, 在具体实施方式
及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1.一种提供新词或热词的方法,其特征在于,包括对用户通过输入法系统输入的字词进行统计,从中获取新词或热词;通过输入法服务器,实时将所述新词或热词提供给网络中的用户。
2.根据权利要求1所述的方法,其特征在于,所述实时将所述新词或热词提供给网络中的用户包括在用户进行字词输入的过程中,实时应用所述新词或热词为网络中的用户提供字词候选项。
3.根据权利要求2所述的方法,其特征在于,所述实时应用所述新词或热词为网络中的用户提供字词候选项包括当所述字词候选项中包含与所述新词或热词重码的候选项时,判断网络中的用户需要输入所述新词或热词的概率,如果所述概率满足预置条件,则将所述新词或热词作为候选项提供给所述网络中的用户。
4.根据权利要求3所述的方法,其特征在于,还包括获取所述新词或热词对应的用户特征信息;所述判断网络中的用户需要输入所述新词或热词的概率,如果所述概率满足预置条件,则将所述新词或热词作为候选项提供给所述网络中的用户包括如果所述网络中的用户具有所述新词或热词对应的用户特征信息,则将所述新词或热词作为候选项提供给所述网络中的用户。
5.根据权利要求4所述的方法,其特征在于,所述用户特征信息包括用户的所在地信息,所述如果所述网络中的用户具有所述新词或热词对应的用户特征信息,则将所述新词或热词作为候选项提供给所述网络中的用户包括如果所述网络中的用户位于所述所在地信息对应的区域,则将所述新词或热词作为候选项提供给所述网络中的用户。
6.根据权利要求3所述的方法,其特征在于,还包括获取与所述新词或热词具有语义搭配关系的关键词;所述判断网络中的用户需要输入所述新词或热词的概率,如果所述概率满足预置条件,则将所述新词或热词作为候选项提供给所述网络中的用户包括如果所述网络中的用户当前输入的上下文中包含所述关键词,则将所述新词或热词作为候选项提供给所述网络中的用户。
7.根据权利要求6所述的方法,其特征在于,当网络中的用户输入的编码字符串中包含至少两个词条时,所述实时应用所述新词或热词为网络中的用户提供字词候选项还包括实时应用所述新词或热词与所述关键词的对应关系,针对所述编码字符串进行组词, 并将组词结果提供给所述网络中的用户。
8.根据权利要求7所述的方法,其特征在于,所述实时应用所述新词或热词与所述关键词的对应关系,针对所述编码字符串进行组词,并将组词结果提供给所述网络中的用户包括获取针对所述编码字符串的组词结果,并对各组词结果进行打分;当某组词结果中包含所述新词或热词,且该组词结果中包含与该新词或热词对应的关键词,则增加该组词结果的分数;根据各组词结果最终的分数,将所述组词结果提供给所述网络中的用户。
9.根据权利要求7或8所述的方法,其特征在于,当所述提供的组词结果为至少两个时,还包括将包含有所述新词或热词的组词结果与其他组词结果进行区别展现。
10.根据权利要求6所述的方法,其特征在于,当网络中的用户输入的编码字符串中包含至少两个词条时,所述实时应用所述新词或热词为网络中的用户提供字词候选项还包括当所述至少两个词条中包含所述新词或热词时,将所述新词或热词作为候选项提供给所述网络中的用户;如果所述网络中的用户接受所述新词或热词,从所述新词或热词处开始向前和/或向后进行组词,为网络中的用户提供针对所述编码字符串的完整的候选项。
11.根据权利要求1所述的方法,其特征在于,所述实时将所述新词或热词提供给网络中的用户包括实时为网络中的用户展现所述新词或热词,并提供获取所述新词或热词对应的相关信息的入口。
12.根据权利要求1所述的方法,其特征在于,所述对用户通过输入法系统输入的字词进行统计,从中获取新词或热词包括获取网络中各用户的用户特征信息,基于所述用户特征信息对网络中的各用户进行分类,得到至少两个用户类别;从所述用户输入的字词中获取针对各用户类别的新词或热词。
13.根据权利要求12所述的方法,其特征在于,所述实时将所述新词或热词提供给网络中的用户包括判断所述网络中的用户是否属于所述新词或热词对应的用户类别,如果属于,则将所述新词或热词提供给所述网络中的用户。
14.根据权利要求1所述的方法,其特征在于所述对用户通过输入法系统输入的字词进行统计,从中获取新词或热词包括收集用户通过输入法选择的字词,统计该字词是否符合新词或热词的预置条件,如果是,输入法服务器将该新词或热词进行记录;所述通过输入法服务器,实时将所述新词或热词提供给网络中的用户包括将所述记录的新词或热词以预置规则实时提供给输入法用户。
15.根据权利要求1所述的方法,其特征在于,所述获取新词或热词之后还包括将所述新词或热词保存在输入法服务器端的新词或热词词库中;所述通过输入法服务器,实时将所述新词或热词提供给网络中的用户包括通过输入法服务器,实时将所述新词或热词词库中的新词或热词提供给网络中的用户。
16.一种提供新词或热词的系统,其特征在于,包括获取单元,用于对用户通过输入法系统输入的字词进行统计,从中获取新词或热词;新词或热词提供单元,用于通过输入法服务器,实时将所述新词或热词提供给网络中的用户。
17.根据权利要求16所述的系统,其特征在于,所述新词或热词提供单元包括候选项提供单元,用于在用户进行字词输入的过程中,实时应用所述新词或热词为网络中的用户提供字词候选项。
18.根据权利要求17所述的系统,其特征在于,所述候选项提供单元包括判断单元,用于当所述字词候选项中包含与所述新词或热词重码的候选项时,判断网络中的用户需要输入所述新词或热词的概率,如果所述概率满足预置条件,则将所述新词或热词作为候选项提供给所述网络中的用户。
19.根据权利要求18所述的系统,其特征在于,还包括特征信息获取单元,用于获取所述新词或热词对应的用户特征信息;所述判断单元具体用于,判断所述网络中的用户是否具有所述新词或热词对应的用户特征信息,如果有,则将所述新词或热词作为候选项提供给所述网络中的用户。
20.根据权利要求19所述的系统,其特征在于,所述用户特征信息包括用户的所在地信息,所述判断单元具体用于,判断所述网络中的用户是否位于所述所在地信息对应的区域,如果是,则将所述新词或热词作为候选项提供给所述网络中的用户。
21.根据权利要求18所述的系统,其特征在于,还包括关键词获取单元,用于获取与所述新词或热词具有语义搭配关系的关键词;所述判断单元具体用于,判断所述网络中的用户当前输入的上下文中是否包含所述关键词,如果包含,则将所述新词或热词作为候选项提供给所述网络中的用户。
22.根据权利要求21所述的系统,其特征在于,当网络中的用户输入的编码字符串中包含至少两个词条时,所述候选项提供单元还包括组词单元,用于实时应用所述新词或热词与所述关键词的对应关系,针对所述编码字符串进行组词,并将组词结果提供给所述网络中的用户。
23.根据权利要求22所述的系统,其特征在于,所述组词单元包括组词结果获取子单元,用于获取针对所述编码字符串的组词结果,并对各组词结果进行打分;分数调整子单元,用于当某组词结果中包含所述新词或热词,且该组词结果中包含与该新词或热词对应的关键词,则增加该组词结果的分数;结果提供子单元,用于根据各组词结果最终的分数,将所述组词结果提供给所述网络中的用户。
24.根据权利要求22或23所述的系统,其特征在于,当所述提供的组词结果为至少两个时,还包括第一展现单元,用于将包含有所述新词或热词的组词结果与其他组词结果进行区别展现。
25.根据权利要求21所述的系统,其特征在于,当网络中的用户输入的编码字符串中包含至少两个词条时,所述候选项提供单元还包括首次提供单元,用于当所述至少两个词条中包含所述新词或热词时,将所述新词或热词提供给所述网络中的用户;重新组词单元,用于判断所述网络中的用户是否接受所述新词或热词,如果接受,则从所述新词或热词处开始向前和/或向后进行组词,为网络中的用户提供针对所述编码字符串的完整的候选项。
26.根据权利要求16所述的系统,其特征在于,所述新词或热词提供单元包括相关信息展现单元,用于实时为网络中的用户展现所述新词或热词,并提供获取所述新词或热词对应的相关信息的入口。
27.根据权利要求16所述的系统,其特征在于,所述获取单元包括分类子单元,用于获取网络中各用户的用户特征信息,基于所述用户特征信息对网络中的各用户进行分类,得到至少两个用户类别;获取子单元,用于从所述用户输入的字词中获取针对各用户类别的新词或热词。
28.根据权利要求27所述的系统,其特征在于,所述新词或热词提供单元具体用于,判断所述网络中的用户是否属于所述新词或热词对应的用户类别,如果属于,则将所述新词或热词提供给所述网络中的用户。
29.根据权利要求16所述的系统,其特征在于,所述获取单元具体用于收集用户通过输入法选择的字词,统计该字词是否符合新词或热词的预置条件,如果是,输入法服务器将该新词或热词进行记录;所述新词或热词提供单元具体用于将所述记录的新词或热词以预置规则实时提供给输入法用户。
30.根据权利要求16所述的装置,其特征在于,还包括保存单元,用于获取新词或热词之后,将所述新词或热词保存在输入法服务器端的新词或热词词库中;所述新词或热词提供单元具体用于,通过输入法服务器,实时将所述新词或热词词库中的新词或热词提供给网络中的用户。
全文摘要
本发明公开了提供新词或热词的方法及系统,其中,所述方法包括对用户通过输入法系统输入的字词进行统计,从中获取新词或热词;通过输入法服务器,实时将所述新词或热词提供给网络中的用户。通过本发明,使得获取到的新词或热词能够得到实时的应用。
文档编号G06F3/023GK102163198SQ20101011387
公开日2011年8月24日 申请日期2010年2月24日 优先权日2010年2月24日
发明者张扬, 王砚峰, 贾剑峰 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1