一种汉字输入方法和装置的制作方法

文档序号:6582920阅读:106来源:国知局
专利名称:一种汉字输入方法和装置的制作方法
技术领域
本发明涉及一种汉字处理技术,尤其涉及一种汉字输入方法和装置。
背景技术
当前的汉字输入法系统大部分是基于词典系统以及词典系统中的词频来为用户 提供候选词的排序。通过对大量文档的统计可以得到一个比较通用的词频和排序。一般的 输入法是在特定的封闭的文档集合(例如,人民日报等)中进行词频统计的。虽然现有的方法能够得到一些通用的词频。但发明人发现,随着互联网的普及,以 及文化融合的不断进行,导致出现了很多新的词汇,采用封闭文档集合已经不能满足现在 输入法的要求。类似“猪坚强”、“范跑跑”这种具有鲜明时代特性的词,在封闭集合中是挖 掘不到的。因此,现有的汉字输入技术不能与时惧进,存在输入速度度慢、效率低的缺点。

发明内容
本发明的实施例提供了一种汉字输入方法和装置,可解决现有技术输入汉字速度 慢、效率低的问题。本发明的实施例提供了一种汉字输入方法,包括根据互联网上的信息生成系统 词典;根据用户输入的信息生成用户词典;根据所述系统词典和用户字典输入汉字。本发明实施例还提供了一种汉字输入装置,包括第一生成单元,用于根据互联网 上的信息生成系统词典;第二生成单元,用于根据用户输入的信息生成用户词典;输入单 元,用于根据所述系统词典和用户字典输入汉字。由于本发明的实施例通过以公开的、实时变化的互联网信息为输入法的系统词典 的词频统计来源,因此,生成的词频信息是最新和最佳的;并可以通过互联网以各种方式更 新到输入法客户端,使用户的词频和互联网的词频保持一致;同时通过分析用户的输入行 为学习用户专属的词汇,形成输入法的用户词典;通过以上方法提高了智能组句和首选词 的准确率,从而提高了输入速度和效率。


图1示出了本发明实施例的汉字输入方法;图2示出了本发明实施例的汉字输入装置。
具体实施例方式为了便于本领域一般技术人员理解和实现本发明,现结合附图描绘本发明的实施 例。实施例一如图1所示,本实施例提供了一种基于互联网信息及用户输入信息的汉字输入方 法。该方法包括如下步骤
步骤11、根据互联网上的信息生成系统词典。具体而言,将互联网上不同类型的文 章信息(新闻、博客、论坛、聊天室聊天记录等)形成语料库;对语料库进行分词处理;统计 词条的词频;对统计结果进行筛选,形成输入法的系统词典。在步骤11中,将互联网上不同类型的文章信息形成语料库。不同类型的文章包括 新闻、博客、论坛、聊天记录等文体类型,这些文体可以分成两大类一种是网站编辑撰写的 文本,这种类型的文本一般比较正式,例如新闻、评论等;一种是用户撰写的文本,这种类型 的文本比较随意,例如博客、论坛、聊天室等。在组合语料库的同时进行重复网页分析,对重 复出现的网页只记录一个副本。通过分析两种不同类的文本可以得到两种不同的词条,通 过分析正式文本可以得到“六方会谈” “朝核问题”等新闻题材的正式用语;通过分析用户 产生的文本,例如博客、论坛、聊天室,可以得到“雷人”、“山寨”、“宅男”、“宅女”等网络流行 词汇。在步骤11中,对语料库进行分词说明如下。英文是以词为单位的,词和词之间有 分隔符,而中文却不同,中文是由多个字组成的词来表达意思的,词和词之间没有分隔符。 所以对于英文是不需要分词的,而对于中文需要进行分词。所谓分词,就是把中文的汉字序 列切分成有意义的词的过程。例如,北京是中国的首都,分词的结果是北京是中国的首都。 常用的分词方法有1、基于字符串匹配的方法按照一定的策略将待分析的汉字串与一个已知的词典 中的词条进行匹配,若词典中有这个字符串,则识别为一个词。该方法是机械的将汉字串进 行切分,准且率不高,一般做为初分的手段。需要利用其他信息来提高分词的准确率。该词 典可是系统词典,或是系统词典+用户词典,在本实施例中,优选地,该词典可是系统词典。2、基于统计的方法首先将待分析的汉字串按照字符串匹配的方法进行机械切 分,对出现歧义切分的地方根据Viterbi (维特比)算法计算出一个概率最大的切分。该方 法比基于字符串的方法具有较高的切分准确率。3、基于理解的方法对待分析的汉字串进行切分的同时进行语法分析,利用语法 信息处理歧义切分。该方法需要大量的语言知识和信息。该方法的切分准确率是最高的。 但是因为加入了大量的语言知识,对切分的性能也有一定的影响。综上所述,基于字符串匹配的方法速度最快,准确率最低;基于理解的方法,准确 率最高,但是速度最慢。对语料库进行分词可采用上述方法或其他方法均可。在分词的同时保留词性信 息,根据语法规则,将符合语法规则的词条进行组合。对语料库中的语料进行分词后,接着要统计词条的词频。对分词结果进行词频统计,对不同类型的词进行统计,包括分词系统切分出来的 带有词性信息的词,分词系统切分出来的未标记词性的词,通过语法规则对分词系统分出 来的词重新组合出来的词。对于这三类词,分词系统分出来并且带有词性信息的词一般质 量比较高,一般词频大于给定阈值的词均可以保留下来,组成系统词频库的一部分;而通过 语法规则组合出来的词,可以挖掘出大量的新词,比如“雷人”、“宅男”、“宅女”等;分词系统 切分出来未标记词性的词,也包含了一些新词,例如“梅花三弄”,“还珠格格”等。所述语法规则是指用词构成句子的一种规则,比如形容词后面跟名词,即形容词 +名词,是一条语法规则,“美好的意愿”、“漂亮的衣服”都属于该语法规则;名词后面跟名词,即名词+名词,也是一条语法规则,“宅男”、“宅女”都属于该语法规则;动词后面跟名词, 即动词+名词,也是一条语法规则,“打人”、“雷人”都属于该语法规则,类似的语法规则还 有很多,不一一列举。比如“宅男”,分词步骤会把它们分成“宅”和“男”两个单字,两个字 都是名词词性,按照“名词+名词”的语法规则,这两个单字可以组合成一个词“宅男”。对 这些符合语法规则的词统计频率,该频率大于某个阈值的词放到系统词频库中,保留下来。对统计结果进行筛选,形成词频库对统计结果按照词频高低进行排序,词频越 高,说明该词在互联网上越流行,则该词在输入法的候选词中排名越靠前;为了避免在用 户使用过程中出现错字、错词,对于词频较低的词条一般要经过人工校对。经过筛选以后, 这些词将被保存到互联网的词频库中,利用该词频库可以生成系统词典。先针对词频库中 所有的词进行拼音标注,并且提取出每个词的简拼,然后建立一套索引结构,从简拼索引到 全拼,从全拼索引到词,每个词再对应上相应的词频。整个一套索引结构就构成了系统词 典。例如“我们”对用的拼音是“women”,其简称是“碰”,那么其索引结构就是“wm”- > “women,,- > “我们,,。为了使系统词典与互联网中常用的词保持一致,还要对词频库进行更新可以分 为两类,一是实时更新,二是一次性更新。实时更新是指,用户在使用输入法的时候,输入法 主动进行更新,此时输入法会连接到词频服务器上将新的词频库文件下载到用户;一次性 更新是指用户更新输入法程序或安装新版本程序时一次性更新词频库,这种方法不需要连 接到词频服务器。也可对词频库进行定期更新。接着对根据更新的词频库更新系统词典。步骤12、根据用户输入的信息生成用户词典。即,通过用户的输入信息学习新词, 在用户使用过程中不断累积用户专属的词汇,形成用户词典。虽然互联网的词库非常丰富,但对于每一个用户,总是有一些专属于该用户的词, 例如,小明是输入法的一个用户,他有一个朋友叫“童一柱”,这个名字在互联网中出现的极 少,通过互联网挖掘出来的系统词典中不包含该词。因此仅通过互联网统计词频不能满足 用户的需求,必须通过分析用户的输入信息自动的学习新词。当用户想输入“童一柱”时, 系统可能会给出“同一株”这样的候选词,通过翻页和选择可以拼出来“童一柱”这个词,将 该词上屏后,输入法就会自动学习到该词,当用户下次再输入“tongyizhu”这个拼音串的时 候,就会将“童一柱”呈献给用户。用户在翻页和选择的过程中也可能出现误操作,导致上 屏的词并不是用户真正想要的结果,这时候我们可以通过分析用户的按键操作-退格键来 将错误的结果从用户词典中删除。同时还可以通过鼠标进行删除操作。具体而言,当用户输入拼音串的时候,可根据系统词典以及智能组句算法生成一 个候选项,如果这个候选项不是用户想要的,可通过选择想要的字和词重新组成新词。因 此,学习新词的规则就是通过选择字词重新组成新词,这样,将选择的新词保存到用户词典 中,以形成用户词典。当用户下次再输入相同的拼音串的时候就会得到用户想要的词,从而 加快了输入汉字的速度。 步骤13、根据所述系统词典和用户字典输入汉字。下面以拼音输入法为例来说明输入汉字的方法首先,用户输入一个拼音串,这 个拼音串会被输入法程序捕获到,被捕获的拼音串通过拼音切分的程序切分成单个的拼音 单元,每个拼音单元对应一系列的同音汉字,比如“xian”对应的汉字有“先”、“线”、“现”、 “险”、“县”等;多个拼音单元重新组合,可以对应一系列的同音词,比如“xianshi”对应的词有“显示”、“现实”、“先是”、“限时” “闲事”等。如上所述,通过切分好的拼音,我们可以从 输入法的系统词典中检索到以上的一些字和词,同时也会通过用户词典检索出用户专属的 词,比如“鲜柿”,然后对检索出的每个字和词根据它们的词频以及用户输入的次数赋予不 同的权重,例如,从系统词典中检索出的每个字和词的频率,这个频率就是该词的权重;从 用户词典中检索也会检索到这些词,当用户选择了这个词,那么我们就给这个词赋予一个 用户使用的权重。将这两个权重(互联网中的权重和用户使用的权重)相加就是这个词的 权重。最后把这些字和词交给智能组句算法进行整句的匹配,将最优的句子呈现给用户,其 他的字和词按照权重的高低排在整句的后面。所述智能组句算法是指将一系列的词组成句子的方法。具体来讲就是,通过检 索词典会得到很多的字和词,比如“woaibei jingtiananmen”这句话,可以检索出“我”、“卧”......“爱”、“唉”......“我爱”、“被”、“北”......“经”、“京”......“北京”、“背景”......“填”、“天”......“按”、“安”......“田安”......“们”、“门”......“天安门”等一系列的字和词,通过维特比算法我们可以计算出这些词可以组成的最优的句子,即 智能组句。举两个实例来说明本发明的技术方案1.在汶川大地震期间网络曾经流行过“猪坚强”、“范跑跑”等词汇,而一般的输入 法在输入拼音串“ZhUjianqiang”、“fanpaopao”时给出的候选项可能是“朱坚强”、“饭跑 跑”,究其原因就是输入法的词典是封闭的,词典封闭的原因是语料库局限于某些特定的文 本集合。而网络是是一个公开的、实时变化的文本信息库,我们通过分析、统计网络上的词 汇就可以使用户的输入法词典与互联网的词频保持一致。仍以“猪坚强”、“范跑跑”为例, 在汶川地震期间,大量的新闻、博客、论坛以及网上聊天室都有相关报道,我们通过实时分 析这些互联网的文本就可以挖掘到这些具有鲜明时代特性的流行词汇,然后通过网络更新 到用户输入法中,这样就会提高用户输入效率。2.虽然互联网的词频库能够满足我们输入时的大部分要求,但是每个用户都会有 自己独特的词汇,而这些词汇在互联网中出现的次数又比较少,通过统计互联网文本的方 式往往挖掘不到,这时候就需要输入法智能的学习用户专属的一些词汇。举一个实例比如 荟鑫达公司的法务部职员小王,需要经常起草一些与公司相关的文件,在文章的落款处需 要写上公司的名称,而“荟鑫达”这个公司在互联网中出现的很少,每次输入的时候都要经 过翻页和选择操作,而翻页和选择会打断用户输入的连贯性,严重影响用户输入的效率。对 于这些经常输入的词汇,我们通过分析用户的输入行为,第一次输入“荟鑫达”这个词的时 候就可以将“荟鑫达”这个词加入到输入法的用户词典中,当第二次输入拼音串“huixinda” 的时候,我们就将“荟鑫达”这个词呈现给用户,这样就大大的提高了用户的输入效率。实施例二如图2所示,本实施例公开了一种汉字输入装置,包括第一生成单元,用于根据 互联网上的信息生成系统词典;第二生成单元,用于根据用户输入的信息生成用户词典; 输入单元,用于根据所述系统词典和用户字典输入汉字。所述第一生成单元具体包括第一形成子单元,用于将互联网上不同类型的文章 信息形成语料库;处理子单元,用于对语料库进行分词处理;统计子单元,用于统计词条的 词频;第二形成子单元,用于对统计结果进行筛选,形成输入法的系统词典。所述处理子单元还包括保留单元,用于保留词性信息。所述装置还包括更新单元,用于对系统词典进行更新的步骤。本实施例的各个单元的工作原理可参见实施例一的描述。由于本发明以公开的、实时变化的互联网信息为输入法的系统词典的词频统计来 源,因此,生成的词频信息是最新和最佳的;并可以通过互联网以各种方式更新到输入法客 户端,使用户的词频和互联网的词频保持一致;同时通过分析用户的输入行为学习用户专 属的词汇,形成输入法的用户词典;通过以上方法提高了智能组句和首选词的准确率,从而 提高了输入速度和效率。虽然通过实施例描绘了本发明,但本领域普通技术人员知道,在不脱离本发明的 精神和实质的情况下,就可使本发明有许多变形和变化,本发明的范围由所附的权利要求 来限定。
权利要求
1.一种汉字输入方法,其特征在于,包括 根据互联网上的信息生成系统词典; 根据用户输入的信息生成用户词典; 根据所述系统词典和用户字典输入汉字。
2.根据权利要求1所述的方法,其特征在于,所述根据互联网上的信息生成系统词典 具体包括将互联网上不同类型的文章信息形成语料库; 对语料库进行分词处理; 统计词条的词频;对统计结果进行筛选,形成输入法的系统词典。
3.根据权利要求2所述的方法,其特征在于,所述对语料库进行分词处理过程中,保留 词性信息。
4.根据权利要求1至3其中之一所述的方法,其特征在于,所述方法还包括对系统词 典进行更新的步骤。
5.一种汉字输入装置,其特征在于,包括第一生成单元,用于根据互联网上的信息生成系统词典; 第二生成单元,用于根据用户输入的信息生成用户词典; 输入单元,用于根据所述系统词典和用户字典输入汉字。
6.根据权利要求5所述的装置,其特征在于,所述第一生成单元具体包括 第一形成子单元,用于将互联网上不同类型的文章信息形成语料库; 处理子单元,用于对语料库进行分词处理;统计子单元,用于统计词条的词频;第二形成子单元,用于对统计结果进行筛选,形成输入法的系统词典。
7.根据权利要求6所述的装置,其特征在于,所述处理子单元还包括保留单元,用于保 留词性信息。
8.根据权利要求5至7其中之一所述的装置,其特征在于,所述装置还包括更新单元, 用于对系统词典进行更新的步骤。
全文摘要
本发明的实施例提供了一种汉字输入方法和装置,可解决现有技术输入汉字速度慢、效率低的问题。所述方法包括根据互联网上的信息生成系统词典;根据用户输入的信息生成用户词典;根据所述系统词典和用户字典输入汉字。由于本发明的实施例通过以公开的、实时变化的互联网信息为输入法的系统词典的词频统计来源,因此,生成的词频信息是最新和最佳的;并可以通过互联网以各种方式更新到输入法客户端,使用户的词频和互联网的词频保持一致;同时通过分析用户的输入行为学习用户专属的词汇,形成输入法的用户词典;通过以上方法提高了智能组句和首选词的准确率,从而提高了输入速度和效率。
文档编号G06F3/023GK102053974SQ20091020879
公开日2011年5月11日 申请日期2009年11月3日 优先权日2009年11月3日
发明者李洋, 董恭谨, 蔡衡 申请人:新浪网技术(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1