一种字符输入的方法和输入法系统的制作方法

文档序号:6609988阅读:149来源:国知局
专利名称:一种字符输入的方法和输入法系统的制作方法
技术领域
本发明涉及计算机信息输入领域,特别是涉及一种字符输入的方法和系 统, 一种临时词库的生成方法和系统,以及一种优化输入法词库的方法和系统。
背景技术
随着计算机技术以及互联网技术的普及与发展,不同专业领域、不同 兴趣以及使用习惯的用户对于输入法系统的智能性和个性化要求越来越高。在现有技术中,输入法系统一般包括系统词库,所述系统词库通过对众多 文档集合(例如,传统新闻、报纸)的分析得到比较通用的词频及排序,从而 保证输入法系统的首选词命中率。但是由于生成词库所依赖的文档集合来源都是封闭的、特定的,所以不能满足人们生活中信息迅速膨胀、词汇变化频繁的 情况。中国专利文件CN1936893中公开了 "一种基于互联网信息的输入法词频库 的生成方法和系统",其输入法词库可以从浩瀚的互联网信息中统计分析得到, 从而能够满足信息快速传播的需要,提高了使用者的首选词的命中率,提高了 输入速度和效率。但是上面的两种输入法词库都存在一个共同的问题,即在一段时间内是一 个固定的综合词库。也就是说,现有的输入法词库没有考虑到输入法用户在 不同的应用环境中需要不同的词汇集合,比如,用户是在聊天、回邮件、写文 档......等等。输入法用户在不同的应用环境中,面临的是一些不同的词语,比如输入拼音"ciba",在计算机领域"词霸"的可能性更大一些,而在谈论食品时 是"糨粑"的可能性更大一些,再比如,写论文时所使用的词汇和聊天时所使用的词汇肯定不相同。总之,迫切需要本领域技术人员解决的一个技术问题就是如何改进现有 的输入法词库,使其能够满足不同应用环境用户的需求,更好的实现用户的个 性化输入。

发明内容
本发明所要解决的技术问题是提供一种字符输入的方法和输入法系统,能 够使输入法用户在不同的应用环境中都能最快最好的得到希望输入的字词。
相应的,本发明的一个目的在于,提供一种临时词库的生成方法和系统, 以及一种优化输入法词库的方法和系统,用于帮助得到最佳的输入法词库,从 而使得输入法用户在不同的应用环境中都能得到非常好的体验。
为了解决上述问题,依据本发明的实施例,公开了一种字符输入的方法,
具体可以包括以下步骤获取当前系统环境中,应用程序所涉及的文本数据; 对所述文本数据进行分析,生成临时词库;加载输入法已有词库和所述临时词 库;接收用户的输入信息;依据所接收的输入信息,在输入法已有词库和所述 临时词库中进行检索,得到相应的候选项;接收用户的选择信息,将指定的候 选项上屏输出。
其中,可以通过以下方式获取所述文本数据当显示文本数据时,通过预 置函数,截获操作系统中文本输出函数的输出内容。
或者,也可以通过以下步骤获取所述文本数据获取文件的路径;通过操 作系统提供的接口读取该文件的文本内容,或者直冲矣读取该文件的文本内容。 优选的,通过扫描进程获得文件路径或者通过监控应用程序获取新接收文件的 路径。
或者,也可以通过以下方式获取所述文本数据模拟复制操作;从操作系 统緩存中获取应用程序所涉及的文本数据。
优选的,该方法中,可以针对当前系统环境中的一个应用程序文档生成一 个临时词库;或者,也可以针对当前系统环境中的一个应用程序生成一个临时 词库;或者,也可以针对当前系统环境中的多个应用程序生成一个临时词库。
优选的,所述临时词库包括词序信息、二元或多元关系信息。
优选的,该方法还可以包括针对临时词库中的每个词条,依据临时词库 中的词频信息和输入法已有词库中的词频信息,得到权重参数,所述权重参数 用于候选项排序。
优选的,该方法还可以包括存储所述临时词库,以及;整理分析所述临 时词库,获取有效信息。其中,所述有效信息可以包括新词;或者,当临时词库记录有词条相应的输入环境信息时,所述有效信息也可以包括针对词条及其 输入环境的分析结果。优选的,该方法还可以包括对应用程序进行筛选;和/或,对应用程序 的文本数据进行筛选。依据本发明另一实施例,公开了一种输入法系统,具体可以包括 文本数据获取模块,用于获取当前系统环境中,应用程序所涉及的文本数据;临时词库生成模块,用于对所述文本数据进行分析,生成临时词库; 输入接口模块,用于接收用户的输入信息;信息转换模块,用于依据所接收的输入信息,在输入法已有词库和所述临 时词库中进行;险索,得到相应的候选项;显示输出模块,用于显示所述候选项,以及接收用户的选择信息,将指定 的候选项上屏输出。其中,可以通过以下方式获取所述文本数据当显示文本数据时,通过预 置函数,截获操作系统中文本输出函数的输出内容;或者,获取文件的路径; 通过操作系统提供的接口读取该文件的文本内容,或者直接读取该文件的文本 内容;或者,模拟复制操作;从操作系统緩存中获取应用程序所涉及的文本数 据。优选的,所述的系统还可以包括系统监控^^莫块,用于监控系统当前的状 态,以及当符合预置条件时,通知启动文本数据获取模块;和/或,用于监控 所获取的文本数据,以及当符合预置条件时,通知启动临时词库生成模块。优选的,所述的系统还可以包括权重参数生成模块,用于针对临时词库 中的每个词条,依据临时词库中的词频信息和输入法已有词库中的词频信息, 得到权重参数,所述权重参数用于候选项排序。优选的,所述的系统还可以包括临时存储模块,用于存储所述临时词库; 优化模块,用于整理分析所述临时词库,获取有效信息。其中,所述有效信息 可以包括新词;或者,当临时词库记录有词条相应的输入环境信息时,所述有 效信息也可以包括针对词条及其输入环境的分析结果。依据本发明的另一实施例,公开了一种临时词库的生成方法,可以包括获取当前系统环境中,应用程序所涉及的文本数据;对所述文本数据进行分析, 生成临时词库;所述临时词库用于检索获得输入法候选项。其中,可以通过以下方式获取所述文本数据当显示文本数据时,通过预 置函数,截获操作系统中文本输出函数的输出内容;或者,获取文件的路径; 通过操作系统提供的接口读取该文件的文本内容,或者直接读取该文件的文本 内容;或者,模拟复制操作;从操作系统緩存中荻取应用程序所涉及的文本数 据。依据本发明的另一实施例,公开了一种临时词库的生成系统,可以包括.-文本数据获取单元,用于获取当前系统环境中,应用程序所涉及的文本数据;临时词库生成单元,用于对所述文本数据进行分析,生成临时词库;所述 临时词库,用于同输入法已有词库一起,检索获得输入法候选项。其中,可以通过以下方式获取所述文本数据当显示文本数据时,通过预 置函数,截获操作系统中文本输出函数的输出内容;或者,获取文件的路径; 通过操作系统提供的接口读取该文件的文本内容,或者直接读取该文件的文本 内容;或者,模拟复制操作;从操作系统緩存中获取应用程序所涉及的文本数 据。依据本发明的另一实施例,公开了 一种优化输入法词库的方法,可以包括 获取当前系统环境中,应用程序所涉及的文本数据;对所述文本数据进行分析, 生成临时词库;整理分析所述临时词库,获取有效信息。其中,所述有效信息 可以包括新词;或者,当临时词库记录有词条相应的输入环境信息时,所述有 效信息也可以包括针对词条及其输入环境的分析结果。依据本发明的另 一实施例,公开了 一种优化输入法词库的系统,可以包括 文本数据获取单元,用于获取当前系统环境中,应用程序所涉及的文本数据;临时词库生成单元,用于对所述文本数据进行分析,生成临时词库; 优化单元,用于整理分析所述临时词库,获取有效信息。 其中,所述有效信息可以包括新词;或者,当临时词库记录有词条相应的 输入环境信息时,所述有效信息也可以包括针对词条及其输入环境的分析结果。与现有技术相比,本发明具有以下优点当用户使用输入法时,往往伴随着相应文档的操作,也就是说存在一定的 语言上下文,比如,用户打开一篇文档,从IM收到新的消息,收到新的邮件......等等。应用本发明,当用户在这些应用环境中使用输入法,输入法就可以自动 学习对应环境中的这些文本内容,形成一个临时词语关系库,供用户使用。通 过这种方式,用户在每一个新的会话中,都可以得到很好的输入体验,从而可 以从根本上解决现有的输入法词库综合性太强、个性化较弱的问题。并且,本发明可以进一步对所得到的临时词库进行分析,通过不断分析用 户的临时词库,提取有效信息,例如,新词等等,从而进一步优化输入法,例 如,可以形成一个针对该用户自己的个性化词库。进一步,优选的,所述有效 信息还可以包括针对词条及其输入环境的分析结果,进而形成细胞词库(针对 某一特定环境的专用词库)等等,从另一角度优化输入法。


图l是一种字符输入的方法实施例的步骤流程图;图2是一种输入法系统的实施例的结构框图;图3是一种临时词库生成方法实施例的步骤流程图;图4是一种临时词库生成系统的实施例的结构框图;图5是一种优化输入法词库的方法实施例的步骤流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的iJt明。本发明可以适用于各种语言,例如,中文、日文、韩文、英文等,由于本 发明在各种语言文字中的应用流程都是相似的,所以为了方便说明,下面仅仅 对本发明应用在中文的情况进行说明。本发明可以采用的输入方式可以包括键盘符号、手写信息以及语音输入 等等,由于这些输入方式中的信息转换方式都属于公知技术,在此就不详 述了。本发明所实现的个性化输入过程可用于众多通用或专用的计算系统环境或配置中。例如个人计算机、服务器计算机、手持移动设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分 布式计算环境等等。参照图1,示出了一种字符输入的方法实施例,具体可以包括以下步骤步骤IOI,获取当前系统环境中,应用程序所涉及的文本数据;所述的应用程序可以包括各种涉及文本内容的软件,例如,Word、 PDF、 txt文件、邮件、即时通讯工具、网页浏览器等等。对于具体的获取方式将在 本说明书的后面进行详细介绍。步骤102,对所述文本数据进行分析,生成临时词库;一般的分析过程可以包括分词统计过程,例如,发现新词、统计词频和统 计词语关系信息。 一般的,临时词库可以包括词条、词序信息和二元信息。因 为通常情况下,对于词语关系的统计,仅仅统计二元信息即可。所述的二元信 息是指表示文本前后词之间的连接关系, 一般也可以称为二元统计(或者, Bigram),其中的"二元"特指两两相邻关系的统计。例如,输入信息为"不到长 城非好汉",如果我们以字作为最小的拆分单位时,我们可以拆分出 "不,,"到,,"长,,"城""非""好""汉"7个单字,而其中的二元包括"不到","到长", "长城,,,"城非","非好","好汉"。所收集的输入信息中的词频和二元组合关 系可以反映该用户在日常输入过程中常用的一些词汇和语言使用风格,从而可 以满足该用户的个性化输入需求。需要说明的是,二元信息并不仅基于字,也可以基于词,或者字和词之间。 当然,为了统计基于词的二元信息,是需要一分词模块的。当然,本发明并不限定仅仅收集二元信息,实际上从效果而言,能够收集 n元(论2)的关系信息是更佳的,只是限于目前用户终端的计算能力,仅仅 获取二元信息是一个比较优选的方案。当然,在计算能力容许的情况下,所述临时词库还可以包括更多的信息(例 如,字与字之间、字与词之间的概率关系、字词所来自的应用程序等等),其生成过程也可以采用更为精密的计算方法,本发明对此并不需要加以限定。进一步,临时词库的生成还可以包括一些优化措施,例如,对文本数据分 析后某些不符合预置条件的词就可以不需要加入到临时词库中,例如,排序很 靠后的词,或者该词虽然在临时词库中排序靠前,但是在输入法已有词库中也 排序靠前,频率很高,则都可以排除在临时词库之外。所述排序一般是指编码 字符串相同的字词的排序,例如,对于拼音输入法,则就是拼音相同的字词的 排序。步骤103,加载输入法已有词库和所述临时词库;所述的输入法已有词库可以包括输入法系统词库,也可以包括输入法用户 词库等等,总之就是指不需要临时生成的词库。所述的加载过程可以为:将临时词库与已有词库合并为一个词库,置于緩 存中。这样用户在后续操作中可以按照普通词库的使用方式直接使用。即当用 户触发某个临时词库时,则将该临时词库与已有词库合并,置于緩存中,用于 用户输入时的检索。当然,还可以在合并后的词库中通过添加标记等方式,以 区分某个词条是属于临时词库还是已有词库。所述的加载过程也可以为将临时词库与已有词库作为两个独立词库置于 緩存中,并依据预置规则设定词库优先级;所述优先级用于候选项的显示排序。 一般情况下,临时词库的优先级高于已有词库。即在加载过程中,将临时词库 置于已有词库以外指定的空间,并在检索已有词库的同时也检索临时词库。步骤104,接收用户的输入信息;步骤105,依据所接收的输入信息,在输入法已有词库和所述临时词库中 进行^r索,得到相应的候选项;一般的,临时词库的权重值大于已有词库的权重值,例如,最简单的一种 情况,搜索策略可以直接设定为临时词库中词的排序都先于已有词库中的词。 当然,也可以通过用户设定的方式或者通过自动设定的方式,将临时词库中的 词条直接以固定位置输出。优选的,在本实施例中,采用的搜索策略可以为当某个候选项仅仅在已 有词库中检索到,则输出该候选项,并以已有词库中的词频或其他信息为依据 进行排序;当某个候选项仅仅在临时词库中检索到,则输出该候选项,并以临时词库中的词序或者其他信息为依据进行排序;当某个候选项在两个词库中都 找到,则可以对已有词库中的词频进行加权^修正,依据修正后的词频进行排序 (当然,对于修正后的词频可以进行存储,也可以不进行存储)。进一步,本发明还可以采用其他可行的搜索策略,例如,当生成临时词库 时,对于每个词条,计算得到一个权重值(或者叫权重参数),所述权重值和输入法已有词库中的词频有关;则,当匹配输出时,依据该权重值对各候选项进行排序输出。例如, 一种简单的实现方式,由临时词库的词频或者已有词库 的词频乘以该权重值得到针对该候选项的排序参数。步骤106,接收用户的选择信息,将指定的候选项上屏输出。 步骤104至步骤106的实现可以采用现有的各种输入法实现方案,在此不 再详述。需要说明的是,本实施例中所述的临时词库的生成,可以针对当前系统环 境中的一个文档生成一个临时词库,例如,用户打开了 5个word文档,则生 成5个相应的临时词库。临时词库也可以针对当前系统环境中的 一个应用程序生成一个临时词库, 例如,虽然用户打开了 5个记事本,但是将这5个记事本中的文本内容综合处 理生成一个临时词库;然后针对该用户打开的一个ppt文档生成另 一个临时词 库。临时词库也可以针对当前系统环境中的多个应用程序生成一个临时词库, 例如,用户打开了 l个word文档,l个记事本, 一个ppt文档,则综合处理该 3个应用程序所涉及的文本内容,生成一个临时词库。上述各种生成方式(或者称生成策略)可以应用于各种不同的场合,本领 域技术人员根据需要选用即可,本发明并不需要对临时词库的具体生成情况加 以限制。如果生成了多个临时词库,则各个临时词库之间可以通过标识进行区 分,以指向正确的输入环境。当生成了多个临时词库时,具体的加载过程可能有所变化。 一般的,可以 仅仅加载用户当前正在操作的文档所对应的临时词库即可。当然,也可以加载 全部的临时词库,依据用户当前是否正在操作,赋予各个临时词库不同的权重 值。例如,赋予当前操作的临时词库最高的权重值,检索时仅仅检索该临时词库和已有词库即可;或者,也可以检索权重值高于一定阈值的多个临时词库。需要说明的是,对于本实施例中的上述多个步骤之间的顺序关系并非固定 不变,在此依次说明仅仅是为了描述方便。例如,输入法启动,加载已有词库, 然后获取文本数据和生成临时词库,加载临时词库;当然,也可以事先完成文 本数据的获取和临时词库的生成,当输入法系统启动时,完成加载即可。对于数据获取,可以在用户操作的整个过程中进行积累;而对于词库生成, 则实际上可以在任意时刻完成。临时词库生成之后,随着时间的推移,应用程序所涉及的文本内容可能发 生变化(例如,用户在一段时间内向word文档新输入了 3000字的文本内容), 则临时词库就需要更新。对于获取文本内容的过程可以一直在进行,然后当符 合预置条件时(例如,满足预置的时间间隔),生成新的临时词库并更新旧的 临时词库,进而通知输入法加载新的临时词库。由于临时词库的数据量较小, 所以其更新过程一般不会影响用户的输入行为。当然,如果数据量较大的话, 则可以通过异步的方式进行。优选的,本实施例还可以包括以下步骤存储所述临时词库,以及整理分 析所述临时词库,获取有效信息,合并至所述输入法已有词库中。例如,将临 时词库存储在用户本地硬盘上,利用本地系统空闲的计算资源,对所有的临时词库进行整理分析,提取符合预置条件的信息一一有效信息(例如,词频和2 元关系大于一定阈值),将这些信息按照归并的方式合并到已有词库中,从而 在一定程度丰富用户本地的已有词库,从另一个角度满足该用户的个性化需 求。整理分析后的临时词库可以^v本地删除,以减少对本地存储资源的占用。 进一步,对于临时词库的分析可以有各种各样的方式,例如,将各个用户 的临时词库进行汇集,通过网络上传至服务器端,由服务器进行分析从而发现 新词。再例如,汇集各个临时词库,分析各个词条及其输入环境(例如应用程 序名称或者类型等)的关系,从而形成多个分别针对某个特定环境的专用词 库——细胞词库,这些新词或者细胞词库都可以提供给其他用户,用来进一步 优化输入法系统。当然,为了得到准确的细胞词库,需要从临时词库中去除非 用户输入的词汇,因为非用户输入的词汇可能对分析结果带来不恰当的影响。 对于如何获取用户的输入词汇,可以有多种实现方式,例如,可以通过截获输入法上屏词汇而获得,也可以通过当用户打开一应用程序时所获得文本婆:据和经过一段时间后所获得的文本数据的差别,得到该用户的输入词汇。下面对步骤101中的获取文本数据的具体可能采用的几种方式进行介绍, 仅仅用于举例说明本发明的实现,而不应理解为对本发明的限制,本领域技术的各种才乘作系统中,例如,Windows、 Linux、 MacOS、 FreeBSD, Unix, Solaris 等等,以及用于移动终端的PalmOS, Windows Mobile, Symbian等等。下面 的说明仅仅以常用的Windows操作系统为例进行说明。获取方式1:通过监控计算设备屏幕显示内容,实现截获文本内容的目的。 例如,可以通过以下步骤获取所述文本数据在操作系统中预置API钩子函数; 当显示文本数据时,截获文本输出函数的输出内容。以Windows操作系统为例, 一般的屏幕显示内容都需要通过文本输出函 数(例如TextOut等)完成,则本发明可以给系统挂API钩子函数(Hook函 数)的方式实现屏幕文字的截取,如在TextOut等文字输出函数的开头写了一 个jmp语句,通过Hook函数,跳转到事先定义好的函数中,获取要TextOut 绘制的文本。通过这种方式,可以获取通过屏幕显示的各种文本数据。例如,打开的邮 件、即使通讯消息、word文档等等。获取方式2,通过直接读取文件中的文本数据的方式获取。例如,可以通 过以下步骤获取所述文本数据获取文件的路径;通过操作系统提供的COM 接口读取该文件的文本内容,或者直接读取该文件的文本内容。具体而言,对于文本文件(例如txt文件),可以直接读取其文本数据。而 对于非文本文件,现有的操作系统一般都提供了 OLE技术,OLE是Object Linking and Embedding的缩写,可以翻译为对象链接和嵌入。OLE是在客户应 用程序间传输和共享信息的一组综合标准,其允许创建带有指向应用程序的链 接的混合文档以使用户修改时不必在应用程序间切换的协议。本发明可以利用 OLE技术读取现有操作系统上大部分文件中的文本数据。例如,像O伍ce、 PDF等文件在windows 2000以后的操作系统,提供了一个IFilter的COM接口,允许应用程序注册这个接口 。凡是注册了这个接 口的应用程序产生的文件,其他的应用程序可以通过这个接口读取其文本内 容,比如对于O伍ce、 Adobe、 PDF等文件,本发明都可以通过这种方式读取 其文本内容。 一般过程可以为依据文件路径获取相应文件的IFilter对象, 判断该文件是否已被注册,如果该文件已被注册,则通过IFilter::GetValue获 取文本内容。其中,如何获取文件的路径,是一个需要解决的技术问题。本发明在这里 给出几种可行的方式a、通过扫描系统进程的方式获得文件路径;b、通过监 控应用程序接口的方式获取文件路径(例如,可以应用于邮件、即时通讯等程 序,通过解析其接口实现监控);c、通过监控应用程序通过屏幕显示的文本内 容,得知文件路径(例如,获取即时通讯工具所新接收文件的存储路径)。例 如在live messenger的聊天窗口中,出现"You have successfully received E:\Documents\My Received Files\txt.txt from (C).",则说明其文件接收完毕,并 可以从中将涉及的文件路径取出来。通过获取方式2,可以获得文件中的各种数据,包括通过屏幕显示的文本 数据,也可以包括那些没有通过屏幕显示的数据,例如, 一个word文档有30 页,该输入法用户仅仅浏览了前5页,并正在对第5页添加批注,则通过获取 方式l,仅仅能够获得前5页的文本数据,而通过获取方式2,则可以获得该 文档所有的文本数据。通过获取方式2,还可以获取并不属于当前操作文档中 的文本数据,例如,用户打开了两个word文档,正在操作一个文档,通过荻 取方式2,可以获得另一文档中的文本数据;以及用户通过msn接收了一个文 件,但是还没有打开,而通过获取方式2就可以获得该文件中的文本数据。获取方式3,通过读取操作系统緩存的方式实现,例如剪贴板。现有的大部分应用程序都支持文本解析(例如,word),针对某个应用程 序模拟"全选(Ctrl—A)""复制(Ctrl—C)"消息。如果应用程序处理这些消息, 数据就能够进入剪贴板;则进而可以通过读取剪贴板中数据的方式获取所需的 文本数据。当然,模拟"全选(Ctrl_A)""复制(Ctrl—C)"消息仅仅是一个举 例,实际上可以通过模拟各种4泉盘组合消息或者鼠标消息,以达到对某个应用 程序中任意文本数据的选取。优选的,图1所示的实施例还可以包括篩选步骤对应用程序进行筛选,和/或,对应用程序的文本数据进行筛选;从中去除一些非文本数据,或者去除 一些非输入环境。例如,用户打开的应用程序是音视频播放器,或者是画图程序,则对该应 用程序所涉及的文本数据就不需要获取,当用户操作的程序符合预置条件(所 述预置条件可以为事先定义的程序名称或者属性等)时,才开始获取文本数据 的步骤或者才开始进行对文本数据的分析。再例如,用户虽然打开的是word文档,但是当通过获取方式1所获取的 文本数据会包括一些无效数据(如,文件、编辑、试图、插入、格式、工具、 表格、窗口和帮助等工具栏名称等文字),而这些文本数据并不能反映输入用 户的环境,所以这些文本数据不应该进入分析流程,因此,可以通过一些预置 的策略将这些无效数据进行筛除。参照图2,示出了本发明一种输入法系统的实施例,具体可以包括 文本数据获^Mt块201,用于获取当前系统环境中,应用程序所涉及的文 本数据;临时词库生成模块202,用于对所述文本数据进行分析,生成临时词库206;输入接口模块203,用于接收用户的输入信息;其中所述的用户输入信息 可以包括键盘符号、手写信息以及语音输入等等;信息转换模块204,用于依据所接收的输入信息,在输入法已有词库207 和所述临时词库206中进行检索,得到相应的候选项;显示输出模块205,用于显示所述候选项,以及接收用户的选择信息,将 指定的候选项上屏输出。本输入法系统的实施例可以针对用户的输入环境生成相应的临时词库,以 满足用户个性化输入的需求。所述的文本数据获取模块201中获取文本数据的方式可以为在操作系统 中预置API钩子函数;当显示文本数据时,截获文本输出函数的输出内容。所 述的文本数据获取模块201也可以通过以下方式获取所述文本数据获取文件的路径;通过操作系统提供的COM接口读取该文件的文本内容,或者直接读 取该文件的文本内容。其中,可以通过扫描进程获得文件路径或者通过监控应 用程序获取新接收文件的路径。当然,也可以通过模拟复制操作;从操作系统 緩存中获取应用程序所涉及的文本数据。进一步,本输入法实施例还可以包括系统监控模块,用于监控系统当前的状态,以及当符合预置条件时,通知启动文本数据获取模块;和/或,用于 监控所获取的文本数据,以及当符合预置条件时,通知启动临时词库生成模块。 进一步避免无效的数据处理过程,提高计算效率。为了避免临时词库和已有词库的冲突,以及进一步提高排序的准确性,本 实施例还可以包括权重参数生成模块,用于针对临时词库中的每个词条,依据 临时词库中的词频信息和输入法已有词库中的词频信息,得到权重参数,所述 权重参数用于候选项排序。为了进一步利用所汇集的文本数据,则本实施例还可以包括用于存储所 述临时词库的临时存储模块;以及,用于整理分析所述临时词库,获取有效信 息,合并至所述输入法已有词库中的优化模块。上述输入法系统的实施例可以为普通输入法系统,如,通过用户本地 计算设备完成整个输入过程,包括信息输入、信息转换以及显示输出。上 述输入法系统的实施例也可以为网络输入法系统,如,通过用户本地计算 设备完成输入信息的接入,以及候选项的显示输出,而信息转换过程则在 另一计算设备中完成。当然,如果应用于网络输入法系统,则本实施例还需要将生成的临时词库发送至另一计算设备,或者将获取的文本数据发送 至另一计算设备。也就是说,本发明并不需要限定输入法系统实施例中的各个模块的具体地理位置,只要具有相应的功能和相应的连接关系即可。参照图3,示出了一种临时词库的生成方法实施例,具体可以包括 步骤301,获取当前系统环境中,应用程序所涉及的文本数据; 步骤302,对所述文本数据进行分析,生成临时词库;所述临时词库用于 ;险索获得输入法候选项。例如,生成临时词库之后,通过通知输入法系统启动 加载临时词库的方式,以实现在用户输入过程中发挥临时词库的作用。所述临时词库的生成可以针对一个应用程序文档生成,也可以针对一个应用程序生 成,也可以针对多个应用程序生成。其中,可以通过以下步骤获取所述文本数据在操作系统中预置API钩子 函数;当显示文本数据时,截获文本输出函数的输出内容。或者,也可以通过 以下步骤获取所述文本数据获得文件的路径;通过操作系统提供的COM接 口读取该文件的文本内容,或者直接读取该文件的文本内容。当然,也可以通 过模拟复制操作;从操作系统緩存中获取应用程序所涉及的文本数据。优选的,本实施例还可以包括步骤303,存储所述临时词库;以及,步骤 304,整理分析所述临时词库,获取有效信息。所述有效信息可以合并至所述 输入法已有词库中,也可以用于获取新词或者用于生成细胞词库等等。本发明 并不需要对有效信息的具体内容以及有效信息的具体应用方式加以限定。参照图4,示出了一种临时词库的生成系统实施例,可以包括文本数据获取单元401,用于获取当前系统环境中,应用程序所涉及的文 本数据;临时词库生成单元402,用于对所述文本数据进4亍分析,生成临时词库 403;所述临时词库403,用于同输入法已有词库一起,4全索获得输入法候选 项。临时词库生成之后,可以由本实施例将其发送给输入法系统进行加载,从 而帮助实现个性化的输入,或者由本实施例将临时词库存储在约定位置,输入 法直接调用,以完成个性化输入。其中,可以通过以下步骤获取所述文本数据在操作系统中预置API钩子 函数;当显示文本数据时,截获文本输出函数的输出内容。或者,也可以通过 以下步骤获取所述文本数据获得文件的路径;通过操作系统提供的COM接 口读取该文件的文本内容,或者直接读取该文件的文本内容。由于临时词库记录了很多准确的用户个性输入信息,所以本实施例还可以 通过以下模块,将这些个性信息综合分析后添加到输入法已有词库中用于存 储所述临时词库的临时存储单元404;以及,用于整理分析所述临时词库403, 获取有效信息,合并至所述输入法已有词库406中的优化单元405。当然,所 述有效信息可以合并至所述输入法已有词库中,也可以用于获取新词或者用于生成细词库。参照图5,示出了本发明一种优化输入法词库的方法实施例,可以包括步骤501、获取当前系统环境中,应用程序所涉及的文本数据;步骤502、对所述文本数据进行分析,生成临时词库;步骤503、整理分析所述临时词库,获取有效信息。所述有效信息可以合 并至所述输入法已有词库中,也可以用于获取新词或者用于生成细胞词库。步 骤503可以定期执行,例如,每隔一定的时间间隔,或者临时词库的数量达到 预定阈值,或者临时词库的数据量达到预定阈值等等。需要说明的是,所生成的临时词库可以不提供给输入法应用,即本实施例 可以作为纯粹的优化输入法词库的实施例。相应的,还可以存在一种优化输入法词库的系统实施例,具体包括文本数据获取单元,用于获取当前系统环境中,应用程序所涉及的文本数据;临时词库生成单元,用于对所述文本数据进行分析,生成临时词库; 优化单元,用于整理分析所述临时词库,获取有效信息。所述有效信息可以合并至所述输入法已有词库中,也可以用于获取新词或者用于生成细胞词库。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相 似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之 处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的 比较简单,相关之处参见方法实施例的部分说明即可。以上对本发明所提供的一种字符输入的方法和系统, 一种临时词库的生成 方法和系统,以及一种优化输入法词库的方法和系统,进4亍了详细介绍,本文只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术 人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变之处,综 上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1、一种字符输入的方法,其特征在于,包括获取当前系统环境中,应用程序所涉及的文本数据;对所述文本数据进行分析,生成临时词库;加载输入法已有词库和所述临时词库;接收用户的输入信息;依据所接收的输入信息,在输入法已有词库和所述临时词库中进行检索,得到相应的候选项;接收用户的选择信息,将指定的候选项上屏输出。
2、 如权利要求1所述的方法,其特征在于,通过以下方式获取所述文本 数据当显示文本数据时,通过预置函数,截获操作系统中文本输出函数的输出 内容。
3、 如权利要求1所述的方法,其特征在于,通过以下步骤获取所述文本 数据获取文件的路径;通过操作系统提供的接口读取该文件的文本内容,或者直接读取该文件的 文本内容。
4、 如权利要求3所述的方法,其特征在于,通过扫描进程获得文件路径 或者通过监控应用程序获取新接收文件的路径。
5、 如权利要求1所述的方法,其特征在于,通过以下方式获取所述文本 数据模拟复制操作;从操作系统緩存中获取应用程序所涉及的文本数据。
6、 如权利要求l所述的方法,其特征在于,针对当前系统环境中的一个应用程序文档生成一个临时词库; 或者,针对当前系统环境中的一个应用程序生成一个临时词库; 或者,针对当前系统环境中的多个应用程序生成一个临时词库。
7、 如权利要求l所述的方法,其特征在于,所述临时词库包括词序信息、 二元或多元关系信息。
8、 如权利要求l所述的方法,其特征在于,还包括针对临时词库中的每个词条,依据临时词库中的词频信息和输入法已有词 库中的词频信息,得到权重参数,所述权重参数用于候选项排序。
9、 如权利要求l所述的方法,其特征在于,还包括 存储所述临时词库,以及; 整理分析所述临时词库,获取有效信息。
10、 如权利要求9所述的方法,其特征在于 所述有效信息包括新词;或者,当临时词库记录有词条相应的输入环境信息时,所述有效信息包括 针对词条及其输入环境的分析结果。
11、 如权利要求l所述的方法,其特征在于,还包括 对应用程序进行筛选;和/或,对应用程序的文本数据进行筛选。
12、 一种输入法系统,其特征在于,包括文本数据获取模块,用于获取当前系统环境中,应用程序所涉及的文本数据;临时词库生成模块,用于对所述文本数据进行分析,生成临时词库; 输入接口模块,用于接收用户的输入信息;信息转换模块,用于依据所接收的输入信息,在输入法已有词库和所述临 时词库中进行检索,得到相应的候选项;显示输出模块,用于显示所述候选项,以及接收用户的选择信息,将指定 的候选项上屏输出。
13、 如权利要求12所述的系统,其特征在于,通过以下方式获取所述文 本数据当显示文本数据时,通过预置函数,截获操作系统中文本输出函数的输出 内容;或者,获取文件的路径;通过操作系统提供的接口读取该文件的文本内容, 或者直接读取该文件的文本内容;或者,才莫拟复制操作;从操作系统緩存中获取应用程序所涉及的文本数据。
14、 如权利要求12所述的系统,其特征在于,还包括 系统监控模块,用于监控系统当前的状态,以及当符合预置条件时,通知启动文本数据获取模块;和/或,用于监控所获取的文本数据,以及当符合预置条件时,通知启动临时词库生成模块。
15、 如权利要求12所述的系统,其特征在于,还包括 ^l重参数生成^f莫块,用于针对临时词库中的每个词条,依据临时词库中的词频信息和输入法已有词库中的词频信息,得到权重参数,所述权重参数用于 候选项排序。
16、 如权利要求12所述的系统,其特征在于,还包括 临时存储^^莫块,用于存储所述临时词库;优化模块,用于整理分析所述临时词库,获取有效信息。
17、 如权利要求16所述的系统,其特征在于 所述有效信息包括新词;或者,当临时词库记录有词条相应的输入环境信息时,所述有效信息包括 针对词条及其输入环境的分析结果。
18、 一种临时词库的生成方法,其特征在于,包括 获取当前系统环境中,应用程序所涉及的文本数据; 对所述文本数据进行分析,生成临时词库;所述临时词库用于检索获得输入法4美选项。
19、 如权利要求18所述的方法,其特征在于,通过以下方式获取所述文 本数据当显示文本数据时,通过预置函数,截获操作系统中文本输出函数的输出 内容;或者,获取文件的路径;通过操作系统提供的接口读取该文件的文本内容, 或者直接读取该文件的文本内容;或者,模拟复制操作;从操作系统緩存中获取应用程序所涉及的文本数据。
20、 一种临时词库的生成系统,其特征在于,包括 文本数据获取单元,用于获取当前系统环境中,应用程序所涉及的文本数据;临时词库生成单元,用于对所述文本数据进行分析,生成临时词库;所述 临时词库,用于同输入法已有词库一起,;险索获得输入法候选项。
21、 如权利要求20所述的系统,其特征在于,通过以下方式获取所述文 本数据当显示文本数据时,通过预置函数,截获操作系统中文本输出函数的输出 内容;或者,获取文件的路径;通过操作系统提供的接口读取该文件的文本内容, 或者直接读取该文件的文本内容;或者,模拟复制操作;从操作系统緩存中获取应用程序所涉及的文本数据。
22、 一种优化输入法词库的方法,其特征在于,包括 获取当前系统环境中,应用程序所涉及的文本数据; 对所述文本数据进行分析,生成临时词库; 整理分析所述临时词库,获取有效信息。
23、 如权利要求22所述的方法,其特征在于 所述有效信息包括新词;或者,当临时词库记录有词条相应的输入环境信息时,所述有效信息包括 针对词条及其输入环境的分析结果。
24、 一种优化输入法词库的系统,其特征在于,包括 文本数据获取单元,用于获取当前系统环境中,应用程序所涉及的文本数据;临时词库生成单元,用于对所述文本数据进行分析,生成临时词库; 优化单元,用于整理分析所述临时词库,获取有效信息。
25、 如权利要求24所述的系统,其特征在于 所述有效信息包括新词;或者,当临时词库记录有词条相应的输入环境信息时,所述有效信息包括 针对词条及其输入环境的分析结果。
全文摘要
本发明提供了一种字符输入的方法,具体可以包括以下步骤获取当前系统环境中,应用程序所涉及的文本数据;对所述文本数据进行分析,生成临时词库;加载输入法已有词库和所述临时词库;接收用户的输入信息;依据所接收的输入信息,在输入法已有词库和所述临时词库中进行检索,得到相应的候选项;接收用户的选择信息,将指定的候选项上屏输出。应用本发明,当用户使用输入法时,输入法就可以自动学习对应环境中的这些文本内容,形成一个临时词语关系库,供用户使用。通过这种方式,用户在每一个新的会话中,都可以得到很好的输入体验,从而可以从根本上解决现有的输入法词库综合性太强、个性化较弱的问题。
文档编号G06F17/30GK101334774SQ20071011817
公开日2008年12月31日 申请日期2007年6月29日 优先权日2007年6月29日
发明者张智敏 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1