一种加载词库的方法、字符输入的方法和输入法系统的制作方法

文档序号:6610205阅读:446来源:国知局
专利名称:一种加载词库的方法、字符输入的方法和输入法系统的制作方法
技术领域
本发明涉及计算机字符输入领域,特别是涉及一种加载词库的方法, 一种 字符输入的方法以及一种输入法系统。
背景技术
随着计算机技术以及互联网技术的普及与发展,输入法已经成为用户 与计算机交互的重要手段,不同专业领域、不同兴趣以及使用习惯的用户 对于输入法的智能性要求越来越高。
现有技术一般通过提高系统词库中的词条的更新程度以及词频信息的 准确度,来提高用户向计算机完成字符输入时的效率——可以通过首选词
的准确率进行评价。例如,申请号为200610086577.4,名称为"基于互联网 信息的输入法词频库的生成方法和系统"的中国专利就公开了这样的 一 种 提高系统词库性能的技术方案。
但是由于系统词库是相对固定的,针对每一个用户而言,难以达到精 确匹配;为了增强个性化的输入效率,现有技术提出了用户词库的解决方 案。用户词库的形成方法通常包括以下步骤记录用户输入的字词,学习 某个用户适用的词汇;通过一段时间地不断学习,将词库逐渐收敛到某个 用户输入的最佳状态,从而形成用户词库。显然,这种用户词库的形成过 程可以在一定程度上调整候选项的排序,使其逐渐适应该用户,从而提高 输入效率,但是由于某安装有输入法系统的PC或其它装置的用户不一定是 唯一的,很难实现更高程度的效率提升。
其次,通过用户词库所实现的全局词频调整,对于用户首次或者前几 次使用的字词无法给出个性化的调整,因为用户词库的实现过程就是依据 该用户的历史信息而得到预测信息的,而首次或者前几次使用的字词恰恰 没有历史信息可供参考。但是,在大多数情况下,用户希望能够针对首次 或者前几次使用的字词就能够得到非常好的输入效率。
再者,对于同一个词,在不同的输入环境下,即使同一用户也可能需 要不同的候选项排序。例如,对于"语料"和"预料",在日常输入中,用户 输入"预料"一词的情况较高,在系统词库和用户词库中都是"预料"的词频
或者排序要高于"语料,,;但是当该用户在输入专业文档时(例如,语言分
析相关专业),则就期望"语料"候选项排序在前,而无论系统词库还是用户 词库仍然会按照通常的排序输出,无法随着用户输入需求的变化而变化。
因此,现阶段需要本领域技术人员迫切解决的一个技术问题就是,如 何改变现有输入法系统的智能性不高的现状,提供 一 种能够动态的与用户 输入环境或者输入内容相匹配,大大提高用户输入过程中首选词准确率的 输入法解决方案。

发明内容
本发明所要解决的技术问题是提供一种加载词库的方法,可以依据用户当 前的输入环境或者输入内容,实时动态的加载相应的辅助词库,以4是供更加符 合用户当前需求的候选项排序,从而进一步提高用户的输入效率。
相应的,本发明还提供了釆用上述词库加载方法的字符输入方法和系统, 能够即时的满足用户的动态需求,提高输入效率。
为了解决上述问题,依据本发明的实施例,公开了一种输入法加载词库的
方法,包括'.采集用户当前输入环境的相关信息;匹配获得与用户当前输入环 境相应的辅助词库;加载所述与用户当前lt入环境相应的辅助词库。
优选的,所述的方法还可以包括卸载与用户当前输入环境无关的辅助词库。
优选的,可以通过以下方式完成加载辅助词库的过程将所需的辅助词库 合并至所述系统词库中;或者,将所需的辅助词库合并至一扩展词库中,所述 扩展词库与系统词库并列;或者,将所需的辅助词库作为各个独立的词库置于 内存中;或者,在启动输入法时,将系统词库和所有辅助词库都合并置于内存 中,并针对每个词条设定标签,通过将带有相关标签的词条设定为可用状态而 实现对所述辅助词库的加载。
优选的,可以通过以下方式完成对用户当前输入环境的相关信息的采集 通过调用相应的系统函数获取当前应用程序的名称;或者,通过调用相应的系 统函数获取剪贴板中的数据;或者,通过调用相应的系统函数获取当前窗口的 标题;或者,通过调用相应的系统函数获取当前应用程序所操作的文件名称及
其路径,进而扫描获取该文件的内容数据;或者,通过调用相应的系统函数获 取当前应用程序向屏幕输出的数据;或者,通过当前应用程序的接口对象,获 取相关信息。
优选的,可以通过以下方式完成对用户当前输入环境的相关信息的采集 通过网页浏览器的接口对象,获取当前页面的统一资源标识符及内容数据。 优选的,在同一输入环境中进行多次采集和匹配。
优选的,可以通过查询预置对应关系表的方式,完成用户当前输入环境的 相关信息与辅助词库的匹配。也可以通过对所采集的文本语料数据进行分析, 匹配得到与用户当前输入环境相应的辅助词库。
优选的,所述辅助词库还可以位于服务器端。
优选的,系统词库与所述辅助词库一同加载;或者,系统词库的加载完成 在所述辅助词库的加载之前。
依据本发明另一实施例,还公开了一种字符输入的方法,包括加载系 统词库;采集用户当前输入环境的相关信息;匹配获得与用户当前输入环境相 应的辅助词库;加载所述与用户当前输入环境相应的辅助词库;接收用户的 输入信息;依据所接收的输入信息,在所加载的系统词库和辅助词库中进行 检索,得到相应的候选项;接收用户的选择信息,输出指定的候选项。
优选的,所述的方法还可以包括卸载与用户当前输入环境无关的辅助词库。
优选的,可以通过以下方式完成对用户当前输入环境的相关信息的采集 通过网页浏览器的接口对象,获取当前页面的统一资源标识符及内容数据。
优选的,可以通过查询预置对应关系表的方式,完成用户当前输入环境的 相关信息与辅助词库的匹配。也可以通过对所釆集的文本语料数据进行分析, 匹配得到与用户当前输入环境相应的辅助词库。
进一步,所述辅助词库也可以位于服务器端。
依据本发明的另一实施例,公开了一种输入法系统,包括
系统词库,用于记录基础字词及其相关信息;
辅助词库,用于记录扩展字词及其相关信息;
信息采集单元,用于采集用户当前输入环境的相关信息;
匹配单元,用于依据所采集的相关信息,匹配获得与用户当前输入环境相
应的辅助词库;
辅助词库应用单元,用于加载所述与用户当前输入环境相应的辅助词库; 输入接口单元,用于接收用户的输入信息;
信息转换单元,用于依据所接收的输入信息,在系统词库和所加载的辅助 词库中进行检索,得到相应的候选项;
显示输出单元,用于接收用户的选择信息,输出指定的候选项。
优选的,所述信息采集单元可以通过网页浏览器的4妄口对象,获取当前页 面的统一资源标识符及内容数据。
优选的,所述匹配单元中包括预置的对应关系表,通过查询预置对应关系 表的方式,完成用户当前输入环境的相关信息与辅助词库的匹配。或者,所述 匹配单元中包括语料分析模块,通过对所采集的文本语津+数据进行分析,匹配 得到与用户当前输入环境相应的辅助词库。
进一步,所述辅助词库也可以位于服务器端。
与现有技术相比,本发明具有以下优点
本发明通过多种手段检测用户当前的输入环境或者输入内容,以准确判断 该用户的当前需求,然后从多个辅助词库中选择加载,从而非常好的满足了用 户的动态需求,能够克服现有技术中的词频调整无法针对新词进行调整的问 题,并无需用户手动设定,可以大幅度的提高用户的输入效率。
从词库改进的历史进程来看,先是提高系统词库中词频的相对准确性,从 而可以满足大多数用户对输入效率的需求;进而引入用户词库技术,以满足各 个用户不同的个性化需求;而本发明更是将单个用户的需求进行分解,可以满 足该用户在不同环境下的输入需求,从而在提高用户输入效率方面实现质的飞 跃。


图1是本发明一种输入法加载词库的方法实施例的步骤流程图2a、图2b和图2c是本发明词库加载的三种具体实现方式示意图3是本发明一种字符输入方法实施例的步骤流程图4是本发明一种输入法系统实施例的结构框图。
具体实施例方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。
本发明可以应用于各种输入方式的输入法平台,包括键盘符号、手写 信息以及语音输入等等。即所述输入信息可以包括编码字符串,也可以包 括手写输入信息以及语音输入的信息,因为这些输入方式也都需要用到词 库进行候选项排序。由于这些输入方式中的信息转换都属于公知技术,在 此就不详述了 。下面仅4又以编码字符串输入为例进行详细说明。
另外,由于现有技术中,输入法平台可以运行在多种计算设备上,例如, 个人电脑、个人数字助理、移动终端设备等等,所以本发明也可以适用在上述 各种计算设备中。
本发明可以应用于日文、韩文等需要出现候选词排序的输入法系统, 例如,对于日文而言,由日文中的平假名、片假名拼成短语的时候就需要 出现候选词排序。由于本发明在上述几种输入法系统中的应用都是相似的, 所以为了方便说明,下面以对本发明应用在中文的情况进行举例说明。
本发明所述的方法可以在由计算机执行的计算机可执行指令的一般上下 文中描述,例如程序模块。 一般地,程序模块包括执行特定任务或实现特定抽 象数据类型的例程、程序、对象、组件、凄t据结构等等。也可以在分布式计算 环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远 程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设 备在内的本地和远程计算机存储介质中。
本发明所述的辅助词库可以包括各种词库,例如,专业词库。专业词库是 基于不同专业领域的用户所用的字词、字词搭配关系、词频信息和/或句法的 不同,为各类用户定制对应的专业词库, 一般可以按照学科领域将词库分为医
学类词库、电子类词库、IT类词库等等。当然,用户也可以自己根据需要进 行制作、编辑和使用。专利申请号为200710099474.6,名称为"一种字符输入 的方法、输入法系统及词库更新的方法"的中国专利申请文件中提及的细胞 词库可以作为另一种可行的辅助词库。所述细胞词库,具体含义为某一特定
群体、某一个人或一部分人使用的具有某一共性的词库(即每个细胞词库中的
字词至少具有一个共同属性),例如最新电影词库、最新歌名词库、魔兽世 界词库、生物学词库、清华大学所有人名词库、某某公司全体人名词库、海淀 区地名词库等。细胞词库可以通过细胞词库网站来提供用户创建、编辑、检索、 下载,进而实现更高的个性化。
辅助词库主要用于记录基础字词及其相关信息;其中,可以包含词条信息, 也可以包含词条的词频或者词序信息。词频信息表达的是用户使用该词条的可 能性,其相对大小能够代表词序。词序信息用来表达词条的相对重要性,通常 可以反应为词条在候选项中的排序位置。某些情况下,也可以直接指定某词条 在候选项中的位置(或者位置范围)。对于中文拼音输入法,辅助词库中的词 条通常与对应的拼音信息进行关联。但也可以直接与字母序列进行关联,例如 搜狗拼音输入法中的"自定义短语"。
参照图1,示出了本发明一种输入法加载词库的方法实施例,具体可以包 括以下步骤
步骤IOI、采集用户当前输入环境的相关信息; 步骤102、匹配获得与用户当前输入环境相应的辅助词库; 步骤103、加载所述与用户当前输入环境相应的辅助词库。 通过上述步骤可以看出,当通过所采集的信息得知用户当前的输入环境发 生改变时,本发明就可以实时的加载相应的辅助词库,以提高用户在当前输入 环境中的输入效率和准确率。通过加载相匹配的辅助词库, 一方面可以增加针 对该输入环境的新词,另一方面,可以调整候选项的排序位置以满足当前输入 环境的需要。
需要说明的是,当输入环境改变后,如果原来加载的辅助词库已经不再需 要,则本发明可以将其卸栽。
在本发明的一个优选实施例中,所述辅助词库可以位于月l务器端,以实现 辅助词库的维护、更新,并降低对客户端资源的占用。例如,当用户访问一专 业的互联网页面,输入法可以实时的向服务器端请求加载与该页面相关的辅助 词库,下载到本地客户端并加载之后,就可以满足用户在该页面的输入需求。
当然,所述的服务器端可以是针对输入法客户端而言的,也可以是该页面网站 的服务器端。
当辅助词库位于服务器端时, 一种情况是,本地输入法完成输入环境信息
采集和匹配,然后向服务器端发起下载请求,下载到本地后再加载;另一可能 的情况是,本地输入法完成输入环境信息的采集,而具体的辅助词库匹配和加 载、以及候选项的检索都在服务器端完成。
实际上,与用户当前输入环境相关的信息有多种多样,不同的相关信息可 以从不同的角度反映该用户当前的输入环境。下面简单介绍一些步骤101中可 能采取的信息采集方式,仅仅用于举例说明本发明的实现,而不应理解为对本 发明的限制。
方式1
通过调用相应的系统函数获取当前应用程序的名称。因为应用程序的名称 可以在一定程度上反映用户的当前需求,进而加载相应的辅助词库以满足用户 的当前需求。 一般的,在windows操作系统中可以通过调用系统函数 GetModuleFileName (参数),以读取当前应用程序所对应的文件名;也可以通 过调用系统函数GetCommandLine (参数),以获取启动当前应用程序的命令 行信息。上述两个函^:的调用,就可以识别出当前应用程序的名称,例如, WinWord.exe, QQ.exe等等。
例如,输入法启动后,调用GetModuleFilename发现应用程序路径名为 "C:\Program Files\Microsoft Office\OFFICEll\WINWORD.EXE",才艮据其文件名 "WinWord.exe,,识别其为word字处理软件,进而启动与文字写作相关的辅助词 库。
上述系统函数的说明都是基于windows操作系统而言的,实际上,对于其 他的l喿作系统,例如,Windows、 Linux、 MacOS、 FreeBSD, Unix, Solaris 等等,以及用于移动终端的PalmOS, Windows Mobile, Symbian等等;不同 操作系统中的函数调用可能会有所不同,在此无法——列举,所以下面的描述 中也仅仅以windows操作系统为例进行说明,当然,本领域技术人员应该知悉, 本发明并不限定于windows操作系统中。
方式2
通过调用相应的系统函数获取剪贴板中的数据;由于剪贴板中的数据也与 用户当前的输入需求密切相关,所以它也可以在一定程度上反映当前输入环境 的属性;当然,所述剪贴板中的文本数据对本发明而言是最重要的。 一般的, 在windows操作系统中可以通过调用系统函数OpenClipboard / GetClipboardData / CloseClipboard等等(用于查看剪贴板内容)。由于输入法 与应用程序运行于同 一地址空间中,这些系统函数的调用可以直接使用。
方式3
通过调用相应的系统函数获取当前窗口的名称,即通过向特定窗口发送消 息可以实现一些与窗口相关的功能。例如,QQ.exe的聊天窗口名为"与***聊 天中",只要向当前窗口发送一个WM—GETTEXT消息就能够取得该文字信息, 从而得到该用户当前的聊天对象,并加载与其相关的辅助词库即可。由于输入 法与应用程序运行于同一地址空间中,这些窗口消息可以直接使用。当然,对 于word等应用程序,其当前窗口的名称一般就是当前打开的文件名称,也可 以在一定程度上反映用户的当前需求。
例如,用户当前的应用程序窗口为针对字体相关的操作,则本发明可以通 过向顶层窗口发送WM一GETTEXT消息获得窗口标题"字体,,,从而判定用户 进行与字体有关的操作,进而加载与字体名相关的辅助词库(例如,该词库就
是由各种常见的字体名词条构成,比如"宋体,,"楷体""雅黑"等等)。 方式4
通过钩子函数获取当前应用程序所操作的文件名称及其路径,进而扫描获 取该文件的内容数据。由于输入法与应用程序运行于同一地址空间中,输入法 可以更改应用程序本身的一些行为,为查看应用程序状态服务。这类似常见的 hook(钩子)技术,但hook需要先进行进程注入;输入法已经嵌入应用程序, 没有进程注入的问题,实现起来要容易的多。 一般的,可以hook应用程序的 文件操作OpenFile/ReadFile,从而了解当前应用程序都使用了哪些磁盘文件, 然后扫描这些文件,获取其内容数据,并寻找与其匹配的辅助词库即可。
例如,识别出当前应用程序为word字处理软件后,hook系统的OpenFile 调用。发现打开的是一个名为"输入法动态加载词库的方法.doc"的文档,则
可以打开该文档,并依据其内容数据匹配相关的辅助词库。
具体而言,对于文本文件(例如txt文件),可以直接读取其文本数据。而
对于非文本文件,现有的操作系统一般都提供了 OLE技术,OLE是Object Linking and Embedding的缩写,可以翻译为对象链接和嵌入。OLE是在客户应 用程序间传输和共享信息的一组综合标准,其允许创建带有指向应用程序的链 接的混合文档以使用户修改时不必在应用程序间切换的协议。本发明可以利用
OLE技术读取现有操:作系统上大部分文件中的文本数据。
例如,像Office、 PDF等文件在windows 2000以后的操作系统,提供了 一个IFilter的COM接口,允许应用程序注册这个接口 。凡是注册了这个接 口的应用程序产生的文件,其他的应用程序可以通过这个接口读取其文本内 容,比如对于O伍ce、 PDF等文件,本发明都可以通过这种方式读取其文本内 容。 一般过程可以为依据文件路径获取相应文件的IFilter对象,判断该文 件是否已被注册,如果该文件已被注册,则通过IFilter::GetValue获取文本内 容。
方式5
通过钩子函数获取当前应用程序向屏幕输出的数据; 一般的,可以hook 应用程序的TextOut调用,监视其向屏幕上输出了哪些文本数据,依据这些文 本数据匹配获得相应的辅助词库。以Windows操作系统为例, 一般的屏幕显 示内容都需要通过文本输出函数(例如TextOut等)完成,则本发明可以给系 统挂API钩子函数(Hook函数)的方式实现屏幕文字的截取,如在TextOut 等文字输出函数的开头写了一个jmp语句,通过Hook函数,跳转到事先定义 好的函数中,获取要TextOut绘制的文本。通过这种方式,可以获取通过屏幕 显示的各种文本数据。例如,打开的邮件、即使通讯消息、word文档等等。
例如,在QQ.exe中启动输入法,输入法可以hook应用程序的DrawText 调用,监视其向屏幕输出的文字。采集到用户的输入内容后,可以匹配加载与 聊天相关的辅助词库。
方式6
通过当前应用程序的接口对象,获糾目关信息。对于 一些特殊的应用程序, 通常都会提供一些公开的接口,以便进行二次开发,而本发明可以通过这些接
口对象,获取所需的相关信息。
比较常用的情况是,取得网页浏览器(例如,IE)的相应COM对象,从 而获取当前网页页面的URI或者文本内容等信息。
网络上可用的每种资源HTML文档、图像、视频片段、程序等等,都可 以由 一个统一资源标识符(Uniform Resource Identifier,简称"URT )进行定位。 URI—般由三部分组成访问资源的命名机制;存放资源的主机名;资源自身 的名称、路径或者参数。在网络资源数据传输领域中比较常用的是URL (Uniform Resource Location,统一资源定位符),URL是URI命名机制的一 个子集。
例如,输入法启动后,如果能够识别其为IE(应用程序名为"iexplore.exe"), 则进一步取得页面URL。如果能够判定其在写博客(在http:〃blog.sohu.com/ 地址下),则可以加载与博客写作相关的辅助词库。
上述举例说明的各种方式既可以单独应用,也可以组合使用,以达到更好 的协同效果。而实际上,本领域技术人员也应该知悉,对于一些其他的操作系 统或者具体的应用程序,则也可以采用各种特有的釆集方式,在此无法——详 述。
下面简单介绍步骤102中的具体匹配过程的几个实施方式,仅仅用于举例 说明本发明的实现,而不应理解为对本发明的限制。 匹配方式1
本发明可以采取对应关系表的方式实现匹配过程。用于与辅助词库对照的 内容可以是应用程序名称,也可以是网址URL、窗口标题等内容。或者其他 任意可以从当前输入环境中获得的其他信息。
所述对应关系表可以由用户自己事先设定,或者由专业人员事先设定,或 者采用人工智能技术统计得到。当然,用户可以通过连接服务器端完成对应关 系表的网络更新。
匹配方式2
本发明还可以采取语料匹配的方式实现匹配过程。通过前述的各种信息采
集方式,可以获得相应的文本数据,将所采集的文本数据进行分词之后与辅助 词库中的词条进行匹配,匹配度高于一定阈值的辅助词库就是当前输入环境需 要加载的辅助词库。另一种优选的实施例是,针对每个辅助词库设定一段标准 文本,判断所采集的文本数据与标准文本之间的相似度,相似度高于一定阈值 的辅助词库就是当前输入环境需要加载的辅助词库。 匹配方式3
本发明还可以采取信息分析的方式实现匹配过程。针对每个辅助词库都设 定相应的属性值或者类别值,然后对所采集的信息进行分析,判断该信息属于
哪个类别,然后加载相应类别的辅助词库即可。例如,对于URL: http://blog.sohu.com/,检测到其中含有blog字符串,则确定应加载blog类别的 辅助词库。再例如,可以针对一段文本数据进行语义分析,将该文本数据按照 语义进行分类,然后加载相应类别的辅助词库即可。至于具体的语义分析过程, 则可以参考自然语言处理相关知识即可,本发明在此不再赘述。
上述三种方式而言,对应关系表的匹配效率较高、实时性较好,但是准确 性不是4艮高(仅根据应用程序名称、窗口标题等信息容易导致判断错误)。而 采用信息分析或者语料匹配的方式,适应性和准确性都有所保证,但是由于积 累信息需要时间(例如字数> 1000,或者时间超过一预设阈值),所以导致其 不能即时发挥作用,实时性稍差。根据实际情况选用或者组合使用,应该是比 较好的选择。
一般的,针对同一输入环境,只要匹配记载一次即可;优选的,针对同一 输入环境,也可以反复执行匹配过程,进行多次采集和匹配,以提高辅助词库 加载的准确性。当然,由于匹配、加载具有一定代价,有可能需要对匹配和加 载时间间隔进行一定的控制。另外还可能需要考虑系统的CPU占用和内存占 用(尽量在空闲时期进41^司库匹配和更新)。
下面筒单介绍步骤103中的具体辅助词库加载过程的几个实施方式,4又仅 用于举例说明本发明的实现,而不应理解为对本发明的限制。
由于系统词库主要用于记录基础字词及其相关信息,以满足用户对普通词 汇或者普通词频的使用习惯,所以优选的,本发明也需要加载系统词库,将系 统词库数据和所需的辅助词库的数据都置于内存空间中,可以满足输入过程中 的氺全索效率的要求。具体的,系统词库可以与所述辅助词库一同加载(例如,
匹配完成后,同时加载系统词库和辅助词库);或者,系统词库的加载也可以
完成在所述辅助词库的加载之前(例如,输入法启动时,先加载系统词库,再 进行匹配)。由于辅助词库的匹配和加载过程可能需要较长的时间,所以先加 载系统词库,可以保证输入法较快速度的启动,并能够打字,虽然准确度不高, 但是几秒钟之后辅助词库加载完毕,就能够达到很好的效果,而避免出现输入 法启动较慢的情况出现。
力口载方式1
将所需的辅助词库合并至所述系统词库,置于内存空间中,该方式可以适
用于系统词库和辅助词库同时加载的情况。参照图2a,将辅助词库201、辅助 词库202和辅助词库20n合并到系统词库200中。 力口载方式2
将所需的辅助词库合并至一扩展词库中,所述扩展词库与系统词库并列。 该方式的好处在于,当输入环境频繁改变时,不需要多次加载或重建系统词库。 参照图2b,将辅助词库201、辅助词库202和辅助词库20n合并到与系统词库 200并列的扩展词库210中。
力口载方式3
将所需的辅助词库作为各个独立的词库置于内存中;该方式的好处是可以 满足频繁加载,但是由于各个辅助词库分别检索,可能需要付出一定的检索代 价。参照图2c,将辅助词库201、辅助词库202和辅助词库20n分别、独立的 加载。
力口载方式4
在启动输入法时,将系统词库和所有辅助词库都合并置于内存中,并针对 每个词条设定标签,通过将带有相关标签的词条没定为可用状态而实现对所述 辅助词库的加载。
也就是说,本发明的加载应该是指确定有效/无效的过程,而不限于^f兹盘 的读取操作。
实际中,依据计算设备硬件资源的情况或者具体应用环境的不同,本领域 技术人员可以选用上述任一方式或者组合优化,以兼顾各方需求。
参照图3,示出了一种字符输入的方法实施例,具体可以包括以下步骤 步骤301、加载系统词库;
步骤302、采集用户当前输入环境的相关信息;例如,通过网页浏览器的 接口对象,获取当前页面的统一资源标识符及内容数据;
步骤303、匹配获得与用户当前输入环境相应的辅助词库;例如,可以通 过查询预置对应关系表的方式,完成用户当前输入环境的相关信息与辅助词库 的匹配;或者,也可以通过对所采集的文本语料数据进行分析,匹配得到与用 户当前输入环境相应的辅助词库;
步骤304、加载所述与用户当前输入环境相应的辅助词库;优选的,所加 载的辅助词库可以位于本地客户端,也可以位于网络服务器端;
步骤305、卸载与用户当前输入环境无关的辅助词库;
步骤306、接收用户的输入信息;
步骤307、依据所接收的输入信息,在所加载的系统词库和辅助词库中进 行;险索,得到相应的候选项;
步骤308、接收用户的选择信息,输出指定的候选项。
本实施例中步骤302的信息采集、步骤303的词库匹配、步骤304的词库 加载,在前面的实施例中已经详细介绍过,因此,在此不再赘述。
对于步骤307的检索过程, 一般的,可以设定辅助词库的权重值大于已有 词库的权重值,例如,最简单的一种情况,检索策略可以设定为辅助词库中词 的排序都先于系统词库中的词。当然,也可以通过用户^1定的方式或者通过自 动设定的方式,将辅助词库中的词条直接以固定位置展现。
优选的,在本实施例中,采用的检索策略可以为当某个候选项仅仅在已 有词库(包括系统词库和/或用户词库)中4企索到,则以该候选项在已有词库 中的词频或其他信息为依据进行排序;当某个候选项仅仅在辅助词库中检索 到,则以该候选项在辅助词库中的词序或者其他信息为依据进行排序;当某个 候选项在已有词库和辅助词库中都找到,则可以对该词条的词频进行加权修
正,依据修正后的词频进行排序(当然,对于修正后的词频可以进行存储,也 可以不进行存储)。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作 组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制, 因为依据本发明,某些步骤可以采用其他顺序或者同时进行。例如,加载系统
词库的步骤301可以最先执行,也可以与步骤304—同执行。再例如,本发明 也不需要限定步骤304和305的执行顺序,在某些情况下(例如,内存中没有 无关词库时),还可以不执行步骤305。
参照图4,示出了 一种输入法系统的实施例,具体可以包括以下部件
系统词库401,用于记录基础字词及其相关信息;
辅助词库402,用于记录扩展字词及其相关信息;
信息采集单元403,用于采集用户当前输入环境的相关信息;
匹配单元404,用于依据所采集的相关信息,匹配获得与用户当前输入环 境相应的辅助词库;
辅助词库应用单元405,用于加载所述与用户当前输入环境相应的辅助词 库;优选的,所加载的辅助词库可以位于本地客户端,也可以位于网络服务器 端;进一步,在某些情况下,辅助词库应用单元405还需要用于完成任务卸 载与用户当前输入环境无关的辅助词库;
输入接口单元406,用于4矣收用户的输入信息;
信息转换单元407,用于依据所接收的输入信息,在系统词库和所加载的
辅助词库中进行检索,得到相应的候选项;
显示输出单元408,用于接收用户的选择信息,输出指定的候选项。 所述信息采集单元403可以采用各种可行的方式完成信息采集,优选的,
可以通过网页浏览器的接口对象,获取当前页面的统一资源标识符及内容数据。
在本发明一个实施例中,所述匹配单元404中可以包括预置的对应关系 表,通过查询预置对应关系表的方式,完成用户当前输入环境的相关信息与辅 助词库的匹配。在本发明的另一个实施例中,所述匹配单元404中包括语料分
析模块,通过对所采集的文本语料数据进行分析,匹配得到与用户当前输入环 境相应的辅助词库。
上述输入法系统的实施例可以为普通llr入法系统,如,通过用户本地
计算设备完成整个输入过程,包括信息输入、信息转换以及显示输出。上 述输入法系统的实施例也可以为网络输入法系统,如,通过用户本地计算 设备完成输入信息的接入,以及候选项的显示输出,而信息转换过程则在 另一计算设备中完成。也就是说,本发明并不需要限定输入法系统实施例 中的各个模块的具体地理位置,只要具有相应的功能和相应的连接关系即 可。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实 施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部 分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以 描述的比较筒单,相关之处参见方法实施例的部分说明即可。其次,本领域技 术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动 作和模块并不一定是本发明所必须的。
以上对本发明所提供的一种加载词库的方法, 一种字符输入的方法以及一 种输入法系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实 施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核
心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施
方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本 发明的限制。
权利要求
1.一种输入法加载词库的方法,其特征在于,包括采集用户当前输入环境的相关信息;匹配获得与用户当前输入环境相应的辅助词库;加载所述与用户当前输入环境相应的辅助词库。
2、 如权利要求l所述的方法,其特征在于,还包括 卸载与用户当前输入环境无关的辅助词库。
3、 如权利要求1所述的方法,其特征在于,通过以下方式完成加载辅助 词库的过程将所需的辅助词库合并至所述系统词库中;或者,将所需的辅助词库合并至一扩展词库中,所述扩展词库与系统词库 并列;或者,将所需的辅助词库作为各个独立的词库置于内存中; 或者,在启动输入法时,将系统词库和所有辅助词库都合并置于内存中, 并针对每个词条设定标签,通过将带有相关标签的词条没定为可用状态而实现对所述辅助词库的加载。
4、 如权利要求1所述的方法,其特征在于,通过以下方式完成对用户当 前输入环境的相关信息的采集通过调用相应的系统函数获取当前应用程序的名称; 或者,通过调用相应的系统函数获取剪贴板中的数据; 或者,通过调用相应的系统函数获取当前窗口的标题; 或者,通过调用相应的系统函数获取当前应用程序所操作的文件名称及其 路径,进而扫描获取该文件的内容数据;或者,通过调用相应的系统函数获取当前应用程序向屏幕输出的数据; 或者,通过当前应用程序的接口对象,获取相关信息。
5、 如权利要求1所述的方法,其特征在于,通过以下方式完成对用户当 前输入环境的相关信息的釆集通过网页浏览器的接口对象,获取当前页面的统 一 资源标识符及内容数
6、 如权利要求1所述的方法,其特征在于,在同一输入环境中多次采集和匹配。
7、 如权利要求1所述的方法,其特征在于,通过查询预置对应关系表的 方式,完成用户当前输入环境的相关信息与辅助词库的匹配。
8、 如权利要求1所述的方法,其特征在于,通过对所采集的文本语料数 据进行分析,匹配得到与用户当前输入环境相应的辅助词库。
9、 如权利要求1或5所述的方法,其特征在于,所述辅助词库位于服务 器端。
10、 如权利要求l所述的方法,其特征在于, 系统词库与所述辅助词库一 同加载;或者,系统词库的加载完成在所述辅助词库的加载之前。
11、 一种字符输入的方法,其特征在于,包括 力口载系统词库;采集用户当前输入环境的相关信息; 匹配获得与用户当前输入环境相应的辅助词库; 加载所述与用户当前输入环境相应的辅助词库; 接收用户的输入信息;依据所接收的输入信息,在所加载的系统词库和辅助词库中进行检索,得 到相应的4美选项;接收用户的选择信息,输出指定的候选项。
12、 如权利要求11所述的方法,其特征在于,还包括 卸载与用户当前输入环境无关的辅助词库。
13、 如权利要求11所述的方法,其特征在于,通过以下方式完成对用户 当前输入环境的相关信息的采集通过网页浏览器的接口对象,获取当前页面的统 一 资源标识符及内容数据。
14、 如权利要求11所述的方法,其特4i在于,通过查询预置对应关系表 的方式,完成用户当前输入环境的相关信息与辅助词库的匹配。
15、 如权利要求11所述的方法,其特征在于,通过对所采集的文本语料 数据进行分析,匹配得到与用户当前输入环境相应的辅助词库。
16、 如权利要求11或13所述的方法,其特征在于,所述辅助词库位于服 务器端。
17、 一种输入法系统,其特征在于,包括 系统词库,用于记录基础字词及其相关信息; 辅助词库,用于记录扩展字词及其相关信息; 信息釆集单元,用于采集用户当前输入环境的相关信息;匹配单元,用于依据所采集的相关信息,匹配获得与用户当前输入环境相 应的辅助词库;辅助词库应用单元,用于加载所述与用户当前输入环境相应的辅助词库; 输入接口单元,用于接收用户的输入信息;信息转换单元,用于依据所接收的输入信息,在系统词库和所加载的辅助 词库中进行检索,得到相应的候选项;显示输出单元,用于接收用户的选择信息,输出指定的候选项。
18、 如权利要求17所述的系统,其特征在于,所述信息采集单元通过网页浏览器的"^妄口对象,获取当前页面的统一资源 标识符及内容数据。
19、 如权利要求17所述的系统,其特征在于,所述匹配单元中包括预置的对应关系表,通过查询预置对应关系表的方 式,完成用户当前输入环境的相关信息与辅助词库的匹配。
20、 如权利要求17所述的系统,其特征在于,所述匹配单元中包括语料分析模块,通过对所采集的文本语料数据进行分 析,匹配得到与用户当前输入环境相应的辅助词库。
21、 如权利要求17或18所述的系统,其特征在于,所述辅助词库位于服 务器端。
全文摘要
本发明提供了一种字符输入的方法,包括加载系统词库;采集用户当前输入环境的相关信息;匹配获得与用户当前输入环境相应的辅助词库;加载所述与用户当前输入环境相应的辅助词库;接收用户的输入信息;依据所接收的输入信息,在所加载的系统词库和辅助词库中进行检索,得到相应的候选项;接收用户的选择信息,输出指定的候选项。本发明通过多种手段检测用户当前的输入环境或者输入内容,以准确判断该用户的当前需求,然后从多个辅助词库中选择加载,从而非常好的满足了用户的动态需求,能够克服现有技术中的词频调整无法针对新词进行调整的问题,并无需用户手动设定,可以大幅度的提高用户的输入效率。
文档编号G06F17/30GK101373468SQ200710120490
公开日2009年2月25日 申请日期2007年8月20日 优先权日2007年8月20日
发明者磊 杨, 赵华中 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1