专利名称:一种智能汉字输入方法和系统的制作方法
技术领域:
本发明涉及信息输入技术领域,特别是指一种智能汉字输入方法 和系统。
背景技术:
在信息输入领域里,目前的汉字输入方法主要有2种用拼音、五 笔等普通汉字输入法输入汉字和直接输入汉字简拼。但是,当应用于某 一特定领域时,由于经常大量输入该行业的业务词汇,利用现有的普通 输入法就有许多不方便之处,其局限性在于
1) 输入时需要记忆大量相关的业务内容(如优先推荐的商家等), 加大了对用户培训的难度,也占用大量的宝贵人力。
2) 由于记忆的不确定性,对于商家等相关信息,可能会造成遗漏 和偏差,这对信息服务的服务质量是个挑战。
3) 用普通输入法,由于没有对特定商业场景的词汇进行过滤和筛 选,大量不相关的冗余信息的存在,减低了信息的输入速度。
4) 用汉字简拼直接输入法,虽然输入速度加快了许多,但是由于 输入的只是简拼首字,在信息的返回结果必然存在大量冗余。
5) 用汉字简拼直接输入法,汉字简拼不能直接对应汉字,为后续 的商业分析制造了麻烦,因为很多时候关键字是有商业价值的,关键字 的挖掘和使用是将产生商业价值的关键,但这样的关键字应该是文字而 非代码才利于正确了解客户的需求的汇总和统计。
随着商业模式的发展和人力成本的提高,在人工信息服务领域,越
来越要求提高信息员(如话务员)的汉字输入效率,这就要求信息员同 时既要快速输入查询条件(如关键字),又要掌握大量相关商业信息, 用户的负担十分沉重。
发明内容
有鉴于此,本发明的目的在于提出一种智能汉字输入法和系统, 提高在应用于某一特定行业时的输入效率以及方便性。
基于上述目的本发明提供的一种智能汉字输入方法,设置作为基础 词库的通用词库、按行业和信息类别进行统计生成的分类词库、以及希
望向用户推荐的关键字的关键字词库;
当用户输入编码时,判断用户输入的行业和信息类别,并检查是否 存在该行业或信息类别的分类词库,如果存在,则确定在分类词库中执 行后续查询操作,否则,在通用词库中执行后续查询操作;
在确定的词库中查询与用户输入的编码相符合的词,并根据词被使 用的频率从高到低进行排序;
按顺序在输入法的前向关键字显示栏中显示前若干条词;
同时,在关键词库中查询编码与用户输入相符合的词,在输入法的 后向关键字显示栏中显示前若干条词;
当用户在前向关键字显示栏或者后向关键字显示栏所显示的词中选 择其中一个词后,将所选择的词输入在相应位置。
可选的,该方法所述通用词库中每个词的i己录至少包括以下元素 词的序列号、词的编码、词的中文、词械 使用的频率;
所述分类词库中每个词的记录至少包括以下元素词的序列号、词 被使用的频率;
所述关键字词库中每个词的记录至少包括以下元素关键词编码、 关键词序列号、关键词中文。
可选的,该方法进一步对所述通用词库定期更新,更新流程包括
A. 将用户每次输入的编码和所选择的汉字都作为用户的输入日志 记录到数据库中;
B. 定时统计所有输入编码和汉字的频率,并根据频率从高到低进 行排序;
C. 根据步骤B的结果,将用户输入过但通用词库中不存在的词,
6添加到通用词库中;
D.根据步骤B的结果,更新通用词库中词的使用频率。
可选的,该方法进一步对所述分类词库定期更新,针对每个行业和
信息类别分别进行的更新流程包括
A. 将用户每次输入的编码和所选择的汉字都作为用户的输入日志 记录到数据库中;
B. 定时统计同一行业和信息类别内输入编码和汉字的频率,并根 据频率从高到低进行排序;
C. 根据步骤B的结果,将用户输入过的该行业和信息类别的分类 词库中不存在的词,添加到该分类词库中;
D. 根据步骤B的结果,更新该分类词库中词的使用频率。 可选的,该方法还包括当用户输入对前向关键字显示栏或者后向
关键字显示栏的翻页命令时,对相应的前向关键字显示栏或者后向关键 字显示栏进行翻页显示下一组与用户输入的编码相符合的词。
可选的,该方法所述词的编码为词的首拼字母。
可选的,该方法所述词的编码和词的中文是多维度的,步骤A中对
输入日志中记录的编码为d,C2,…,Cn,对应的中文为NhN2,…,Nn,其
中C代表一个词的编码,N代表词的中文;在步骤C中保存的结果为 编码为d,对应的中文是N"编码为NhC2,对应的中文是
Ni,N2 ;......; 编码为 NhN2,…,Ni小Ci , 对应的中文是
NhN2,…,Ni ;......;编码为NhN2,…,N^,Cn ,对应的中文是
琴2,",凡。
在另 一方面,本发明还提供了 一种基于上迷方法的智能汉字输入系 统,包括
数据库,保存用户的输入日志、作为基础词库的通用词库、按行业 和信息类別进行统计生成的分类词库、以及希望向用户推荐的关键字的 关键字词库;
系统处理模块,当用户输入编码时,判断用户输入的行业和信息类 别,并检查是否存在该行业或信息类别的分类词库,如果存在,则确定在分类词库中执行后续查询操作,否则,在通用词库中执行后续查询操
作;在确定的词库中查询与用户输入的编码相符合的词,并根据词被使 用的频率从高到低进行排序;同时,在关键词库中查询编码与用户输入 相符合的词;
显示模块,用于按顺序在输入法的前向关键字显示栏中显示前若干 条词;在输入法的后向关键字显示栏中显示前若干条词;
选词输入模块,当用户在前向关键字显示栏或者后向关键字显示栏 所显示的词中选择其中一个词后,将所选择的词输入在相应位置。
从上面所述可以看出,本发明提供的智能汉字输入法和系统,相 对现有技术而言,具有如下优点和效果
1) 有效地支撑特定领域的汉字输入,大大减少了选择机会,提高 了信息的输入速度。
2) 兼顾并且融合了客户和信息服务商的需求,提高了信息服务水平。
3) 应用于信息台的场合下,信息输入时不再需要人脑硬性记忆大 量相关的业务内容,减低了对信息员培训的难度。
4) 应用于信息台的场合下,减少了相关信息的遗漏和偏差,提高 了服务质量。
图l为本发明实施例通用词库更新流程示意图2为本发明实施例分类词库更新流程示意图3为本发明实施例系统显示前向关键字的流程示意图4为本发明实施例在输入的过程中自动弹出关键字提示的示意
图5为本发明实施例在输入的过程中自动弹出关键字提示的示意
图6为本发明实施例智能汉字输入系统的结构示意图。
具体实施例方式
本发明智能汉字输入方法的主要包括设置作为基础词库的通用词库、按行业和信息类别进行统计生成的分类词库、以及希望向用户推荐的关键字的关键字词库;
当用户输入编码时,判断用户输入的行业和信息类别,并检查是否存在该行业或信息类别的分类词库,如果存在,则确定在分类词库中执行后续查询操作,否则,在通用词库中执4亍后续查询操作;
在确定的词库中查询与用户输入的編码相符合的词,并根据词被使用的频率从高到低进行排序;
按顺序在输入法的前向关键字显示栏中显示前若干条词;
同时,在关键词库中查询编码与用户输入相符合的词,在输入法的后向关键字显示栏中显示前若干条词;
当用户在前向关键字显示栏或者后向关键字显示栏所显示的词中选择其中一个词后,将所选择的词输入在相应位置。
其中,前向关键字显示栏中显示前若干条词、后向关键字显示栏中显示前若干条词的个数一般都为至少为2个,优选大于等于3个。
同时,本发明还提供了一种基于上述方法的智能汉字输入系统,参见图6所示至少包括
数据库,保存用户的输入日志(包括编码和所选汉字),保存作为基础词库的通用词库、按行业和信息类别进行统计生成的分类词库、以及希望向用户推荐的关键字的关键字词库;
系统处理模块,当用户输入编码时,判断用户输入的行业和信息类别,并检查是否存在该行业或信息类别的分类词库,如果存在,则确定在分类词库中执行后续查询操作,否则,在通用词库中执行后续查询操作;在确定的词库中查询与用户输入的编码相符合的词,并根据词被使用的频率从高到低进行排序;同时,在关键词库中查询编码与用户输入相符合的词;
显示模块,用于按顺序在输入法的前向关键字显示栏中显示前若干条词;在输入法的后向关键字显示栏中显示前若干条词;
9选词输入模块,当用户在前向关键字显示栏或者后向关键字显示栏所显示的词中选择其中一个词后,将所选择的词输入在相应位置。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体
实施例,并参照附图,对本发明进一步详细il明。
在实施例中,汉字输入过程的系统处理主要包括词库更新、前向关键字显示和后向关键字显示。在本发明的实施例中,词库定时更新。前向关键字显示和后向关键字显示在词库的基础上实现。
词库更新
系统的词库分为通用词库、分类词库、关键字词库。
通用词库和分类词库是前向关键字显示所使用的词库,其中通用词
库不区分行业和信息类别,是输入法使用的缺省词库,也是分类词库的基础词库。通用词库中每个词的记录至少包括四个元素
1) 词的序列号
2) 词的编码(通常是首拼)
3) 词的中文
4) 词祐 使用的频率。
通用词库定期更新,更新流程参见图1所示包括
步骤101,将用户每次输入的编码和所选择的汉字作为用户的输入曰志都记录到数据库中。
所述用户输入的日志,在数据库中可以是和通用词库独立的一个表。例如用户输入编码"jd,,,最后选择的汉字是"酒店",把"jd"-"酒店,,记录到一个数据库中。
步骤102,定时统计用户输入的日志中所有输入编码和汉字的频率,并根据频率从高到低进行排序。
步骤103,根据步骤102的结果,将用户输入过但通用词库中不存在的词,添加到通用词库中。
例如统计出"jd,,-"酒店"的频率是10, "jd"这个编码和对应的汉字在通用词库中不存在,则在通用词库中增加编码是"dj",对应汉字是"酒店"的记录。
10步骤104,根据步骤102的结果,更新通用词库中词的使用频率。
例如,假设在通用词库中找到编码是"jd,,,汉字是"酒店"的记 录,频率是50,根据步骤102的结果,统计"jd" 一 "酒店"的频率是 10,则更新通用词库中编码是"dj",汉字是"酒店"的频率等于60。
分类词库根据用户的历史输入情况,是按行业和信息类别进行统计 生成的词库。分类词库的所有词都来源于通用词库。可以将关键字按行 业(如餐饮、酒店、加工厂、交通等)和信息类别(如名称,地 址,服务内容等)进行分类。这样,在用户输入时,根据用户的选择按 需提示,可以大大减少编码冗余度。
如在地址信息提示的都是地址信息,在地址信息输入xc得到了 首词是"西村"而没有"西餐"。在服务内容中输入xc就得到提示词有 "西餐,,而没有"西村"
分类词库中每个词的记录至少包括两个元素
1) 词的序列号(在通用词库中的序列号)
2) 词被使用的频率。
分类词库定期更新,流程和通用词库类似,只是统计的时候,只对 相应的行业和信息类别进行统计。针对每个4亍业和信息类别分别进行的 更新流程参见图2所示,包括
步骤201,将用户每次输入的编码和所选择的汉字作为用户的输入 曰志都记录到数据库中。该日志可与步骤IOI中通用词库的日志可以保 存在一个列表中,也可以分别保存,只要日志能区分信息的行业和类别 就行。
步骤202,定时统计同一行业和信息类别内输入编码和汉字的频 率,并根据频率从高到低进行排序。
步骤203,根据步骤202的结果,将用户输入过的该行业和信息类 别的分类词库中不存在的词,添加到该分类词库中。
步骤204,根据步骤202的结果,更新该分类词库中词的使用频率。 关键字词库记录了希望向用户推荐的所有关键字。客户和信息服务提供者诉求有时是不同的,如一个客户想要知道离他家最近的电器维修 店,信息服务提供者则是希望提供给客户与服务提供者签约的电器维修 店。此时,就需要话务员根据客户需求做出均衡的判断,使得可以在满 足客户需求的情况下尽量达成服务提供者的推销、推荐等目的。
多档关键字主要内容是前向和后向关键字的提示,前向关键字中提 示客户可能想查询的内容,后向关键字中提示信息服务商希望向用户推 介而且客户应该可以接受的内容。
关键字词库中每个词的记录至少包括三个元素
1) 关键词编码
2) 关键词序列号
3) 关键词中文。
在用户进行汉字输入的过程中,当用户在输入框内输入中文首写拼 音字母时,在输入(中文首拼)的过程中系统会自动弹出n组关键字提
示。其中一组为普通关键字(前向关键字),另一组为商业关键字(后向 关键字)。关鍵字的输入被汇总到服务器后,被分类汇总分析,并被重 新计算频度,以保证热词在前。其中,n —般可以是大于或等于3的正 整数。为了达到上述效果,包括如下前向关键字和后向关键字的显示过 程。
前向关键字显示
前向关键字显示所使用的词库是通用词库和分类词库。 用户输入编码时,系统显示前向关键字的流程参见图3所示,包
括
步骤301~304,系统判断用户输入的行业和信息类别,检查是否存 在该行业或信息类别的分类词库;如果存在,后续操作查找该行业和信 息类别对应的分类词库,否则后续操作查找通用词库。
步骤305,在确定的词库中查询词的编码符合用户输入条件的词 组,并根据词被使用的频率从高到低进行排序。
步骤306,在输入法的前向关键字显示栏中显示前N条词组,其中 N的值可配置。后向关键字显示
系统在关键词库中查询词的编码符合用户输入条件的词组,并在输 入法的后向关键字显示栏中显示前M条词组(M可配置)。
其中,N可以等于M。 N和M —般可以是大于或等于3的正整数。
此外,当用户输入对前向关键字显示栏或者后向关键字显示栏的翻 页命令时,对相应的前向关键字显示栏或者后向关键字显示栏进行翻页 显示下一组与用户输入的编码相符合的词。
通过上述步骤302中对词被使用的频率从高到低进行排序,可以保 证被输入频率较多的词排在靠前位置而进行的根据历史和分类信息以对 关键词库进行排列的的过程。
如输入编码"th",原本得到"天河"和"太行"这两个提示 词,而且"天河"在"太行"之后。这时如果"天河"被输入的次数增 多后,再输入th会得到"天河"在"太行"之前的结果。
另外,还可以增加以及组合提示功能
用户输入若干个关键字后,再输入另外关键字时,系统就会根据之 前的若干个关键字的与其他关键字的组合情况来提示输入。如用户输入 "天河"后,系统发现根据历史统计"天河"和"湘菜"組合的几率较高, 当用户在输入"天河"后再输"xc"这时"湘菜"就会排为首位。
实现组合提示功能,在进行词库统计时(步骤101-104),词库的编 码和中文是多维度的。下面说明在操作日志和词库中多维度的含义
在输入日志中,用户输入的编码有多个,所选择的汉字也有多组, 假设用C代表一个词的编码,N代i表词的中文,对n(n22)维度的编码 为d,Q,…,Cn,对应的中文也有n个,为NhN2,…,Nn。假设采用空格 表示多个编码的分隔符,步骤101中,用户输入的编码是d口C2,如 "th口xc",用户选择的对应的汉字!^口N2,如"天河口湘菜"。则在 输入日志中就记录"th口xc"对应"天河口湘菜"。对于更多编码的情 况依此类推,假如用户输入的编码是d口C2口C3,如"th口xc口ml", 用户选择的对应的汉字Ni口N2口N3,如"天河口湘菜口麻辣"。在词库中,对统计的输入日志是n(n^2)维的时候,步骤102统计 时,对输入日志统计后,步骤103中保存统计结果有n条,其中第l条 记录的编码为Q,对应的中文是Nr,第2条记录的编码为Ni,C2,对应 的中文是NbN2;……;第i条记录的编码为NhN2,…,]NUCi,对应的中 文是NhN2,…,Ni,……;第n条记录的编码为NhN2,…,N^,Cn,对应的 中文是Ni,N2,…,Nn。例如输入日志的记录为"th口xc"对应"天河口 湘菜",在步骤102中对输入日志进行统计,然后在步骤103中保存为 两个结果,"th,,-"天河"、"天河口xc"-"天河口湘菜"。另外,除 可以用两条记录进行保存,也可以釆用子表的形式,在"th,,-"天 河"的子表中保存"天河口xc"-"天河口湘菜"。再例如输入日志的 记录为"th口xc口ml"对应"天河口湘菜口麻辣",在步骤102中对输 入日志进行统计,然后在步骤103中保存为,"th"-"天河"、"天河 □xc"-"天河口湘菜"、"天河口湘菜口ml"-"天河口湘菜口麻 辣"。另外,同样除可以用两条记录进行保存,也可以采用子表的形 式,在"th"-"天河"的子表中保存"天河口xc,,-"天河口湘 菜",进一步在"天河口xc,,-"天河口湘菜,,的字表中保存"天河口 湘菜口ml"-"天河口湘菜口麻辣"。这样在用户输入"th口xc"时, 并在第一个词选择"天河"时,通过查询词库得到"天河口xc"-"天 河口湘菜",则显示"湘菜"的提示;当用户进一步选择了 "湘菜" 后,则显示"麻辣"的提示。步骤104不变。在分类词库及步骤201-204中也可以应用这个功能。
用户输入编码时的处理和图3 —致。
关键字的输入法可以采用中文首写拼音字母逐字提示的关键字输入 法。在输入(中文首拼)的过程中自动弹出关键字提示。参见附图4、 5 所示。
这时第一栏里的出现的是前向关键字,是客户可能关心的内容,这 些关键字的排列依据一般是根据关联度和热度。第二栏中出现的是后向 关键字, 一般是出售给合作商家的关键字,排列的规则一般是对服务商 而言最有价值的信息显示在前,信息员在和客户沟通中,信息员会试图在满足客户的需求的前提下,尽量推荐给用户合作商家的信息。
以上所述的具体实施例仅为本发明的具体实施例而已,并不用于限 制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替 换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种智能汉字输入方法,其特征在于,设置作为基础词库的通用词库、按行业和信息类别进行统计生成的分类词库、以及希望向用户推荐的关键字的关键字词库;当用户输入编码时,判断用户输入的行业和信息类别,并检查是否存在该行业或信息类别的分类词库,如果存在,则确定在分类词库中执行后续查询操作,否则,在通用词库中执行后续查询操作;在确定的词库中查询与用户输入的编码相符合的词,并根据词被使用的频率从高到低进行排序;按顺序在输入法的前向关键字显示栏中显示前若干条词;同时,在关键词库中查询编码与用户输入相符合的词,在输入法的后向关键字显示栏中显示前若干条词;当用户在前向关键字显示栏或者后向关键字显示栏所显示的词中选择其中一个词后,将所选择的词输入在相应位置。
2. 根据权利要求1所述的方法,其特征在于,所述通用词库中每个 词的记录至少包括以下元素词的序列号、词的编码、词的中文、词被 使用的频率;所述分类词库中每个词的记录至少包括以下元素词的序列号、词 被使用的频率;所述关键字词库中每个词的记录至少包括以下元素关键词编码、 关键词序列号、关键词中文。
3. 根据权利要求1或2所述的方法,其特征在于,进一步对所述通 用词库定期更新,更新流程包括A. 将用户每次输入的编码和所选择的汉字都作为用户的输入曰志 记录到数据库中;B. 定时统计所有输入编码和汉字的频率,并根据频率从高到低进 行排序;C. 根据步骤B的结果,将用户输入过但通用词库中不存在的词,添加到通用词库中;D.根据步骤B的结果,更新通用词库中词的使用频率。
4. 根据权利要求1或2所述的方法,其特征在于,进一步对所述分 类词库定期更新,针对每个行业和信息类别分别进行的更新流程包括A. 将用户每次输入的编码和所选择的汉字都作为用户的输入曰志 记录到数据库中;B. 定时统计同一行业和信息类别内输入编码和汉字的频率,并根 据频率从高到低进行排序;C. 根据步骤B的结果,将用户输入过的该行业和信息类别的分类 词库中不存在的词,添加到该分类词库中;D. 根据步骤B的结果,更新该分类词库中词的使用频率。
5. 根据权利要求l所述的方法,其特征在于,该方法还包括当用 户输入对前向关键字显示栏或者后向关键字显示栏的翻页命令时,对相 应的前向关键字显示栏或者后向关键字显示栏进行翻页显示下一組与用 户输入的编码相符合的词。
6. 根据权利要求l所述的方法,其特征在于,所述词的编码为词的 首拼字母。
7. 根据权利要求3所述的方法,其特征在于,所述词的编码和词的 中文是多维度的,步骤A中对输入日志中记录的编码为d,C2,.",Cn, 对应的中文为Ni,N2,…,Nn,其中C代表一个词的编码,N代表词的中 文;在步骤C中保存的结果为编码为d,对应的中文是N"编码为 Nt,C2,对应的中文是NhN2;……;编码为Ni,N2,…,N",Ci,对应的中 文是]NM."Ni;……;编码为IN^m ,对应的中文是
8. 根据权利要求1所述的方法,其特征在于,所述前向关键字显示 栏中显示前若干条词、后向关键字显示栏中显示前若干条词的个数分别 至少为2个。
9. 一种基于上述权利要求1 - 8任意一项所述方法的智能汉字输入 系统,其特征在于,包括数据库,保存用户的输入日志、作为基础词库的通用词库、按行业 和信息类别进行统计生成的分类词库、以及希望向用户推荐的关键字的关键字词库;系统处理模块,当用户输入编码时,判断用户输入的行业和信息类别,并检查是否存在该行业或信息类别的分类词库,如果存在,则确定 在分类词库中执行后续查询操作,否则,在通用词库中执行后续查询操作;在确定的词库中查询与用户输入的编码相符合的词,并根据词被使 用的频率从高到低进行排序;同时,在关键词库中查询编码与用户输入 相符合的词;显示模块,用于按顺序在输入法的前向关键字显示栏中显示前若干 条词;在输入法的后向关键字显示栏中显示前若千条词;选词输入模块,当用户在前向关键字显示栏或者后向关键字显示栏 所显示的词中选择其中一个词后,将所选择的词输入在相应位置。
全文摘要
本发明公开一种智能汉字输入的方法和系统,设置作为基础词库的通用词库、按行业和信息类别进行统计生成的分类词库、以及希望向用户推荐的关键字的关键字词库;用户输入编码时,判断用户输入的行业和信息类别,检查是否存在该行业或信息类别的分类词库,若存在,则确定在分类词库中执行后续查询操作,否则,在通用词库中执行后续查询操作;在确定的词库中查询与用户输入的编码相符合的词,根据词被使用的频率从高到低进行排序;按顺序在输入法的前向关键字显示栏中显示前若干条词;在关键词库中查询编码与用户输入相符合的词,在后向关键字显示栏中显示前若干条词。这种方法能有效地支撑特点领域的汉字输入,减少用户的选择机会,提供信息输入速度。
文档编号G06F3/023GK101650605SQ20091017720
公开日2010年2月17日 申请日期2009年9月25日 优先权日2009年9月25日
发明者宋平波, 云 李, 林全疆, 冰 粱, 蔡坚铮, 铎 金, 陈剑波 申请人:中国电信股份有限公司