一种用户词库同步方法及用户词库同步服务器的制作方法

文档序号：7974426阅读：534来源：国知局

专利名称：一种用户词库同步方法及用户词库同步服务器的制作方法
技术领域：
本发明涉及输入法技术领域，尤其涉及一种用户词库同步方法及一种用户词库同步服务器。
背景技术：
当前对于非字母文字(包括中文、日文、韩文等)的输入都需要经由专门的输入法软件进行输入转换。以中文为例，一般可以采用拼音方式或者字形(五笔等)编码方式进行输入。然而无论采用何种输入方式，都不可避免的会出现重码的情形。例如，采用拼音方式输入会出现同音字的情形，采用五笔输入同样会有重码。因此，如何能使输入法的首选词符合用户的预期就成为评价输入法的一个非常重要的参数。为了尽量提高首选词命中率，当前的各种中文输入法软件都会对用户输入的文字进行统计并形成用户的词库文件，词库中除了保存有用户输入的词条外，还包括各词条的使用频率统计信息。根据用户的使用频率对候选词进行排序可以最大程度的提高首选词命中率。此外，为了使用户在切换不同的设备时仍然继续使用用户词库，现有的输入法软件都会将用户词库备份至服务器。另一方面，随着计算机硬件技术及互联网的飞速发展，互联网的接入设备中，各种移动设备，如手机、平板电脑等所占的份额越来越大。当然，目前移动设备仍然无法完全替换个人电脑(PC，包括台式电脑或者笔记本电脑)，实际情形是用户两种设备都会使用。与PC—样，用户在使用移动设备时同样有中文输入的需求。现有各种成熟的输入法软件，基本上都既有PC版本，又有移动设备版本。以腾讯公司的QQ输入法为例，就包括QQ桌面输入法及QQ移动输入法。如上所述，输入法软件都会维护一个用户词库。对于同一个用户来说，其在台式电脑上使用QQ桌面输入法生成的用户词库对于其使用的QQ移动输入法来说是具有借鉴意义的，反之亦然。因此，有必要使这两种输入法的用户词库之间可以共用。然而由于移动终端硬件处理能力较低、存储空间较小、键盘输入及选词的不便利性使得没有办法直接在移动终端中使用与台式电脑同样的词库。

发明内容
有鉴于此，有必要提供一种用户词库同步方法及同步服务器，既可以满足用户在不同设备端上的共性需求，又可以使用户词库针对不同的设备类型或者应用环境作优化。在一个实施例中，一种用户词库同步方法包括:在至少一个存储空间内存储第一云端用户词库；所述方法还包括:步骤一:对第一云端用户词库进行过滤或者扩展操作得到中间结果；以及步骤二:将中间结果保存至一个存储空间内的一个第二云端用户词库。在另一个实施例中，一种用户词库同步方法包括:在至少一个存储空间内存储一个第一云端用户词库；接收来自第一客户端的第一同步信息；根据第一同步信息对第一云端用户词库进行更新；对第一同步信息进行过滤或者扩展操作得到中间结果；以及根据中间结果对一个存储空间内的一个第二云端用户词库进行更新。在再一个实施例中，一种用户词库同步服务器包括:存储单元、更新处理单元以及中间处理单元，其中:存储单元用于存储对应于一个第一客户端的一个第一云端用户词库；中间处理单元用于对第一云端用户词库进行过滤或者扩展操作以得到中间结果；更新处理单元用于将中间结果保存至一个存储空间内的一个第二云端用户词库。在上述用户词库同步方法及用户词库同步服务器中，并不是简单使第一云端用户词库与第二云端用户词库保持同步，而是先进行过滤或者扩展操作，以去除冗余的词条和/或使用频率很低的词条，或者扩展相关联的词条，可在尽量保证用户输入体验的情形下最大程度降低第二云端用户词库的体积，或者增加第二云端用户词库的丰富程度，既可以满足用户在不同设备端上的对于用户词库的共性需求，又可以使用户词库针对不同的设备类型，例如移动设备，或者应用环境作优化。为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

图1为本发明第一实施例提供的用户词库同步方法的流程图。图2为本发明第一实施例提供的用户词库同步方法的方框示意图。图3为本发明第一实施例提供的用户词库同步方法中所使用的过滤器的结构框图。图4为本发明第一实施例提供的用户词库同步方法中词库的过滤的详细示意图。图5为本发明第二实施例提供的用户词库同步方法的流程图。

图6为本发明第三实施例提供的用户词库同步方法的流程图。图7为本发明第四实施例提供的用户词库同步方法的流程图。图8为本发明实施例提供的对用户词库进行扩展操作的详细示意图。图9为本发明第五实施例提供的用户词库同步服务器的结构框图。
具体实施例方式为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种用户词库同步方法及用户词库同步服务器的具体实施方式
、结构、特征及其功效，详细说明如后。术语定义:1.1 词库词库是指包括多条词条记录的集合，而每条词条记录可以包括:用户输入的已有字词及相应的属性参数；和/或，用户输入的自造字词及相应的属性参数。对于每个词条其数据存储结构例如可以为:词条；属性参数I ;属性参数2 ;……;属性参数η。其中，属性参数例如可以为词频信息、生成时间、最后使用时间、二元关系等等。1.2统计语言模型目前市场上的输入法普遍采用统计语言模型作为输入法的核心模块，来处理用户的整句输入需求。统计语言模型以概率论和数理统计理论为基础，用来计算汉语语句的概率，使得正确语句的概率大于错误语句的概率。对于一个包含m个词的汉语语句S = W1W2…wm，根据Bayes理论，其概率可以分解为若干个条件概率的乘积，即
权利要求
1.一种用户词库同步方法，其包括: 在至少一个存储空间内存储第一云端用户词库；其特征在于，所述方法还包括: 步骤一:对所述第一云端用户词库进行过滤或者扩展操作得到中间结果；以及步骤二:将所述中间结果保存至一个存储空间内的一个第二云端用户词库。
2.如权利要求1所述的用户词库同步方法，其特征在于，步骤一中进行的是过滤操作。
3.如权利要求1所述的用户词库同步方法，其特征在于，所述第一、第二云端用户词库分别对应于同一用户使用的第一客户端与第二客户端。
4.如权利要求3所述的用户词库同步方法，其特征在于，所述第一客户端为非移动客户端，所述第二客户端为移动客户端。
5.如权利要求3所述的用户词库同步方法，其特征在于，步骤二中所述中间结果覆盖所述第二云端用户词库。
6.如权利要求2所述的用户词库同步方法，其特征在于，步骤一中采用至少一个过滤器进行过滤，所述至少一个过滤器包括:语言模型过滤器、统计信息过滤器、或者自定义过滤器。
7.如权利要求6所述的用户词库同步方法，其特征在于，所述至少一个过滤器包括统计信息过滤器，所述统计信息过滤器根据其他用户的云端用户词库计算得到统计信息。
8.如权利要求1所述的用户词库同步方法，其特征在于，所述步骤一与步骤二是定期重复进行的，或者是根据用户的同步请求进行的。
9.一种用户词库同步方法，其特征在于，包括: 在至少一个存储空间内存储一个第一云端用户词库；接收来自所述第一客户端的第一同步信息；根据所述第一同步信息对所述第一云端用户词库进行更新；对所述第一同步信息进行过滤或者扩展操作得到中间结果；以及根据所述中间结果对一个存储空间内的一个第二云端用户词库进行更新。
10.一种用户词库同步服务器，其特征在于，包括:存储单元、更新处理单元以及中间处理单元，其中: 存储单元用于存储对应于一个第一客户端的一个第一云端用户词库；中间处理单元用于对所述第一云端用户词库进行过滤或者扩展操作以得到中间结果; 更新处理单元用于将所述中间结果保存至一个存储空间内的一个第二云端用户词库。
全文摘要
本发明涉及一种用户词库同步方法，其包括在至少一个存储空间内存储第一云端用户词库；所述方法还包括步骤一对第一云端用户词库进行过滤或者扩展操作得到中间结果；以及步骤二将中间结果保存至一个存储空间内的一个第二云端用户词库。上述同步方法既可以满足用户词库在不同设备端上的共性需求，又可以使用户词库针对不同的设备类型或者应用环境作优化。另外，本发明还提供一种用户词库同步服务器。
文档编号H04L29/08GK103108012SQ20111036202
公开日2013年5月15日申请日期2011年11月15日优先权日2011年11月15日
发明者肖镜辉申请人:腾讯科技(深圳)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖镜辉;
技术所有人：腾讯科技（深圳）有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。