一种获取候选项的方法及装置制造方法

文档序号:6491926阅读:121来源:国知局
一种获取候选项的方法及装置制造方法
【专利摘要】本申请提供了一种获取候选项的方法及装置,其中的方法具体包括:收集某地理区域内用户的输入行为数据;分析已收集的输入行为数据,得到该地理区域的分地域数据;接收用户在该地理区域的输入序列;依据该地理区域的分地域数据,获取与所述输入序列相应的候选项。本申请能够提高用户的输入效率。
【专利说明】一种获取候选项的方法及装置
【技术领域】
[0001]本申请涉及文字输入【技术领域】,特别是涉及一种获取候选项的方法及装置。
【背景技术】
[0002]目前随着计算机技术以及互联网技术的普及与发展,一方面,用于实现计算机文字输入的输入法越来越深入到人们的生活中,另一方面,用户对于输入法的智能性要求也越来越高。
[0003]以手机为代表的移动设备近年来发展迅猛,CPU和存储设备性能上都有大幅提高。与之相应的,移动设备上的应用也越来越丰富,用户界面也越来越友善。
[0004]如果移动设备上安装的输入法能提供基于地理位置的候选项,则能够大大提高用户输入效率和操作体验。申请号为201110256454.1,发明名称为“便携式设备上基于地理位置动态调整候选词的系统及方法”的中国发明专利(以下简称为现有的技术方案的技术方案)公开了一种便携式设备上基于地理位置动态调整候选词的技术方案,相应技术方案的方法流程具体可以包括:
[0005]步骤1、位置更新模块实时对便携式设备的当前地理位置进行定位,获得当前地理位置信息,并将当前地理位置信息送至引擎模块;
[0006]步骤2、引擎模块接收到所述当前地理位置信息,并根据需要动态地从网络服务模块下载当前地理位置信息所对应的与地理位置相关的候选词数据;
[0007]步骤3、引擎模块将下载得到的与地理位置相关的候选词数据存入字典模块;
[0008]步骤4、输入模块根据用户的输入动作产生相应的输入信号,并将该输入信号送至引擎模块;
[0009]步骤5、引擎模块接收到所述输入信号,在字典模块中搜索并得到对应的输入候选词信息,并将所述候选词信息送至候选词生成模块;
[0010]步骤6、候选词生成模块接收到所述候选词信息,生成输入候选项列表。
[0011]上述现有的技术方案的技术方案中,地图数据是其候选词数据的主要来源,地图数据中通常包括有商圈、餐饮等服务信息的名称,能够在一定程度上满足用户的输入需求,但是,地图数据具有如下局限性:一是,地图数据所覆盖的服务信息的名称有限,无法满足用户的非服务信息的名称的输入需求,如地图数据中是无法覆盖到“江南Style”、“元芳”、“Techno”这种词汇的;二是,地图数据所使用的词语通常过于正式,不能符合某些用户的口语化输入习惯,如有些用户喜欢用“新疆办”来表示“新疆驻北京办事处”等等,而“新疆办”在地图数据中是不存在的;三是,地图数据有自己的更新周期,如果地图数据的更新周期偏长,则导致上述现有的技术方案的候选词数据长期得不到更新,这样,如果某个商圈内新开了一家餐馆,则上述现有的技术方案的候选词数据不能及时获取该餐馆的相应数据;总之,上述现有的技术方案不能智能地了解用户的输入需求,不能总是在输入过程中出现用户想要的候选词,影响了用户的输入效率,这对输入法的智能性提出了更高的要求。
[0012]另外,采用上述现有的技术方案的技术方案,只要实时定位的当前地理位置发生变化,就需要与网络服务模块通信以下载与新地理位置相应的候选词数据,这样,在移动设备用户频繁切换地理位置的情况下,容易给移动设备和网络服务模块之间带来频繁、大量的通信开销。
[0013]还有,移动设备上字典模块中日积月累不同地理位置的候选词数据,容易占据移动设备的存储空间。
[0014]总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提高用户的输入效率。

【发明内容】

[0015]本申请所要解决的技术问题是提供一种获取候选项的方法,能够提高用户的输入效率。
[0016]为了解决上述问题,本申请公开了一种获取候选项的方法,包括:
[0017]收集某地理区域内用户的输入行为数据;
[0018]分析已收集的输入行为数据,得到该地理区域的分地域数据;
[0019]接收用户在该地理区域的输入序列;
[0020]依据该地理区域的分地域数据,获取与所述输入序列相应的候选项。
[0021]另一方面,本申请还公开了一种获取候选项的装置,包括:
[0022]数据收集单元,用于收集某地理区域内用户的输入行为数据;
[0023]数据分析单元,用于分析已收集的输入行为数据,得到该地理区域的分地域数据;
[0024]输入序列接收单元,用于接收用户在该地理区域的输入序列;及
[0025]候选项获取单元,用于依据该地理区域的分地域数据,获取与所述输入序列相应的候选项。
[0026]与现有的技术方案相比,本申请具有以下优点:
[0027]本申请依据该地理区域的分地域数据,获取与用户在该地理区域的输入序列相应的候选项。
[0028]首先,由于所述分地域数据是依据地理区域内用户的输入行为数据分析得到的,其来源并不局限于地图数据,故能够有效避免地图数据词语有限、词语正式、更新周期长等特点对候选项的影响;更重要的是,地理区域内用户在相同的地域环境中很有可能使用输入行为数据来表达与该地域环境相应的特征信息,而对地理区域内用户的输入行为数据进行分析所得到的分区域数据是能够体现地理区域的特色的;这样,本申请将某地理区域的分区域数据应用于该地理区域内用户的文字输入过程中候选项的获取,则能够获取得到反映该地理区域内特征或特色信息的候选项,从而有利于在文字输入过程中出现用户想要的候选项,能够提高输入法的智能性和用户的输入效率;
[0029]例如,在分区域数据描述的地理区域内,用户的特征数据反映地理区域内的错误发音习惯时,本申请能够自动对错误的输入序列进行纠错处理以得到正确的候选项,故能够避免相应地理区域内用户的一系列纠错操作,提高输入效率。
[0030]其次,现有的技术方案中,地理位置与候选词数据是一一对应的,一方面,存储候选词数据也需要存储相应的地理位置信息,容易占据服务器和移动设备的存储空间;另一方面,当前地理位置是实时定位的,一旦移动设备的当前地理位置发生变化,就需要与网络服务模块通信以下载与新地理位置相应的候选词数据,这容易给移动设备和网络服务模块之间带来频繁、大量的通信开销;
[0031]而本申请在文字输入过程中所使用的分区域数据是针对地理区域的,其存储无需考虑具体的地理位置信息,故能够节省服务器和移动设备的存储空间;并且,即使移动设备的当前地理位置发生变化,但只要移动设备所处的地理区域不变,就可以避免与服务器通信以获取地理区域的分区域数据,故也能节省移动设备和服务器的通信开销。
[0032]再者,本申请确定所述输入序列所属的地理区域不一定依赖于移动设备对于自身地理位置信息的定位,也即,即使移动设备不具有自身地理位置信息的GPS等定位功能,本申请依然能够顺利实施,故本申请具有良好的扩展性。
[0033]进一步,现有的技术方案中,在便携式设备上已经加载的当前地理位置信息相关的词库很有可能是半年前或者更久前加载的,容易导致最终得到候选词信息的时效性差;并且,即使在当时从网络服务模块下载当前地理位置信息所对应的与地理位置相关的候选词数据的情况下,网络服务模块侧存储的与地理位置相关的候选词数据往往是事先生成的,仍容易影响最终得到候选词信息的时效性;
[0034]而本申请中,所述分地域数据所依据的地理区域内用户的输入行为数据可以为实时收集的数据,这里的实时收集是指在确定所述输入序列所属的地理区域后进行相应地理区域内数据的收集,这样依据实时收集的数据分析得到的分区域数据也是实时的,进一步获取得到的候选项也是实时的;因此,相对于现有的技术方案,本申请所述分地域数据所依据的地理区域内用户的输入行为数据为实时收集的数据,能够提高候选项的时效性。
【专利附图】

【附图说明】
[0035]图1是本申请一种获取候选项的方法实施例1的流程图;
[0036]图2是本申请一种获取候选项的方法实施例2的流程图;
[0037]图3是本申请一种输入法系统的结构示意图;
[0038]图4是本申请一种获取候选项的装置实施例的结构图。
【具体实施方式】
[0039]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本申请作进一步详细的说明。
[0040]本申请实施例采用分区域数据表示一切可供用户选择的、可按地理区域属性进行区分的数据;其中,分地域数据可依据地理区域内用户的输入行为数据分析得到。这里,地理区域内用户既可以包括地理区域内的常住用户,又可以包括路过或者短期居住的用户,地理区域内用户的输入行为数据对相应地理区域的分地域数据都会造成影响。例如,如果某个地理区域内用户对某些特征信息比较敏感,则很有可能使用输入行为数据来表达这些特征信息;这样,依据地理区域内用户的输入行为数据分析得到的分区域数据就能够作为相应地理区域的特征数据,与其它地理区域的数据区分开来。
[0041]本申请实施例采用某地理区域内的分区域数据为该地理区域内的用户服务;具体而言,依据该地理区域的分地域数据,获取与用户在该地理区域的输入序列相应的候选项。[0042]由于所述分地域数据是依据地理区域内用户的输入行为数据分析得到的,其来源并不局限于地图数据,故能够有效避免地图数据词语有限、词语正式、更新周期长等特点对候选项的影响;更重要的是,地理区域内用户在相同的地域环境中很有可能使用输入行为数据来表达与相同的地域环境相应的特征信息,而对地理区域内用户的输入行为数据进行分析得到的分区域数据是能够体现地理区域的特色的;这样,本申请将某地理区域的分区域数据应用于该地理区域内用户的文字输入过程中候选项的获取,则能够获取得到反映该地理区域内特征或特色信息的候选项,从而有利于在文字输入过程中出现用户想要的候选项,能够提高输入法的智能性和用户的输入效率。
[0043]参照图1,示出了本申请一种获取候选项的方法实施例1的流程图,具体可以包括:
[0044]步骤101、收集某地理区域内用户的输入行为数据;
[0045]本申请实施例中,地理区域主要用于表示为实行用户及用户的输入行为数据管理而划分的区域。本领域技术人员可以根据实际需要进行地理区域的划分,例如,本申请的地理区域可以具有类似行政区域的分级关系,如国家-省-市-区-县等。另外,本领域技术人员可以根据实际需要设置所述地理区域的细粒度,例如,对于城市而言,所述地理区域的细粒度具体可以包括省、市、区、街道、社区甚至大厦等等,社区的典型例子具体包括:“五道口”、“东王庄”、“西王庄”、“望京”等等,大厦的例子可以包括“搜狐网络大厦”、“同方大厦”、“紫光大厦”等等;对于农村而言,所述地理区域的细粒度具体可以包括省、市、县、乡镇、村等等;本申请对地理区域的具体划分和具体细粒度不加以限制。
[0046]在本申请的一种实施例中,所述收集某地理区域内用户的输入行为数据的步骤,具体可以包括:
[0047]步骤S111、收集在分区域服务器登记成功或者接入分区域服务器所在地理区域的用户的输入行为数据,作为相应地理区域内用户的输入行为数据。
[0048]本申请实施例中,分区域服务器与地理区域对应,可用于管理一个地理区域内的用户及用户的输入行为数据。输入行为数据可泛指用户在文字输入过程中产生的一切与输入行为相关的数据,这里的输入行为具体可以包括:输入序列的输入操作、上屏操作、退格操作、删除操作等等,其中退格操作和删除等操作既可以包括针对输入序列的操作,也包括对已上屏词条的操作,本申请对具体的输入行为及输入行为数据不加以限制。
[0049]在实际应用中,用户可以主动向分区域服务器发起登记。例如,登记过程的一种示例可以为:用户在开机且网络可用时发送登记请求到最近的分区域服务器,表征自己的在线状态;分区域服务器则可依据用户的登记请求,确认用户所在的登记地理区域,并向用户返回相应的登记成功消息,通常登记成功消息中可以携带用户在登记地理区域内的ID (标识,Identity)、用户所在登记地理区域的名称等信息。登记成功的用户与用户之间,便构成了对等(peer)关系。
[0050]在本申请实施例中,接入分区域服务器所在地理区域的用户可由分区域服务器主动获取得到,例如,分区域服务器可以通过端口扫描获取所管理地理区域内的用户,或者,分区域服务器可以向所管理地理区域内的输入法客户端发送接入消息,如果输入法客户端针对该接入消息返回响应,则将相应的输入法客户端作为接入所在地理区域的用户。
[0051]总之,在分区域服务器登记成功或者接入分区域服务器所在地理区域的用户均在地理区域内的用户的范围内,二者的主要区别之一在于,前者由用户主动发起,后者由分区域服务器主动发起。
[0052]在本申请的一种应用示例中,分区域服务器的工作流程具体可以包括:
[0053]步骤S201、管理地理区域内的用户,更新各用户状态;
[0054]通常用户状态可以包括在线、离线两种状态。
[0055]步骤S202、收集地理区域内用户的输入行为数据;
[0056]步骤S203、对已收集的用户的输入行为数据数据进行分析,得到分地域数据。
[0057]在本申请的一种优选实施例中,所述登记成功的用户的输入行为数据具体可以包括登记成功的用户在所有地理区域内产生的输入行为数据,或者,登记成功的用户在登记地理区域内产生的输入行为数据。例如,用户在望京居住在五道口上班,且该用户在望京和五道口所属的地理区域均登记过;那么,对于五道口分区域服务器而言,登记成功的用户在所有地理区域内产生的输入行为数据具体可以包括用户在五道口、望京甚至其它地理区域内产生的输入行为数据,而登记成功的用户在登记地理区域内产生的输入行为数据仅仅包括用户在五道口地理区域内产生的输入行为数据。比较登记成功的用户在所有地理区域内产生的输入行为数据和登记成功的用户在登记地理区域内产生的输入行为数据,前者更为丰富,后者更能够反映一个地理区域内的特征信息。
[0058]步骤102、分析已收集的输入行为数据,得到该地理区域的分地域数据;
[0059]本申请实施例中,分区域数据可用于表示可供用户选择的、可按地理区域属性进行区分的数据。
[0060]在获取分区域数据时,粒度可以是词表或词库,也可以是词条(尤其是云输入模式下),其中的词条不局限于汉字词条,还可以是混杂字母、数字的词条,也可以是英文、日文、韩文、德文等语言的词条。
[0061]本申请实施例中,可采用地域输入特性表示一个地理区域内的输入特性,其可用于反映输入行为数据与相应地理区域的关联度,而输入行为数据与相应地理区域的关联度越强越能体现相应地理区域的特色;预置地域输入特性条件则是与地域输入特性相应的条件,也即已收集的输入行为数据中符合预置地域输入特性条件的数据也是具有与相应地理区域的关联度较高、更能体现地域特色的输入行为数据,换个说法,筛选得到的数据可以看作相应地理区域内的特征数据。
[0062]在本申请的一种优选实施例中,地域输入特性可以用地域词条输入特性来表示,则所述收集某地理区域内用户的输入行为数据的步骤,具体可以包括:
[0063]从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数据;
[0064]所述分析已收集的输入行为数据,得到该地理区域的分地域数据的步骤,具体为依据筛选出的输入行为数据,得到该地理区域的分地域数据。
[0065]本申请可以提供如下地域词条输入特性的方案;
[0066]地域词条输入特性方案1、
[0067]所述地域词条输入特性具体可以包括用户数目;所述预置地域词条输入特性条件具体可以包括预置用户数目条件;所述已收集的输入行为数据可以包括上屏词条;在一些优选实施例中,已收集的输入行为数据还可以包括用户标识、和已上屏词条对应的用户输入序列;
[0068]则所述从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数据的步骤,包括:
[0069]步骤S301、统计输入所述已收集的输入行为数据中上屏词条的用户数目;
[0070]步骤S302、从所述已收集的输入行为数据中筛选出用户数目符合预置用户数目条件的上屏词条;
[0071]则所述依据筛选出的输入行为数据,得到该地理区域的分地域数据的步骤,具体可以包括:
[0072]步骤S303、以所述筛选出的上屏词条作为候选项,建立该候选项和至少一种输入方式下输入序列的对应关系。
[0073]本申请实施例中,输入方式指的是文字的词条与输入序列之间的对应关系,例如全拼输入方式、简拼输入方式、手写输入方式、笔画输入方式、五笔输入方式等等。
[0074]地域词条输入特性方案I中,用户数目可用于表示一个地理区域内输入某词条的用户数目,其可用于反映相应地理区域内对于某词条的使用范围;通常,用户数目越多,表示该词条的使用范围越大,该词条与相应地理区域的关联度越强,故可以依据用户数目得到预置地域输入特性条件,以筛选出与相应地理区域的关联度较强、体现地域特色的词条。
[0075]在筛选出这样的词条后,可以建立该词条与一种及一种以上输入方式下的输入序列之间的对应关系,这样不论用户使用何种输入方式,均能方便的在该地理区域内输出该词条。
[0076]当然,也可以在收集上屏词条的同时收集与上屏词条对应的用户输入序列,在筛选出用户数目符合预置用户数目条件的上屏词条后,建立该上屏词条与所收集的用户输入序列之间的对应关系,并据此向该地理区域内的用户提供候选项。本申请对此不加限制。
[0077]参照表1,示出了本申请一种包括用户标识、输入序列和对应的上屏词条的一个地理区域内已收集的输入行为数据的示例。
[0078]表1
[0079]
【权利要求】
1.一种获取候选项的方法,其特征在于,包括: 收集某地理区域内用户的输入行为数据; 分析已收集的输入行为数据,得到该地理区域的分地域数据; 接收用户在该地理区域的输入序列; 依据该地理区域的分地域数据,获取与所述输入序列相应的候选项。
2.如权利要求1所述的方法,其特征在于,所述收集某地理区域内用户的输入行为数据的步骤,包括: 从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数据; 所述分析已收集的输入行为数据,得到该地理区域的分地域数据的步骤,具体为依据筛选出的输入行为数据,得到该地理区域的分地域数据。
3.如权利要求 2所述的方法,其特征在于,所述已收集的输入行为数据包括输入序列、输入操作和对应的上屏词条; 所述从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数据的步骤,包括: 从所述已收集的输入行为数据中筛选出输入序列、输入操作和对应的上屏词条中一者或多者符合预置地域纠错输入条件的输入行为数据; 所述分析已收集的输入行为数据,得到该地理区域的分地域数据的步骤,具体为依据所述筛选出的输入行为数据,得到错误输入序列和正确输入序列的对应关系,作为该地理区域的分地域数据。
4.如权利要求2所述的方法,其特征在于,所述已收集的输入行为数据包括上屏词条。
5.如权利要求4所述的方法,其特征在于,所述地域词条输入特性包括用户数目;所述预置地域词条输入特性条件包括预置用户数目条件; 则所述从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数据的步骤,包括: 统计输入所述已收集的输入行为数据中上屏词条的用户数目; 从所述已收集的输入行为数据中筛选出用户数目符合预置用户数目条件的上屏词条; 则所述依据筛选出的输入行为数据,得到该地理区域的分地域数据的步骤,包括: 以所述筛选出的上屏词条作为候选项,建立该候选项和至少一种输入方式下输入序列的对应关系。
6.如权利要求4所述的方法,其特征在于,所述地域词条输入特性包括输入概率比对;所述预置地域词条输入特性条件包括预置输入概率比对条件; 则所述从所述已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数据的步骤,包括: 针对某地理区域的所述已收集的输入行为数据中某上屏词条,统计其在该地理区域的所述已收集的输入行为数据中所有上屏词条的第一输入概率; 针对全部地理区域的所述已收集的输入行为数据中某上屏词条,统计其在全部地理区域的所述已收集的输入行为数据中所有上屏词条的第二输入概率;以某上屏词条的第一输入概率与第二输入概率的比值,作为该上屏词条在第一输入概率对应地理区域内的输入概率比对; 从某地理区域的所述已收集的输入行为数据中筛选出输入概率比对符合预置输入概率比对条件的上屏词条; 则所述依据筛选出的输入行为数据,得到该地理区域的分地域数据步骤,包括: 以所述筛选出的上屏词条作为候选项,建立该候选项和至少一种输入方式下输入序列的对应关系。
7.如权利要求3所述的方法,其特征在于,所述预置地域纠错输入条件至少包括如下条件中的一种或多种:纠错操作紧接在未上屏输入序列的输入操作之后;及,纠错操作紧接在上屏词条的上屏操作之后; 所述纠错操作至少包括如下操作中的一种或多种:退格操作、删除操作、交换操作和替换操作。
8.如权利要求7所述的方法,其特征在于,所述依据所述筛选出的输入行为数据,得到该地理区域的分地域数据的步骤,包括: 在所述预置地域纠错输入条件为纠错操作紧接在输入序列的输入操作之后时,依据该纠错操作之前的未上屏输入序列得到错误输入序列,依据该纠错操作之后的未上屏输入序列获取该错误输入序列对应的正确输入序列,并建立错误输入序列和正确输入序列的对应关系;和/或, 在所述纠错操作紧接在上屏词条的上屏操作之后时,依据该纠错操作之前的上屏词条得到错误上屏词条,依据该纠错操作之后的上屏词条得到该错误上屏词条对应正确上屏词条,并依据该错误上屏词条·和正确上屏词条建立错误输入序列和正确输入序列的对应关系; 则所述依据该地理区域的分地域数据,获取与所述输入序列相应的候选项的步骤,包括: 利用所述错误输入序列和正确输入序列的对应关系,对所述输入序列进行纠错,得到纠错后输入序列; 依据所述纠错后输入序列,获取相应的候选项。
9.如权利要求1至8中任一项所述的方法,其特征在于,所述收集某地理区域内用户的输入行为数据的步骤,包括: 收集在分区域服务器登记成功或者接入分区域服务器所在地理区域的用户的输入行为数据,作为相应地理区域内用户的输入行为数据。
10.如权利要求1所述的方法,其特征在于,还包括: 在依据该地理区域的分地域数据,获取与所述输入序列相应的候选项失败时,依据该地理区域的上一级地理区域的分地域数据,获取与所述输入序列相应的候选项。
11.一种获取候选项的装置,其特征在于,包括: 数据收集单元,用于收集某地理区域内用户的输入行为数据; 数据分析单元,用于分析已收集的输入行为数据,得到该地理区域的分地域数据; 输入序列接收单元,用于接收用户在该地理区域的输入序列 '及 候选项获取单元,用于依据该地理区域的分地域数据,获取与所述输入序列相应的候选项。
12.如权利要求11所述的装置,其特征在于,所述数据收集单元,包括: 筛选子单元,用于从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数据; 则所述数据分析单元,具体用于依据筛选出的输入行为数据,得到该地理区域的分地域数据。
13.如权利要求12所述的装置,其特征在于,所述已收集的输入行为数据包括输入序列、输入操作和对应的上屏词条; 则所述筛选子单元,包括: 纠错筛选模块,用于从所述已收集的输入行为数据中筛选出输入序列、输入操作和对应的上屏词条中一者或多者符合预置地域纠错输入条件的输入行为数据; 则所述数据分析单元,具体用于依据所述筛选出的输入行为数据,得到错误输入序列和正确输入序列的对应关系,作为该地理区域的分地域数据。
14.如权利要求12所述的装置,其特征在于,所述已收集的输入行为数据包括上屏词条。
15.如权利要求14所述的装置,其特征在于,所述地域词条输入特性包括用户数目;所述预置地域词条输入特性条件包括预置用户数目条件; 则所述筛选子单元,包括: 第一统计模块,用于统计输入所述已收集的输入行为数据中上屏词条的用户数目; 数目筛选模块,用于从所述已收集的输入行为数据中筛选出用户数目符合预置用户数目条件的上屏词条; 则所述数据分析单元,具体用于以所述筛选出的上屏词条作为候选项,建立该候选项和至少一种输入方式下输入序列的对应关系。
16.如权利要求14所述的装置,其特征在于,所述地域词条输入特性包括输入概率比对;所述预置地域词条输入特性条件包括预置输入概率比对条件; 则所述所述筛选子单元,包括: 第二统计模块,用于针对某地理区域的所述已收集的输入行为数据中某上屏词条,统计其在该地理区域的所述已收集的输入行为数据中所有上屏词条的第一输入概率; 第三统计模块,用于针对全部地理区域的所述已收集的输入行为数据中某上屏词条,统计其在全部地理区域的所述已收集的输入行为数据中所有上屏词条的第二输入概率; 概率比对获取模块,用于以某上屏词条的第一输入概率与第二输入概率的比值,作为该上屏词条在第一输入概率对应地理区域内的输入概率比对;及 概率筛选模块,用于从某地理区域的所述已收集的输入行为数据中筛选出输入概率比对符合预置输入概率比对条件的上屏词条; 则所述数据分析单元,具体用于以所述筛选出的上屏词条作为候选项,建立该候选项和至少一种输入方式下输入序列的对应关系。
17.如权利要求13所述的装置,其特征在于,所述预置地域纠错输入条件至少包括如下条件中的一种或多种:纠错操作紧接在未上屏输入序列的输入操作之后;及,纠错操作紧接在上屏词条的上屏操作之后;所述纠错操作至少包括如下操作中的一种或多种:退格操作、删除操作、交换操作和替换操作。
18.如权利要求17所述的方法,其特征在于,所述数据分析单元,包括: 第一分析子单元,用于在所述预置地域纠错输入条件为纠错操作紧接在输入序列的输入操作之后时,依据该纠错操作之前的未上屏输入序列得到错误输入序列,依据该纠错操作之后的未上屏输入序列获取该错误输入序列对应的正确输入序列,并建立错误输入序列和正确输入序列的对应关系;和/或, 第二分析子单元,用于在所述纠错操作紧接在上屏词条的上屏操作之后时,依据该纠错操作之前的上屏词条得到错误上屏词条,依据该纠错操作之后的上屏词条得到该错误上屏词条对应正确上屏词条,并依据该错误上屏词条和正确上屏词条建立错误输入序列和正确输入序列的对应关系; 则所述候选项获取单元,包括: 纠错子单元,用于利用所述错误输入序列和正确输入序列的对应关系,对所述输入序列进行纠错,得到纠错后输入序列; 纠错后获取子单元,用于依据所述纠错后输入序列,获取相应的候选项。
19.如权利要求11至18中任一项所述的装置,其特征在于,所述数据收集单元,具体用于收集在分区域服务器登记成功或者接入分区域服务器所在地理区域的用户的输入行为数据,作为相应地理区域内用户的输入行为数据。
20.如权利要求11所述的装置,其特征在于,还包括: 上一级候选项获取单元,·用于在依据该地理区域的分地域数据,获取与所述输入序列相应的候选项失败时,依据该地理区域的上一级地理区域的分地域数据,获取与所述输入序列相应的候选项。
【文档编号】G06F17/30GK103853437SQ201210497317
【公开日】2014年6月11日 申请日期:2012年11月28日 优先权日:2012年11月28日
【发明者】张扬 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1