一种修正用户词库的方法和系统的制作方法

文档序号:6435640阅读:149来源:国知局
专利名称:一种修正用户词库的方法和系统的制作方法
技术领域
本发明涉及输入法技术领域,特别是涉及一种修正用户词库的方法和系统。
背景技术
随着计算机技术以及互联网技术的普及与发展,输入法已经成为用户与计算机交互的重要手段,不同专业领域、不同兴趣以及使用习惯的用户对于输入法的智能性要求越来越高。现有的输入法一般通过提高系统词库中词条的更新程度以及词频信息的准确度,来提高用户输入字符时的效率。随输入法软件安装包安装到用户机器上的词库往往是满足一般用户通用输入需要的基本词库,我们称之为系统词库。而对于各个用户输入中那些个性化的不具有普遍性的词条,比如自己亲友同事的姓名、称谓,自己熟悉的地名机构名,以及使用范围非常有限的专业术语等,在系统词库中一般是不予收录的。这种需求基本上是靠用户词库解决在用户第一次(或若干次)输入自造词之后,输入法软件会把这些词条作为用户词记录下来。如果用户在今后再次输入,会将用户词作为一个候选展现出来,而且往往给予比系统词条更高的优先级进行展现。有时用户输入中会存在输入错误(例如由于敲击键盘速度过快等原因),而现有输入法软件对错误输入和正确输入不予区分,就不可避免的对错误输入也进行学词,从而在用户词数据引入噪音。比如用户希望输入shenme,意欲输出“什么”,结果不小心敲成“shenem”,上屏文字为“神恶魔”。而现有的输入法软件会认为“神恶魔”是用户的个性化输入,作为用户词保存下来。日积月累,这种因误输入而记录的用户词条越来越多,会造成如下问题1、记录大量本不需要记录的错误输入作为用户词,占据用户词空间,降低用户词查找匹配效率。2、如果用户想输入的其他词条恰好与这些垃圾词条的输入编码(拼音、五笔等)相同,这些词条会排在比较靠前的位置,这势必会给用户输入带来干扰,影响用户体验。腾讯公司申请号为200710302282的中国专利《一种更新用户词库的方法及装置》,提供了一个解决方案,可以在一定程度上解决前述的技术问题。其主要方案是用户先后进行了两次连续的编辑操作,并且用户在前一次编辑完成后进行了删除处理。如果这两次操作都在同一位置,并且两次输入的词条都具有同一编码(拼音全拼、拼音简拼或五笔)的话,则认定前一次输入为错误输入,使用后一次的输入来替换这次输入,同时更新用户词库信息。例如,用户输入“nh”,由于失误,将“年号”作为输入字符上屏了,而后发现错误,将“年号”删除,重新输入“nhao”,并在候选项中选择了“年号”的更正字符“你好”重新作为输入字符上屏。200710302282的中国专利首先判断更正字符“你好”和原字符“年号”是否位置相同,并进一步判断更正字符“你好”是否存在于原字符“年号”的并列候选项中,如果都满足,则认定前一输入字符“年号”为错误输入。但是该方案存在如下缺陷a、限定在同一位置的输入。这无疑限制了该方案的应用范围,用户光标变换的操作一直在频繁的发生。而用户自发的对输入的更正,并不局限于在同一位置的修改,编辑位置完全可能发生变动,例如,用户在写完一段话后检查时,才发现错误并返回加以更正是很正常的。b、只考虑前后两次连续输入,并必须存在删除操作。首先,用户对输入的更正,可能并不是连续的,而是间断的;并且,对于頂(即时通信)、搜索引擎等应用场景中,原始输入是无法进行编辑的,即用户无法删除原输入字符,不存在删除操作。总之,本申请希望使输入法软件能够修正用户词库,能够更智能的记录用户输入信息,尽可能的避免对错误输入进行学词,减少在用户词库中的数据噪音,并避免上述现有方案的限制。

发明内容
本发明所要解决的技术问题是提供一种修正用户词库的方法和装置,能够尽可能的避免对错误输入进行学词,减少在用户词库中的数据噪音。为了解决上述问题,本发明公开了一种修正用户词库的方法,包括检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,在输入编码上相同或相近,而文字不同;和/或,检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,文字相同而输入编码不同;如果满足条件,则基于当前输入内容和纠错内容,对用户词库中的数据进行修正;所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。优选的,所述用户已完成输入内容为用户在一个输入会话内的已完成输入内容。优选的,,所述一个输入会话为在当前客户端上,由当前输入法账户进行的输入行为;和/或,输入法软件绑定到一个应用程序内的输入行为。优选的,通过以下方式判断输入编码是否相近判断两个输入编码之间的编辑距离是否在一定范围内。优选的,当满足条件时,还包括筛选步骤,采用通过筛选的当前输入内容和纠错内容对用户词库中的数据进行修正。优选的,所述筛选步骤具体包括基于以下特征中的一个或者多个进行评判,当评判结果大于一预设阈值时,则筛选通过;所述特征包括但不限于纠错内容与当前输入内容输入频率的比值;纠错内容与当前输入内容的编辑距离;纠错内容与当前输入内容间相隔的其他输入句子数;纠错内容被当前用户输入的频率;当前输入内容被当前用户输入的频率;纠错内容被所有用户输入的频率;当前输入内容被所有用户输入的频率。优选的,所述对用户词库的修正包括基于纠错内容,在用户词库中确定待修正文字;对待修正文字的词频减一;或者,采用当前输入内容的文字替换待修正文字,将待修正文字的词频加到当前输入内容的文字的词频上。优选的,所述用于与当前输入内容进行比较的用户已完成输入内容,最远距离当前输入内容N句或者N个字词。优选的,所述与当前输入内容进行比较的用户已完成输入内容的单位为输入序列;所述输入序列为用户输入上屏的一次完整内容;或者,所述输入序列为基于用户输入过程中敲击键盘事件的停顿时间,对用户输入上屏的一次完整内容进行划分所得的更细粒度的字词;或者,所述输入序列为基于拼音边界对用户已完成输入内容进行切分得到的字
ο优选的,基于当前输入内容和纠错内容,对用户词库中的数据进行修正后,还包括当所述纠错内容所属的输入序列的文字字数比所述纠错内容的字数多时,采用当前输入内容的文字替换该输入序列中所述纠错内容的对应部分,将替换得到的输入序列作为用户词记录至用户词库。依据本发明的另一实施例,还公开了一种用户词库修正系统,包括输入错误检测模块,用于检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,在输入编码上相同或相近,而文字不同;和/或,检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,文字相同而输入编码不同;用户词管理模块,用于当满足条件时,基于当前输入内容和纠错内容,对用户词库中的数据进行修正;所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。优选的,所述用户已完成输入内容为用户在一个输入会话内的已完成输入内容。优选的,所述一个输入会话为在当前客户端上,由当前输入法账户进行的输入行为;和/或,输入法软件绑定到一个应用程序内的输入行为。优选的,所述输入错误检测模块通过以下方式判断输入编码是否相近判断两个输入编码之间的编辑距离是否在一定范围内。优选的,所述的系统还包括用于对当前输入内容和纠错内容进行筛选的候选筛选模块;所述用户词管理模块采用通`过筛选的当前输入内容和纠错内容对用户词库中的数据进行修正。优选的,所述候选筛选模块具体用于基于以下特征中的一个或者多个进行评判,当评判结果大于一预设阈值时,则筛选通过;所述特征包括但不限于纠错内容与当前输入内容输入频率的比值;纠错内容与当前输入内容的编辑距离;纠错内容与当前输入内容间相隔的其他输入句子数;纠错内容被当前用户输入的频率;当前输入内容被当前用户输入的频率;纠错内容被所有用户输入的频率;当前输入内容被所有用户输入的频率。优选的,所述用于与当前输入内容进行比较的用户已完成输入内容,最远距离当前输入内容N句或者N个字词。优选的,所述的系统还可以包括输入内容管理模块用于基于用户输入过程中敲击键盘事件的停顿时间,对用户输入上屏的一次完整内容进行划分,将得到的更细粒度的字词作为输入序列;或者,用于基于拼音边界对用户已完成输入内容进行切分,将得到的更细粒度的字词作为输入序列;所述输入错误检测模块采用输入序列为单位,将用户已完成输入内容与当前输入内容进行比较。优选的,所述的系统还可以包括第二修正模块,用于当所述纠错内容所属的输入序列的文字字数比所述纠错内容的字数多时,采用当前输入内容的文字替换该输入序列中所述纠错内容的对应部分,将替换得到的输入序列作为用户词记录至用户词库。与现有技术相比,本发明具有以下优点本发明提出的对用户词库的修正方案,可以更智能的记录用户输入信息,尽可能的避免对错误输入进行学词,减少在用户词库中的数据噪音。本发明尤其适用于用户工作于非编辑状态的情况,能够对已经输入完成,并不能编辑(如删除操作)的错误输入进行用户词库修正。进一步,本发明还可以避免腾讯等现有方案的限制,不需要用户必须存在删除更改动作,也不需要用户必须在同一编辑位置进行。本发明可以基于用户当前输入内容和之前的已完成输入内容进行比较,智能判断是否可能是需要纠错的输入内容,从而对错误学词进行修正。本发明不需要对用户编辑行为做更多的限定,可以大大拓展词库修正的应用广度和深度,从而可以更好的减少在用户词库中的数据噪音,去除一些现有技术无法发现的数据噪音。另外,本发明也不需要限定前后两次输入要有相同的编码,例如,具有相同的简拼编码(nh)的“你好”和“年号”本发明可以识别纠错,同时,对于编码不相同的“什么”和“神恶魔”,本发明也可以识别纠错。再者,本发明可以对输入内容的片段进行识别和纠错,而不是必须对前后两个完整的输入内容进行比较,这样可以更广泛和准确的识别错误学词。


图1是本发明一种修正用户词库的方法实施例的流程图;图2是本发明另一种修正用户词库的方法实施例的流程图;图3是本发明一种用户词库修正系统的实施例的结构示意图。
具体实施例方式为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。参照图1,示出了本发明一种修正用户词库的方法实施例,具体可以包括步骤101、检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,在输入编码上相同或相近,而文字不同;和/或,检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,文字相同而输入编码不同;步骤102、如果满足条件,则基于当前输入内容和纠错内容,对用户词库中的数据进行修正;所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。当然,某些情况下,对应部分也可以为已完成输入内容的全部。当前输入内容和用户已完成输入内容通常都会涉及文字和编码两部分,因为用户需要通过输入编码才能上屏文字。所述对用户词库的修正具体可以包括基于纠错内容,在用户词库中确定待修正文字;对待修正文字的词频减一;或者,采用当前输入内容的文字替换待修正文字,将待修正文字的词频加到当前输入内容的文字的词频上。需要说明的是,在本发明的实现方式中,步骤101可以同时检查两种情况(文字同而编码不同,或者编码同而文字不同),当符合任一时,进行修正。在另外的实现方式中,步骤101也可以选择二者中的一个进行检查,例如仅检查第一种情况(编码同而文字不同)或者仅检查第二种情况(文字同而编码不同),当符合时,对用户词库进行修正。
在输入法领域,无论是中文、日文、韩文还是其它语言的输入法,都是把用户的输入编码转换成相应语言的候选项,然后由用户来选择输出至应用程序的内容,这里输出至应用程序的内容也即上屏内容。输入法系统(IME, Input Method Editor)是指计算机用户使用键盘、手写板等输入工具向计算机输入文字、符号的编辑工具。输入法使用一定编码规则,将用户输入序列(拼音序列、五笔、手写板输入等)转化为机器可处理的文字编码。输入法是用户,尤其非拼音文字(中文、日文、韩文等)用户进行计算机信息处理的入口程序。本发明这里涉及的输入法系统应是平台无关的,不具体到PC、无线或其他终端设备上的任一特定操作系统或平台。在本发明的一种应用示例中,用户词库的记录可以包括用户输入的已有字词及相应的属性参数;和/或,用户输入的自造字词及相应的属性参数。用户词库记录的数据存储结构可以表示为(词条属性参数I;属性参数2 ;......;属性参数η)其中,属性参数可以包括最后记忆、词频信息、分类信息、级别或权重信息等等,通常最重要的就是词频信息。每次将上屏内容学入用户词库时,本发明都可以依据预置规则对用户词库进行自动更新,其中,所述预置规则可由用户设置。例如,将这个上屏内容作为相应输入编码的最后记忆进行存储,并且,判断用户词库中是否存在与这个上屏内容相同的词条,若是,则将用户词库中相应词条的词频加一,否则,将这个上屏内容作为新的词条添加到用户词库中。可以理解,本领域技术人员还可以根据需要,设计除最后记忆、词频信息、分类信息、级别或权重信息之外的属性参数。在一种实现方式中,该用户进行之后的输入时,输入法系统首先会从用户词库中查找与输入编码相匹配的词条,如果能直接命中,则会将命中的候选项进行排序,其中,在排序的过程中,输入法系统 会优先考虑该输入编码的最后记忆,然后进一步根据候选项的词频进行排序,词频高的候选项排在前面,词频低的排在后面。参照图2,示出了本发明一种修正用户词库的方法实施例,具体可以包括步骤201、检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,在输入编码上相同或相近,而文字不同;在用户的连续输入过程中,一旦通过上屏动作输出上屏内容,这些上屏内容都可被记录。例如李纲I事件I过去I后(“ I ”表示用户上屏动作),四次上屏内容都会被依次被记录。这些上屏内容就构成了用户已完成输入内容的文字部分。优选的,所记录的已完成输入内容可以包括用户输入的字母序列,字母序列被输入法进行音字转换后的结果两列。步骤202、如果满足,则依据预置条件,对当前输入内容和纠错内容进行筛选;其中,所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。步骤203、基于筛选通过的当前输入内容和纠错内容,对用户词库中的数据进行修正。下面以一个具体的输入例子对本发明作进一步的说明。用户a :你啥时候去的天坛?用户b :我近台南去的
用户a :哦用户b :我今天在上面的例子中,用户b将“今天/jintian”错输为“近台南/jintain”。当用户输入编码jintain,并进而将“近台南”错误上屏输出后,输入法系统将“近台南”学入用户词库,输入法会判断用户词库中是否存在“近台南”,若是,则将用户词库中“近台南”的词频加一,否则,将“近台南”作为新的词条添加到用户词库中。由于“近台南”并没有满足本发明的条件(之前没有编码相同或相近的输入内容),因此,输入法可以直接学词,而不是采用修正的方式学词。在某些优选的用户学词过程中,还会将用户词库中输入编码“jintain”的最后记忆更新为“近台南”。下次用户输入“jintain”时,会将候选项“近台南”排在前面。但是实际上,这个学词是不应该的,因为这是用户的一个错误输入。对于本发明而言,当用户继续输入到“今天”时,本发明发现用户上屏的输入内容“今天”和之前已输入的“近台南”,二者的在输入编码(jintian,jintain)是相近的,而文字是不同的;因此,满足本发明的条件,可以启动对用户词库的修正操作。此时,在具体实现中,可以记录当前输入内容和纠错内容(用户已完成输入内容的相应部分),例如上面例子中的“今天”和“近台南”。为了方便说明,在下面的实施例中,我们将“当前输入内容和纠错内容”作为“纠错信息对”进行描述。优选的,纠错信息对可以采用一个四元组来记录当前输入内容和纠错内容。比如如下四元组(今天/jintian,近台南/jintain),分别表示纠正的字母序列及上屏内容,以及错输的字母序列及上屏内容。当然,具体纠错信息对的记录方式和内容,本发明不需要加以限定,例如,还可以采用仅仅记录前后编码(jintian, jintain)或者前后文字(今天,近台南)的二元组等等。进一步,本发明还可以对上面的纠错信息对进行筛选,筛选主要是判断当前输入内容是不是在较大概率上确实属于用户对纠错内容的纠正。例如,通常会考虑以下特征中的一个或者多个纠错内容与当前输入内容输入频率的比值;纠错内容与当前输入内容的编辑距离;纠错内容与当前输入内容间相隔的其他输入句子数;纠错内容被当前用户输入的频率;当前输入内容被当前用户输入的频率;纠错内容被所有用户输入的频率;当前输入内容被所有用户输入的频率。通过筛选,对认为上述纠错信息对(今天/jintian,近台南/jintain)属于应该修正的情况,则本发明对用户词库进行修正。具体的修正策略可以为对在先文字(纠错内容的文字)的词频减一;或者,采用在后文字(当前输入内容的文字)替换在先文字(纠错内容的文字),将在先文字(纠错内容的文字)的词频加到在后文字(当前输入内容的文字)的词频上。例如,本发明将用户词库已经学词的“近台南”的词频减一,如果发现“近台南”的频率被减为0,则在用户词库中删除“近台南”。或者,本发明也可以在用户词库内,采用“今天”对“近台南”进行全局替换,并将“近台南”的输入频率加到“今天”上,之后将词条“近台南”从用户词库内删除。总之,本方案发现这两次输入中的输入编码jintian和jintain编辑距离为I,在预置范围内,因此可以将(近台南,今天)作为可能的纠错候选进行评判打分(同理也可以将(我近台南,我今天)作为可能的纠错候选对),如果打分大于一定阈值就可以基于其对用户词库进行修正。即就可以在用户词库中删除“近台南”和“我近台南”这类的错输词条。在本发明的优选实施方式中,甚至可以删除jintain、wojintain这种原始输入对应的其他词条,例如,“金泰你”、“我今太牛”。因为基于本发明的智能筛选,可以确定出“金泰你”、“我今太牛”也是属于需要修正的错输词条。当然,除了全拼之外,本发明对于简拼,五笔编码同样可以支持。再例如,下面是用户a与用户b的一段頂聊天记录。用户a :你的机器好了没?用户b:昨天就号了用户a:恩,那还行用户b :好了其中“好了”和“号了”都是已回车上屏的输入内容,发送到頂聊天会话中的文字。本方案能识别出在用户b的输入会话中,“好了”是用来纠正“号了”的正确拼写,将会记录“好了 ”为一次用户输入,而替代错误输入的“号了 ”。与现有技术有区别的地方在于,本方案能处理IM这种输入编码不可再编辑的场合。即本发明尤其适用于IM聊天会话、搜索请求这种无法对上文进行再修改的场合。从前面的描述和示例可以看出,本发明适用的范围非常宽。用户前后输入的文字不一定要紧邻;输入字数不一定要求一致,可以是部分匹配;而输入的编码不限于全拼,还可以是简拼、五笔编码等;而输入编码也不一定要相同,可以是在一定编辑距离范围内的近似相同,因而具有更大的覆盖面,能够更多更好的发现对用户错误输入的学词,提高用户词库的学词准确性。上面给出的实施例中,是基于输入编码相同(或相近)而文字不同,对用户词库进行的纠错,实际上是针对文字的纠错;而在实际应用中,本发明也可以基于文字相同而输入编码不同,对用户词库进行纠错,即可以实现针对输入编码的纠错(例如,对于错误读音的纠错)。具体的,由于用户词库通常都是同时记录字词和编码串的,如果某个字是多音字,而用户不知道某个词的正确读音,在用错误的读音输入正确的字词后,用户词库会记录错误读音和正确字词以及二者的对应关系。但是实际上,这是一个错误记录,用户本身并不希望记录这样的配对,这对于以后输入也会带来麻烦。因此,当后续用户采用正确的读音输入同样的字词时,本发明的输入法系统能够在判断其符合条件时(当前输入内容的文字和纠错内容的文字相同,但输入编码不同),对用户词库中的输入编码进行纠错。由于对用户词库中的文字进行纠错和对用户词库中的输入编码进行纠错,二者的技术原理和实现过程是基本相似的,因此,在本申请的说明书中,主要基于对用户词库中的文字进行纠错的实施例进行说明。下面对本发明判断输入编码是否相近作详细的说明。在本发明的实现中,可以通过以下方式判断输入编码是否相近判断两个输入编码之间的编辑距离是否在一定范围内;所述编辑距离是指一个输入编码转变为另一个输入编码所需的编辑次数。
其中,编辑距离(Edit Distance)是指,将一个字符串转变为另一个字符串所需要的编辑开销。这里涉及的字符表可以是英语字母、汉字和/或标点符号等。编辑操作是指进行字符的插入、删除、替换或交换操作。编辑开销如全部定义为1,那么将zipo转变为zippo的编辑距离是I,将englsi转变为english的编辑距离是2,反过来也是如此。输入编码相近是指两个输入编码在一定的编辑距离内,这里的编辑可以是插入、删除、替换、交换字母。如从dog变成fog,编辑距离为I ;shenem变成shenme,编辑距离为I ;shenem变成shenmo,编辑距离为2。在本发明的一些实现中,可以将当前用户之前的已完成输入内容都记录一下,以便根据后续输入内容进行核对,看是否存在错误学词需要纠正的情况。而在本发明的优选实施例中,则可以对用户已完成输入内容进行选择,以提高筛选的精度和速度。例如,本发明可以仅缓存用户在一个输入会话内的输入内容。因为在一个输入会话内,用户更正之前错误输入的可能性比较大,而用户在一个输入会话中去更正另外一个输入会话中错误输入的可能性很低,因此,为了提高精度和速度,本发明可以仅缓存用户在一个输入会话内的输入内容,当前输入内容仅与本输入会话内容的已完成输入内容进行比较核对。具体的,所述一个输入会话为在当前客户端上,由当前输入法账户进行的输入行为;和/或,输入法软件绑定到一个应用程序内的输入行为。换言之,在本发明的优选实施例中,一个输入会话可以是I)在当前机器上,由当前输入法账户输入(如果不与输入法账户绑定,即为当前的默认账户);或者2)输入法软件绑定到同一个程序内前后发生的输入行为。满足以上条件之一或者全部的上下文场景称为一个输入会话。区分不同的输入会话,有助于提升本方案的的处理精度和效率。用户词库数据的修正主要是用于去掉之前记录的错误用户词,更正为对应的正确形式;同时更新用户词的其他信息,如输入频率,最后输入时间等。例如,在本发明的实施例中,通常采用的修正方式可以包括基于纠错内容,在用户词库中确定待修正文字;对待修正文字的词频减一;或者,采用当前输入内容的文字替换待修正文字,将待修正文字的词频加到当前输入内容的文字的词频上。上文中,前者属于温和的情况,见到一个错输的,修正一次。后者属于极端情况,比如对于那些之前没有应用本方案的错误学词,在这次发现错输的情况下,趁这个机会把历史遗留下来的错误给一并纠正了。当然,实际中,还可能采用其他各种修正的方式对用户词库进行修正。同时也可能对用户词库中的其他信息进行修正,总之,本发明的核心改进在于对错误信息的更好的发现,而对于具体如何修正(对错误信息的应用)并不需要加以限制,本领域技术人员依据实际需要选用即可。下面对本发明具体依据预置条件,筛选当前输入内容和纠错内容的过程加以详细介绍。具体筛选过程可以包括基于当前输入内容和纠错内容以下特征中的一个或者多个进行评判,当评判结果大于一预设阈值时,则筛选通过;所述特征包括但不限于
纠错内容与当前输入内容输入频率的比值;纠错内容与当前输入内容的编辑距离;纠错内容与当前输入内容间相隔的其他输入句子数;纠错内容被当前用户输入的频率;当前输入内容被当前用户输入的频率;纠错内容被所有用户输入的频率;当前输入内容被所有用户输入的频率。对于上述特征的评判过程中,由于纠错内容与当前输入内容通常都涉及文字和编码,可以二者都采用,也可以基于特征的不同,着重采用文字或者着重采用编码,例如,对于编辑距离的比较,通常主要采用编码,而对于输入频率的比较,通常主要采用文字。具体实现中,对形如(A,B)打分的依据有很多,参见表I列出的打分评判特征模板,其中,A为纠错内容,B为当前输入内容。当然,如果前后的输入编码不相同而是相近,那么A和B可以是输入编码,也可以是上屏的汉字。表1:打分评判特征模板
权利要求
1.一种修正用户词库的方法,其特征在于,包括 检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,在输入编码上相同或相近,而文字不同;和/或,检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,文字相同而输入编码不同; 如果满足条件,则基于当前输入内容和纠错内容,对用户词库中的数据进行修正;所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。
2.如权利要求1所述的方法,其特征在于,所述用户已完成输入内容为 用户在一个输入会话内的已完成输入内容。
3.如权利要求2所述的方法,其特征在于,所述一个输入会话为 在当前客户端上,由当前输入法账户进行的输入行为; 和/或,输入法软件绑定到一个应用程序内的输入行为。
4.如权利要求1所述的方法,其特征在于,通过以下方式判断输入编码是否相近 判断两个输入编码之间的编辑距离是否在一定范围内。
5.如权利要求1所述的方法,其特征在于,当满足条件时,还包括筛选步骤,采用通过筛选的当前输入内容和纠错内容对用户词库中的数据进行修正。
6.如权利要求5所述的方法,其特征在于,所述筛选步骤具体包括 基于以下特征中的一个或者多个进行评判,当评判结果大于一预设阈值时,则筛选通过;所述特征包括但不限于 纠错内容与当前输入内容输入频率的比值; 纠错内容与当前输入内容的编辑距离; 纠错内容与当前输入内容间相隔的其他输入句子数; 纠错内容被当前用户输入的频率; 当前输入内容被当前用户输入的频率; 纠错内容被所有用户输入的频率; 当前输入内容被所有用户输入的频率。
7.如权利要求1至6任意一项所述的方法,其特征在于,所述对用户词库的修正包括 基于纠错内容,在用户词库中确定待修正文字; 对待修正文字的词频减一; 或者,采用当前输入内容的文字替换待修正文字,将待修正文字的词频加到当前输入内容的文字的词频上。
8.如权利要求1至6任意一项所述的方法,其特征在于,所述用于与当前输入内容进行比较的用户已完成输入内容,最远距离当前输入内容N句或者N个字词。
9.如权利要求1至6任意一项所述的方法,其特征在于,所述与当前输入内容进行比较的用户已完成输入内容的单位为输入序列; 所述输入序列为用户输入上屏的一次完整内容;或者,所述输入序列为基于用户输入过程中敲击键盘事件的停顿时间,对用户输入上屏的一次完整内容进行划分所得的更细粒度的字词;或者,所述输入序列为基于拼音边界对用户已完成输入内容进行切分得到的字ο
10.如权利要求9所述的方法,其特征在于,基于当前输入内容和纠错内容,对用户词库中的数据进行修正后,还包括 当所述纠错内容所属的输入序列的文字字数比所述纠错内容的字数多时,采用当前输入内容的文字替换该输入序列中所述纠错内容的对应部分,将替换得到的输入序列作为用户词记录至用户词库。
11.一种用户词库修正系统,其特征在于,包括 输入错误检测模块,用于检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,在输入编码上相同或相近,而文字不同;和/或,检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,文字相同而输入编码不同; 用户词管理模块,用于当满足条件时,基于当前输入内容和纠错内容,对用户词库中的数据进行修正;所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。
12.如权利要求11所述的系统,其特征在于,所述用户已完成输入内容为用户在一个输入会话内的已完成输入内容。
13.如权利要求12所述的系统,其特征在于,所述一个输入会话为 在当前客户端上,由当前输入法账户进行的输入行为; 和/或,输入法软件绑定到一个应用程序内的输入行为。
14.如权利要求11所述的系统,其特征在于,所述输入错误检测模块通过以下方式判断输入编码是否相近判断两个输入编码之间的编辑距离是否在一定范围内。
15.如权利要求11所述的系统,其特征在于,还包括用于对当前输入内容和纠错内容进行筛选的候选筛选模块;所述用户词管理模块采用通过筛选的当前输入内容和纠错内容对用户词库中的数据进行修正。
16.如权利要求15所述的系统,其特征在于,所述候选筛选模块具体用于 基于以下特征中的一个或者多个进行评判,当评判结果大于一预设阈值时,则筛选通过;所述特征包括但不限于 纠错内容与当前输入内容输入频率的比值; 纠错内容与当前输入内容的编辑距离; 纠错内容与当前输入内容间相隔的其他输入句子数; 纠错内容被当前用户输入的频率; 当前输入内容被当前用户输入的频率; 纠错内容被所有用户输入的频率; 当前输入内容被所有用户输入的频率。
17.如权利要求11至16任意一项所述的系统,其特征在于,所述用于与当前输入内容进行比较的用户已完成输入内容,最远距离当前输入内容N句或者N个字词。
18.如权利要求11至16任意一项所述的系统,其特征在于,还包括输入内容管理模块 用于基于用户输入过程中敲击键盘事件的停顿时间,对用户输入上屏的一次完整内容进行划分,将得到的更细粒度的字词作为输入序列; 或者,用于基于拼音边界对用户已完成输入内容进行切分,将得到的更细粒度的字词作为输入序列; 所述输入错误检测模块采用输入序列为单位,将用户已完成输入内容与当前输入内容进行比较。
19.如权利要求18所述的系统,其特征在于,还包括第二修正模块,用于 当所述纠错内容所属的输入序列的文字字数比所述纠错内容的字数多时,采用当前输入内容的文字替换该输入序列中所述纠错内容的对应部分,将替换得到的输入序列作为用户词记录至用户词库。
全文摘要
本发明提供了一种修正用户词库的方法和系统,所述方法包括检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,在输入编码上相同或相近,而文字不同;和/或,检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,文字相同而输入编码不同;如果满足条件,则基于当前输入内容和纠错内容,对用户词库中的数据进行修正;所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。本发明可以更智能的记录用户输入信息,尽可能的避免对错误输入进行学词,减少在用户词库中的数据噪音。本发明不需要对用户编辑行为做更多限定,大大拓展了词库修正的应用广度和深度,可以更好的去除一些现有技术无法发现的数据噪音。
文档编号G06F17/30GK103049458SQ201110314509
公开日2013年4月17日 申请日期2011年10月17日 优先权日2011年10月17日
发明者张扬, 王坚 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1