一种用户词参与智能组词输入的方法及一种输入法系统的制作方法

文档序号:6464274阅读:256来源:国知局
专利名称:一种用户词参与智能组词输入的方法及一种输入法系统的制作方法
技术领域
本发明涉及输入法技术领域,特别是涉及一种用户词参与智能组词输入的 方法及一种输入法系统。
背景技术
现有的输入法主要包括以下几种 第一种
目前的输入法词库主要包括系统词库和系统二元库,这两部分都是通过对 大量语料采用统计学习的方法,然后提取使用频度高的字词来得到的。其中, 系统词库中的每个词都具有一个词频,称为系统词频。当用户输入一个拼音串 的时候,便会在系统词库中查找与这个拼音串相匹配的各个候选词条并返回, 并将其中具有最高系统词频的词条作为首选项(排在第一个的候选词条)。例 如,用户输入"shangkele",系统返回的首选项为"上课了"。
而当用户输入的拼音串在系统词库中没有直接命中的词条的时候,便要进 行智能组词过程。智能组词过程采用二元语法模型,通过查找系统二元库中的 二元信息,计算每个组词方案中词汇串的路径概率,并将具有最大路径概率的 组词结果作为首选项返回给用户。其中,所述二元信息是指系统通过统计学习 的方法记录的词与词之间的相邻关系,如"天气^好热"、"我一知道"等就具有 二元关系。所述路径概率是指利用二元概率(指二元信息的使用概率)计算得 出的组词概率。智能组词的过程如,输入"xuexiaotongzhijintianfangjia",系统最 终返回的首选项为"学校通知今天放假",这个结果是通过"学校"、"通知"、"今 天"、"放假"四个词组合起来的,而且这种组合的概率最大。
第二种
随着输入法的发展,在上述系统智能组词的基础上,为了提供更好的用户 体验,对于每个用户,客户端还记录用户输入的上屏词(通过上屏才喿作后上屏 的词)作为用户词库。用户词库既包括系统词库中的一部分原有词,也包括用 户新输入的不在系统词库中的新的上屏词。对于用户词库中的词条,客户端会根据用户输入这个词条的频率和最后一次输入这个词条的时间来对词条赋予 一个频率,称为用户词频。在用户进行输入的时候,首先会从用户词库中查找 输入拼音串相匹配的词条,如果能直接命中,就返回用户词库中的词,否则再 到系统词库中查找或通过系统二元库进行智能组词。
第三种
基于所述用户词库,还有一种输入方法称为上下文调频输入法,这种输入 法能够利用上下文信息进行输入。当用户输入一个拼音串的时候,如果当前拼 音串能够匹配到用户词,则直接返回匹配的用户词,并将最高频用户词作为首 选项。如果没有命中用户词,则根据当前拼音串所匹配的系统词与前一个上屏 词之间的系统二元信息,进入局部智能组词模式。
举例说明,比如要输入"今天*下午",用户先输入了"jintian"并选择"今天" 上屏,然后输入"xiawu"。与拼音串"xiawu"相匹配的候选词有"下午,,和"下雾,,, 如果"下雾"是用户词,而"下午"是系统词,则根据用户词优先的原则,会直接 返回"下雾",即组成"今天*下雾"。但如果两个都是系统词,则利用前一个上 屏词"今天",分别计算"今天*下午"和"今天*下雾"的概率,然后选择概率大的 作为首选项。
上述第一种和第二种输入方式,只有系统词参与智能组词,假设有"力指 向"这个用户词,但这个词没有在系统词库中出现,系统词库中有"布局"一 词,如果用户想通过连续输入"lizhixiangbuju"得到"力指向布局",那么智能 组词是不能直接组出来的,因为用户词不参与智能组词。
上述第三种输入方式,利用上下文进行局部智能组词的前提是,当前拼音 串所匹配的词与前一个上屏词都是系统词才能进行组词,这样用户词也没有真 正参与组词过程。因此,如果用户在上屏"今天"后再输入"xiawu",用户词库 中只有"下雾"而没有"下午",这时系统返回的首选项是"下雾"而不是"下午",
这显然不满足用户的需求。
综上所述,目前的各种输入法都不能使用户词真正参与智能组词过程,因 此输入法系统的灵活性就较差,首选项的命中率不高,没有达到最佳的用户体 验
发明内容
本发明所要解决的技术问题是提供一种用户词参与智能组词输入的方法 及一种输入法系统,以解决现有的输入法系统灵活性较差,首选项的命中率不 高,没有达到最佳用户体验的问题。
本发明的另一个目的是提供一种建立用户二元库的方法及装置,通过对用 户输入行为过程进行学习,对每个用户得到用户组词信息,从而利用所述用户 组词信息使用户词真正参与到智能组词的过程中。
为解决上述技术问题,根据本发明提供的具体实施例,本发明公开了以下
技术方案
一种建立用户多元库的方法,包括
从用户输入的上屏结果中,获取具有相邻关系的用户字词对,所述用户字 词对包括至少两个相邻的用户字词;
统计所述用户字词对相邻出现的概率;
建立用户多元库,将所述用户字词对及其相邻出现的概率保存到所述用户 多元库。
其中,通过以下方式获取具有相邻关系的用户字词对在用户的一次上屏 操作中,根据用户选择候选上屏词的方式,获取相邻的候选上屏词作为用户字 词对。
优选的,所述方法还包括对用户多元库的更新步骤,具体包括在用户输 入的上屏结果中,如果相邻候选上屏词组成的用户字词对在用户多元库中存 在,则增强用户多元库中该用户字词对相邻出现的概率;否则,将所述相邻候 选上屏词作为新的用户字词对添加到用户多元库中,并增强该用户字词对相邻 出现的概率。
优选的,所述方法还包括对用户多元库的削弱步骤,具体包括根据用户 对上屏结果的修改,针对上屏结果中修改前的上屏词对应的用户字词对,削弱 其相邻出现的概率;和/或,针对用户多元库中长期得不到命中的用户字词对, 根据该用户字词对的最后命中时间进行削弱。
优选的,所述方法还包括根据用户输入的标点符号进行句子划分;在同 一个句子或子句中,根据用户的上屏操作,将相邻的上屏结果也作为用户字词 对保存到所述用户多元库;并统计所述用户字词对相邻出现的概率,保存到所述用户多元库。
其中,所述用户多元库建立在客户端。
一种利用上述用户多元库进行智能组词输入的方法,包括
接收用户输入的编码字符串,并对所述编码字符串进行切分;
根据用户词库、用户多元库、系统词库、系统多元库,查找与切分后
的编码字符串相匹配的字词或字词对,并进行组词;
计算每种组词结果的概率,并将概率值符合预置条件的组词结果作为
候选项输出。
其中,通过以下方式计算每种组词结果的概率根据用户词频、用户字 词相邻出现的概率以及系统词频、系统字词相邻出现的积克率,计算每种组词 结果的概率。
优选的,在计算组词结果概率的时候,如果同音下最高频率的系统词的 词频高于用户词频,则调整所述用户词频使其高于同音下最高频率的系统词的 词频;并根据所述用户词频的调整,将对应的用户字词对的相邻出现概率也进 行相应调整。
优选的,在计算组词结果概率的时候,如果组词结果中的字词对同时存 在于用户多元库和系统多元库中,则选择用户字词相邻出现的^l既率和系统字词 相邻出现的概率的最大值参与计算。
其中,当用户多元库中的信息量较少时,采用以系统词组词为主、用户词 组词为辅的模式;当用户多元库中的信息量不能独立完成组词时,采用以系统 词和用户词混合组词的模式;当用户多元库中的信息量能独立完成组词时,采 用以用户词ia词为主、系统词组词为辅的才莫式。
优选的,所述组词还包括才艮据前一个上屏结果和当前编码字符串所匹配 结果之间的相邻关系,进行组词。
优选的,所述方法还包括设置用户词库和用户多元库的控制选项;如 果用户选中该选项,则用户词库和用户多元库参与智能组词;如果用户未 选中该选项,则只通过系统词库和系统多元库进4亍智能组词。
一种建立用户多元库的装置,包括
第一获取单元,用于从用户输入的上屏结果中,获取具有相邻关系的用户字词对,所述用户字词对包括至少两个相邻的用户字词;
统计单元,用于统计所述用户字词对相邻出现的概率;
建立单元,用于建立用户多元库,将所述用户字词对及其相邻出现的概率 保存到所述用户多元库。
其中,所述第一获:f又单元通过以下方式获:f又具有相邻关系的用户字词对 在用户的一次上屏操作中,根据用户选择候选上屏词的方式,获取相邻的候选 上屏词为用户字词对。
优选的,所述装置还包括更新单元,用于对所述用户多元库进行更新, 更新方式为在用户输入的上屏结果中,如果相邻候选上屏词组成的用户字词 对在用户多元库中存在,则增强用户多元库中该用户字词对相邻出现的概率; 否则,将所述相邻候选上屏词作为新的用户字词对添加到用户多元库中,并增 强该用户字词对相邻出现的概率。
优选的,所述装置还包括削弱单元,用于对所述用户多元库进行削弱, 削弱方式为根据用户对上屏结果的修改,针对上屏结果中修改前的上屏词对 应的用户字词对,削弱其相邻出现的概率;和/或,针对用户多元库中长期得 不到命中的用户字词对,根据该用户字词对的最后命中时间进行削弱。
优选的,所述装置还包括第二获取单元,用于根据用户输入的标点符 号进行句子划分;在同一个句子或子句中,根据用户的上屏操作,将相邻的上 屏结果也作为用户字词对保存到所述用户多元库;相应的,所述统计单元统计 所述用户字词对相邻出现的概率,并保存到所述用户多元库。
其中,所述用户多元库建立在客户端,所述装置为客户端装置。
一种输入法系统,包括
用户多元库,用于保存具有相邻关系的用户字词对,所述用户字词对包括 至少两个相邻的用户字词;
切分单元,用于接收用户输入的编码字符串,并对所述编码字符串进行 切分;
组词单元,用于根据用户词库、用户多元库、系统词库、系统多元库, 查找与切分后的编码字符串相匹配的字词或字词对,并进行组词; 计算单元,用于计算每种组词结果的概率;输出单元,用于将概率符合预置条件的组词结果作为候选项输出。
其中,所述计算单元通过以下方式计算每种组词结果的概率根据用户
词频、用户字词相邻出现的概率以及系统词频、系统字词相邻出现的概率,计 算每种组词结果的概率。
优选的,所述计算单元在计算组词结果概率的时候,如果同音下最高频 率的系统词的词频高于用户词频,则调整所述用户词频使其高于同音下最高频
率的系统词的词频;并#4居所述用户词频的调整,将对应的用户字词对的相邻 出现概率也进行相应调整。
优选的,所述计算单元在计算组词结果概率的时候,如果组词结果中的 字词对同时存在于用户多元库和系统多元库中,则选择用户字词相邻出现的概 率和系统字词相邻出现的概率的最大值参与计算。
其中,所述组词单元包括三种组词模式,当用户多元库中的信息量较少时, 采用以系统词组词为主、用户词组词为辅的模式;当用户多元库中的信息量不 能独立完成组词时,采用以系统词和用户词混合组词的模式;当用户多元库中 的信息量能独立完成组词时,釆用以用户词组词为主、系统词组词为辅的模式。
优选的,所述系统还包括控制单元,用于设置用户词库和用户多元库 的控制选项;如果用户选中该选项,则用户词库和用户多元库参与智能组 词;如果用户未选中该选项,则只通过系统词库和系统多元库进4亍智能组 词。
其中,所述智能组词输入系统运行在客户端。
根据本发明提供的具体实施例,本发明具有以下技术效果 首先,本发明在输入法的客户端加入对用户输入过程的学习过程,建立了 用户二元库。所述用户二元库通过记录用户对句子的输入和对上屏词的选^t奪, 记录或更新同一句子中两个相邻输入的用户词之间的用户二元关系,同时根据 用户回退光标并修改上屏词的行为对已经记录的用户二元信息进^i务正。
其次,本发明提供了一种用户词参与智能组词的方法,根据用户词库、用 户二元库、系统词库、系统二元库,通过将用户个性化的组词信息和系统词库 中的组词信息相结合,使用户词真正参与到智能组词的过程中。这种智能组词的方法由于更好地利用了用户词库中的个性化信息,弥补了系统词库智能组词 的局限性,因此能够提高首选项的命中率,从而提供更好的用户体验。而且, 可以使用户的组词选择更加智能化、灵活化,也更加个性化。


图1是本发明实施例所述建立用户二元库的流程图3是本发明实施例所述用户词参与智能组词的流程图; 图4是本发明实施例所述建立用户二元库的装置结构图; 图5是本发明实施例所述输入法系统的结构图; 图6是图5中智能组词逻辑模块U505的结构图。
具体实施例方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。
针对现有的系统组词首选命中率不够高、不能满足用户输入需要的问题, 本发明提供了 一种用户词参与智能组词的方法,通过对用户输入行为过程进行 学习,对每个用户得到用户组词信息,并通过将这种用户个性化的组词信息和 系统词库中的组词信息相结合,使用户词条参与到智能组词的过程中,弥补系 统词库智能组词的局限性。
用户词参与智能组词主要包括两个部分第一,建立用户二元库,对用户 的输入信息进行统计学习,记录并更新用户二元信息;第二,采用得到的用户 二元信息和用户词库结合系统词库、系统二元库进行智能组词。
其中,所述用户二元信息与系统二元信息类似,是指在用户输入过程中具 有相邻关系的用户字词对。例如,用户输入"外面正在下雨",其中"外面一 正在"和"正在一下雨"就是两个用户二元对。用户二元信息既包括系统二元 库中原有的一部分二元信息,也包括用户新输入的不在系统二元库中的新的二 元信息。
这两个部分是相对独立的,下面对这两部分分别说明。 第一部分首先需要建立一个用户二元库,用于记录用户二元信息。参照图1,是本 发明实施例所述建立用户二元库的流程图。
S101,从用户输入的上屏结果中,获取具有相邻关系的用户字词对,所述
用户字词对包括至少两个相邻的用户字词;
其中,所述上屏结果是指一次上屏操作后的结果,例如,用户输入拼音串 "tazhengzaizuofan",上屏结果为"他正在做饭"。从这个上屏结果中获取相邻 的字词对,得到"他一正在"和"正在一做饭"。
需要说明的是,本发明实施例是以二元信息为例进行的说明,但根据应用 需要,还可以获取三元或更多元信息来建立用户多元库,例如"他一正在一做 々反"即为一个三元对。
优选的,本实施例并没有采用分词的方法来获取用户的二元对,而是通过 用户的上屏方式,利用用户的自然分词信息进行二元统计。具体获取方式是 在用户的一次上屏操作中,根据用户选择候选上屏词的方式,获取相邻的候选 上屏词作为用户字词对。例如,用户输入"woxiangquxuexiao",输入法系统返 回候选词,用户依次选择"我想"、"去"、"学校"作为候选上屏词,然后通过 依次上屏操作,将这些候选上屏词输出。这种获取二元对的方式最能反应用户 的输入习惯,因此用户二元库也可以达到为用户量身制作的效果。
S102,统计所述用户字词对相邻出现的概率;
S103,建立用户二元库,将所述用户字词对及其相邻出现的概率保存到所 述用户多元库。
通过以上步骤,就可以在用户客户端建立一个用户二元库。但是,建立用 户二元库只是学习用户输入信息的初步阶段,统计学习是一个动态的过程,具
体还包括以下三个方面
1、 新用户二元对的生成;
2、 对已有用户二元对信息的更新;
3、 对已有用户二元对信息的削弱。
下面以用户输入为例对上述3个方面分别做出不同假定来进行说明。假设 拼音串为"lizhixiangbujusuanfa,,,对应汉字输入为"力指向布局算法,,,假定 这个短句不能被系统词库或用户词库直接命中。1、 新用户二元对的生成
在用户输入的上屏结果中,如果相邻候选上屏词组成的用户字词对在用户 二元库中不存在,则将所述相邻候选上屏词作为新的用户字词对添加到用户二
元库中,并增强该用户字词对相邻出现的;f既率。
假设词"力指向"只在用户词库中出现,"布局,,和"算法"都在系统词 库中出现,但用户还未对"布局"进行过输入,因此用户词库中没有出现"布 局,,,但"算法"在用户词库中。当用户输入"lizhixiangbujusuanfa"的时候, 只通过系统组词显然不能得到期望的输出结果,而由于"lizhixiang"在用户词 库中有词条"力指向",因此用户将"力指向"选为候选上屏词;然后对于 "bujusuanfa",用户选择了 "布局"作为下一个上屏词,由于"布局"没有在 用户词库中出现,因此"布局"^^记入用户词库,同时"力指向一布局"二元 对被记入用户二元库中;之后用户又选择了 "算法,,进行上屏,于是"布局一 算法,,二元对^皮记入用户二元库。对于这些新添加到用户二元库中的二元对, 计算每个二元对的两个词相邻出现的概率,这个概率值称为二元概率,然后将 二元概率也记录到用户二元库中。这个过程描述了新用户二元对的生成,通常 伴随着新用户词的生成。
2、 对已有用户二元对信息的更新
在用户输入的上屏结果中,如果相邻候选上屏词组成的用户字词对在用户 二元库中存在,则增强用户二元库中该用户字词对相邻出现的概率。
假设"力指向"、"布局"、"算法,,三个词都出现在用户词库中,同时由于 历史输入,用户二元库中存在二元对"力指向一布局"、"布局一算法",则在 用户输入拼音串的时候,根据用户词库和用户二元库进行智能组词,组词结果 "力指向布局算法"会首选命中。此时,直接更新用户二元库中的"力指向一 布局,,和"布局—算法"二元信息,并增加这两个二元对的二元;f既率。
此外,针对用户二元对没有直接命中但也参与组词的情况,同样会增加所 述用户二元对的二元概率。例如,用户二元库中存在二元对"力指向—布局"、 "布局—算法",这两个二元对参与组词,但在组词过程中由于二元概率较低 而没有首选命中,这时经过用户的上屏选择最后组词结果仍是"力指向布局算 法"。这种情况下,用户二元库中"力指向—布局"和"布局一算法"的二元冲既率也会增加。
3、对已有用户二元对信息的削弱
根据用户对上屏结果的修改,针对上屏结果中修改前的上屏词对应的用户
字词对,削弱其相邻出现的概率;和/或,针对用户二元库中长期得不到命中 的用户字词对,根据该用户字词对的最后命中时间进行削弱。
々支i殳"力指向"、"布局"、"算法"三个词都出现在用户词库中,同时"酸 法"也出现在用户词库中,"力指向一布局"、"布局一算法"存在于用户二元 库中,而且由于用户的历史错误输入"布局一酸法,,也在用户二元库中。那么 组词结果可能产生两种情况"力指向布局算法"和"力指向布局酸法"。当组 词结果为后者时,用户会回退光标至"酸法,,之前,将"酸法"改为"算法"。 这时,不仅增强"力指向—布局"和"布局—算法"之间的用户二元概率,同
时削弱"布局一酸法"之间的用户二元关系。如果这个被削弱的二元关系弱到 了一定的程度(如二元概率小于某一阈值),就把其从用户二元库中删除。而 当组词结果为前者时,根据上述第2点直接加强"力指向一布局"和"布局一 算法"之间的二元概率。
优选的,根据用户的修改,如果更新后的"布局一算法"的二元关系大大 强于"布局一酸法"之间的二元关系,则由于两个二元是同音的,几乎每次 "bujusuanfa"的输入都会得到"布局算法,,的输出,因此可以直接把"布局 一酸法"从用户二元库中删除。此外,如果"布局一酸法,,二元对长期得不到 命中,但二元关系还没有弱到被删除的地步,则可以对其进行削弱,削弱方式 是随着最后 一次命中时间距当前更新时间的长短进行不同程度上的衰减。
上述对二元概率的增强和削弱,能够真实反映用户的输入情况。本实施例 采用的增强和削弱方式如下
例如,"二元对A-B,,的二元概率为T(A,B)/SUMBI,其中T(A,B)为A-B 二元对在用户输入时出现的总次数,SUMBI为所有用户二元对的总次数,即 所有T(,)的总和。增强A-B的二元概率就是T,(A,B"T(A,B)+1,增强后的A-B 二元概率即为T,(A,B)/(SUMBI+1)。 而削弱 A-B 二元概率就是 T,(A,B)=T(A,B)-1,削弱后的A-B 二元概率就是T,(A,B)/(SUMBI-1)。
综上所述,通过以上三个方面,实现了对用户输入信息的学习。该学习过二元概率,并且通过用户对上屏词的修改和最后使用时间来对用户二元库中的 二元值进行调整。
优选的,还有一种学习用户输入的方法,主要针对用户习惯输入短语的情 况。这种方法根据用户输入的标点符号进行句子划分,在同 一个句子或子句中, 根据用户的上屏操作,将相邻的上屏结果也作为用户字词对保存到所述用户多 元库;同时统计所述用户字词对相邻出现的概率,保存到所述用户多元库。
举例说明,假设"力指向"在用户词库,"布局"和"算法"在系统词库,
当用户在上一个标点结束后首先输入拼音串"lizhixiang",则直接输出"力指 向",之后用户又输入了 "bujusuanfa,,,根据系统组词又输出"布局算法"。此 时,用户二元库不仅记录一次上屏结果中的"布局一算法"二元对,同时还对 上一次输入的"力指向"和当前输入的"布局"或"布局算法"形成二元对, 即"力指向一布局"和"力指向一布局算法"二元对。
结合以上内容,下面通过流程说明用户二元信息的学习过程。参照图2, 是所述对用户输入信息进行统计学习的流程图。
S201,用户输入拼音串;
S202,根据用户输入的拼音串进行智能组词,具体为 ,人系统词库和系统二元库中查询系统词和系统二元信息,/人用户词库和用 户二元库中查找用户词和用户二元信息,然后结合进行智能组词过程,并将组
词结果作为候选项;
S203,用户根据所述候选项进行上屏选择;
S204,根据用户的上屏操作,对用户二元库产生反馈,对用户二元对进行 生成、更新、削弱或删除等操作;并对用户词库进行反馈,增加新上屏的词为 用户词。
综上所述,所述学习过程不仅能对用户的整句输入进行学习,还能够对用 户采用的短语输入方式,学习到前后上屏词之间的用户二元关系,从而建立起 针对每一个用户的个性化的用户二元库。同时,利用用户的输入行为来优化所 述用户二元库,比如根据修改退格等操作和最后一次调用时间的判断,对已经 学习的二元对进行修正。第二部分
用户词参与的智能组词过程运行在客户端,涉及到用户词库、用户二元库、 系统词库和系统二元库。
其中,系统词库和系统二元库主要在服务器端运行。系统词库通过在对大 数量语料进行统计,确定哪些词应该进入系统词库以及其系统词频的大小。而 系统二元库通过查询系统词库和对大规才莫语料进行分词统计,确定哪些系统词 之间存在二元关系以及二元概率的大小。
用户词库和用户二元库运行在客户端,由于不同用户的输入不可能完全一 样,因此每一个用户都有其各自不同的用户词库和用户二元库。用户词库通过 对用户的上屏词进行统计,当上屏次数满足某个阈值条件时就将这个词加入用 户词库,并随着用户对其输入的增加调整其用户词频;同时,对已经加入用户 词库的词,通过最后调用时间对其进行频率的衰减。用户二元库通过统计用户 输入时用户词之间的相邻次数来统计用户词之间的二元概率,并且通过用户对 上屏词的修改和最后使用时间来对用户二元库中的二元概率进行调整。
参照图3,是所述用户词参与智能组词的流程图。
S301,接收用户输入的编码字符串,并对所述编码字符串进行切分;
是拼音串。对拼音串可进行不同的切分,这样就形成了很多种切分方案。 例如,对于拼音串"wohenfanganta",具有多条组词路径,如"我*很*反感 *他","我*很*方案*他"等,即将"fangan"切分为"fan*gan"和"fang*an,,。 S302,根据用户词库、用户多元库、系统词库、系统多元库,查找与 切分后的编码字符串相匹配的字词或字词对,并进行组词;
在上述多种切分方案中,对于其中的一种切分方式,查找每一个子串 在用户词库和系统词库中对应的词条,然后组合在一起。通常,在中文输 入中存在同音词的现象,即一个子串会对应多个同音词,如"huajia"对应
"画家"、"花架"、"画架"等等。这样,对于一个包含多个子串的拼音串 切分方案,又有很多条词汇组合路径。例如,对于拼音串
"lizhixiangbujusuanfa",会有"力指向布局算法"、"力指向布局酸法,,等。S303,计算每种组词结果的概率;
计算概率时,需要用到用户二元概率和系统二元概率,这样就可以根 据词与词之间的关系判断出哪种组词结果更符合用户的输入需要。
本实施例采用的计算方法是根据用户词频、用户字词相邻出现的概率 以及系统词频、系统字词相邻出现的概率,计算每种组词结果的概率。具体 方法是用组词结果中所有词的一元概率(即词频)的乘积,再乘以相邻 两个词之间的二元概率。
举例说明,设U(x)为一元概率,B(x,y)为二元概率,那么"我*很*反感
*他"的路径概率为u(我"B(我,很)nj(很;rB(很,反感)nj(反感:rB(反感,
他)HJ(他)。在只有系统词参与组词的过程中,U(x)和B(x,y)都是系统一元 概率(相当于系统词频)和系统二元积无率。 <旦当用户词参与组词时,组词 路径中的一个词可能是用户词,也可能是系统词,还可能既是用户词又是 系统词,针对这种复杂情况,下面单独详细说明。
因此,计算一条路径概率时,不仅需要从系统词库和用户词库中得到 该词的词频,同时要从系统二元库和用户二元库中得到词汇路径上前后相 邻两个词之间的二元和克率。然后,通过词频和二元相无率的累计相乘,得到 整条路径的概率。
S304,将概率值符合预置条件的组词结果作为候选项输出。 通常,所述预置条件为根据概率值对组词结果进行排序,将排序后 的组词结果作为候选项返回给用户,并选出所有组词结果中概率最大的一 个作为首选项。
需要说明的是,实际应用中,在计算组词结果概率的时候,由于用户 词库中的词凄t相对4交少,并且用户的输入总词数也相对4交小,而在系统库 构建的时候,语料上的词数很多,因此从统计上讲,用户概率要比系统概 率大若干的数量级,这个概率包括一元概率和二元概率。所以,需要对用 户词频、用户二元概率、系统词频、系统二元相克率的量纲进4亍归一化才喿作, 使用户概率和系统概率在相同数量级上,但用户词库中各个词之间的概率 大小顺序(或是倍数关系)不能变。这样,才能使用户词和系统词在组词 过程中一起参与路径概率的计算,否则,用户概率相对系统概率会大很多,导致系统概率之间的差别无法体现。比如系统概率都小于0.001,而用户概 率都大于O.l,那么长度相等的两条组词路径,如果路径中的用户词数量不 一样,那么最后数量级就会差100。
在上述用户词参与智能组词的过程中,组词路径的概率计算是一个非 常重要的部分,直接影响首选项的命中率。当用户词参与到组词过程中时,
选耳又一元概率和二元概率的原则是
第一,对于一元概率,选取调频后的用户词频
在选取一元概率的时候,如果同音下最高频率的系统词的词频高于用户 词频,则调整所述用户词频使其高于同音下最高频率的系统词的词频;并根据 所述用户词频的调整,将对应的用户二元概率也进行相应调整,但只针对用 户词进行调频,而不对系统词调频。
调频的结果是同音下所有用户词的频率都大于同音下系统词的频率, 但保持用户词之间的偏序关系(即用户词频的大小顺序不变),也就是说, 调频的尺度是同音下系统词频的最大值。这样,可能出现的情况是, 一个 词既可能是用户词又可能是系统词,但参与计算的时候只有一个一元概率, 此时一元概率取用户词频和系统词频的最大值。当然,如果一个拼音串只 对应一个用户词,则不用进行调频,^使用用户词频即可;同样,如果一个 拼音串只对应 一个系统词,则4吏用系统词频。
进一步,对于拼音串"lizhixiangbuju",如果用户二元库中存在二元对 "力指向一布局",则根据对"力指向"用户词频的调整,也需要对"力指 向一布局"的二元概率进行相应调整。但如果"力指向一布局"是系统二 元对,则不需要调整系统二元概率。
当然,根据这一原则,如果用户错误地输入了 "荔枝巷",并将该词记 录到了用户词库中,而系统词库中存在"力指向"。当用户再次输入拼音串 的时候,同样会调高"荔枝巷"的词频。这一原则充分体现了按照用户输 入行为进行组词的特点,即认为所有的用户输入都是用户的习惯,而排除 了用户错误的可能,其实,错误本身也可能就是用户的习惯。因此对于不 同用户,同一拼音串可能会返回不同的首选项。但由于用户的错误输入毕 竟是少数,因此不会影响整体的首选项命中率。第二,对于二元扭克率,选耳又用户二元扭克率和系统二元积无率的最大#_:
在选取二元概率的时候, 一种可能的情况是, 一个二元对既是用户二 元对也是系统二元对,但参与计算的时候只有一个二元概率,这时二元概 率取用户二元概率和系统二元概率的最大值。如果用户二元概率根据用户
词频进行了调整,则选取调频后的用户二元概率和系统二元和X率的最大值。 举例说明,对于拼音串"bujusuanfa",如果只在用户二元库或只在系 统二元库中存在"布局一算法",则计算时使用相应的用户二元概率或系统 二元概率;如果在用户二元库和系统二元库中都存在"布局一算法",则比 4交用户二元概率和系统二元概率,选取概率大的值参与计算。
基于以上概率计算原则,结合系统二元和用户二元进行智能组词时, 可以根据当前用户二元库中二元信息的多少采用不同的方案,分为三种组 词模式
第一种用户二元库建立不久,用户二元库中的信息量较少时,采用以 系统词组词为主、用户词组词为辅的才莫式。
例如,对于"aoyunshenghuobaodao",用户词库中只有"奥运生活", 没有"报道",而系统词库中有"奥运圣火"和"报道"。在组词的过程中 计算组词概率时,因为"奥运生活"是用户词,所以调高"奥运生活"的 用户词频,使其高于"奥运圣火";"才艮道"就使用其系统词频;"奥运生活 一报道"和"奥运圣火一报道"之间都没有二元关系,计算时可以赋一个 预置的最小值。这样,就可以根据一元概率和二元概率来计算每种组词结 果的概率了,最后得到的首选项是"奥运生活报道"。
第二种用户二元库中已经有了一定量的二元信息,但仍然不足以独 立完成组词过程时,采用以系统词和用户词混合组词的才莫式。
例如,对于拼音串"lizhixiangbujusuanfa,,在系统词库中只存在"荔枝 巷",在用户词库中只存在"力指向",系统二元库中存在"布局一算法" 二元对,而用户词库中存在"力指向一布局"和"布局一酸法"二元对。 在对"lizhixiangbujusuanfa"进行组词的时候,由于调整后的"力指向"的 词频高于"荔枝巷",同时与"布局"之间存在二元关系,贝'J "力指向一布 局"的整体概率就会大于"荔枝巷一布局";同时如果系统二元库中"布局—算法"的二元概率远大于用户二元库中"布局一酸法"的二元概率,那 么输出的组词结果将会是"力指向布局算法",而非"力指向布局酸法"。
第三种用户二元库中的二元信息量已经很大,足以完成用户大部分
的习惯性输入的时候,采用以用户词组词为主、系统词组词为辅的模式。
整个组词路径概率的计算都采用用户词频和用户二元概率。当某个4并 音子串对应的用户词的词频都过低,或者根本没有用户词的时候,就以系 统词为补充,参与到组词过程中,用户词和系统词之间的二元仍然采用半 命中的方式进行计算。这种系统词为补充的方式在用户输入某些未曾输入 过的专业名词和成语或俗语的时候最为有效,比如对于拼音串
"zhekezhenshizhizimoruofua,, 中,"zhizimoruofu,,是一个俗语"知子莫若 父",它没有在用户词库中出现,而"这可","真是"和"啊"都在用户词 库中,通过将系统词库的词进行补充引入,那么结果会输出期望中的"这 可真是知子莫若父啊"。
在实际的组词应用中,所述三种模式适用的阶段不是严格定义的,可 以根据策略做自由调整。
优选的,本发明单独在用户客户端建立的用户词库和用户二元库,可 以通过开关的形式来让用户选择组词方式。例如i殳置控制选项,如果用户 选中该选项,则用户词库和用户多元库参与智能组词;如果用户未选中该 选项,则只通过系统词库和系统多元库进行智能组词。这种将用户词库和 系统词库分离、用户二元库和系统二元库分离的方式,不增加系统词库和 系统二元库的复杂性,维护也相对容易。
优选的,基于上下文调频的方式,本发明所述用户词参与组词的方法也可 以进行优化,即对用户输入的拼音串进行智能组词时,可以利用前一个上屏词 和当前拼音串匹配的用户词或系统词之间的二元关系,进一步提高首选项的命 中率。例如,用户先输入"力指向",然后输入"bujusuanfa",该拼音串对应 "布局算法,,和"不拘算法",在智能组词时,根据"力指向一布局"的二元 关系,可以确定"布局算法"而不是"不拘算法"。
综上所述,本发明根据用户词库、用户二元库、系统词库、系统二元库, 通过将用户个性化的组词信息和系统词库中的组词信息相结合,使用户词真正参与到智能组词的过程中。这种用户词参与智能组词的方法由于更好地利用了 用户词库中的个性化信息,弥补了系统词库智能组词的局限性,因此能够提高
首选项的命中率,从而提供更好的用户体验。而且,可以使用户的组词选择更
加智能化、灵活化,也更加个性化。
下面通过对比说明的方式突出说明本发明的首选命中率较高的特性。 针对背景技术中所述的第 一种和第二种输入方式,假设用户连续输入
"lizhixiangbuju",如果"力指向"是用户词,而"布局"是系统词,由于用 户词不参与组词,所以无法得到"力指向布局"。但是,本发明由于能使用户 词通过用户词概率和用户二元概率的方式参与到组词过程中,最终得到 一个最 优的组词结果,所以能够很好地解决上述问题。如"力指向"是用户词,"茶 枝巷"是系统词,"布局"是系统词,通过对智能组词过程加入用户词,并且 调频,可以得到"力指向*布局",而不是"荔枝巷*布局"。
背景技术
中所述的第三种方式是上下文调频的输入方式,在这种输入方 式下,用户先上屏"今天",然后再输入"xiawu",如果"下雾"是用户词,
"下午"是系统词,则返回的首选项一定是"下雾"。而在本发明中用户词参 与组词时,如果结合上下文调频输入,则会同时计算"今天*下雾"和"今天* 下午"的概率,如果"今天*下雾"的概率小于"今天*下午"的概率,则返回 首选项为"今天下午"。
在上下文调频过程中,虽然用户词从形式上参与,并且以最高优先级给了 出来,但实际上没有通过前一个上屏词与当前词组合的概率计算实现真正的智 能组词过程,因为只有当前一个上屏词和当前词都是系统词的时候,智能组词 中的概率计算才真正的进行,智能组词过程也才真正的进行。而本发明能让用 户词真正参与到组词过程中,用户词和用户词之间、系统词和用户词之间、系 统词和系统词之间都会进行实际的智能组词。本发明还能结合上下文调频的方 式,使用户词真正参与到根据上文而对当前词进行优选的过程中,增加了用户 体验和灵活性,也能提高首选词的正确率。
针对上述方法的说明,本发明还提供了一种建立用户二元库的装置实施 例。参照图4,是实施例所述建立用户二元库的装置结构图。所述装置包括第 一获耳又单元U401、统计单元U402、建立单元U403。所述用户二元库建立在客户端,所述装置为客户端装置。
其中,第一获取单元U401用于从用户输入的上屏结果中,获取具有相邻 关系的用户字词对,所述用户字词对包括至少两个相邻的用户字词。本实施例
中,所述第一获取单元获取用户字词对的方式是在用户的一次上屏操作中, 根据用户选择候选上屏词的方式,获取相邻的候选上屏词为用户字词对。
所述统计单元U402用于统计所述用户字词对相邻出现的积克率;
所述建立单元U403用于建立用户二元库,将所述用户字词对及其相邻出 现的概率保存到所述用户二元库。
优选的,所述装置还包括更新单元U404,用于对所述用户二元库进4亍更 新,更新方式为在用户输入的上屏结果中,如果相邻候选上屏词组成的用户 字词对在用户二元库中存在,则增强用户二元库中该用户字词对相邻出现的积无 率;否则,将所述相邻候选上屏词作为新的用户字词对添加到用户二元库中, 并增强该用户字词对相邻出现的概率。
优选的,所述装置还包括削弱单元U405,用于对所述用户二元库进行削 弱,削弱方式为根据用户对上屏结果的修改,针对上屏结果中修改前的上屏 词对应的用户字词对,削弱其相邻出现的概率;和/或,针对用户二元库中长 期得不到命中的用户字词对,根据该用户字词对的最后命中时间进行削弱。
优选的,所述装置还包括第二获取单元U406,用于根据用户输入的标点 符号进行句子划分;在同一个句子或子句中,根据用户的上屏操作,将相邻的 上屏结果也作为用户字词对保存到所述用户二元库;相应的,所述统计单元 U402统计所述用户字词对相邻出现的概率,并保存到所述用户二元库。
本发明还提供了一种用户词参与智能组词的输入法系统,参照图5,是实 施例所述输入法系统的结构图。所述系统包括系统词库U501、用户词库U502、 系统二元库U503、用户二元库U504、智能组词逻辑4莫块U505。
其中,系统词库U501、用户词库U502、系统二元库U503、用户二元库 U504如前所述,在此不再详述。智能组词逻辑;漠块U505用于利用系统词库 U501、用户词库U502、系统二元库U503、用户二元库U504,进行用户词参 与的智能组词。智能组词逻辑模块U505运行在客户端。
图5中各模块的关系如下系统词库U501为系统二元库U503统计系统二元信息才是供系统元词,并 为智能组词逻辑模块U505提供系统词条和系统词频;用户词库U502为用户 二元库U504统计用户二元信息提供用户元词,并为智能组词逻辑模块U505 提供用户词条和用户词频;系统二元库U503向智能组词逻辑模块U505提供 系统二元信息和系统二元概率,用户二元库U504向智能组词逻辑才莫块U505 提供用户二元信息和用户二元概率。
参照图6,是图5中智能组词逻辑模块U505的结构图。所述智能组词逻 辑模块U505进一步细分为切分单元U601、组词单元U602、计算单元U603、 输出单元U604。
切分单元U601用于接收用户输入的编码字符串,并对所述编码字符串 进行切分。
组词单元U602用于^4居用户词库、用户二元库、系统词库、系统二元 库,查找与切分后的编码字符串相匹配的字词或字词对,并进行组词。
计算单元U603用于计算每种组词结果的概率。本实施例中,计算单元 U603采用的计算方式是根据用户词频(即用户一元概率)、用户字词相邻 出现的概率(即用户二元概率)以及系统词频(即系统一元概率)、系统字词 相邻出现的概率(即系统二元概率),计算每种组词结果的概率。
优选的,所述计算单元U603在计算组词结果概率的时候,如果同音下最 高频率的系统词的词频高于用户词频,则调整所述用户词频使其高于同音下最 高频率的系统词的词频;并根据所述用户词频的调整,将对应的用户字词对的 相邻出现概率也进行相应调整。
优选的,所述计算单元U603在计算组词结果概率的时候,如果组词结果 中的字词对同时存在于用户二元库和系统二元库中,则选择用户二元概率和 系统二元概率的最大值。如果用户二元概率根据用户词频进行了调整,则 选取调频后的用户二元概率和系统二元概率的最大值。
输出单元U604用于将概率符合预置条件的组词结果作为候选项输出。
优选的,所述组词单元U602包括三种组词;漠式,当用户多元库中的信息 量较少时,采用以系统词组词为主、用户词组词为辅的模式;当用户多元库中 的信息量不能独立完成组词时,采用以系统词和用户词混合组词的模式;当用户多元库中的信息量能独立完成组词时,采用以用户词组词为主、系统词组词 为辅的模式。
优选的,所述智能组词逻辑模块U505还包括控制单元U605,用于设置 用户词库和用户多元库的控制选项;如果用户选中该选项,则用户词库和
用户多元库参与智能组词;如果用户未选中该选项,则只通过系统词库和 系统多元库进4亍智能组词。
图4所示装置和图5、图6所示系统中未详述的部分可以参见图1、图2 所示方法的相关部分,为了篇幅考虑,在此不再详述。
需要说明的是,以上内容都是以字词之间的二元关系为例进行的说明,基 于本发明所述思想,还可以扩展到多元,在此不再详述。而且,本发明还适用 于日文、韩文等类似于中文输入法的外文输入,因此本发明的适用范围不 应以语言来划分。
以上对本发明所提供的 一种用户词参与智能组词输入的方法及一种输入 法系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式 进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思 想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明 的限制。
权利要求
1、一种建立用户多元库的方法,其特征在于,包括从用户输入的上屏结果中,获取具有相邻关系的用户字词对,所述用户字词对包括至少两个相邻的用户字词;统计所述用户字词对相邻出现的概率;建立用户多元库,将所述用户字词对及其相邻出现的概率保存到所述用户多元库。
2、 根据权利要求1所述的方法,其特征在于,通过以下方式获取具有相 邻关系的用户字词对在用户的一次上屏操作中,根据用户选择候选上屏词的方式,获取相邻的 候选上屏词作为用户字词对。
3、 根据权利要求1所述的方法,其特征在于,还包括对用户多元库的更 新步骤,具体包括在用户输入的上屏结果中,如果相邻候选上屏词组成的用户字词对在用户 多元库中存在,则增强用户多元库中该用户字词对相邻出现的概率;否则,将所述相邻候选上屏词作为新的用户字词对添加到用户多元库中, 并增强该用户字词对相邻出现的;f既率。
4、 根据权利要求1所述的方法,其特征在于,还包括对用户多元库的削 弱步骤,具体包括根据用户对上屏结果的修改,针对上屏结果中修改前的上屏词对应的用户 字词对,削弱其相邻出现的概率;和/或,针对用户多元库中长期得不到命中的用户字词对,根据该用户字 词对的最后命中时间进行削弱。
5、 根据权利要求1所述的方法,其特征在于,还包括 根据用户输入的标点符号进行句子划分;在同一个句子或子句中,根据用户的上屏才喿作,将相邻的上屏结果也作为 用户字词对保存到所述用户多元库;并统计所述用户字词对相邻出现的概率,保存到所述用户多元库。
6、 根据权利要求l、 2、 3、 4、 5任意一项所述的方法,其特征在于所述用户多元库建立在客户端。
7、 一种利用权利要求1所述的用户多元库进行智能组词输入的方法,其 特征在于,包括接收用户输入的编码字符串,并对所述编码字符串进行切分; 根据用户词库、用户多元库、系统词库、系统多元库,查找与切分后的编码字符串相匹配的字词或字词对,并进行组词;计算每种组词结果的概率,并将概率值符合预置条件的组词结果作为候选项输出。
8、 根据权利要求7所述的方法,其特征在于,通过以下方式计算每种组 词结果的概率才艮据用户词频、用户字词相邻出现的;f既率以及系统词频、系统字词相邻出 现的概率,计算每种组词结果的概率。
9、 根据权利要求8所述的方法,其特征在于在计算组词结果概率的时候,如果同音下最高频率的系统词的词频高于用 户词频,则调整所述用户词频使其高于同音下最高频率的系统词的词频;并根据所述用户词频的调整,将对应的用户字词对的相邻出现概率也进行 相应调整。
10、 根据权利要求8述的方法,其特征在于在计算组词结果概率的时候,如果组词结果中的字词对同时存在于用户多 元库和系统多元库中,则选择用户字词相邻出现的概率和系统字词相邻出现的 概率的最大值参与计算。
11、 根据权利要求7、 8、 9、 IO任意一项所述的方法,其特征在于 当用户多元库中的信息量较少时,采用以系统词组词为主、用户词组词为辅的模式。
12、 根据权利要求7、 8、 9、 IO任意一项所述的方法,其特征在于当用户多元库中的信息量不能独立完成组词时,采用以系统词和用户词混 合组词的模式。
13、 根据权利要求7、 8、 9、 IO任意一项所述的方法,其特征在于 当用户多元库中的信息量能独立完成组词时,采用以用户词组词为主、系统词组词为辅的才莫式。
14、 根据权利要求7所述的方法,其特征在于,所述组词还包括 根据前一个上屏结果和当前编码字符串所匹配结果之间的相邻关系,进行组词。
15、 根据权利要求7所述的方法,其特征在于,还包括 设置用户词库和用户多元库的控制选项;如果用户选中该选项,则用户词库和用户多元库参与智能组词; 如果用户未选中该选项,则只通过系统词库和系统多元库进行智能组词。
16、 一种建立用户多元库的装置,其特征在于,包括 第一获取单元,用于从用户输入的上屏结果中,获取具有相邻关系的用户字词对,所述用户字词对包括至少两个相邻的用户字词; 统计单元,用于统计所述用户字词对相邻出现的概率; 建立单元,用于建立用户多元库,将所述用户字词对及其相邻出现的概率保存到所述用户多元库。
17、 根据权利要求16所述的装置,其特征在于,所述第一获:f又单元通过 以下方式获: 又具有相邻关系的用户字词对在用户的一次上屏操作中,根据用户选择候选上屏词的方式,获取相邻的 ^陵选上屏词为用户字词对。
18、 根据权利要求16所述的装置,其特征在于,还包括 更新单元,用于对所述用户多元库进^f亍更新,更新方式为在用户输入的上屏结果中,如果相邻候选上屏词组成的用户字词对在用户 多元库中存在,则增强用户多元库中该用户字词对相邻出现的概率;否则,将 所述相邻候选上屏词作为新的用户字词对添加到用户多元库中,并增强该用户 字词对相邻出现的概率。
19、 根据权利要求16所述的装置,其特征在于,还包括 削弱单元,用于对所述用户多元库进行削弱,削弱方式为 才艮据用户对上屏结果的修改,针对上屏结果中修改前的上屏词对应的用户字词对,削弱其相邻出现的概率;和/或,针对用户多元库中长期得不到命中的用户字词对,根据该用户字词对的最后命中时间进行削弱。
20、 根据权利要求16所述的装置,其特征在于,还包括 第二获取单元,用于根据用户输入的标点符号进行句子划分;在同一个句子或子句中,根据用户的上屏操作,将相邻的上屏结果也作为用户字词对保存 到所述用户多元库;相应的,所述统计单元统计所述用户字词对相邻出现的概率,并保存到所 述用户多元库。
21、 根据权利要求16所述的装置,其特征在于 所述用户多元库建立在客户端,所述装置为客户端装置。
22、 一种输入法系统,其特征在于,包4舌用户多元库,用于保存具有相邻关系的用户字词对,所述用户字词对包括 至少两个相邻的用户字词;切分单元,用于接收用户输入的编码字符串,并对所述编码字符串进行 切分;组词单元,用于#4居用户词库、用户多元库、系统词库、系统多元库, 查找与切分后的编码字符串相匹配的字词或字词对,并进行组词; 计算单元,用于计算每种组词结果的概率;输出单元,用于将概率符合预置条件的组词结果作为候选项输出。
23、 根据权利要求22所述的系统,其特征在于,所述计算单元通过以 下方式计算每种组词结果的概率根据用户词频、用户字词相邻出现的概率以及系统词频、系统字词相邻出 现的概率,计算每种组词结果的概率。
24、 根据权利要求23所述的系统,其特征在于所述计算单元在计算组词结果概率的时候,如果同音下最高频率的系统词 的词频高于用户词频,则调整所述用户词频使其高于同音下最高频率的系统词 的词频;并根据所述用户词频的调整,将对应的用户字词对的相邻出现概率也 进行相应调整。
25、 根据权利要求23所述的系统,其特征在于所述计算单元在计算组词结果概率的时候,如果组词结果中的字词对同时存在于用户多元库和系统多元库中,则选择用户字词相邻出现的概率和系统字 词相邻出现的概率的最大值参与计算。
26、 根据权利要求22所述的系统,其特征在于所述组词单元包括三种组词才莫式,当用户多元库中的信息量较少时,采用 以系统词组词为主、用户词组词为辅的模式;当用户多元库中的信息量不能独 立完成组词时,采用以系统词和用户词混合组词的模式;当用户多元库中的信 息量能独立完成组词时,采用以用户词组词为主、系统词组词为辅的才莫式。
27、 根据权利要求22所述的系统,其特征在于,还包括控制单元,用于设置用户词库和用户多元库的控制选项;如果用户选中 该选项,则用户词库和用户多元库参与智能组词;如果用户未选中该选项, 则只通过系统词库和系统多元库进行智能组词。
28、 根据权利要求22所述的系统,其特征在于所述智能组词输入系统 运行在客户端。
全文摘要
本发明公开了一种用户词参与智能组词输入的方法及一种输入法系统,以解决现有的输入法系统灵活性较差,首选项的命中率不高,没有达到最佳用户体验的问题。所述方法包括从用户输入的上屏结果中,获取具有相邻关系的用户字词对,所述用户字词对包括至少两个相邻的用户字词;统计所述用户字词对相邻出现的概率;建立用户多元库,将所述用户字词对及其相邻出现的概率保存到所述用户多元库。本发明所述智能组词的方法由于更好地利用了用户词库中的个性化信息,弥补了系统词库智能组词的局限性,因此能够提高首选项的命中率,从而提供更好的用户体验。而且,可以使用户的组词选择更加智能化、灵活化,也更加个性化。
文档编号G06F17/30GK101290632SQ20081011398
公开日2008年10月22日 申请日期2008年5月30日 优先权日2008年5月30日
发明者王砚峰 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1