一种输入方法、装置及电子设备的制作方法

文档序号:6626398阅读:186来源:国知局
一种输入方法、装置及电子设备的制作方法
【专利摘要】本发明实施例提供了一种输入方法、装置及电子设备。该输入方法包括:获取输入光标处的文本信息,所述文本信息包括位于所述输入光标之前的上文文本信息和/或位于所述输入光标之后的下文文本信息;提取所述文本信息中的关键词;查找所述关键词的联想候选词库,获得所述输入光标处的上屏候选词队列;输出所述上屏候选词队列。本发明实施例通过获取输入光标处的文本信息,并基于该文本信息中的关键词确定出上屏词候选队列,解决了现有技术中输入光标改变位置后由于无法获取可靠上屏词条而无法联想给出上屏候选词的问题。
【专利说明】一种输入方法、装置及电子设备

【技术领域】
[0001] 本发明涉及通信【技术领域】,尤其涉及一种输入方法、装置及电子设备。

【背景技术】
[0002] 拼音输入是一种最简单的汉字输入方法,它的发展非常快,从第一代的以字输入 为主,即用户一次只能输入一个汉字,发展到第二代以词输入为主并具有智能调频功能,这 个时候主要依赖的是输入法的词典,发展到第三代,用户可以进行语句的输入,输入法词典 中没有的句子也可以进行输入,组词功能对输入的体验有着很大的影响。
[0003] 输入法联想功能是拼音输入法主动输入的一种扩展,它的出现减少了用户主动输 入的次数、按键的次数,并增加了输入法的智能性。该输入法的实现过程是首先获取用户上 一次上屏的词条,并根据该词条查询系统二元库等预建词库来获取上屏候选词队列,然后 输出该上屏候选词队列。
[0004] 然而,该输入法中的上屏候选词队列由于必须依赖于上一次上屏的词条,当输入 光标改变位置时,就无法获取可靠的上屏词条,进而也无法联想给出该输入光标处的上屏 候选词队列。因此,目前需要本领域技术人员迫切解决的一个技术问题就是:如何在输入光 标移动时获得可靠的上屏候选词队列。


【发明内容】

[0005] 本发明实施例所要解决的技术问题是提供一种输入方法,能够在输入光标移动时 获得可靠的上屏候选词队列。
[0006] 相应的,本发明实施例还提供了一种输入装置,用以保证上述方法的实现及应用。
[0007] 为了解决上述问题,本发明公开了一种输入方法,包括:
[0008] 获取输入光标处的文本信息,所述文本信息包括位于所述输入光标之前的上文文 本信息和/或位于所述输入光标之后的下文文本信息;
[0009] 提取所述文本信息中的关键词;
[0010] 查找所述关键词的联想候选词库,获得所述输入光标处的上屏候选词队列;
[0011] 输出所述上屏候选词队列。
[0012] 进一步,所述获取输入光标处的文本信息,包括:
[0013] 当检测到所述输入光标位于文本框内,且停止文本输入的时间超过时间阈值时, 获取所述输入光标处的文本信息。
[0014] 进一步,所述获取输入光标处的文本信息,包括:
[0015] 以所述输入光标所在的整句分割点或文本框边界作为所述文本信息的长度边界, 获取所述输入光标处的文本信息。
[0016] 进一步,所述查找所述关键词的联想候选词库,获得所述输入光标处的上屏候选 词队列,包括:
[0017] 根据所述关键词与所述输入光标之间的距离关系和/或所述关键词所属的应用 属性确定所述关键词对应的语言模型;
[0018] 查找所述语言模型的联想候选词库,获得所述输入光标处的上屏候选词队列。
[0019] 进一步,所述根据所述关键词与所述输入光标之间的距离关系确定所述关键词对 应的语目模型,包括:
[0020] 若所述关键词为一个,则当所述关键词与所述输入光标之间的距离关系为邻接关 系时,确定所述关键词对应的语言模型为邻近二元语言模型;当所述距离关系为非邻接关 系时确定所述关键词对应的语言模型为远距离二元语言模型;
[0021] 当所述关键词为两个时,确定所述关键词对应的语言模型为三元语言模型。
[0022] 进一步,在所述根据所述关键词与所述输入光标之间的距离关系确定所述关键词 对应的语言模型之前,还包括:
[0023] 建立语言模型及其联想候选词库,所述语言模型包括邻近二元语言模型,远距离 二元语言模型及三元语言模型;
[0024] 所述建立语言模型及其联想候选词库,包括:
[0025] 收集训练语料;
[0026] 提取所述训练语料中的训练候选词及训练关键词,所述训练关键词与所述训练候 选词之间的距离关系包括邻接关系和非邻接关系,所述训练关键词至少为一个;
[0027] 对所述训练候选词及所述训练关键词进行模型训练,获得所述语言模型及其联想 候选词库。
[0028] 进一步,所述根据所述关键词所属的应用属性确定所述关键词对应的语言模型, 包括:
[0029] 根据所述关键词所属的用户使用习惯特征确定所述关键词对应的用户模型;或 者,
[0030] 根据所述关键词所属的应用领域确定所述关键词对应的垂直模型;或者;
[0031] 根据所述关键词所属的常用词汇确定所述关键词对应的常见词语言模型;或者,
[0032] 根据所述关键词所属的话题情景确定所述关键词对应的情景模型。
[0033] 进一步,所述查找所述语言模型的联想候选词库,获得所述输入光标处的上屏候 选词队列,包括:
[0034] 当所述语言模型至少有两个时,分别确定各所述语言模型的联想候选词库中的上 屏候选词;
[0035] 根据各所述语言模型的预设权重,按照权重线性叠加合并所述上屏候选词;
[0036] 对合并后的上屏候选词按照权重由高到低进行排序获得所述输入光标处的上屏 候选词队列。
[0037] 进一步,在所述输出所述上屏候选词队列之前,还包括:
[0038] 根据所述输入光标处的话题情景对所述上屏候选词队列进行调序;
[0039] 所述输出所述上屏候选词队列,包括:
[0040] 输出调序后的上屏候选词队列。
[0041] 进一步,所述根据所述输入光标处的话题情景对所述上屏候选词队列进行调序, 包括:
[0042] 根据命中各情景特征标签的所述关键词的个数及所述关键词命中所述各情景特 征标签的概率和,确定所述各情景特征标签的特征得分;
[0043] 按照所述各情景特征标签的特征得分,由高到底对所述情景特征标签进行排序;
[0044] 按照所述情景特征标签的顺序对所述上屏候选词队列进行调序,其中,所述上屏 候选词队列中的上屏候选词均具有各自的情景特征标签。
[0045] 本发明还公开了一种输入装置,包括:
[0046] 文本获取单兀,用于获取输入光标处的文本信息,所述文本信息包括位于所述输 入光标之前的上文文本信息和/或位于所述输入光标之后的下文文本信息;
[0047] 关键词提取单元,用于提取所述文本信息中的关键词;
[0048] 队列获取单元,用于查找所述关键词的联想候选词库,获得所述输入光标处的上 屏候选词队列;
[0049] 队列输出单元,用于输出所述上屏候选词队列。
[0050] 进一步,所述文本获取单元,具体用于当检测到所述输入光标位于文本框内,且停 止文本输入的时间超过时间阈值时,获取所述输入光标处的文本信息。
[0051] 进一步,所述文本获取单元,具体用于以所述输入光标所在的整句分割点或文本 框边界作为所述文本信息的长度边界,获取所述输入光标处的文本信息。
[0052] 进一步,所述队列获取单元包括:
[0053] 模型确定子单元,用于根据所述关键词与所述输入光标之间的距离关系和/或所 述关键词所属的应用属性确定所述关键词对应的语言模型;
[0054] 队列获取子单元,用于查找所述语言模型的联想候选词库,获得所述输入光标处 的上屏候选词队列。
[0055] 进一步,所述模型确定子单元,具体用于若所述关键词为一个,则当所述关键词与 所述输入光标之间的距离关系为邻接关系时,确定所述关键词对应的语言模型为邻近二元 语言模型;当所述距离关系为非邻接关系时确定所述关键词对应的语言模型为远距离二元 语言模型;当所述关键词为两个时,确定所述关键词对应的语言模型为三元语言模型。
[0056] 进一步,所述队列获取单元还包括:
[0057] 模型建立子单元,用于在所述模型确定子单元确定所述关键词对应的语言模型之 前,建立语言模型及其联想候选词库,所述语言模型包括邻近二元语言模型,远距离二元语 言模型及三元语言模型;
[0058] 所述模型建立子单元包括:
[0059] 收集子单元,用于收集训练语料;
[0060] 提取子单元,用于提取所述训练语料中的训练候选词及训练关键词,所述训练关 键词与所述训练候选词之间的距离关系包括邻接关系和非邻接关系,所述训练关键词至少 为一个;
[0061] 训练子单元,用于对所述训练候选词及所述训练关键词进行模型训练,获得所述 语言模型及其联想候选词库。
[0062] 进一步,所述模型确定子单元,具体用于根据所述关键词所属的用户使用习惯特 征确定所述关键词对应的用户模型;或者,根据所述关键词所属的应用领域确定所述关键 词对应的垂直模型;或者;根据所述关键词所属的常用词汇确定所述关键词对应的常见词 语言模型;或者,根据所述关键词所属的话题情景确定所述关键词对应的情景模型。
[0063] 进一步,所述队列获取子单元包括:
[0064] 确定子单元,用于当所述语言模型至少有两个时,分别确定各所述语言模型的联 想候选词库中的上屏候选词;
[0065] 合并子单元,用于根据各所述语言模型的预设权重,按照权重线性叠加合并所述 上屏候选词;
[0066] 排序子单元,用于对合并后的上屏候选词按照权重由高到低进行排序获得所述输 入光标处的上屏候选词队列。
[0067] 进一步,所述装置还包括:
[0068] 队列调序单元,用于在所述队列输出单元输出所述上屏候选词队列之前,根据所 述输入光标处的话题情景对所述上屏候选词队列进行调序;
[0069] 所述队列输出单元,用于输出调序后的上屏候选词队列。
[0070] 进一步,所述队列调序单元包括:
[0071] 得分计算子单元,用于根据命中各情景特征标签的所述关键词的个数及所述关键 词命中所述各情景特征标签的概率和,确定所述各情景特征标签的特征得分;
[0072] 情景排序子单元,用于按照所述各情景特征标签的特征得分,由高到底对所述情 景特征标签进行排序;
[0073] 调序子单元,用于按照所述情景特征标签的顺序对所述上屏候选词队列进行调 序,其中,所述上屏候选词队列中的上屏候选词均具有各自的情景特征标签。
[0074] 本发明还公开了一种电子设备,包括存储器和处理器,所述存储器用于存储计算 机指令或代码,所述处理器和所述存储器耦合,用于执行所述存储器中的计算机指令或代 码,实现以下方法:
[0075] 获取输入光标处的文本信息,所述文本信息包括位于所述输入光标之前的上文文 本信息和/或位于所述输入光标之后的下文文本信息;
[0076] 提取所述文本信息中的关键词;
[0077] 查找所述关键词的联想候选词库,获得所述输入光标处的上屏候选词队列;
[0078] 输出所述上屏候选词队列。
[0079] 与现有技术相比,本发明实施例至少包括以下优点:
[0080] 本发明实施例通过获取输入光标处的文本信息,并基于该文本信息中的关键词确 定出上屏词候选队列,解决了现有技术中输入光标改变位置后由于无法获取可靠上屏词条 而无法联想给出上屏候选词的问题。该方法不仅能够在输入光标移动时获得可靠的上屏候 选词,而且,该输入方法不单单依靠上一次的上屏词条联想给出上屏候选词队列,而是可以 利用输入光标前、后的文本信息,以及远距离的文本信息来联想给出上屏候选词队列,该方 法可以更全面、更正确的理解用户的输入意图,从而可以给出更可靠的上屏候选词队列。

【专利附图】

【附图说明】
[0081] 图1为本发明实施例一种输入方法的流程示意图;
[0082] 图2是本发明实施例中一种获得输入光标处的上屏候选词队列的方法流程图;
[0083] 图3是本发明实施例中一种系统模型及其联想候选词库的建立方法流程图;
[0084] 图4是本发明实施例中一种根据语言模型对应的联想候选词库获得输入光标处 的上屏候选词队列的方法流程图;
[0085] 图5是本发明实施例中一种根据输入光标处的话题情景对上屏候选词队列进行 调序的方法流程图;
[0086] 图6为本发明实施例一种输入装置的结构示意图;
[0087] 图7为本发明实施例中一种队列获取单元的结构示意图;
[0088] 图8为本发明实施例中一种模型建立子单元的结构示意图;
[0089] 图9为本发明实施例中一种队列获取子单元的结构示意图;
[0090] 图10为本发明实施例另一种输入装置的结构示意图;
[0091] 图11为本发明实施例中一种队列调序单元的结构示意图。

【具体实施方式】
[0092] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本发明作进一步详细的说明。
[0093] 参照图1,为本发明实施例一种输入方法的流程示意图。
[0094] 在用户进行文本输入的过程可以采用本发明实施例的方法来直接代替或结合现 有的根据上一次上屏词条预测上屏候选词的方法给出输入光标处的上屏候选词队列,也可 以是在某种条件下执行本发明实施例的方法,具体的,当输入装置检测到输入光标位于文 本框内,且停止文本输入的时间超过时间阈值时,例如,当用户需要修改或增加文本信息而 改变输入光标在文本框内的位置时,可以按照本实施例方法给出输入光标处的上屏候选词 队列。该方法可以包括如下步骤:
[0095] 步骤101,获取输入光标处的文本信息。
[0096] 在本步骤中,输入装置首先通过系统API接口读取输入光标处的文本信息,可以 以输入光标所在的整句分割点或文本框边界作为该文本信息的长度边界。
[0097] 其中,该文本信息可以包括位于输入光标之前的上文文本信息,或者位于输入光 标之后的下文文本信息,当然,如果输入光标的前后都存在文本信息,也可以同时获取上文 文本信息和下文文本信息。
[0098] 步骤102,提取文本信息中的关键词。
[0099] 在本实施例中可以预先设置关键词元词表,该关键词元词表是一个集合,其中包 含可以作为关键词的词条。可以约定凡是出现在该关键词元词表中的词条都可以作为关键 词,不在这个关键词元词表中的词条都不作为关键词。
[0100] 在本步骤中即可提取文本信息中所有属于该关键词元词表中的词条作为关键词。 具体的,对于上文文本信息,可以从输入光标处开始,向前到整句的分割点或者文本框边界 结束,利用动态规划算法进行遍历得到上文文本信息中的关键词,对于下文文本信息,可以 输入光标处开始,向后到整句的分割点或者文本框边界结束,利用动态规划算法进行遍历 得到下文文本信息中的关键词。上文文本信息中的关键词和下文文本信息中的关键词可以 分别存入不同的集合,或者进行区分标注,以便于后续搜索上屏候选词,具体请参见后续实 施例的描述。
[0101] 按照上述方法提取的文本信息中的关键词可以有一个也可能有多个,可能关键词 均位于上文文本信息,也可能关键词均位于下文文本信息,还可能上文文本信息和下文文 本信息中均存在关键词。
[0102] 步骤103,查找关键词的联想候选词库,获得输入光标处的上屏候选词队列。
[0103] 在获得文本信息的关键词后,可以根据该关键词查找对应的联想候选词库,从而 获得输入光标处的上屏候选词队列。
[0104] 其中一种方式,可以是每个关键词对应一个联想候选词库,该联想候选词库内的 上屏候选词按照使用概率由大到小进行排序,查询多个关键词的联想候选词库时,可以将 各词库中的上屏候选词按照重复率由高到底排列,从而获得输入光标处的上屏候选队列。
[0105] 另一种方式,还可以是预先建立语言模型及其联想候选词库。该语言模型可以是 基于关键词与输入光标之间的多种距离关系建立的;也可以是基于关键词所属的应用属 性建立的,其中,应用属性可以是用户对关键词的使用习惯,也可以是关键词所属的应用领 域,如时间、地理位置、节日祝福语等领域,也可以是关键词所属的常用词汇,还可以是关键 词所属的话题情景等。在执行本步骤时,可以只确定上步骤提取的关键词对应的一种语言 模型,然后根据该确定出的语言模型的联想候选词库获得输入光标处的上屏候选词队列; 也可以确定出所提取关键词对应的多种语言模型,然后将多种语言模型的联想候选词库进 行合并,确定出最终的输入光标处的上屏候选词队列。具体请参见后续实施例的描述。
[0106] 当然还可以存在其它方式,此处不再一一列举。
[0107] 步骤104,输出上屏候选词队列。
[0108] 在获得上屏候选词队列后,可以直接输出该上屏候选词队列供用户选择,也可以 首先对该上屏候选词队列进行调序后再输出调序后的上屏候选词队列,调序方法有多种。
[0109] 本发明实施例通过获取输入光标处的文本信息,并基于该文本信息中的关键词确 定出上屏词候选队列,解决了现有技术中输入光标改变位置后由于无法获取可靠上屏词条 而无法联想给出上屏候选词的问题。该方法不仅能够在输入光标移动时获得可靠的上屏候 选词,而且,该输入方法不单单依靠上一次的上屏词条联想给出上屏候选词队列,而是可以 利用输入光标前、后的文本信息,以及远距离的文本信息来联想给出上屏候选词队列,该方 法可以更全面、更正确的理解用户的输入意图,从而可以给出更可靠的上屏候选词队列。 [0110] 在本发明的另一实施例中,如前所述,在执行步骤103查找关键词的联想候选词 库,获得输入光标处的上屏候选词队列时,其中一种方式可以如图2所示,包括以下步骤:
[0111] 步骤201,建立语言模型及其联想候选词库。
[0112] 首先,本步骤无需在每次获得输入光标处的上屏候选词队列时重复执行,只在初 始状态执行一次即可。
[0113] 本步骤中建立的语言模型可以有多种,本实施例中,可以包括系统模型,用户模 型,垂直模型,常见词语言模型,情景模型。
[0114] 系统模型是针对关键词与输入光标之间的距离关系建立的语言模型;用户模型, 垂直模型,常见词语言模型,情景模型均是针对关键词所属的应用属性建立的语言模型。其 中,用户模型是针对用户对关键词的使用习惯建立的模型;垂直模型是针对关键词所属的 应用领域,如时间、地理位置、节日祝福语等领域建立的模型;常见词语言模型是针对关键 词所属的常用词汇建立的模型;情景模型是针对关键词所属的话题情景建立的模型。下面 对各模型分别进行介绍。
[0115] 1)系统模型包括邻近二元语言模型,远距离二元语言模型及三元语言模型。该系 统模型及其联想候选词库的建立过程,如图3所示,可以包括:
[0116] 步骤301,收集训练语料。
[0117] 步骤302,提取训练语料中的训练候选词及训练关键词。
[0118] 针对每一个训练语料均按照关键词元词表来提取关键词,作为训练关键词,并设 定训练语料中的某一位置的词条作为训练候选词,其中,为了训练得到不同的系统模型,需 要训练关键词与训练候选词之间的距离关系包括邻接关系和非邻接关系,且训练关键词至 少为一个。
[0119] 其中,邻接关系是指训练关键词语训练候选词之间没有间隔或者是仅间隔停用 字,非邻接关系反之。停用字是指辅助用户的字词,例如语气词,"哈""了""嗯"等。
[0120] 步骤303,对训练候选词及训练关键词进行模型训练,获得语言模型及其对应的联 想候选词库。
[0121] 该模型训练的过程与现有技术中邻近二元语言模型的训练过程类似,此处不再赘 述。
[0122] 在模型训练后即可获得邻近二元语言模型,远距离二元语言模型及三元语言模 型,及各模型的联想候选词库。
[0123] 其中,邻近二元语言模型用来解决邻接的关键词与上屏候选词的二元关系,该邻 接关系可能是上文文本信息中的关键词与上屏候选词之间的关系,也可能是上屏候选词与 下文文本信息中的关键词之间的关系。例如,举行?晚宴,举行是上屏候选词,晚宴是下文 文本信息中的关键词。邻近二元语言模型是确定性较高的语言模型,缺点是信息量较少,能 够预测出的候选过多,难以从中选择用户想要的。
[0124] 远距离二元语言模型用来解决非邻接关系的关键词与上屏候选词之间的二元关 系,该远距离关系可能是上文文本信息中的关键词与上屏候选词之间的关系,也可能是上 屏候选词与下文文本信息中的关键词之间的关系。与邻近二元语言模型不同的是,远距离 二元不需要两个元词是相邻的;例如,关键词"苹果"和上屏候选词"梨"。远距离二元语言 模型是两个元词共现关系的一种体现,它往往表征着两个元词之间的关联度。
[0125] 三元语言模型用来解决两个关键词与上屏候选词之间的三元关系,给出两个关键 词对上屏候选词的预测。该两个关键词与上屏候选词之间的预测关系可能是两个上文文本 信息中的关键词对上屏候选词的预测,或者,两个下文文本信息中的关键词对上屏候选词 之间的预测,还或者,上、下文文本信息中各出现一个关键词以两边夹的方式对中间上屏候 选词的预测。两个上文文本信息中的关键词对上屏候选词的预测,例如:"会议在晚上(召 开)"召开"为上屏候选词,"会议?召开"是一个比较显著的远距离二元,"召开"作为上 屏候选词的排位靠前;"在晚上?召开"虽然二元关系显著,但是排位在百位以后;如果只 根据现有技术中的邻接二元关系,"召开"这个上屏候选词很可能被遗漏掉,而通过引进该 三元语言模型"A?B?C",A表示远距离上文文本信息中的某一个关键词,B表示近距离 /邻接的关键词,C则为上屏候选词,即可获得可靠的上屏候选词。另外一种情况,如果输入 光标前后各提出关键词"脚本"和"指南",那么"脚本?学习?指南"则会被利用来预测上 屏候选词"学习"。
[0126] 2)用户模型包括用户二元模型,用户三元模型,远距离用户二元模型。其中,用户 二元模型用于解决前一次用户上屏与下一次用户上屏存在的用户二元关系;用户三元模型 用于解决连续三次用户上屏存在的用户三元关系;远距离用户二元模型用于解决一定距离 内用户上屏词与本次用户上屏词存在的远距离二元关系。该用户模型是基于对用户对词条 的使用习惯进行统计所获得的模型,每种模型对应统计有各自的联想候选词库。
[0127] 3)垂直模型包括诸多个垂直领域的语言模型,这些语言模型与词条所属领域的分 类有关,例如,时间相关的领域系统二元语言模型,例如,"晚上"对应的垂直模型的联系候 选词库中包含"9点、10点、11点","周六"对应的垂直模型的联系候选词库中包含"上午、 下午";位置相关的领域语言模型,例如,"五道口 "对应的垂直模型的联系候选词库中包含 "清华同方、日昌、华联"等;量词相关的领域语言模型;推荐相关的领域语言模型;输入app 环境的领域语言模型;称谓、人名相关的领域语言模型;节日相关祝福语领域语言模型等, 各垂直模型是基于词条所属领域进行统计所获得的模型,每种模型对应统计有各自的联想 候选词库。
[0128] 4)常见词语言模型(系统词语言模型)用来覆盖对一个实体词不完整输入的情 况,完成其对完整词条后缀的预测,该模型是基于对常见词条进行统计所获得的模型;例 如,上文文本信息中的关键词是"笑傲",则给出的上屏候选词为"江湖"。
[0129] 5)情景模型是针对关键词所属的话题情景所建立的模型。例如,会议情景,聚餐情 景等,每个关键词都具有一个或多个情景特征标签,每种情景特征标签对应一个情景模型, 每种情景模型都具有各自的联想候选词库。
[0130] 在预先建立上述语言模型后即可执行步骤202。
[0131] 步骤202,根据关键词与输入光标之间的距离关系和/或关键词所属的应用属性 确定关键词对应的语言模型。
[0132] 本步骤中可以根据关键词与输入光标之间的距离关系确定关键词对应的系统模 型,若提取的关键词为一个,则当关键词与输入光标之间的距尚关系为邻接关系时,确定关 键词对应的语言模型为近距离二元语言模型;当距离关系为非邻接关系时确定关键词对应 的语言模型为远距离二元语言模型;当关键词为两个时,确定关键词对应的语言模型为三 元语言模型。
[0133] 也可以根据关键词所属的某一应用属性确定关键词对应的语言模型,例如,根据 关键词所属的用户使用习惯特征确定关键词对应的用户模型;或者,根据关键词所属的应 用领域确定关键词对应的垂直领域;或者,根据所述关键词所属的常用词汇确定所述关键 词对应的常见词语言模型;或者,根据关键词所属的话题情景确定关键词对应的情景模型 等。
[0134] 还可以同时确定关键词对应的多种语言模型,例如远距离二元模型、邻接二元模 型、三元模型、用户二元模型,以及常见词语言模型等。
[0135] 步骤203,根据语言模型对应的联想候选词库获得输入光标处的上屏候选词队列。
[0136] 对于系统规模、用户模型、垂直模型,为了便于查找语言模型的联想候选词库中的 上屏候选队列,还可以在各联想候选词库中按照常规方式建立索引,例如左元索引和右元 索引。当关键词来源于上文文本信息时,可以利用语言模型的联想候选词库中的左元索引 查找输入光标处的上屏候选词队列;当关键词来源于下文文本信息时,可以利用语言模型 的联想候选词库中的右元索引查找输入光标处的上屏候选词队列;当关键词来源于上、下 文文本信息时,则会兼顾两个方向的搜索,除此之外,还会增加以中间元的为搜索目标的查 询,为此,三元模型的联想候选词库中会建立两个二级索引,以便在两个方向上搜索中间 元。对于常见词模型,与现有联想方式类似,可以采用匹配前缀的方式获得输入光标处的上 屏候选词队列。
[0137] 当上步骤确定出的语言模型至少有两个时,该获得输入光标处的上屏候选词队列 的过程,如图4所示,还可以进一步包括以下步骤:
[0138] 步骤401,确定各语言模型的联想候选词库中的上屏候选词。
[0139] 步骤402,根据各语言模型的预设权重,按照权重线性叠加合并上屏候选词。
[0140] 步骤403,对合并后的上屏候选词按照权重由高到低进行排序获得输入光标处的 上屏候选词队列。
[0141] 通过结合关键词对应的多种语言模型可以获得更理想更可靠的上屏候选词队列。 例如,输入光标处的文本信息为"明天我到大连,我想去发现[光标]",用户的输入意图是 他想去发现王国这个游乐场。提取上文文本信息中的关键词"大连"和"发现",其中"大连" 提示了用户目的地的位置,该关键词属于垂直模型,那么结合关键词"发现",即可获得可靠 的上屏候选词"王国"。
[0142] 在本发明的另一实施例中,在基于上述方式获得上屏候选队列后可以直接输出该 上屏候选队列供用户选择,也还可以在输出该上屏候选队列之前,对上屏候选队列进行调 序,然后再输出调序后的上屏候选词队列。
[0143] 调序方式有多种,其中一种可以根据输入光标处的话题情景对上屏候选词队列进 行调序的方法,如图5所示,可以包括:
[0144] 步骤501,根据命中各情景特征标签的关键词的个数及关键词命中各情景特征标 签的概率和,确定各情景特征标签的特征得分。
[0145] 每一关键词可能命中一个或多个情景特征标签,每个情景特征标签对应一种话题 情景,而最终上屏结果中关键词命中某一情景特征标签的概率可以根据统计获得,因此,每 个情景特征标签i的特征得分featurei即可表示为:=

【权利要求】
1. 一种输入方法,其特征在于,包括: 获取输入光标处的文本信息,所述文本信息包括位于所述输入光标之前的上文文本信 息和/或位于所述输入光标之后的下文文本信息; 提取所述文本信息中的关键词; 查找所述关键词的联想候选词库,获得所述输入光标处的上屏候选词队列; 输出所述上屏候选词队列。
2. 根据权利要求1所述的方法,其特征在于,所述获取输入光标处的文本信息,包括: 当检测到所述输入光标位于文本框内,且停止文本输入的时间超过时间阈值时,获取 所述输入光标处的文本信息。
3. 根据权利要求1所述的方法,其特征在于,所述获取输入光标处的文本信息,包括: 以所述输入光标所在的整句分割点或文本框边界作为所述文本信息的长度边界,获取 所述输入光标处的文本信息。
4. 根据权利要求1所述的方法,其特征在于,所述查找所述关键词的联想候选词库,获 得所述输入光标处的上屏候选词队列,包括: 根据所述关键词与所述输入光标之间的距离关系和/或所述关键词所属的应用属性 确定所述关键词对应的语言模型; 查找所述语言模型的联想候选词库,获得所述输入光标处的上屏候选词队列。
5. 根据权利要求4所述的方法,其特征在于,所述根据所述关键词与所述输入光标之 间的距离关系确定所述关键词对应的语言模型,包括 : 若所述关键词为一个,则当所述关键词与所述输入光标之间的距离关系为邻接关系 时,确定所述关键词对应的语言模型为邻近二元语言模型;当所述距离关系为非邻接关系 时确定所述关键词对应的语言模型为远距离二元语言模型; 当所述关键词为两个时,确定所述关键词对应的语言模型为三元语言模型。
6. 根据权利要求5所述的方法,其特征在于,在所述根据所述关键词与所述输入光标 之间的距离关系确定所述关键词对应的语言模型之前,还包括: 建立语言模型及其联想候选词库,所述语言模型包括邻近二元语言模型,远距离二元 语言模型及三元语言模型; 所述建立语言模型及其联想候选词库,包括: 收集训练语料; 提取所述训练语料中的训练候选词及训练关键词,所述训练关键词与所述训练候选词 之间的距离关系包括邻接关系和非邻接关系,所述训练关键词至少为一个; 对所述训练候选词及所述训练关键词进行模型训练,获得所述语言模型及其联想候选 词库。
7. 根据权利要求4所述的方法,其特征在于,所述根据所述关键词所属的应用属性确 定所述关键词对应的语言模型,包括: 根据所述关键词所属的用户使用习惯特征确定所述关键词对应的用户模型;或者, 根据所述关键词所属的应用领域确定所述关键词对应的垂直模型;或者; 根据所述关键词所属的常用词汇确定所述关键词对应的常见词语言模型;或者, 根据所述关键词所属的话题情景确定所述关键词对应的情景模型。
8. 根据权利要求4所述的方法,其特征在于,所述查找所述语言模型的联想候选词库, 获得所述输入光标处的上屏候选词队列,包括: 当所述语言模型至少有两个时,分别确定各所述语言模型的联想候选词库中的上屏候 选词; 根据各所述语言模型的预设权重,按照权重线性叠加合并所述上屏候选词; 对合并后的上屏候选词按照权重由高到低进行排序获得所述输入光标处的上屏候选 词队列。
9. 根据权利要求1至8中任意一项所述的方法,其特征在于,在所述输出所述上屏候选 词队列之前,还包括: 根据所述输入光标处的话题情景对所述上屏候选词队列进行调序; 所述输出所述上屏候选词队列,包括: 输出调序后的上屏候选词队列。
10. 根据权利要求9所述的方法,其特征在于,所述根据所述输入光标处的话题情景对 所述上屏候选词队列进行调序,包括: 根据命中各情景特征标签的所述关键词的个数及所述关键词命中所述各情景特征标 签的概率和,确定所述各情景特征标签的特征得分; 按照所述各情景特征标签的特征得分,由高到底对所述情景特征标签进行排序; 按照所述情景特征标签的顺序对所述上屏候选词队列进行调序,其中,所述上屏候选 词队列中的上屏候选词均具有各自的情景特征标签。
11. 一种输入装置,其特征在于,包括: 文本获取单兀,用于获取输入光标处的文本信息,所述文本信息包括位于所述输入光 标之前的上文文本信息和/或位于所述输入光标之后的下文文本信息; 关键词提取单元,用于提取所述文本信息中的关键词; 队列获取单元,用于查找所述关键词的联想候选词库,获得所述输入光标处的上屏候 选词队列; 队列输出单元,用于输出所述上屏候选词队列。
12. 根据权利要求11所述的装置,其特征在于, 所述文本获取单元,具体用于当检测到所述输入光标位于文本框内,且停止文本输入 的时间超过时间阈值时,获取所述输入光标处的文本信息。
13. 根据权利要求11所述的装置,其特征在于, 所述文本获取单元,具体用于以所述输入光标所在的整句分割点或文本框边界作为所 述文本信息的长度边界,获取所述输入光标处的文本信息。
14. 根据权利要求11所述的装置,其特征在于,所述队列获取单元包括: 模型确定子单元,用于根据所述关键词与所述输入光标之间的距离关系和/或所述关 键词所属的应用属性确定所述关键词对应的语言模型; 队列获取子单元,用于查找所述语言模型的联想候选词库,获得所述输入光标处的上 屏候选词队列。
15. 根据权利要求14所述的装置,其特征在于, 所述模型确定子单元,具体用于若所述关键词为一个,则当所述关键词与所述输入光 标之间的距离关系为邻接关系时,确定所述关键词对应的语言模型为邻近二元语言模型; 当所述距离关系为非邻接关系时确定所述关键词对应的语言模型为远距离二元语言模型; 当所述关键词为两个时,确定所述关键词对应的语言模型为三元语言模型。
16. 根据权利要求15所述的装置,其特征在于,所述队列获取单元还包括: 模型建立子单元,用于在所述模型确定子单元确定所述关键词对应的语言模型之前, 建立语言模型及其联想候选词库,所述语言模型包括邻近二元语言模型,远距离二元语言 模型及三元语言模型; 所述模型建立子单元包括: 收集子单元,用于收集训练语料; 提取子单元,用于提取所述训练语料中的训练候选词及训练关键词,所述训练关键词 与所述训练候选词之间的距离关系包括邻接关系和非邻接关系,所述训练关键词至少为一 个; 训练子单元,用于对所述训练候选词及所述训练关键词进行模型训练,获得所述语言 模型及其联想候选词库。
17. 根据权利要求14所述的装置,其特征在于, 所述模型确定子单元,具体用于根据所述关键词所属的用户使用习惯特征确定所述关 键词对应的用户模型;或者,根据所述关键词所属的应用领域确定所述关键词对应的垂直 模型;或者;根据所述关键词所属的常用词汇确定所述关键词对应的常见词语言模型;或 者,根据所述关键词所属的话题情景确定所述关键词对应的情景模型。
18. 根据权利要求14所述的装置,其特征在于,所述队列获取子单元包括: 确定子单元,用于当所述语言模型至少有两个时,分别确定各所述语言模型的联想候 选词库中的上屏候选词; 合并子单元,用于根据各所述语言模型的预设权重,按照权重线性叠加合并所述上屏 候选词; 排序子单元,用于对合并后的上屏候选词按照权重由高到低进行排序获得所述输入光 标处的上屏候选词队列。
19. 根据权利要求11至18中任意一项所述的装置,其特征在于,所述装置还包括: 队列调序单元,用于在所述队列输出单元输出所述上屏候选词队列之前,根据所述输 入光标处的话题情景对所述上屏候选词队列进行调序; 所述队列输出单元,用于输出调序后的上屏候选词队列。
20. 根据权利要求19所述的装置,其特征在于,所述队列调序单元包括: 得分计算子单元,用于根据命中各情景特征标签的所述关键词的个数及所述关键词命 中所述各情景特征标签的概率和,确定所述各情景特征标签的特征得分; 情景排序子单元,用于按照所述各情景特征标签的特征得分,由高到底对所述情景特 征标签进行排序; 调序子单元,用于按照所述情景特征标签的顺序对所述上屏候选词队列进行调序,其 中,所述上屏候选词队列中的上屏候选词均具有各自的情景特征标签。
21. -种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储计算机指 令或代码,所述处理器和所述存储器耦合,用于执行所述存储器中的计算机指令或代码,实 现以下方法: 获取输入光标处的文本信息,所述文本信息包括位于所述输入光标之前的上文文本信 息和/或位于所述输入光标之后的下文文本信息; 提取所述文本信息中的关键词; 查找所述关键词的联想候选词库,获得所述输入光标处的上屏候选词队列; 输出所述上屏候选词队列。
【文档编号】G06F17/30GK104281649SQ201410455924
【公开日】2015年1月14日 申请日期:2014年9月9日 优先权日:2014年9月9日
【发明者】崔欣, 任尚昆, 唐拯, 张扬 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1