输入法的候选词语的排序方法和排序设备与流程

文档序号:13875671阅读:417来源:国知局
输入法的候选词语的排序方法和排序设备与流程

本发明一般地涉及信息处理领域。具体而言,本发明涉及一种能够对输入法的候选词语进行排序的方法和设备。



背景技术:

随着信息技术的发展,人们的工作、学习、生活中处处可见基于信息技术的产品。在使用基于信息技术的产品中,人机交互的基本而重要的方面是输入法。输入法包括拼音输入法和语音输入法,其输入分别是拼音输入和声码输入等。

这两种输入法共同面对的问题就是候选不唯一。针对用户的单位输入,输入法不得不提供多个候选词语供用户选择。评价输入法的重要因素就是输入法的命中率。高命中率能够显著改善用户体验。这就需要输入法提供的候选词语接近用户的意图,并且排序靠前的候选词语是用户希望输入的词语的概率高。

传统的方法通常采用语言模型来对候选词语进行排序。通常,语言模型计算候选词语出现在一句话中的语言模型分数,基于语言模型分数对候选词语进行排序。

传统的方法存在的问题是给出的候选词语的排序与用户真实意图存在差距。

本发明致力于解决上述问题,提高候选词语的命中率,改善用户体验。



技术实现要素:

在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。

本发明的目的是提出一种对输入法的候选词语进行排序的方法和设备。根据本发明的方法和设备,排在靠前位置的候选词语是用户希望输入的词语的概率大,用户体验好。

为了实现上述目的,根据本发明的一个方面,提供了一种输入法的候选词语排序方法,该方法包括:获得与当前输入对应的多个候选词语;确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度;以及根据所确定的语义相关度,对多个候选词语进行排序;其中,确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度包括:针对每一个候选词语,计算其语义向量与参考词语的语义向量的相似度之和或平均相似度,作为所述语义相关度;其中,所述每一个候选词语的语义向量通过如下步骤获得:将所述每一个候选词语链接到预定知识库中的一个或多个候选实体;以及将所述候选实体的描述输入到语义模型,以得到对应的语义向量。

根据本发明的另一个方面,提供了一种输入法的候选词语排序设备,该设备包括:候选词语获得装置,被配置为:获得与当前输入对应的多个候选词语;语义相关度确定装置,被配置为:确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度;以及排序装置,被配置为:根据所确定的语义相关度,对多个候选词语进行排序;其中,所述语义相关度确定装置包括:第一语义向量获得单元,被配置为:将所述每一个候选词语链接到预定知识库中的一个或多个候选实体;以及将所述候选实体的描述输入到语义模型,以得到对应的语义向量,作为所述每一个候选词语的语义向量;以及相似度计算单元,被配置为:针对每一个候选词语,计算其语义向量与参考词语的语义向量的相似度之和或平均相似度,作为所述语义相关度。

根据本发明的又一方面,提供了一种信息处理设备。所述信息处理设备包括:控制器,被配置为:获得与当前输入对应的多个候选词语;确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度;以及根据所确定的语义相关度,对多个候选词语进行排序;其中,确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度包括:针对每一个候选词语,计算其语义向量与参考词语的语义向量的相似度之和或平均相似度,作为所述语义相关度;其中,所述每一个候选词语的语义向量通过如下步骤获得:将所述每一个候选词语链接到预定知识库中的一个或多个候选实体;以及将所述候选实体的描述输入到语义模型,以得到对应的语义向量。

另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。

此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。

附图说明

参照下面结合附图对本发明的实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:

图1示出了根据本发明的实施例的输入法的候选词语排序方法的流程图。

图2示出了根据本发明的实施例的候选词语的语义向量获得方法的流程图。

图3示出了根据本发明的实施例的参考词语的语义向量获得方法的流程图。

图4示出了根据本发明的实施例的输入法的候选词语排序设备的结构方框图。

图5示出了根据本发明的实施例的语义相关度确定装置42的结构方框图。

图6示出了根据本发明的信息处理设备的结构方框图。

图7示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。

在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。

本发明的基本思想包括引入语义信息来帮助确定候选词语的排序,采用实体链接技术来确定语义信息,将参考词语的范围扩大到段落、篇章级别。在用户输入的段落、篇章级的词语之间存在较强的语义关联的情况下,本发明的效果尤其好。

举例来说,用户输入一篇关于乔布斯时代的苹果公司的文章,其中,可能出现的关键词包括:乔布斯、手机、iphone、ipad等。这些关键词之间具有较为紧密的语义关联。当输入法检测到拼音输入“ping’guo”时,例如,产生候选词汇“苹果”、“平锅”、“平果”等。根据本发明的方法和设备能够判断出“苹果”相对于“平锅”、“平果”等与历史输入的词汇之间具有更高的语义相关性,将“苹果”排在靠前位置。

应注意,在本文中,输入法包括拼音输入法和语音输入法,输入法的输入对应包括拼音输入和声码输入。

下面将参照图1描述根据本发明的实施例的输入法的候选词语排序方法的流程。

图1示出了根据本发明的实施例的输入法的候选词语排序方法的流程图。如图1所示,根据本发明的实施例的输入法的候选词语排序方法包括如下步骤:获得与当前输入对应的多个候选词语(步骤s1);确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度(步骤s2);根据所确定的语义相关度,对多个候选词语进行排序(步骤s3);其中,确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度包括:针对每一个候选词语,计算其语义向量与参考词语的语义向量的相似度之和或平均相似度,作为所述语义相关度;其中,所述每一个候选词语的语义向量通过如下步骤获得:将所述每一个候选词语链接到预定知识库中的一个或多个候选实体;以及将所述候选实体的描述输入到语义模型,以得到对应的语义向量。

在步骤s1中,获得与当前输入对应的多个候选词语。

步骤s1是输入法的常规步骤,例如可根据词库实现。词库例如是基于本地存储器中的词库、基于云端的词库等。

在步骤s2中,确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度。

当刚开始输入第一个词语时,没有参考词语,可根据现有技术处理。例如,随机排列候选词语、根据候选词语在过去的使用频率进行排序等。

当输入第二个词语时,第一个经用户确认了输入的词语就成为了参考词语。依次类推,在随后输入词语时,之前已输入的所有词语都可作为参考词语。

在本发明中,参考词语包括之前短时间内输入的局部参考词语和/或之前长时间内输入的篇章级或段落级的参考词语。在传统的基于语言模型的方法中,仅使用局部参考词语,并且要求局部参考词语连续。在本发明中,由于利用语义信息,因此,可以使用之前长时间内输入的篇章级或段落级的参考词语,并不要求参考词语连续。参考词语的获取可通过上下文窗口来实现。调节上下文窗口的大小,能够控制参考词语的范围。

确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度的具体做法是:针对每一个候选词语,计算其语义向量与参考词语的语义向量的相似度之和或平均相似度,作为所述语义相关度。

每一个候选词语的语义向量可以通过如下方法获得。

如图2所示,在步骤s21中,将所述每一个候选词语链接到预定知识库中的一个或多个候选实体。

知识库例如是dbpedia、freebase、wordnet等。知识库中包括实体和实体之间的关系,实体之间的关系是语义关系。实体链接技术是现有技术,可实现将候选词语链接到预定知识库中的一个或多个候选实体。例如,通过计算候选词语与知识库中的实体的字符串如实体名的编辑距离,将候选词语链接到编辑距离小于设定相似度阈值的候选实体。本发明利用知识库中的语义信息来作为候选词语的语义信息,具体地,将链接到的一个或多个候选实体的语义信息,作为候选词语的语义信息。

然而,实体之间的链接结构过于稀疏,不利于计算语义相关度。因此,将代表候选词语的语义信息的、所链接到的一个或多个候选实体的语义信息映射到低维度向量空间中的一个点集。

具体地,在步骤s22中,将所述候选实体的描述输入到语义模型,以得到对应的语义向量。

假设共有5个候选词语,这5个候选词语分别链接到的候选实体的个数为1、2、3、3、5。则将1+2+3+3+5=14个候选实体的描述分别输入到语义模型中,得到14个语义向量。在后面的步骤中,将这14个语义向量分别与参考词语的语义向量进行相似度的比较。

实体的描述基于知识库中与实体相关联的三元组。三元组的<s,p,o>描述了知识库中的一个事实(fact),由主语、谓语和宾语构成,主语和宾语为知识库中的实体,谓语是知识库中的主语和谓语的关系。一个实体的三元组包括该实体(作为主语或宾语)、与该实体存在关系的其它实体(作为宾语或主语)、两者之间的关系(谓语)。

例如,实体“appleinc.”的三元组集合如下,其中每一行是一个三元组。

http://dbpedia.org/resource/apple_inc.http://www.w3.org/1999/02/22-rdf-syntax-ns#typehttp://www.w3.org/2002/07/owl#thing

http://dbpedia.org/resource/apple_inc.http://www.w3.org/1999/02/22-rdf-syntax-ns#typehttp://www.ontologydesignpatterns.org/ont/dul/dul.owl#agent

http://dbpedia.org/resource/apple_inc.http://www.w3.org/1999/02/22-rdf-syntax-ns#typehttp://www.ontologydesignpatterns.org/ont/dul/dul.owl#socialperson

http://dbpedia.org/resource/apple_inc.http://purl.org/dc/terms/subjecthttp://dbpedia.org/resource/category:networking_hardware_companies

相应地,实体“appleinc.”(http://dbpedia.org/resource/apple_inc.)的描述如下。

{http://www.w3.org/2002/07/owl#thing,http://www.ontologydesignpatterns.org/ont/dul/dul.owl#agent,

http://www.ontologydesignpatterns.org/ont/dul/dul.owl#socialperson,…,http://dbpedia.org/resource/category:networking_hardware_companies,

http://www.w3.org/1999/02/22-rdf-syntax-ns#type,http://purl.org/dc/terms/subject}

应注意:在上述示例中,采用url的形式来构建描述,实际上也可以采用关键词的形式来构建描述。

例如,实体“appleinc.”(http://dbpedia.org/resource/apple_inc.)的描述也可以为{thing,agent,socialperson,networking_hardware_companies,type,subject}。

语义模型包括但不限于:lda(latentdirichletallocation,潜在狄利克雷分配)、lsa(latentsemanticanalysis,潜在语义分析)、plsa(probabilitylatentsemanticanalysis,概率潜在语义分析)、神经网络等。

语义模型可以将输入的文本(在本发明中为实体的描述)转换为语义主题分布(在本发明中为语义向量),实现降维的目的。语义模型基于知识库训练,其维度取决于知识库的规模。

参考词语的语义向量通过如下步骤获得。

如图3所示,在步骤s31中,将所述参考词语中的每一个参考词语链接到知识库中的一个或多个候选实体。

该步骤类似于步骤s21,同样可采用实体链接技术实现。

在步骤s32中,将所述候选实体的描述输入到语义模型,以得到对应的语义向量。

该步骤类似于步骤s22,在此不再赘述其细节。

在步骤s33中,穷举所得到的语义向量的各种组合,以获得多组语义向量,每组语义向量一一对应于所述参考词语中的所有参考词语。

假设存在m个参考词语,每个参考词语都链接到n个候选实体,则总共有m*n个参考词语的候选实体(假设没有重复),得到m*n个参考词语的候选实体的语义向量,其中,m个参考词语中的每一个参考词语都具有n个语义向量。

参考词语的语义向量的每个组合包括m个语义向量,分别对应于m个参考词语,组合的总数为nm

在步骤s34中,从所获得的多组语义向量中,确定一组语义向量作为所述参考词语的语义向量,使得该组语义向量中的所有语义向量的两两相似度的总和相比于其它组语义向量的两两相似度总和更大。

每组语义向量中的所有语义向量的两两相似度的总和表明该组语义向量的整体的置信度。选择置信度最大的语义向量组合作为参考词语的语义向量。语义向量的相似度计算可采用余弦夹角的方式进行。

在如上所述得到多个候选词语中的每一个候选词语的多个语义向量、多个参考词语的语义向量之后,针对每一个候选词语,计算其语义向量与参考词语的语义向量的相似度之和或平均相似度,作为该候选词语与参考词语之间的语义相关度。

在步骤s3中,根据所确定的语义相关度,对多个候选词语进行排序。

候选词语的语义相关度越大,排序位置越靠前。

传统的语言模型无法对长距离,如段落级或篇章级的词语搭配进行建模,因此,无法利用更大范围的参考词语的信息。另外,传统的语言模型仅基于从训练语料得来的词语之间的共现概率,并未考虑语义关联。根据本发明的方法通过引入语义相关度帮助确定候选词语的顺序,此外还扩大了参考词语的范围。相应地,候选词语的命中率高,用户体验好。

在另一实施例中,还根据基于连续的局部参考词语与多个候选词语中的每一个候选词语的共现概率的语言模型得分,对多个候选词语进行排序。

也就是说,还可以引入语言模型得分,将语言模型得分与语义相关度进行加权求和,得到候选词语的评价值,根据候选词语的评价值对候选词语进行排序。

语言模型得分取决于候选词语与参考词语之间的共现概率,共现概率基于在训练语料中共同出现的次数等信息,要求参考词语是局部的(即最近输入的,如同一句中的、同一捕获窗口内的)、连续的。

通过在语义相关度的基础上进一步引入语言模型得分,可以进一步提高用户体验。

另外,还可以将最大语义相关度对应的候选实体,确定为当前输入对应的实体。该实体表明当前输入的语义特性。例如,即便将当前输入确定为“苹果”,“苹果”依然至少存在着两种语义:作为科技公司的“苹果”和作为水果的“苹果”。通过最大语义相关度,可以确定出唯一的实体,明确当前输入是作为科技公司的“苹果”还是作为水果的“苹果”。这有助于输入法的其它应用,如用户偏好信息的积累,可统计分析用户对科技类更感兴趣还是对美食类更感兴趣等。

下面,将参照图4描述根据本发明的实施例的输入法的候选词语排序设备。

图4示出了根据本发明的实施例的输入法的候选词语排序设备的结构方框图。图5示出了根据本发明的实施例的语义相关度确定装置42的结构方框图。如图4、5所示,根据本发明的输入法的候选词语排序设备400包括:候选词语获得装置41,被配置为:获得与当前输入对应的多个候选词语;语义相关度确定装置42,被配置为:确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度;以及排序装置43,被配置为:根据所确定的语义相关度,对多个候选词语进行排序;其中,所述语义相关度确定装置42包括:第一语义向量获得单元421,被配置为:将所述每一个候选词语链接到预定知识库中的一个或多个候选实体;以及将所述候选实体的描述输入到语义模型,以得到对应的语义向量,作为所述每一个候选词语的语义向量;以及相似度计算单元423,被配置为:针对每一个候选词语,计算其语义向量与参考词语的语义向量的相似度之和或平均相似度,作为所述语义相关度。

在一个实施例中,所述参考词语包括之前短时间内输入的局部参考词语和/或之前长时间内输入的篇章级或段落级的参考词语。

在一个实施例中,语义相关度确定装置42还包括:实体确定装置424,被配置为:将最大语义相关度对应的候选实体,确定为当前输入对应的实体。

在一个实施例中,语义相关度确定装置42还包括:第二语义向量获取单元422,被配置为:将所述参考词语中的每一个参考词语链接到知识库中的一个或多个候选实体;将所述候选实体的描述输入到语义模型,以得到对应的语义向量;穷举所得到的语义向量的各种组合,以获得多组语义向量,每组语义向量一一对应于所述参考词语中的所有参考词语;以及从所获得的多组语义向量中,确定一组语义向量作为所述参考词语的语义向量,使得该组语义向量中的所有语义向量的两两相似度的总和相比于其它组语义向量的两两相似度总和更大。

在一个实施例中,所述排序装置43被进一步配置为:根据所确定的语义相关度、基于连续的局部参考词语与多个候选词语中的每一个候选词语的共现概率的语言模型得分,对多个候选词语进行排序。

在一个实施例中,所述输入法包括拼音输入法和语音输入法,所述输入对应包括拼音输入和声码输入。

由于在根据本发明的候选词语排序设备400中所包括的各个装置和单元中的处理分别与上面描述的方法中所包括的各个步骤中的处理类似,因此为了简洁起见,在此省略这些装置和单元的详细描述。

另外,根据本发明的再一方面,如图6所示,提供了一种信息处理设备600。该信息处理设备600包括控制器601,被配置为:获得与当前输入对应的多个候选词语;确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度;以及根据所确定的语义相关度,对多个候选词语进行排序;其中,确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度包括:针对每一个候选词语,计算其语义向量与参考词语的语义向量的相似度之和或平均相似度,作为所述语义相关度;其中,所述每一个候选词语的语义向量通过如下步骤获得:将所述每一个候选词语链接到预定知识库中的一个或多个候选实体;以及将所述候选实体的描述输入到语义模型,以得到对应的语义向量。

此外,这里尚需指出的是,上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图7所示的通用计算机700)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。

图7示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。

在图7中,中央处理单元(cpu)701根据只读存储器(rom)702中存储的程序或从存储部分708加载到随机存取存储器(ram)703的程序执行各种处理。在ram703中,还根据需要存储当cpu701执行各种处理等等时所需的数据。cpu701、rom702和ram703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件连接到输入/输出接口705:输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器,比如阴极射线管(crt)、液晶显示器(lcd)等,和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡比如lan卡、调制解调器等)。通信部分709经由网络比如因特网执行通信处理。根据需要,驱动器710也可连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。

本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(cd-rom)和数字通用盘(dvd))、磁光盘(包含迷你盘(md)(注册商标))和半导体存储器。或者,存储介质可以是rom702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明的实施例的方法。

相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。

应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

附记

1.一种输入法的候选词语排序方法,包括:

获得与当前输入对应的多个候选词语;

确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度;以及

根据所确定的语义相关度,对多个候选词语进行排序;

其中,确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度包括:针对每一个候选词语,计算其语义向量与参考词语的语义向量的相似度之和或平均相似度,作为所述语义相关度;

其中,所述每一个候选词语的语义向量通过如下步骤获得:

将所述每一个候选词语链接到预定知识库中的一个或多个候选实体;以及

将所述候选实体的描述输入到语义模型,以得到对应的语义向量。

2.如附记1所述的方法,其中,所述参考词语包括之前短时间内输入的局部参考词语和/或之前长时间内输入的篇章级或段落级的参考词语。

3.如附记1所述的方法,还包括:

将最大语义相关度对应的候选实体,确定为当前输入对应的实体。

4.如附记1所述的方法,其中,所述参考词语的语义向量通过如下步骤获得:

将所述参考词语中的每一个参考词语链接到知识库中的一个或多个候选实体;

将所述候选实体的描述输入到语义模型,以得到对应的语义向量;

穷举所得到的语义向量的各种组合,以获得多组语义向量,每组语义向量一一对应于所述参考词语中的所有参考词语;以及

从所获得的多组语义向量中,确定一组语义向量作为所述参考词语的语义向量,使得该组语义向量中的所有语义向量的两两相似度的总和相比于其它组语义向量的两两相似度总和更大。

5.如附记2所述的方法,其中,还根据基于连续的局部参考词语与多个候选词语中的每一个候选词语的共现概率的语言模型得分,对多个候选词语进行排序。

6.如附记1所述的方法,其中,所述输入法包括拼音输入法和语音输入法,所述输入对应包括拼音输入和声码输入。

7.一种输入法的候选词语排序设备,包括:

候选词语获得装置,被配置为:获得与当前输入对应的多个候选词语;

语义相关度确定装置,被配置为:确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度;以及

排序装置,被配置为:根据所确定的语义相关度,对多个候选词语进行排序;

其中,所述语义相关度确定装置包括:

第一语义向量获得单元,被配置为:

将所述每一个候选词语链接到预定知识库中的一个或多个候选实体;以及

将所述候选实体的描述输入到语义模型,以得到对应的语义向量,作为所述每一个候选词语的语义向量;以及

相似度计算单元,被配置为:针对每一个候选词语,计算其语义向量与参考词语的语义向量的相似度之和或平均相似度,作为所述语义相关度。

8.如附记7所述的设备,其中,所述参考词语包括之前短时间内输入的局部参考词语和/或之前长时间内输入的篇章级或段落级的参考词语。

9.如附记7所述的设备,还包括:实体确定装置,被配置为:将最大语义相关度对应的候选实体,确定为当前输入对应的实体。

10.如附记7所述的设备,其中,所述语义相关度确定装置还包括:第二语义向量获取单元,被配置为:

将所述参考词语中的每一个参考词语链接到知识库中的一个或多个候选实体;

将所述候选实体的描述输入到语义模型,以得到对应的语义向量;

穷举所得到的语义向量的各种组合,以获得多组语义向量,每组语义向量一一对应于所述参考词语中的所有参考词语;以及

从所获得的多组语义向量中,确定一组语义向量作为所述参考词语的语义向量,使得该组语义向量中的所有语义向量的两两相似度的总和相比于其它组语义向量的两两相似度总和更大。

11.如附记8所述的设备,其中,所述排序装置被进一步配置为:根据所确定的语义相关度、基于连续的局部参考词语与多个候选词语中的每一个候选词语的共现概率的语言模型得分,对多个候选词语进行排序。

12.如附记7所述的设备,其中,所述输入法包括拼音输入法和语音输入法,所述输入对应包括拼音输入和声码输入。

13.一种信息处理设备,包括:

控制器,被配置为:

获得与当前输入对应的多个候选词语;

确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度;以及

根据所确定的语义相关度,对多个候选词语进行排序;

其中,确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度包括:针对每一个候选词语,计算其语义向量与参考词语的语义向量的相似度之和或平均相似度,作为所述语义相关度;

其中,所述每一个候选词语的语义向量通过如下步骤获得:

将所述每一个候选词语链接到预定知识库中的一个或多个候选实体;以及

将所述候选实体的描述输入到语义模型,以得到对应的语义向量。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1