一种跨语言环境的检索结果排序方法、装置及电子设备与流程

文档序号:33625452发布日期:2023-03-28 20:23阅读:40来源:国知局
一种跨语言环境的检索结果排序方法、装置及电子设备与流程

1.本技术涉及信息检索排序技术领域,具体而言,涉及一种跨语言环境的检索结果排序方法、装置及电子设备。


背景技术:

2.在进行信息检索时,不可避免的涉及到对检索结果进行排序的问题,用户一般都希望能将最相关的检索结果信息排在最前面,以减少用户浏览筛选检索结果信息的时间,提高信息检索效率。然而现有的检索结果排序算法往往是针对面向倒排索引结构的精确匹配设计的,比如,bm25检索结果排序算法,不能适应跨语言环境的基于语义进行匹配的信息检索场景。


技术实现要素:

3.为了解决上述技术问题,本技术提供一种跨语言环境的检索结果排序方法、装置及电子设备。
4.第一方面,本技术实施例提供一种跨语言环境的检索结果排序方法,所述方法包括:
5.获取用于匹配目标语言文本的源语言关键字,其中,目标语言和源语言为不同的语言;
6.对所述源语言关键字进行分词处理,基于分词结果将所述源语言关键字划分为短关键字串或长关键字串;
7.在所述源语言关键字为所述短关键字串时,基于所述源语言关键字得到与所述源语言关键字对应的目标语言同义关键字组,采用所述目标语言同义关键字组对所述目标语言文本进行匹配,将包括所述目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本,计算所述目标语言同义关键字组中的关键字在所述目标语言匹配文本中的词频,根据所述词频对所述目标语言匹配文本进行排序;
8.在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集,根据所述源语言关键字对应的目标语言关键字和所述目标语言文本的可用分段集计算所述源语言关键字与所述目标语言文本的整体匹配参数,基于所述整体匹配参数筛选出与所述目标语言检索结果排序的目标语言匹配文本,并基于所述整体匹配参数对所述目标语言匹配文本进行排序。
9.在一种可能的实现方式中,所述在所述源语言关键字为所述短关键字串时,基于所述源语言关键字得到与所述源语言关键字对应的目标语言同义关键字组,采用所述目标语言同义关键字组对所述目标语言文本进行匹配,将包括所述目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本,计算所述目标语言同义关键字组中的关键字在所述目标语言匹配文本中的词频,根据所述词频对所述目标语言匹配文本进行排序的步骤,包括:
10.在所述源语言关键字为所述短关键字串时,采用同义词词典对所述源语言关键字进行词义扩展,得到所述源语言关键字的同义关键字组;
11.采用所述目标语言对所述同义关键字组中的关键字进行翻译,得到所述同义关键字组对应的目标语言同义关键字组;
12.将所述目标语言同义关键字组中的关键字依次输入不同的目标语言文本中进行模式匹配,得到不同所述目标语言文本与所述目标语言同义关键字组中的关键字的匹配信息,其中,所述匹配信息包括所述目标语言文本命中所述目标语言同义关键字组中的关键字、命中关键字的次数、命中关键字在所述目标语言文本中的位置及所述目标语言文本命中不同关键字的个数;
13.将存在所述匹配信息的目标语言文本作为所述源语言关键字的目标语言匹配文本;
14.根据所述匹配信息计算所述目标语言同义关键字组中的所有关键字在所述目标语言匹配文本中的词频,并基于所述词频对所述目标语言匹配文本进行排序。
15.在一种可能的实现方式中,在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集,根据所述源语言关键字对应的目标语言关键字和所述目标语言文本的可用分段集计算所述源语言关键字与所述目标语言文本的整体匹配参数,基于所述整体匹配参数筛选出与所述目标语言检索结果排序的目标语言匹配文本,并基于所述整体匹配参数对所述目标语言匹配文本进行排序的步骤,包括:
16.在所述源语言关键字为所述长关键字串时,采用所述目标语言对所述源语言关键字进行翻译得到目标语言关键字;
17.将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集;
18.计算所述目标语言关键字与所述可用分段集中各分段的整体语义累计匹配参数;
19.计算所述目标语言关键字与所述目标语言文本之间的整体相关性参数;
20.基于所述整体语义累计匹配参数和所述整体相关性参数计算得到所述目标语言关键字与所述目标语言文本之间的整体匹配度参数;
21.将所述整体匹配度参数与预设的匹配度阈值进行比较,在所述整体匹配度参数大于所述预设的匹配度阈值时,将所述目标语言文本作为与所述源语言检索结果排序的目标语言匹配文本;
22.根据各个所述目标语言匹配文本的整体匹配度参数,对所述各个所述目标语言匹配文本进行排序。
23.在一种可能的实现方式中,所述将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集的步骤,包括:
24.采用设定的第一类标点符号对所述目标语言文本进行分段处理,得到所述目标语言文本的初始分段集;
25.在所述初始分段集中分段的长度小于第一预设分段长度时,将所述分段过滤掉;
26.在所述初始分段集中分段的长度大于第二预设分段长度时,采用设定的滑动窗口长度和设定的滑动步长沿着所述分段的延伸方向滑动,对所述分段进行再次分段,并将同一所述分段经过再次分段处理所得到的多个分段标注为同一分段族,其中,所述第二预设
分段长度大于所述第一预设分段长度,所述第二预设分段长度大于所述滑动窗口长度;
27.将所述初始分段集中分段长度位于所述第一预设分段长度和所述第二预设分段长度之间的分段,以及再次分段后分段长度位于所述第一预设分段长度和所述第二预设分段长度之间的分段放入一分段集合中,得到所述目标语言文本的可用分段集。
28.在一种可能的实现方式中,所述计算所述目标语言关键字与所述可用分段集中各分段的整体语义累计匹配参数的步骤,包括:
29.采用同一目标语言关键字对所述目标语言文本的可用分段集逐段进行语义匹配,计算得到所述可用分段集中各分段与所述同一目标语言关键字之间的语义相似度值,将所述分段集中各分段与所述同一目标语言关键字之间的语义相似度值进行降序排列,将排序在预设名次之前的多个语义相似度值作为目标语义相似度值,其中,标注同一分段族的多个分段中只有语义相似度值最大的分段参与所述降序排列;
30.对所述目标语义相似度值进行归一化处理,得到目标归一化语义相似度值,其中,所述目标归一化语义相似度值等于所述目标语义相似度值与相似度理论的最小值之差与相似度理论最大值与相似度理论的最小值之差的比值;
31.基于所述目标归一化语义相似度值计算得到所述目标语言关键字与所述可用分段集中各分段的整体语义累计匹配参数。
32.在一种可能的实现方式中,所述基于所述整体语义累计匹配参数和所述整体相关性参数计算得到所述目标语言关键字与所述目标语言文本之间的整体匹配度参数的步骤,包括:
33.将所述整体相关性参数与一经验参数相乘后得到的积值与所述整体语义累计匹配参数相加,得到所述目标语言关键字与所述目标语言文本之间的整体匹配度参数;
34.所述整体匹配度参数m的表达式如下:
35.m=α*t+p
36.其中,α为经验参数,t为整体相关性参数,p为整体语义累计匹配参数,α根据所述目标语言关键字对所述目标语言文本的可用分段集逐段进行语义匹配时所使用的算法以及整体语义累计匹配参数p的表达式中k值进行调整;
37.整体语义累计匹配参数p的表达式如下:
[0038][0039]
n为语义相似度值进行降序排列时设定的排序在前的名次,li为语义相似度值进行降序排列时第i个语义相似度值进行归一化后的目标归一化语义相似度值,k为一经验参数。
[0040]
在一种可能的实现方式中,所述根据各个所述目标语言匹配文本的整体匹配度参数,对所述各个所述目标语言匹配文本进行排序的步骤,包括:
[0041]
针对同一目标语言关键字,根据与所述同一目标语言关键字匹配的各个所述目标语言匹配文本的整体匹配度参数,对与所述同一目标语言关键字匹配的各个所述目标语言匹配文本进行排序。
[0042]
第二方面,本技术实施例还提供一种跨语言环境的检索结果排序装置,所述装置
包括:
[0043]
获取模块,用于获取用于匹配目标语言文本的源语言关键字,其中,目标语言和源语言为不同的语言;
[0044]
分词与划分模块,用于对所述源语言关键字进行分词处理,基于分词结果将所述源语言关键字划分为短关键字串或长关键字串;
[0045]
第一匹配及排序模块,用于在所述源语言关键字为所述短关键字串时,基于所述源语言关键字得到与所述源语言关键字对应的目标语言同义关键字组,采用所述目标语言同义关键字组对所述目标语言文本进行匹配,将包括所述目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本,计算所述目标语言同义关键字组中的关键字在所述目标语言匹配文本中的词频,根据所述词频对所述目标语言匹配文本进行排序;
[0046]
第二匹配及排序模块,用于在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集,根据所述源语言关键字对应的目标语言关键字和所述目标语言文本的可用分段集计算所述源语言关键字与所述目标语言文本的整体匹配参数,基于所述整体匹配参数筛选出与所述目标语言检索结果排序的目标语言匹配文本,并基于所述整体匹配参数对所述目标语言匹配文本进行排序。
[0047]
第三方面,本技术实施例还提供一种电子设备,所述电子设备包括处理器、通信单元及计算机可读存储介质,所述处理器及所述计算机可读存储介质之间通过总线系统连接,所述通信单元用于与其他电子设备连接以实现相互之间的数据交互,所述计算机可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述计算机可读存储介质中的程序、指令或代码,以实现第一方面中任意一个可能的实现方式中的跨语言环境的检索结果排序方法。
[0048]
第四方面,本技术实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其被执行时,使得电子设备执行上述第一方面或者第一方面中任意一个可能的实现方式中的跨语言环境的检索结果排序方法。
[0049]
基于上述任意一个方面,本技术实施例提供的一种跨语言环境的检索结果排序方法、装置及电子设备,首先,获取用于匹配目标语言文本的源语言关键字;接着,对源语言关键字进行分词处理,将源语言关键字分类为短关键字串或长关键字串;然后,在源语言关键字为短关键字串时,通过词义扩展进行关键字跨语言匹配,并根据扩展词义在匹配结果中的词频对匹配结果进行排序;在语言关键字为长关键字串时,基于语义级模糊匹配技术进行源语言关键字跨语言匹配,计算得到源语言关键字与目标语言文本的整体匹配参数,根据整体匹配参数筛选与源语言关键字匹配的目标语言匹配文本,并基于整体匹配参数对目标语言匹配文本进行排序。上述方案可以采用不同的排序方法对与不同分类的源语言关键字匹配的目标语言匹配文本进行排序,解决基于精确匹配检索方式下的排序算法不能应用在跨语言环境的基于语义进行匹配的信息检索场景的问题。
附图说明
[0050]
为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要调用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这
些附图获得其它相关的附图。
[0051]
图1为本技术实施例提供的跨语言环境的检索结果排序方法的流程示意图;
[0052]
图2为图1中步骤s13的子步骤流程示意图;
[0053]
图3为图1中步骤s14的子步骤流程示意图;
[0054]
图4为本技术实施例提供的跨语言环境的检索结果排序装置的功能模块示意图;
[0055]
图5为本技术实施例提供的电子设备的可能结构示意图。
具体实施方式
[0056]
为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,应当理解,本技术中附图仅起到说明和描述的目的,并不用于限定本技术的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本技术中使用的流程图示出了根据本技术实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本技术内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
[0057]
另外,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本技术保护的范围。
[0058]
本技术实施例提供一种跨语言环境的检索结果排序方法用于解决背景技术中提及的技术问题,请参照图1,图1示例了本技术实施例提供的跨语言环境的检索结果排序方法的流程示意图,该跨语言环境的检索结果排序方法由电子设备执行,该方法中的部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除,跨语言环境的检索结果排序方法的详细步骤介绍如下。
[0059]
步骤s11,获取用于匹配目标语言文本的源语言关键字。
[0060]
在本技术实施例中,电子设备可以通过用户在显示界面上输入源语言关键字的方式获得源语言关键字,也可以通过导入包括源语言关键字的表获得源语言关键字。
[0061]
目标语言和源语言为不同的语言,例如,目标语言可以为英语,源语言可以为中文。
[0062]
步骤s12,对源语言关键字进行分词处理,基于分词结果将源语言关键字划分为短关键字串或长关键字串。
[0063]
在本步骤中,首先,在分词处理前,可以对源语言关键字中非检索用词(比如停用词)进行去除;接着,对源语言关键字采用最长分词策略进行分词,得到源语言关键字词序列;然后,基于源语言关键字词序列中包含的词数,将源语言关键字分类为短关键字串或长关键字串。
[0064]
在本技术实施例中,可以采用通用的分词工具或方法进行分词,以源语言为中文为例,可以采用基于双数组trie树法进行分词。短关键字串是包括的基本词的数量为一个的关键字串,长关键字串是包括的基本词的数量为至少两个的关键字串。
[0065]
步骤s13,在源语言关键字为短关键字串时,基于源语言关键字得到与源语言关键字对应的目标语言同义关键字组,采用目标语言同义关键字组对目标语言文本进行匹配,将包括目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本,计算目标语言同义关键字组中的关键字在目标语言匹配文本中的词频,根据词频对目标语言匹配文本进行排序。
[0066]
在源语言关键字为短关键字串时,对源语言关键字进行同义拓展,可以优化源语言关键字精确匹配的漏报问题,同时采用同义扩展后同义关键字组中的所有关键字在目标语言匹配文本中的词频进行排序,可以将与源语言关键字强相关的目标语言匹配文本排序在前,减少用户对检索结果的浏览筛选时间,提高信息检索的效率。
[0067]
步骤s14,在源语言关键字为长关键字串时,将目标语言文本进行分段处理得到目标语言文本的分段集,采用源语言关键字对应的目标语言关键字与分段集中的分段进行匹配,将包括与目标语言关键字匹配的分段所对应的目标语言文本作为目标语言匹配文本。
[0068]
在源语言关键字为长关键字串时,将目标语言文本进行分段处理得到目标语言文本的可用分段集,根据源语言关键字对应的目标语言关键字和目标语言文本的可用分段集计算源语言关键字与目标语言文本的整体匹配参数,基于整体匹配参数筛选出与目标语言检索结果排序的目标语言匹配文本,并基于整体匹配参数对目标语言匹配文本进行排序筛选时间,提高信息检索效率。进一步地,基于源语言关键字与目标语言文本的整体匹配参数对目标语言匹配文本进行排序,可以解决基于精确匹配检索方式下的排序算法在在跨语言环境的的信息检索场景下不可用的问题。
[0069]
进一步地,请参照图2,在本技术实施例中,步骤s13可以通过以下子步骤实现。
[0070]
子步骤s131,在源语言关键字为短关键字串时,采用同义词词典对源语言关键字进行词义扩展,得到源语言关键字的同义关键字组。
[0071]
同义词词典可以是成熟的自然语言处理(natural language processing,nlp)辅助工具,比如,在源语言为中文时,同义词词典可以是诸如《同义词词林》之类的辅助工具,可以理解的是,在本技术实施例中,同义关键字组可以包括源语言关键字和源语言关键字的同义词,也可以只包括源语言关键字本身。
[0072]
子步骤s132,采用目标语言对同义关键字组中的关键字进行翻译,得到同义关键字组对应的目标语言同义关键字组。
[0073]
在本技术实施例中,可以采用机器翻译工具对同义关键字组中的关键字进行翻译,并对翻译后目标语言同义关键字组中重复的结果进行去重处理,其中机器翻译工具可以采用现有成熟的翻译工具实现,在此就不再对其进行具体介绍。
[0074]
子步骤s133,将目标语言同义关键字组中的关键字依次输入不同的目标语言文本中进行模式匹配,得到不同目标语言文本与目标语言同义关键字组中的关键字的匹配信息。
[0075]
在该步骤中,采用精确匹配的方式进行模式匹配,示例性地,匹配方法可以采用ac算法、bm算法等精确单模式或多模式匹配算法。匹配信息包括目标语言文本命中目标语言同义关键字组中的关键字、命中关键字的次数、命中关键字在目标语言文本中的位置及目标语言文本命中不同关键字的个数等。
[0076]
子步骤s134,将存在匹配信息的目标语言文本作为源语言关键字的目标语言匹配
文本。
[0077]
子步骤s135,根据匹配信息计算所述目标语言同义关键字组中的所有关键字在目标语言匹配文本中的词频,并基于词频对所述目标语言匹配文本进行排序。
[0078]
进一步地,请参照图3,在本技术实施例中,步骤s14可以通过以下子步骤实现。
[0079]
子步骤s141,在源语言关键字为所述长关键字串时,采用目标语言对源语言关键字进行翻译得到目标语言关键字。
[0080]
子步骤s142,将目标语言文本进行分段处理得到目标语言文本的可用分段集。
[0081]
在本实施例中,子步骤s142可以通过以下方式实现。
[0082]
首先,采用设定的标点符号对去噪后的目标语言文本进行分段处理,得到目标语言文本的初始分段集。
[0083]
在本实施例中,设定的标点符号可以根据目标语言的不同进行设定,以目标语言为英语为例,设定的标点符号可以包括句号、感叹号、问号、制表符、分号及逗号中的一种或者多种组合。
[0084]
接着,在初始分段集中分段的长度小于第一预设分段长度时,将分段过滤掉。
[0085]
再接着,在初始分段集中分段的长度大于第二预设分段长度时,采用设定的滑动窗口长度和设定的滑动步长沿着所述分段的延伸方向滑动,对所述分段进行再次分段,并将同一分段经过再次分段处理所得到的多个分段标注为同一分段族。
[0086]
所述第二预设分段长度大于所述第一预设分段长度,所述第二预设分段长度大于所述滑动窗口长度,分段的延伸方向是指文本的行文方向,以中文或英文为例,文本的行文方向是从左至右,从上至下的顺序。以大于第二预设分段长度的分段的长度为5个单词,滑动窗口长度为3个单词,滑动步长为1个单词为例,在再次分段处理过程中,从滑动窗口的左端与待再次分段处理的分段的左端齐平开始,按照一个单词的滑动步长滑动滑动窗口,直到滑动窗口的右端与待再次分段处理的分段的右端齐平结束。上述长度为5个单词的分段可以再分段成3个包括3个单词的分段,并将该3个分段标注为同一分段族。
[0087]
然后,将初始分段集中分段长度位于第一预设分段长度和第二预设分段长度之间的分段,以及再次分段后分段长度位于所述第一预设分段长度和所述第二预设分段长度之间的分段放入一分段集合中,得到所述目标语言文本的可用分段集。
[0088]
进一步地,在本实施例中,所述第一预设分段长度为所述目标语言关键字串的长度与预设的第一经验参数的比值进行下取整处理后得到的整数,其中,第一经验参数大于1且小于或等于2。所述第二预设分段长度为所述目标语言关键字串的长度与预设的第二经验参数的积值进行上取整处理后得到的整数,其中,第二经验参数大于1且小于或等于2;所述设定的滑动窗口长度为所述目标语言关键字串的长度与预设的第三经验参数的和值,所述设定的滑动步长为1,其中,所述第三经验参数取值为0、1或者2。
[0089]
在一种可能的实施方式中,第一经验参数的取值可以为2,第二经验参数的取值可以为2,第三经验参数取值可以为1。
[0090]
子步骤s143,计算目标语言关键字与可用分段集中各分段的整体语义累计匹配参数。
[0091]
在本技术实施例中,子步骤s143可以通过以下方式实现。
[0092]
首先,采用所述同一目标语言关键字对所述目标语言文本的可用分段集逐段进行
语义匹配,计算得到所述可用分段集中各分段与所述同一目标语言关键字之间的语义相似度值。将所述可用分段集中各分段与所述同一目标语言关键字之间的语义相似度值进行降序排列,将排序在预设名次之前的多个语义相似度值作为目标语义相似度值,其中,标注同一分段族的多个分段中只有语义相似度值最大的分段参与所述降序排列。
[0093]
接着,对所述目标语义相似度值进行归一化处理,得到目标归一化语义相似度值,其中,所述目标归一化语义相似度值等于所述目标语义相似度值与相似度理论的最小值之差与相似度理论最大值与相似度理论的最小值之差的比值。
[0094]
最后,基于所述目标归一化语义相似度值计算得到所述目标语言关键字与所述可用分段集中各分段的整体语义累计匹配参数。
[0095]
在本实施例中,整体语义累计匹配参数p的表达式如下:
[0096][0097]
其中,n为语义相似度值进行降序排列时设定的排序在前的名次(比如n=5时,取排序前5的语义相似度值计算整体语义累计匹配参数),li为语义相似度值进行降序排列时第i个语义相似度。
[0098]
在本实施例中,若n大于可用分段集中分段的数量,可以将采用0替代缺失的语义相似度值。比如,在n=5而可用分段集中分段的数量为3时,可以采用两个0替代缺失的两个语义相似度值。
[0099]
子步骤s144,计算目标语言关键字与目标语言文本之间的整体相关性参数。
[0100]
在本技术实施例中,在向量空间模型(vsm)中,以词的词频-逆文本频率指数(tf-idf值)作为权重,计算目标语言关键字与目标语言文本之间的余弦相似度t,采用所述余弦相似度作为所述目标语言关键字与所述目标语言文本之间的整体相关性参数;其中,向量空间模型基于目标语言库中的语料集构建而成,示例性地,在目标语言为英语时,向量空间模型基于英文语料库选用newsgroups语料集进行构建,向量空间模型的空间维度可以设定,比如设置为5000维。
[0101]
子步骤s145,基于整体语义累计匹配参数和整体相关性参数计算得到目标语言关键字与目标语言文本之间整体匹配的匹配度参数。
[0102]
在本技术实施例中,将所述整体相关性参数与一经验参数相乘后得到的积值与所述整体语义累计匹配参数相加,得到所述目标语言关键字与所述目标语言文本之间的整体匹配度参数;
[0103]
所述整体匹配度参数m的表达式如下:
[0104]
m=α*t+p
[0105]
其中,α为经验参数,t为整体相关性参数,p为整体语义累计匹配参数,α根据所述目标语言关键字对所述目标语言文本的可用分段集逐段进行语义匹配时所使用的算法以及整体语义累计匹配参数p的表达式中k值进行调整,在本实施例中,α:k位于3:1和5:1之间,比如,α=3,k=1。
[0106]
子步骤s146,将整体匹配度参数与预设的匹配度阈值进行比较,在整体匹配度参数大于预设的匹配度阈值时,将目标语言文本作为与源语言关键字匹配的目标语言匹配文
本。
[0107]
例如,整体匹配度参数m与预设的匹配度阈值q进行比较,如果整体匹配度参数m大于预设的匹配度阈值q,则判定目标语言文本与源语言关键字匹配,并将目标语言文本作为与源语言关键字匹配的目标语言匹配文本;如果匹配度参数m小于或等于预设的匹配度阈值q,则判定目标语言文本与源语言关键字不匹配。其中,预设的匹配度阈值q为一经验值,预设的匹配度阈值q可以根据α以及语义相似度计算所使用的具体算法进行调整。
[0108]
子步骤s147,根据各个目标语言匹配文本的整体匹配度参数,对各个目标语言匹配文本进行排序。
[0109]
在本实施例中,针对同一目标语言关键字,根据与所述同一目标语言关键字匹配的各个所述目标语言匹配文本的整体匹配度参数,对与所述同一目标语言关键字匹配的各个所述目标语言匹配文本进行排序。
[0110]
在上述方案中,在所述源语言关键字为所述长关键字串时,基于整体语义累计匹配参数和整体相关性参数计算得到目标语言关键字与目标语言文本之间的整体匹配度参数,并采用整体匹配度参数对目标语言匹配文本进行排序,可以解决基于精确匹配检索方式下的排序算法不能应用在跨语言环境的基于语义进行匹配的信息检索场景的问题。
[0111]
请参照图4,图4为本技术实施例提供的跨语言环境的检索结果排序装置200的一种功能模块示意图,本技术实施例可以根据服务器执行的方法实施例对跨语言环境的检索结果排序装置200进行功能模块的划分,也即该跨语言环境的检索结果排序装置200所对应的以下各个功能模块可以用于执行上述各个方法实施例。其中,该跨语言环境的检索结果排序装置200可以包括获取模块210、分词与划分模块220、第一匹配及排序模块230及第二匹配及排序模块240。下面分别对该跨语言环境的检索结果排序装置200的各个功能模块的功能进行详细阐述。
[0112]
获取模块210,用于获取用于匹配目标语言文本的源语言关键字。
[0113]
在本技术实施例中,获取模块210可以通过用户在显示界面上输入源语言关键字的方式获得源语言关键字,也可以通过导入包括源语言关键字的表获得源语言关键字。
[0114]
目标语言和源语言为不同的语言,例如,目标语言可以为英语,源语言可以为中文。
[0115]
本技术实施例中,获取模块210可以用于执行上述的步骤s11,关于获取模块210的详细实现方式可以参照上述针对步骤s11的详细描述。
[0116]
分词与划分模块220,用于对源语言关键字进行分词处理,基于分词结果将源语言关键字划分为短关键字串或长关键字串。
[0117]
在本技术实施例中,分词与划分模块220通过以下过程实现。
[0118]
首先,在分词处理前,可以对源语言关键字中非检索用词(比如停用词)进行去除;接着,对源语言关键字采用最长分词策略进行分词,得到源语言关键字词序列;然后,基于源语言关键字词序列中包含的词数,将源语言关键字分类为短关键字串或长关键字串。
[0119]
在本技术实施例中,可以采用通用的分词工具或方法进行分词,以源语言为中文为例,可以采用基于双数组trie树法进行分词。短关键字串是包括的基本词的数量为一个的关键字串,长关键字串是包括的基本词的数量为至少两个的关键字串。
[0120]
本技术实施例中,分词与划分模块220可以用于执行上述的步骤s12,关于分词与
memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。其中,存储器110用于存储程序或者数据。
[0132]
总线130可以分为地址总线、数据总线、控制总线等。为便于表示,本技术附图中的总线并不限定仅有一根总线或一种类型的总线。
[0133]
在本技术实施例提供的交互场景中,通信单元140可用于与电子设备100及其他电子设备之间的通信,以实现电子设备100与其他电子设备之间的数据交互,比如,电子设备100通过通信单元140从其他电子设备中获取匹配的目标语言文本。
[0134]
此外,本技术实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的跨语言环境的检索结果排序方法。
[0135]
综上所述,本技术实施例提供的跨语言环境的检索结果排序方法、装置及电子设备,首先,获取用于匹配目标语言文本的源语言关键字;接着,对源语言关键字进行分词处理,将源语言关键字分类为短关键字串或长关键字串;然后,在源语言关键字为短关键字串时,通过词义扩展进行关键字跨语言匹配,并根据扩展词义在匹配结果中的词频对匹配结果进行排序;在语言关键字为长关键字串时,基于语义级模糊匹配技术进行源语言关键字跨语言匹配,计算得到源语言关键字与目标语言文本的整体匹配参数,根据整体匹配参数筛选与源语言关键字匹配的目标语言匹配文本,并基于整体匹配参数对目标语言匹配文本进行排序。上述方案可以采用不同的排序方法对与不同分类的源语言关键字匹配的目标语言匹配文本进行排序,解决基于精确匹配检索方式下的排序算法不能应用在跨语言环境的基于语义进行匹配的信息检索场景的问题。
[0136]
以上所描述的实施例仅仅是本技术的一部分实施例,而不是全部的实施例。通常在附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,在附图中提供的本技术的实施例的详细描述并非旨在限制本技术的保护范围,而仅仅是表示本技术的选定实施例。基于此,本技术的保护范围应以权利要求的保护范围为准。此外,基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例,都应属于本技术保护的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1