跨语言获取搜索资源的方法和装置及对应搜索方法和装置的制作方法

文档序号:6554968阅读:250来源:国知局
专利名称:跨语言获取搜索资源的方法和装置及对应搜索方法和装置的制作方法
跨语言获取搜索资源的方法和装置及对应搜索方法和装置技术领域
本发明涉及计算机技术领域,特别涉及一种跨语言获取搜索资源的方法和装置及对应搜索方法和装置。
背景技术
框计算是2009百度技术创新大会上提出的全新技术,为用户提供基于互联网的一站式服务。用户只要在系统中输入请求,系统就能够明确识别出用户需求,并按照需求将用户的请求分配给最优的应用或资源提供商进行处理,并将处理后得到的结果返回给用户。当框计算应用于搜索领域时,搜索系统能够识别出用户输入的搜索请求(query)的需求,例如识别出query所对应的具体领域,然后利用该query在该领域对应的资源库中进行搜索,并将搜索结果返回给用户,从而为用户提供该领域中更加专业的信息。然而,在现有基于框计算的搜索技术中,搜索所使用的资源库通常是单语的资源库,例如,针对旅游领域,搜索所使用的资源库为中文网站提供的旅游领域的资源,但在很多情况下,单语的资源库提供的资源并不优质或者资源很少。例如,如果用户输入query“巴黎旅游”,搜索系统识别出该query对应旅游领域,显然法文网站提供的资源可能更多且更优质,而现有搜索所使用的资源库仅为中文网站提供的旅游领域的资源,因此搜索效果较差。

发明内容本发明提供了一种跨语言获取搜索资源的方法和装置及对应搜索方法和装置,以便于为用户提供更多、更优质的搜索资源,提高搜索效果。具体技术方案如下—种跨语言获取搜索资源的方法,该方法包括A、确定目标领域D ;B、利用目标领域D的已有第一语言资源Set (C),结合特征抽取技术以及从第一语言到第二语言的机器翻译技术,确定目标领域D的第二语言特征向量FeaVec_F ;C、对第二语言的通用语料资源库Cor(F)中的各资源进行特征抽取,得到各资源的特征向量FeaVec_di ;D、从所述Cor(F)中筛选出特征向量FeaVec_di与所述FeaVec_F之间相似度超过预设阈值T的资源SetD (F);
E、将所述SetD(F)添加入所述目标领域D的搜索资源库RDB(C)。所述步骤B具体包括B11、利用从第一语言到第二语言的机器翻译技术,将所述目标领域D的已有第一语言资源Set (C)翻译成第二语言资源Set (F);B12、对所述Set(F)进行特征抽取,得到所述目标领域D的第二语言特征向量FeaVec—F。或者,所述步骤B具体包括B21、对所述目标领域D的已有第一语言资源Set (C)进行特征抽取,得到所述目标领域D的第一语言特征向量FeaVec_C ;B22、利用从第一语言到第二语言的机器翻译技术,将所述FeaVec_C翻译成所述目标领域D的第二语言特征向量FeaVec_F。上述特征抽取具体包括
SI、对被抽取资源进行基于文本的分词处理,利用预设的停用词表对分词处理后得到的词语进行过滤后得到所述被抽取资源的特征词;S2、按照『00 = tfie,Set)xlog,计算各特征词的权重值;S3、按照各特征词的权重值进行排序,选择排在前NI个的特征词组成目标领域D的特征向量,NI为预设的正整数;其中,W(e)为特征词e的权重值,f(e,Set)为特征词e在所述被抽取资源中出现的频次;freq(e)为特征词e的绝对词频,从所述被抽取资源所对应语种的通用语料资源库中统计得到;Freq为所有特征词的绝对词频的最大值;当所述被抽取资源为所述Set(F)时,所述被抽取资源所对应语种为所述第二语言,所述步骤S3得到的特征向量为所述FeaVec_F ;当所述被抽取资源为所述Set(C)时,所述被抽取资源所对应语种为所述第一语言,所述步骤S3得到的特征向量为所述FeaVec_C。当所述被抽取资源为所述Cor(F)中的各资源时,所述被抽取资源所对应语种为所述第二语言,所述步骤S3得到的特征向量为所述Cor(F)中各资源的特征向量FeaVec_
di0另外,所述步骤E具体包括E11、基于预设的目标领域D的资源挖掘模板,从所述SetD(F)中挖掘出资源RscD(F);E12、将所述RscD (F)添加入所述目标领域D的搜索资源库RDB (C);其中,所述资源挖掘模板包括一个以上实例构成的实例集合,所述实例包含信息类型和信息表达式中的一种或组合。 其中,所述步骤E12具体包括结合从第二语言到第一语言的机器翻译技术,将所述RscD(F)翻译为第一语言的资源 Rsc (C);将所述Rsc (C)添加入所述目标领域D的搜索资源库RDB (C)。或者,所述步骤E具体包括E21、结合从第二语言到第一语言的机器翻译技术,将所述SetD(F)翻译为第一语言的资源SetD(C);E22、将所述SetD (C)添加入所述目标领域D的搜索资源库RDB (C)。 具体地,所述翻译所使用的翻译模型由翻译短语表构成,该翻译短语表包括第一 语言短语和对应第二语言短语构成的短语对,以及,短语对的翻译分值;
所述翻译短语表中整合有所述目标领域的翻译词典。其中,将所述目标领域的翻译词典整合到所述翻译短语表中包括将所述目标领域的翻译词典中的词对作为短语对逐一添加到所述翻译短语表中;其中,如果所述翻译短语表中尚未包含被添加的词对,则将所述被添加的词对添加到所述翻译短语表中,且所述被添加的词对在所述翻译短语表中的翻译分值SPT(ce)为SPT(ce)=Sdict (ce) Xrate ;如果所述翻译短语表中已经包含所述被添加的词对,贝U不做添加处理;所述Sdirt(Ce)为所述被添加的词对ce在所述翻译词典中的翻译分值,rate为从
所述翻译词典到所述翻译短语表的翻译分值比,
权利要求
1.一种跨语言获取搜索资源的方法,其特征在于,该方法包括 A、确定目标领域D; B、利用目标领域D的已有第一语言资源Set(C),结合特征抽取技术以及从第一语言到第二语言的机器翻译技术,确定目标领域D的第二语言特征向量FeaVec_F ; C、对第二语言的通用语料资源库Cor(F)中的各资源进行特征抽取,得到各资源的特征向量 FeaVec^di ; D、从所述Cor(F)中筛选出特征向量FeaVec_di与所述FeaVec_F之间相似度超过预设阈值T的资源SetD (F); E、将所述SetD(F)添加入所述目标领域D的搜索资源库RDB(C)。
2.根据权利要求I所述的方法,其特征在于,所述步骤B具体包括 BH、利用从第一语言到第二语言的机器翻译技术,将所述目标领域D的已有第一语言资源Set (C)翻译成第二语言资源Set (F); B12、对所述Set(F)进行特征抽取,得到所述目标领域D的第二语言特征向量FeaVec_F0
3.根据权利要求I所述的方法,其特征在于,所述步骤B具体包括 B21、对所述目标领域D的已有第一语言资源Set(C)进行特征抽取,得到所述目标领域D的第一语言特征向量FeaVec_C ; B22、利用从第一语言到第二语言的机器翻译技术,将所述FeaVec_C翻译成所述目标领域D的第二语言特征向量FeaVec_F。
4.根据权利要求1、2或3所述的方法,其特征在于,所述特征抽取具体包括 51、对被抽取资源进行基于文本的分词处理,利用预设的停用词表对分词处理后得到的词语进行过滤后得到所述被抽取资源的特征词; 52、按照『00= Set)xlog,计算各特征词的权重值; 53、按照各特征词的权重值进行排序,选择排在前NI个的特征词组成目标领域D的特征向量,NI为预设的正整数; 其中,W(e)为特征词e的权重值,f (e,Set)为特征词e在所述被抽取资源中出现的频次;freq(e)为特征词e的绝对词频,从所述被抽取资源所对应语种的通用语料资源库中统计得到;Freq为所有特征词的绝对词频的最大值; 当所述被抽取资源为所述Set (F)时,所述被抽取资源所对应语种为所述第二语言,所述步骤S3得到的特征向量为所述FeaVec_F ; 当所述被抽取资源为所述Set(C)时,所述被抽取资源所对应语种为所述第一语言,所述步骤S3得到的特征向量为所述FeaVec_C ; 当所述被抽取资源为所述Cor(F)中的各资源时,所述被抽取资源所对应语种为所述第二语言,所述步骤S3得到的特征向量为所述Cor(F)中各资源的特征向量FeaVe^dit5
5.根据权利要求I所述的方法,其特征在于,所述步骤E具体包括 E11、基于预设的目标领域D的资源挖掘模板,从所述SetD(F)中挖掘出资源RscD (F); E12、将所述RscD (F)添加入所述目标领域D的搜索资源库RDB (C); 其中,所述资源挖掘模板包括一个以上实例构成的实例集合,所述实例包含信息类型和信息表达式中的一种或组合。
6.根据权利要求5所述的方法,其特征在于,所述步骤E12具体包括 结合从第二语言到第一语言的机器翻译技术,将所述RscD(F)翻译为第一语言的资源Rsc(C); 将所述Rsc (C)添加入所述目标领域D的搜索资源库RDB (C)。
7.根据权利要求I所述的方法,其特征在于,所述步骤E具体包括 E21、结合从第二语言到第一语言的机器翻译技术,将所述SetD(F)翻译为第一语言的资源 SetD(C); E22、将所述SetD(C)添加入所述目标领域D的搜索资源库RDB(C)。
8.根据权利要求2、3、6或7所述的方法,其特征在于,所述翻译所使用的翻译模型由翻译短语表构成,该翻译短语表包括第一语言短语和对应第二语言短语构成的短语对,以及,短语对的翻译分值; 所述翻译短语表中整合有所述目标领域的翻译词典。
9.根据权利要求8所述的方法,其特征在于,将所述目标领域的翻译词典整合到所述翻译短语表中包括 将所述目标领域的翻译词典中的词对作为短语对逐一添加到所述翻译短语表中;其中, 如果所述翻译短语表中尚未包含被添加的词对,则将所述被添加的词对添加到所述翻译短语表中,且所述被添加的词对在所述翻译短语表中的翻译分值SPT(ce)为SPT(ce)=Sdict (ce) Xrate ;如果所述翻译短语表中已经包含所述被添加的词对,则不做添加处理;所述Sdirf(Ce)为所述被添加的词对ce在所述翻译词典中的翻译分值,rate为从所述 翻译词典到所述翻译短语表的翻译分值比,
10.根据权利要求8所述的方法,其特征在于,将所述目标领域的翻译词典整合到所述翻译短语表中包括 将所述目标领域的翻译词典中的词对添加到双语平行语料库中; 将所述双语平行语料库中的句对以词语为单位对齐; 对所述双语平行语料库中的句对进行短语对的抽取,基于对抽取的短语对的统计结果计算各短语对的翻译分值; 将抽取的短语对以及短语对的翻译分值构成所述翻译短语表。
11.根据权利要求10所述的方法,其特征在于,将所述目标领域的翻译词典中的词对添加到双语平行语料库中具体包括 将所述翻译词典中的词对复制N份后,再添加到所述双语平行语料库中,其中N为预设的正整数。
12.根据权利要求2、6或7所述的方法,其特征在于,所述翻译基于预设的所述目标领域D的翻译表达模板执行; 其中所述目标领域D的翻译表达式模板中包括一个以上实例构成的实例集合; 所述实例为由第一语言表达式和对应第二语言表达式构成的表达式对。
13.一种基于跨语言获取的搜索资源的搜索方法,其特征在于,该方法包括 A、接收来自用户的搜索请求query; B、对所述query进行需求识别,识别出所述query所属的领域; C、在所识别出领域对应的搜索资源库中进行搜索; D、将搜索结果返回给所述用户; 其中,所述搜索资源库是采用权利要求I所述方法获取的。
14.根据权利要求13所述的方法,其特征在于,在所述搜索结果中如果不同来源的资源所提供同一类型信息的内容发生冲突,则从内容发生冲突的资源中选择置信度最高的资源包含在所述搜索结果中,或者,按照置信度从高到低在搜索结果中对内容发生冲突的资源进行排序。
15.根据权利要求14所述的方法,其特征在于,资源的置信度由以下所列置信度类型中的一种或任意组合确定 资源的来源网站置信度、资源的来源语种置信度以及资源的翻译置信度。
16.根据权利要求15所述的方法,其特征在于,资源的置信度按照如下公式确定 Mscored) = Yj^h ^r1) ;=1 其中,score (ri)为资源&的置信度,M为置信度类型数目,比(ri)为资源巧在第j种置信度类型的置信度,X ,为预设的各种置信度类型的权重参数。
17.根据权利要求15或16所述的方法,其特征在于,资源的来源语种置信度依据资源来源的语种与所述query所映射的语种之间的关系确定,具体为设置来源于所述query所映射语种的资源的来源语种置信度高于来源于其他语种的资源的来源语种置信度; 其中,所述query所映射语种的确定方法为 提取所述query的特征,将所述query的特征与预先训练出的各语种的特征向量进行相似度计算,确定相似度超过预设的相似度阈值的语种为所述query所映射的语种。
18.根据权利要求15所述的方法,其特征在于,所述资源的翻译置信度由在获取所述资源时使用的翻译模型中所述资源对应的翻译分值以及所述资源在语言模型中对应的分值确定。
19.一种跨语言获取搜索资源的装置,其特征在于,该装置包括领域确定单元、目标特征确定单元、特征抽取单元、资源筛选单元和资源添加单元; 所述领域确定单元,用于确定目标领域D ; 所述目标特征确定单元,用于利用目标领域D的已有第一语言资源Set (C),结合特征抽取技术以及从第一语言到第二语言的机器翻译技术,确定目标领域D的第二语言特征向量 FeaVec_F ; 所述特征抽取单元,用于将第二语言的通用语料资源库Cor(F)中的各资源作为被抽取资源进行特征抽取,得到各资源的特征向量FeaVe^di ; 所述资源筛选单元,用于从所述Cor(F)中筛选出特征向量FeaVec_di与所述FeaVec_F之间相似度超过预设阈值T的资源SetD (F); 所述资源添加单元,用于将所述SetD (F)添加入所述目标领域D的搜索资源库RDB (C)。
20.根据权利要求19所述的装置,其特征在于,所述目标特征确定单元具体包括第一翻译子单元和第一特征获取子单元; 所述第一翻译子单元,用于利用从第一语言到第二语言的机器翻译技术,将所述目标领域D的已有第一语言资源Set (C)翻译成第二语言资源Set (F),将所述Set (F)发送给所述特征抽取单元; 所述特征抽取单元,用于将所述Set(F)作为被抽取资源进行特征抽取,得到所述目标领域D的第二语言特征向量FeaVec_F ; 所述第一特征获取子单元,用于从所述特征抽取单元获取所述目标领域D的第二语言特征向量FeaVec_F。
21.根据权利要求19所述的装置,其特征在于,所述目标特征确定单元具体包括第二特征获取子单元和第二翻译子单元; 所述第二特征获取子单元,用于将所述Set(C)发送给所述特征抽取单元,从所述特征抽取单元获取所述目标领域D的第一语言特征向量FeaVec_C,并提供给所述第二翻译子单元; 所述特征抽取单元,用于将所述Set(C)作为被抽取资源进行特征抽取,得到所述目标领域D的第一语言特征向量FeaVec_C ; 所述第二翻译子单元,用于利用从第一语言到第二语言的机器翻译技术,将所述FeaVec_C翻译成所述目标领域D的第二语言特征向量FeaVec_F。
22.根据权利要求19、20或21所述的装置,其特征在于,所述特征抽取单元具体包括 分词处理子单元,用于对被抽取资源进行基于文本的分词处理; 过滤处理子单元,用于利用预设的停用词表对分词处理后得到的词语进行过滤后得到所述被抽取资源的特征词; 权重计算子单元,用于按照= Z/gSeOxlog^^,计算各特征词的权重值,其中,W(e)为特征词e的权重值,f(e,Set)为特征词e在所述被抽取资源中出现的频次;freq (e)为特征词e的绝对词频,从所述被抽取资源所对应语种的通用语料资源库中统计得到;Freq为所有特征词的绝对词频的最大值; 向量形成子单元,用于按照各特征词的权重值进行排序,选择排在前NI个的特征词组成目标领域D的特征向量,NI为预设的正整数; 当所述被抽取资源为所述Set (F)时,所述被抽取资源所对应语种为所述第二语言,所述向量形成子单元形成的特征向量为所述FeaVec_F ; 当所述被抽取资源为所述Set(C)时,所述被抽取资源所对应语种为所述第一语言,所述向量形成子单元形成的特征向量为所述FeaVec_C ; 当所述被抽取资源为所述Cor(F)中的各资源时,所述被抽取资源所对应语种为所述第二语言,所述向量形成子单元形成的特征向量为所述Cor(F)中各资源的特征向量FeaVec_di0
23.根据权利要求19所述的装置,其特征在于,所述资源添加单元包括资源挖掘子单元和资源添加子单元; 所述资源挖掘子单元,用于基于预设的目标领域D的资源挖掘模板,从所述SetD (F)中挖掘出资源RscD (F),并将所述RscD (F)发送给所述资源添加子单元; 所述资源添加子单元,用于将接收到的资源添加入所述目标领域D的搜索资源库RDB (C); 其中,所述资源挖掘模板包括一个以上实例构成的实例集合,所述实例包含信息类型和信息表达式中的一种或组合。
24.根据权利要求23所述的装置,其特征在于,所述资源添加单元还包括第三翻译子单元,用于获取所述资源挖掘子单元发送给所述资源添加子单元的RscD (F),结合从第二语言到第一语言的机器翻译技术,将所述RscD (F)翻译为第一语言的资源Rsc (C),并将所述Rsc(C)发送给所述资源添加子单元。
25.根据权利要求19所述的装置,其特征在于,所述资源添加单元包括第四翻译子单元和资源添加子单元; 所述第四翻译子单元,用于结合从第二语言到第一语言的机器翻译技术,将所述SetD(F)翻译为第一语言的资源SetD (C),并将所述SetD (C)发送给所述资源添加子单元;所述资源添加子单元,用于将接收到的资源添加入所述目标领域D的搜索资源库RDB (C)。
26.根据权利要求20、21、24或25所述的装置,其特征在于,所述翻译所使用的翻译模型由翻译短语表构成,该翻译短语表包括第一语言短语和对应第二语言短语构成的短语对,以及,短语对的翻译分值; 所述翻译短语表中整合有所述目标领域的翻译词典。
27.根据权利要求26所述的装置,其特征在于,该装置还包括第一翻译模型整合单元,用于将所述目标领域的翻译词典中的词对作为短语对逐一添加到所述翻译短语表中;其中, 如果所述翻译短语表中尚未包含被添加的词对,则将所述被添加的词对添加到所述翻译短语表中,且所述被添加的词对在所述翻译短语表中的翻译分值SPT(ce)为SPT(ce)=Sdict (ce) Xrate ;如果所述翻译短语表中已经包含所述被添加的词对,则不做添加处理;所述Sdirf(Ce)为所述被添加的词对ce在所述翻译词典中的翻译分值,rate为从所述 翻译词典到所述翻译短语表的翻译分值比,
28.根据权利要求26所述的装置,其特征在于,该装置还包括第二翻译模型整合单元,用于将所述目标领域的翻译词典中的词对添加到双语平行语料库中,将所述双语平行语料库中的句对以词语为单位对齐;对所述双语平行语料库中的句对进行短语对的抽取,基于对抽取的短语对的统计结果计算各短语对的翻译分值;将抽取的短语对以及短语对的翻译分值构成所述翻译短语表。
29.根据权利要求28所述的装置,其特征在于,所述第二翻译模型整合单元将所述翻译词典中的词对复制N份后,再添加到所述双语平行语料库中,其中N为预设的正整数。
30.根据权利要求20、24或25所述的装置,其特征在于,所述翻译基于预设的所述目标领域D的翻译表达模板执行; 其中所述目标领域D的翻译表达式模板中包括一个以上实例构成的实例集合; 所述实例为由第一语言表达式和对应第二语言表达式构成的表达式对。
31.一种基于跨语言获取的搜索资源的搜索装置,其特征在于,该搜索装置包括用户侧交互单元、领域识别单元和搜索处理单元; 所述用户侧交互单元,用于接收来自用户的搜索请求query,将所述搜索处理单元的搜索结果返回给所述用户; 所述领域识别单元,用于对所述query进行需求识别,识别出所述query所属的领域; 所述搜索处理单元,用于在所述领域识别单元所识别出领域对应的搜索资源库中进行搜索; 其中,所述搜索资源库是权利要求19所述装置获取的。
32.根据权利要求31所述的搜索装置,其特征在于,该搜索装置还包括冲突处理单元,用于在所述搜索结果中如果不同来源的资源所提供同一类型信息的内容发生冲突,则从内容发生冲突的资源中选择置信度最高的资源包含在所述搜索结果中,或者,按照置信度从高到低在搜索结果中对内容发生冲突的资源进行排序。
33.根据权利要求32所述的搜索装置,其特征在于,该搜索装置还包括资源置信度确定单元,用于根据以下所列置信度类型中的一种或任意组合确定资源的置信度资源的来源网站置信度、资源的来源语种置信度以及资源的翻译置信度。
34.根据权利要求33所述的搜索装置,其特征在于,所述资源置信度确定单元具体按照如下公式确定资源的置信度 Mscored) = Yj^h ^r1) ;=1 其中,score (ri)为资源&的置信度,M为置信度类型数目,比(ri)为资源巧在第j种置信度类型的置信度,X ,为预设的各种置信度类型的权重参数。
35.根据权利要求33或34所述的搜索装置,其特征在于,所述资源置信度确定单元依据资源来源的语种与所述query所映射的语种之间的关系确定资源的来源语种置信度,具体为设置来源于所述query所映射语种的资源的来源语种置信度高于来源于其他语种的资源的来源语种置信度; 所述搜索装置还包括映射语种确定单元,用于提取所述query的特征,将所述query的特征与预先训练出的各语种的特征向量进行相似度计算,确定相似度超过预设的相似度阈值的语种为所述query所映射的语种。
36.根据权利要求33所述的搜索装置,其特征在于,资源置信度确定单元利用在获取所述资源时使用的翻译模型中所述资源对应的翻译分值以及所述资源在语言模型中对应的分值,确定所述资源的翻译置信度。
全文摘要
本发明提供了一种跨语言获取搜索资源的方法和装置及对应搜索方法和装置,其中获取搜索资源的方法包括确定目标领域D;利用目标领域D的已有第一语言资源Set(C),结合特征抽取技术以及从第一语言到第二语言的机器翻译技术,确定目标领域D的第二语言特征向量FeaVec_F;对第二语言的通用语料资源库Cor(F)中的各资源进行特征抽取,得到各资源的特征向量FeaVec_di;从Cor(F)中筛选出特征向量FeaVec_di与FeaVec_F之间相似度超过预设阈值T的资源SetD(F);将SetD(F)添加入目标领域D的搜索资源库RDB(C)。通过本发明能够为用户提供更多、更优质的搜索资源,提高搜索效果。
文档编号G06F17/30GK102779135SQ201110124378
公开日2012年11月14日 申请日期2011年5月13日 优先权日2011年5月13日
发明者吴华, 柴春光, 赵世奇 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1