一种跨语言话题检测方法及系统与流程

文档序号:11950251阅读:来源:国知局

技术特征:

1.一种跨语言话题检测方法,其特征在于,包括以下步骤:

构建第一语言和第二语言的可比语料库;

基于所述第一语言和第二语言的可比语料库分别构建第一语言话题模型和第二语言话题模型;

在所述第一语言话题模型和第二语言话题模型生成的文档-话题概率分布的基础上通过相似度判定,以确定第一语言话题和第二语言话题的对齐,从而实现跨语言话题检测。

2.根据权利要求1所述的方法,其特征在于,所述构建第一语言和第二语言的可比语料库的步骤包括:

通过计算所述第一语言和所述第二语言的文档相似度来构建第一语言和第二语言的可比语料库。

3.根据权利要求2所述的方法,其特征在于,所述计算所述第一语言和所述第二语言的文档相似度步骤包括:

对第一语言的关键词和第二语言的关键词进行词向量的语义距离计算,以提高所述第一语言和所述第二语言的相似度计算准确率。

4.根据权利要求1所述的方法,其特征在于,所述基于所述第一语言和第二语言的可比语料库分别构建第一语言话题模型和第二语言话题模型的步骤包括:

在第一语言和第二语言的可比语料的基础上,构建文档主题生成LDA话题模型,通过吉布斯抽样法对所述LDA话题模型进行参数估计,抽取第一语言话题和第二语言话题。

5.根据权利要求1所述的方法,其特征在于,所述在所述第一语言话题模型和第二语言话题模型生成的文档-话题概率分布的基础上通过相似度判定,以确定第一语言话题和第二语言话题的对齐的步骤包括:

将事先通过文本相似度计算构建出的m对第一语言和第二语言可比新闻文档,作为索引文档集;

对于第一语言话题ti,将ti映射到索引文档集上,得到ti的向量表示(di1,di2,di3,…,dim),则ti的索引向量为

对于第二语言话题tj,将tj映射到索引文档集上,得到tj的向量表示(d′j1,d′j2,d′j3,…,d′jm),则tj的索引向量为

得到ti和tj的索引向量后,采用一种或多种相似度计算方法来计算向量的相关性,保留一种或多种相似度计算方法的最大的相似度。

6.根据权利要求5所述的方法,其特征在于,所述一种或多种相似度计算方法是余弦相似度算法、欧氏距离算法、Hellinger距离算法和KL距离算法中的一种或多种。

7.一种跨语言话题检测系统,其特征在于,包括以下步骤:

第一生成模块,用于构建第一语言和第二语言的可比语料库;

第二生成模块,基于所述第一语言和第二语言的可比语料库分别构建第一语言话题模型和第二语言话题模型;

检测模块,用于在所述第一语言话题模型和第二语言话题模型生成的文档-话题概率分布的基础上通过相似度判定,以确定第一语言话题和第二语言话题的对齐,从而实现跨语言话题检测。

8.根据权利要求7所述的系统,其特征在于,所述第一生成模块具体用于:

通过计算所述第一语言和所述第二语言的相似度来构建第一语言和第二语言的可比语料库。

9.根据权利要求7所述的系统,其特征在于,所述第二生成模块具体用于:

在第一语言和第二语言的可比语料的基础上,构建文档主题生成LDA话题模型,通过吉布斯抽样法对所述LDA话题模型进行参数估计,抽取第一语言话题和第二语言话题。

10.根据权利要求7所述的系统,其特征在于,所述检测模块具体用于:

将事先通过文本相似度计算构建出的m对第一语言和第二语言可比新闻文档,作为索引文档集;

对于第一语言话题ti,将ti映射到索引文档集上,得到ti的向量表示(di1,di2,di3,…,dim),则ti的索引向量为

对于第二语言话题tj,将tj映射到索引文档集上,得到tj的向量表示(d′j1,d′j2,d′j3,…,d′jm),则tj的索引向量为

得到ti和tj的索引向量后,采用一种或多种相似度计算方法来计算向量的相关性,保留一种或多种相似度计算方法的最大的相似度。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1