一种跨语言话题检测方法及系统与流程

文档序号：11950251阅读：来源：国知局

技术特征：

1.一种跨语言话题检测方法，其特征在于，包括以下步骤：

构建第一语言和第二语言的可比语料库；

基于所述第一语言和第二语言的可比语料库分别构建第一语言话题模型和第二语言话题模型；

在所述第一语言话题模型和第二语言话题模型生成的文档-话题概率分布的基础上通过相似度判定，以确定第一语言话题和第二语言话题的对齐，从而实现跨语言话题检测。

2.根据权利要求1所述的方法，其特征在于，所述构建第一语言和第二语言的可比语料库的步骤包括：

通过计算所述第一语言和所述第二语言的文档相似度来构建第一语言和第二语言的可比语料库。

3.根据权利要求2所述的方法，其特征在于，所述计算所述第一语言和所述第二语言的文档相似度步骤包括：

对第一语言的关键词和第二语言的关键词进行词向量的语义距离计算，以提高所述第一语言和所述第二语言的相似度计算准确率。

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一语言和第二语言的可比语料库分别构建第一语言话题模型和第二语言话题模型的步骤包括：

在第一语言和第二语言的可比语料的基础上，构建文档主题生成LDA话题模型，通过吉布斯抽样法对所述LDA话题模型进行参数估计，抽取第一语言话题和第二语言话题。

5.根据权利要求1所述的方法，其特征在于，所述在所述第一语言话题模型和第二语言话题模型生成的文档-话题概率分布的基础上通过相似度判定，以确定第一语言话题和第二语言话题的对齐的步骤包括：

将事先通过文本相似度计算构建出的m对第一语言和第二语言可比新闻文档，作为索引文档集；

对于第一语言话题t_i，将t_i映射到索引文档集上，得到t_i的向量表示(d_i1，d_i2，d_i3，…，d_im)，则t_i的索引向量为

对于第二语言话题t_j，将t_j映射到索引文档集上，得到t_j的向量表示(d′_j1，d′_j2，d′_j3，…，d′_jm)，则t_j的索引向量为

得到t_i和t_j的索引向量后，采用一种或多种相似度计算方法来计算向量和的相关性，保留一种或多种相似度计算方法的最大的相似度。

6.根据权利要求5所述的方法，其特征在于，所述一种或多种相似度计算方法是余弦相似度算法、欧氏距离算法、Hellinger距离算法和KL距离算法中的一种或多种。

7.一种跨语言话题检测系统，其特征在于，包括以下步骤：

第一生成模块，用于构建第一语言和第二语言的可比语料库；

第二生成模块，基于所述第一语言和第二语言的可比语料库分别构建第一语言话题模型和第二语言话题模型；

检测模块，用于在所述第一语言话题模型和第二语言话题模型生成的文档-话题概率分布的基础上通过相似度判定，以确定第一语言话题和第二语言话题的对齐，从而实现跨语言话题检测。

8.根据权利要求7所述的系统，其特征在于，所述第一生成模块具体用于：

通过计算所述第一语言和所述第二语言的相似度来构建第一语言和第二语言的可比语料库。

9.根据权利要求7所述的系统，其特征在于，所述第二生成模块具体用于：

10.根据权利要求7所述的系统，其特征在于，所述检测模块具体用于：

将事先通过文本相似度计算构建出的m对第一语言和第二语言可比新闻文档，作为索引文档集；

对于第一语言话题t_i，将t_i映射到索引文档集上，得到t_i的向量表示(d_i1，d_i2，d_i3，…，d_im)，则t_i的索引向量为

对于第二语言话题t_j，将t_j映射到索引文档集上，得到t_j的向量表示(d′_j1，d′_j2，d′_j3，…，d′_jm)，则t_j的索引向量为

得到t_i和t_j的索引向量后，采用一种或多种相似度计算方法来计算向量和的相关性，保留一种或多种相似度计算方法的最大的相似度。

完整全部详细技术资料下载

当前第2页1 2 3