一种跨语言的主题网站自动发现方法与流程

文档序号：11155631阅读：来源：国知局

技术特征：

1.一种跨语言的主题网站自动发现方法，其特征在于，所述跨语言的主题网站自动发现方法根据种子网站或关键词集生成多语言主题模型，依据主题模型中的关键字进行网页信息采集，通过对相关网页进行聚类分析找出备选主题网站，将主题网站翻译后提供给用户，并根据用户反馈改进系统性能；

具体包括：

时序主题模型提取：将过去一段时间划分为几个时间段，分别计算每个时间段内网站的关键词，所有时间段的关键词组成网站的主题模型；在对比网站相似度时，分别对比各时间段内网站的相似度，然后根据各时间段的权重计算网站整体相似度，整体相似度大于给定阈值的即认定为主题相关网站；主题模型的定义如下：M＝(K，A，L，N，P)，其中M为主题模型，K为各时间段关键词向量，K＝[K₁,K₂,......K_N]，其中K_i为第i个时间段的关键词向量A为各时间段关键词向量相似度的权重，A＝[a₁,a₂,......a_N]；L为每个时间段关键词的个数，L＝[l₁,l₂,......l_N]；N为时间段的个数；P为每个时间段的长度，P＝[p₁,p₂,......,p_N]；其中A、L和P的值由用户结合实际情况进行设置；A的值越接近当前时间的时间段的权重越高；

网页信息采集：网页信息采集模块根据关键字检索相关网页并下载；

网站信息抽取：利用网站信息抽取模块从相关网页中聚合出备选主题网站；提取备选主题网站的主题模型并与种子网站主题模型进行对比，将相似度大于某一阈值的放入新发现主题网站列表；

网页翻译：利用已有机器翻译引擎将新发现主题网站列表中的外语网页翻译为本国语言；

展示及反馈：将翻译后的新发现主题网站中的内容展示给用户；由用户对新发现主题网站进行反馈，即评价是否真的主题网站，根据反馈结果对系统进行优化。

2.如权利要求1所述的跨语言的主题网站自动发现方法，其特征在于，时序主题模型提取方法包括：

1)利用网页信息采集模块爬取种子网站历史网页；

2)根据P设置N个子数据集，根据网页的发布时间将网页分别放入对应的子数据集，若某网页的发布时间t满足p_i-1＜t-t₀≤p_i，t₀为当前时间，则将该网页放入第i个子数据集；

3)分别计算每个子数据集的关键词，第i个子数据集选取前l_i个关键词构成主题模型；

4)根据关键词和各参数值生成网站主题模型M；M＝(K，A，L，N，P)，其中M为主题模型，K为各时间段关键词向量，K＝[K₁,K₂,......K_N]，其中K_i为第i个时间段的关键词向量A为各时间段关键词向量相似度的权重，A＝[a₁,a₂,......a_N]；L为每个时间段关键词的个数，L＝[l₁,l₂,......l_N]；N为时间段的个数；P为每个时间段的长度，P＝[p₁,p₂,......,p_N]。

3.如权利要求2所述的跨语言的主题网站自动发现方法，其特征在于，如果没有种子站点，由用户直接指定各时间段的关键词生成主题模型；

当进行跨语言的主题网站自动发现时，外语网站主题模型生成方法包括两种根据实际情况进行选择的方法；

方法一为：对本语言主题模型的关键字进行翻译，直接生成外语主题模型；

方法二为：提供外语种子网站，自动提取主题模型。

4.如权利要求1所述的跨语言的主题网站自动发现方法，其特征在于，网站信息抽取方法具体包括：

A)聚合备选主题网站：将url根据特殊字符进行切分；将切分后的url字段作为特征进行聚类；根据聚类结果生成备选主题网站；

B)生成新发现主题网站列表:提取备选主题网站的主题模型；计算备选主题网站与种子主题网站的相似度；将相似度大于h的网站放入新发现主题网站列表，并根据相似度的值对列表中的网站进行排序。

5.如权利要求4所述的跨语言的主题网站自动发现方法，其特征在于，计算备选主题网站与种子主题网站的相似度计算方法包括：

采用向量空间余弦值法计算每个时间段内备选主题网站与种子主题网站的相似度；

计算整体相似度其中S_i为第i个时间段内的相似度。

6.如权利要求1所述的跨语言的主题网站自动发现方法，其特征在于，所述由用户对新发现主题网站进行反馈，即评价是否真的主题网站，根据反馈结果对系统进行优化，包括：

将用户肯定的网站加入种子主题网站，通过优化主题模型提升对目标主题网站的描述能力，进而提升对新发现主题网站筛选的精度；

根据反馈优化网站信息抽取步骤中整体相似度阈值h。

7.一种利用权利要求1～6任意一项所述跨语言的主题网站自动发现方法的网站。

完整全部详细技术资料下载

当前第2页1 2 3