一种完善社区网络的方法和系统的制作方法

文档序号:6430651阅读:107来源:国知局
专利名称:一种完善社区网络的方法和系统的制作方法
技术领域
本发明主要涉及网络技术中额网络搜索技术领域,尤其涉及一种完善社区网络的方法和系统。
背景技术
随着互联网技术的不断发展,网络上的资源也越来越多。越来越多的用户从网络上搜索、筛选自己需要的数据。因着网络上数据的飞速增长,导致用户需要在网络上耗费大量的时间检索自己所需要的数据。因而随之产生了社区服务,社区服务是指将包含类似或相关内容的网页有序的罗列在一起,例如BBS论坛、在线交友以及贴吧空间等。在社区服务的背后,需要计算机对海量的信息自动进行社区挖掘,而文本又是网页的主要内容,所以文本挖掘显得尤为重要。文本挖掘的内容是以自然语言的形式呈现的,而复杂的自然语言是计算机所难以理解的,因此我们可以采用从网页中提取关键词的办法,来表达网页的大意。另外随着网络技术的发展,用户留在网络上的信息不仅包括访问记录和操作行为,还包括用户为网络图片打上注释、评论所看到的文章、为访问过的页面打上标签等。带有用户鲜明个性的标签,已然为海量网页的呈现、组织和检索质量造成了显著的影响,因而网页标签足以对网络的自我组织产生决定性影响,所以本申请主要是基于网页标签来对网页内容进行检索,以完善社区网络的信息。传统的基于标签进行信息检索,如图I所示,主要包括如下步骤SlOl :获得网络链路信息;S103 :通过所述网页链接信息,获得与其相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;S105 :提取用来表征所述网页的关键词信息;S107 :相似度分析将所述关键词与进行搜索的基准关键词进行相似度分析,得到所述网页与基准为网页的相似度;S109 :网页筛选当所述相似度满足一定条件时,将所述网页加入到社区中。不难看出,标签作为关键词的扩展形式,由于其所含的信息量比较大。因而利用传统的文本挖掘技术时,不免影响对其进行准确的分析,尤其是当两个标签,其在自然语言中是意义相同的同义词,而在基于统计方法的文本挖掘中,可能会被直观的处理为毫无意义而正交的两个向量,这样轻率的判断无疑会很大程度上降低网络服务的质量。

发明内容
本申请提供了一种通过文本挖掘来完善社区网络的方法和系统。用以解决现有技术中,对于自然语言中意义相同的同义词的两个标签,可能会被处理为毫无意义而正交的两个向量,进而降低了社区网络服务质量的问题。
一方面,本发明通过本申请中的一个实施例,提供如下技术方案一种完善社区网络的方法,包括如下步骤获得网络链接信息;通过如所述网页链接信息,获得与所述网页链接信息相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应;将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词;将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的 语义相似度值;基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值;当所述第二网页相似度值满足一定条件时,将所述网页加入到所述社区网络中。可选的,所述网页还包括有网页内容;所述至少一个关键词还包括有至少一个第二关键词,所述至少一个第二关键词与所述网页内容对应。可选的,所述基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值,具体包括将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;对所述第一网页相似度值进行聚类分析,得到所述第二网页相似度值。可选的,所述至少一个第二关键词通过如下步骤获得搜集所述网页中的关键词信息,得到至少一个第三关键词;对所述至少一个第三关键词进行过滤处理,得到至少一个第四关键词;利用所述至少一个第四关键词,通过统计方法,对所述网页特征进行分析,得到所述至少一个第二关键词。另一方面,本发明通过本申请中的另一实施例提供如下技术方案一种完善社区网络的系统,包括信息采集模块用于获得网络链路信息,然后通过如所述网页链接信息,获得与所述网页链接信息相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;关键词提取模块用于获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应;网页特征信息获取模块用于将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词;语义相似度获取模块将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;相似度分析模块用于基于所述特征信息和所述语义相似度矩阵,获得所述网页与所述基准网页的第二网页相似度值;筛选模块用于当所述第二网页相似度值满足一定条件时,将所述网页加入到所述社区网络中。可选的,所述相似度分析模块,具体包括第一网页相似度获取模块用于将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;第二网页相似度获取模块用于对所述第一网页相似度进行聚类分析,得到所述第二网页相似度值。另一方面,本发明通过本申请中的另一实施例提供如下技术方案一种网页相似度计算方法,包括如下步骤提取用来表征网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应;将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述网络社区中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词;将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值。可选的,所述至少一个关键词还包括有至少一个第二关键词,所述至少一个第二关键词与所述网页内容对应。可选的,所述基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值,具体包括将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;对所述第一网页相似度进行聚类分析,得到所述第二网页相似度值,即为所述网页相似度。另一方面,本发明通过本申请中的另一实施例提供如下技术方案一种网页相似度计算系统,包括关键字提取模块用于获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应;网页特征信息获取模块用于将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述网络社区中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词;语义相似度获取模块将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;相似度分析模块用于基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值。可选的,所述相似度分析模块,具体包括·
第一网页相似度获取模块用于将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;第二网页相似度获取模块用于对所述第一网页相似度进行聚类分析,得到所述第二网页相似度值。


图I :传统文本挖掘技术流程图;图2 :本申请实施例一中的完善社区流程图;图3 :本申请实施例二中的硬件环境图;图4 :实施例一中所举网页和基准网页的关键词深度和最短路径表;
图5 :本申请实施例三中的相似度计算流程图;图6:本申请实施例四中的相似度计算系统硬件环境图。
具体实施例方式为了使本申请所属技术领域中的技术人员更清楚地理解本发明,下面结合附图,通过具体实施例对本发明技术方案作详细描述。请参考图2、图4,本申请实施例一种完善社区网络的方法,包括如下步骤S201 :获取网络链接信息,社区网络服务器的数据搜索系统,通过各搜索引擎,获得网络中各个包含各种信息的网络链接信息;S203 :通过所述网络链路信息,即可以得到与之相对应的网页,除了与之向对应的网页外,还可以包括访问过所述网页链接信息的用户设置的标签信息;S205 :提取用来表征所述网页的至少一个关键词,所提取的至少一个关键词至少包含一个第一关键词,用来与所述标签信息相对应;所述关键词还包含至少一个第二关键词,所述至少一个第二关键词与所述网页内
容对应。在具体实施过程中,所述的第二关键词可以通过如下步骤获得搜集所述网页中的关键词信息,得到至少一个第三关键词;对所述至少一个第三关键词进行过滤处理,得到至少一个第四关键词;利用所述至少一个第四关键词,通过统计方法,对所述网页特征进行分析,得到所述至少一个第二关键词。假设经过上述三个步骤,如图I所示,用来表征3个网页A、B、C的关键字分别为A:列车脱轨B :开车时刻C :追尾事故基准网页(记为S):动车深度11 ;事故深度14。在具体实施过程中,所述网页的关键词可以是多个,为了简化计算,在本申请实施例中列举采用两个关键词的形式。S207:将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词;
对于获得网页的特征信息,在具体实施过程中,又分为如下两步对所述至少一个关键词和所述基准关键词分别进行TF-IDF加权处理,并得到与所述至少一个关键词和所述基准关键词对应的多个向量;TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索的常用加权技术。它作为一种统计方法,用以评估一个字或词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的基本原理为,在一份给定的文件中,词频(Term Frequency)指的是某一个目标词1在该文件Dj中出现的次数ny,而为了避免长文件带来的影响,TF经常需要被做归一化处理,因此
权利要求
1.一种完善社区网络的方法,其特征在于,包括 获得网络链接信息; 通过如所述网页链接信息,获得与所述网页链接信息相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息; 获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应; 将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词; 将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值; 基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值; 当所述第二网页相似度值满足一定条件时,将所述网页加入到所述社区网络中。
2.如权利要求I所述的方法,其特征在于,所述网页还包括有网页内容;所述至少一个关键词还包括有至少一个第二关键词,所述至少一个第二关键词与所述网页内容对应。
3.如权利要求I或2所述的方法,其特征在于,所述基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值,具体包括 将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值; 对所述第一网页相似度值进行聚类分析,得到所述第二网页相似度值。
4.如权利要求2所述的方法,其特征在于,所述至少一个第二关键词通过如下步骤获得 搜集所述网页中的关键词信息,得到至少一个第三关键词; 对所述至少一个第三关键词进行过滤处理,得到至少一个第四关键词; 利用所述至少一个第四关键词,通过统计方法,对所述网页特征进行分析,得到所述至少一个第二关键词。
5.一种完善社区网络的系统,其特征在于,包括 信息采集模块用于获得网络链路信息,然后通过如所述网页链接信息,获得与所述网页链接信息相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;关键词提取模块用于获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应; 网页特征信息获取模块用于将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词; 语义相似度获取模块将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值; 相似度分析模块用于基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值; 筛选模块用于当所述第二网页相似度值满足一定条件时,将所述网页加入到所述社区网络中。
6.如权利要求5所述的系统,其特征在于,所述相似度分析模块,具体包括 第一网页相似度获取模块用于将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值; 第二网页相似度获取模块用于对所述第一网页相似度进行聚类分析,得到所述第二网页相似度值。
7.—种网页相似度计算方法,其特征在于,包括 提取用来表征网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应; 将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述网络社区中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词; 将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值; 基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值。
8.如权利要求7所述的方法,其特征在于,所述至少一个关键词还包括有至少一个第二关键词,所述至少一个第二关键词与所述网页内容对应。
9.如权利要求7或8所述的方法,其特征在于,所述基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值,具体包括 将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值; 对所述第一网页相似度进行聚类分析,得到所述第二网页相似度值,即为所述网页相似度。
10.一种网页相似度计算系统,其特征在于,包括 关键字提取模块用于获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应; 网页特征信息获取模块用于将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述网络社区中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词; 语义相似度获取模块将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值; 相似度分析模块用于基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值。
11.如权利要求10所述的系统,其特征在于,所述相似度分析模块,具体包括 第一网页相似度获取模块用于将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值; 第二网页相似度获取模块用于对所述第一网页相似度进行聚类分析,得到所述第二网页相似度值。
全文摘要
本申请公开了一种完善社区网络的方法和系统以及网页相似度计算方法和系统,网页相似度的计算方法包括如下步骤提取用来表征网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应;将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述网络社区中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词;将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值。
文档编号G06F17/30GK102929889SQ20111022979
公开日2013年2月13日 申请日期2011年8月11日 优先权日2011年8月11日
发明者高燕, 傅力, 张震玮, 张岩, 孔亮, 黄丛蕊 申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1