一种词关联网模型的构建方法及其构建器的制造方法

文档序号:6534870阅读:245来源:国知局
一种词关联网模型的构建方法及其构建器的制造方法
【专利摘要】本发明涉及一种词关联度网络模型的构建方法及其构建器,包括如下步骤:1)在预处理时,整个爬虫网页信息的过程为递归进行;2)将抽取的文本内容作为分词模块的输入;3)获得的TF-IDF值作为类代表性,同时过滤常用词;4)计算每篇文章中每两个词之间的词关联度权重;5)对文本资料库中的每两个词的词元关联度做均值计算。构建器包括五个功能模块:爬虫模块;HTML解析模块;正文文本分词模块;TF-IDF模块;词关联网构建模块;本发明可以对用户需求进行分析,挖掘潜在的信息服务,提供智能交互服务,为用户提供进一步的信息服务。
【专利说明】一种词关联网模型的构建方法及其构建器
【技术领域】
[0001]本发明涉及对互联网信息资源的管理与组织,具体涉及对文本特征向量关联度计算算法的设计以及实现该算法的软件模块。
【背景技术】
[0002]随着互联网技术的迅猛发展,网上信息量呈现爆炸式增长。在2010年4月,全球Web页面数目已经超过I万亿,中国的网页数目也超过600亿。信息种类的多样繁杂,极大的丰富了人们的生活。目前人们从网上获取信息的主要方式是浏览器,在浏览器中输入关键词,搜索引擎返回信息列表,供用户查询。返回的信息如何能够更好的满足用户的直接需求和潜在的需求,这就涉及到对用户输入的关键词分析,挖掘出和该关键词关联度大的词,而这些词往往是用户潜在的需求焦点。目前,在筛选海量信息的研究中,基于词关联的信息检索技术也急速发展,而如何动态有效的计算词与词之间的关联度成为了一个热门话题。

【发明内容】

[0003]本发明的目的在于克服现有技术的不足,通过词关联构建器实现一种基于文本特征向量的词关联网构建方法,其输入为互联网海量网页文本内容,通过分词器切割文本词元,计算各个词元的类代表权重和词元间的关联度权重,最后输出这些词元的词关联网模型。该词关联网络模型的主要目标是给出整个互联网中的网页文本资源的信息组织管理方式,有效提炼文本的特征向量,过滤常用词,构建词关联网模型。利用该词关联网模型,可以对用户需求进行分析,挖掘潜在的信息服务,提供智能交互服务,为用户提供进一步的信息服务。
[0004]本发明是通过以下技术方案实现的:
[0005]一种词关联度网络模型的构建方法,其特征在于,包括如下步骤:`[0006]I)在预处理时,选择已预定的URL利用爬虫进行爬取,获取网页URL,对网页信息分析归档,把新发现的有效URL压入待爬取队列,标记已处理的URL。整个爬虫网页信息的过程为递归进行。
[0007]2)对已爬取的网页信息内容进行HTML解析,抽取正文文本内容。将抽取的文本内容作为分词模块的输入。
[0008]3)通过使用分词器对正文文本进行分词,计算每个词元在该文章中出现的频率(TF),该词元在整个文本资料库的逆向文件频率(IDF),获得的TF-1DF值作为类代表性,同时过滤常用词。
[0009]4)计算每篇文章中每两个词之间的词关联度权重,Relcvaiicy(AB)=
I
Vl-T(A)*T(A)~T(B)^T(B)°
[0010]5)对文本资料库中的每两个词的词元关联度做均值计算,权重大小为词关联网模型的边长度(权重越大,边越小,表示词间联系越紧密)。[0011]以上所述的词关联网模型的构建方法,可成为网络信息服务系统中具体实现聚类索引的一个软件模块,能够将海量的网页利用聚类和网页间特征向量关联度组织成索引网,它包括五个功能模块,包括:
[0012]爬虫模块,主要实现对互联网网页基本信息的爬取,作为词关联网构建器的基础数据源。
[0013]HTML解析模块,主要用于对爬虫模块中的网页采取正文文本的解析和抽取,抽取的正文内容作为词关联网关联度计算的文本资料库。
[0014]正文文本分词模块,该模块是对HTML解析模块中获得的网页正文内容进行分词。
[0015]TF-1DF模块,该模块对正文文本分词模块获得的分词产生的词元计算其在该文章的代表性,包含计算TF词频(Term Frequency), IDF反文档频率(Inverse DocumentFrequency), TF-1DF以及过滤常用词。
[0016]词关联网构建模块,该模块利用TF-1DF模块中的每个词的TF-1DF结果,计算单篇文章中ReIevancy=F(T(A) ,T(B))和整个文本资料库中每两个词的关联度权重,构建词关联度网,Relevancy (词关联权重)为模型的边长。
[0017]本发明分析海量网页文本内容,计算词语的文本代表度和任意两个词语共现频率,智能展开多组主题,融合了语义与交互,获得各个词语之间的关联度,最终输出一个词关联网I旲型。
[0018]与现有技术相比,本次发明首先在网络信息处理中提出了使用TF-1DF计算词关联度并构建词关联网模型。该模型对互联网海量网页给出了一个组织管理的方式,能够达成搜索服务中网页信息间的概念模型,为基本的网络信息服务奠定基础。利用所述的词关联网络模型,可以挖掘互联网海量网页之间的内在联系,对关联度较为密切的网页群体构建网页类,是一种网页信息服务归类的呈现模式,利用基于词关联网模型构造的网络信息服务系统可以根据用户需求,提供有效的潜在需求挖掘,为用户提供一整套完善齐备的服务模式,实现智能的信息交互服务。
[0019]整个词元关联度构建器是词元关联网模型的中介。词元关联度构建器的主要功能是:利用分词器产生的词元计算每个词元在文章中的出现频率和反文档频率,再利用计算的TF-1DF值计算词元间的Relevancy关联度权值,利用权值关系和大小构建词关联度网络模型。基于词关联度网络模型的网络信息服务平台可以使用词间的关联度进行网页聚类分析,挖掘由词关联产生的网页关联网络模型。随着词的TF-1DF值动态变化和关联度变化,可以实时更新词关联网,进而动态对网页聚类归档,为用户的搜索提供一些列的潜在需求服务。
[0020]本发明创新性的提出了词关联网模型,在这里,词关联网模型是建立在海量网页文本的分词结果和TF-1DF资讯检索与资讯探勘的常用加权技术上的一种管理和组织互联网中网页信息联系的模型。词关联网模型是网络信息服务平台提供信息服务的中介,利用本发明的词关联网模型可以对互联网网页很好的进行聚类分析计算,为信息服务平台提供良好的网页类管理,挖掘用户潜在需求,实现网络信息服务的要求和目标。
【专利附图】

【附图说明】
[0021]图1网页信息爬取过程架构图。[0022]图2网页信息内容的解析流程图。
[0023]图3词关联度算法函数近似图像。
[0024]图4本发明词关联网络模型的构建流程示意图。
【具体实施方式】
[0025]以下结合附图对本发明技术方案作进一步说明。
[0026]整个词关联网络模型的构建建立在海量网页信息,分词技术,传统的TF-1DF文本资讯检索与资讯探勘的常用加权技术和词元间关联度计算特征函数
【权利要求】
1.一种词关联度网络模型的构建方法,其特征在于,包括如下步骤: I)在预处理时,选择已预定的URL利用爬虫进行爬取,获取网页URL,对网页信息分析归档,把新发现的有效URL压入待爬取队列,标记已处理的URL。整个爬虫网页信息的过程为递归进行; 2 )对已爬取的网页信息内容进行HTML解析,抽取正文文本内容,将抽取的文本内容作为分词模块的输入; 3)通过使用分词器对正文文本进行分词,计算每个词元在该文章中出现的频率(TF),该词元在整个文本资料库的逆向文件频率(IDF),获得的TF-1DF值作为类代表性,同时过滤常用词; 4)计算每篇文章中每两个词之间的词关联度权重,
2.一种词关联网模型的构建器,其特征在于,包括: 爬虫模块,实现对互联网网页基本信息的爬取,作为词关联网构建器的基础数据源;HTML解析模块,用于对爬虫模块中的网页采取正文文本的解析和抽取,抽取的正文内容作为词关联网关联度计算的文本资料库; 正文文本分词模块,该模块是对HTML解析模块中获得的网页正文内容进行分词;TF-1DF模块,该模块对正文文本分词模块获得的分词产生的词元计算其在该文章的代表性,包含计算TF词频,IDF反文档频率,TF-1DF以及过滤常用词; 词关联网构建模块,该模块利用TF-1DF模块中的每个词的TF-1DF结果,计算单篇文章中ReIevancy=F(T(A) ,T(B))和整个文本资料库中每两个词的关联度权重,构建词关联度网,Relevancy词关联权重为模型的边长。
【文档编号】G06F17/30GK103744954SQ201410003874
【公开日】2014年4月23日 申请日期:2014年1月6日 优先权日:2014年1月6日
【发明者】蒋昌俊, 陈闳中, 闫春钢, 丁志军, 王鹏伟, 何源, 钟明洁 申请人:同济大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1