一种资源结构化链接的信息快速分类方法与流程

文档序号:16069292发布日期:2018-11-24 13:00阅读:319来源:国知局

本发明属于网页信息内容完整性评估技术领域,特别涉及一种资源结构化链接的信息快速分类方法。

背景技术

网页分类对于对实现人员的行为习惯分析有着重要的作用和意义。传统的网页分类技术,在分类时往往需要对待分类的网页进行访问并爬取网页信息,增加了网页分类的时间,降低了网页分类的效率,已经不能满足社会信息化发展的需求。近年来,针对网页爬取效率低,导致网页分类时间冗长的问题,研究者提出了相应的解决方法,如网页正则对比、手工标注等。

朱全银、潘舒新等人已有的研究基础包括:李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[j].计算机科学与探索,2014,8(6):751-759;quanyinzhu,sunquncao.anovelclassifier-independentfeatureselectionalgorithmforimbalanceddatasets.2009,p:77-82;quanyinzhu,yunyangyan,jinding,jinqian.thecasestudyforpriceextractingofmobilephonesellonline.2011,p:282-285;zhuquanyin,panlu,yinyonghualixiang.influenceonnormalizationandmagnitudenormalizationforpriceforecastingofagriculturalproducts.informationtechnologyjournal(itj).2013.vol.12(15):3046-3057;quanyinzhu,jinding,yonghuayin,peizhou.ahybridapproachfornewproductsdiscoveryofcellphonebasedonwebmining.journalofinformationandcomputationalscience(jics).2012,vol.9(16):5039-5046;pans,fanj,yus,etal.amethodofbehaviorevaluationbasedonwebbrowsinginformation.smartgridandelectricalautomation(icsgea),2017internationalconferenceon.ieee,2017:697-700.朱全银、潘舒新等人申请、公开与授权的相关专利:朱全银,尹永华,严云杨,曹苏群等,一种基于神经网络的多品种商品价格预测的数据预处理方法.中国专利:zl201210325368.6,2016.06.08;朱全银,严云洋,李翔,张永军等,一种基于文本分类和图像深度挖掘的科技情报获取与推送方法.中国专利:cn104035997b,2017.05.10;朱全银,张宇洋,刘文儒,张亮等,一种校园个性化掌上服务及用户行为习惯分析的实现方法.中国专利:cn104731971b;朱全银,辛诚,李翔,潘舒新等,一种基于k-means和lda双向验证的网络行为习惯聚类方法.中国专利公开号:cn106202480a,2016.12.07;朱全银,辛诚,刘斌,潘舒新等,一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法.中国专利公开号:cn106202498a,2016.12.07;朱全银,潘舒新,李翔,贾笑颖等,一种多维度的网页浏览行为评估方法.中国专利公开号:cn106886577a,2017.06.23;严云洋、瞿学新、朱全银等,一种基于bagging和离群点的分类结果置信度的度量方法.中国专利公开号:cn106874944a,2017.07.14;朱全银、严云洋、胡荣林等,一种基于互信息和关联规则的文本特征提取方法.中国专利公开号:cn107766323a,2018.03.30;朱全银、邵武杰、唐海波等,一种科学新闻标题的多层次多分类方法.中国专利公开号:cn105760524a,2016.08.10;肖绍章、朱全银、钱凯、潘舒新等,一种学生浏览网页分类方法.中国公开专利号:cn107506472a,2018.01.16。

现有技术分析:

汤奇峰、吴军在2016年申请的发明专利《基于超链分析的页面语义信息提取方法及系统》(中国专利公开号cn105243091a,2016.01.13)提出从某一个网站的首页开始,逐层抓取所有的超链信息,并针对抓取的结果进行统计学习匹配,从而产生一种url模板;董雄飞在2016年申请的发明专利《一种基于本体思想的网页信息提取方法》(中国专利公开号cn106202259a,2016.12.07)提出了一种基于本体思想的网页信息提取方法,通过对网页分词结果进行分析得到特征词并计算特征权值,从而提高网页提取的质量;张磊在2015年申请的发明专利《一种网页分类方法及装置》(中国专利公开号cn104820674a,2015.08.05)提出对域名的每一层进行分类,得到域名的分类关系表。

虽然上述三种典型的网页分类方式都提高了传统的网页分类效率,但是没有考虑到随着动态网站的流行,网页链接从传统的无规则的数字转变为具有结构化的网页链接,即网页链接中也存在着有效的、可以用来分类的信息,如果不充分考虑url中存在的信息,只通过网页爬取的方式进行分类,往往会导致网页分类不准确或者网页分类效率较低的情况出现。

资源结构化链接:

资源结构化链接来源于rest(representationalstatetransfer)思想。要使网络上的一个资源能够被识别,需要有一个唯一标识,在web中这个唯一标识就是uri(uniformresourceidentifier)。uri既可以看作是资源的地址,也可以看作是资源的名称。如果某些信息没有使用uri来表示,那它就不能算是一个资源,只能算是资源的一些信息而已。uri的设计应遵循可寻址性原则,具有自描述性,需要在形式上给人以直觉上的关联。曾经web上的uri多使用冰冷的数字或者无意义的字符串,但现在越来越多的网站使用_或-来分隔一些单词,让uri看上去更为人性化。我们将这些使用单词或者具有明显特征的网页链接,称为资源结构化链接。

卷积神经网络:

卷积神经网络是近年发展起来,并引起广泛重视的一种高效识别方法。20世纪60年代,hubel和wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性,继而提出了卷积神经网络(convolutionalneuralnetworks-简称cnn)。现在,cnn已经成为众多科学领域的研究热点之一,特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用。卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(poolinglayer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像、语音识别和文本分类等方面能够取得更好的效果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络,卷积神经网络需要考量的参数更少,使之成为一种颇具吸引力的深度学习模型。

传统的网页分类都是直接通过使用脚本爬取网页,获取网页信息,然后再进行分类,就会存在这样的问题:每一次分类都对网页进行爬取,网页分类的时间大部分浪费在了网页爬取上,降低了网页分类的效率。



技术实现要素:

发明目的针对传统方法存在的问题,本发明提供一种通过卷积神经网络训练文本分类器,采用一种资源结构化链接的信息快速分类方法,在使用人员进行网页分类时,以提高分类效率的资源结构化链接的信息快速分类方法。

技术方案:本发明提出一种资源结构化链接的信息快速分类方法,包括如下步骤:

(1)统计文本语料库中的词汇,并将每个词汇表示为一个唯一的id号,设置文本词汇的长度,将所有的文本映射为具有固定长度的id序列,使用卷积神经网络对文本语料库中的训练集进行训练,得到基于卷积神经网络的文本分类器cnn-cla;

(2)统计待分类的资源结构化链接中的“/”和“.”的数量,将资源结构化链接进行切分,使用第三方翻译接口对切分的数据进行英-汉转换,将翻译后的数据放入cnn-cla中进行分类,得到待分类资源结构化链接的分类词集;

(3)设定分类词阈值,统计每一个待分类资源结构化链接的分类词数量,如果分类词数量小于阈值,则使用脚本爬取资源结构化链接的网页内容,并使用cnn-cla对网页进行分类,如果分类词数量大于阈值,将分类词进行倒序排序,得到待分类资源结构化链接的分类结果。

进一步的,所述步骤(1)中得到基于卷积神经网络的文本分类器cnn-cla的具体步骤如下:

(1.1)定义文本分类集;

(1.2)统计训练集中的文本,并为文本中的每个词汇分配具有唯一属性的id号;

(1.3)为文本分类集中的每一个分类分配具有唯一性质的id号;

(1.4)设定文本词汇的长度,将所有的训练集词汇映射为具有固定长度的id序列;

(1.5)设定cnn的词向量维度、序列长度、卷积神经网络、总迭代次数;

(1.6)使用cnn对文本训练集进行训练,得到基于卷积神经网络的文本分类器cnn-cla。

进一步的,所述步骤(2)中得到待分类资源结构化链接的分类词集的具体步骤如下:

(2.1)定义待分类资源结构化链接地址集;

(2.2)将待分类资源结构化链接按照“.”和“/”进行切分;

(2.3)使用第三方翻译接口,对切分后的数据进行英-汉转换;

(2.4)将翻译后的数据与原始数据相交然后做差,得到待分类资源结构化链接词汇集;

(2.5)使用cnn-cla对待分类资源结构化链接词汇集进行分类,得到待分类资源结构化链接分类词集。

进一步的,所述步骤(3)中得到待分类资源结构化链接的分类结果的具体步骤如下:

(3.1)统计待分类资源结构化链接分类词集的数量;

(3.2)定义分类词数量阈值;

(3.3)当分类词数量小于阈值时,使用脚本爬取资源结构化链接的网页信息并进行分类;

(3.4)当分类词数量大于或等于阈值时,对分类词集进行倒序排序,得到待分类资源结构化链接分类中的最多的一项分类结果;

(3.5)得到资源结构化链接分类集。

进一步的,所述步骤(1)中得到基于卷积神经网络的文本分类器cnn-cla的详细步骤如下:

(1.1)定义ct1,ct2,ct3,ct4,ct5,ct6,ct7,ct8,ct9,ct10,分别为体育,财经,房产,家具,教育,科技,时尚,时政,游戏,娱乐文本,定义文本分类集urlfct={ct1,ct2,ct3,ct4,ct5,ct6,ct7,ct8,ct9,ct10},cti={txti1,txti2,...txtin},其中txtin为cti文本集中的第n篇文章,i∈[1,10],n为cti的文章数;

(1.2)从每个ct中拷贝50000个文件,并按照5:2:3的比例进行切割,得到文本训练集wtrain,文本测试集wtest,文本验证集wval;

(1.3)统计wtrain中的文本,得到wtrain的词汇表集wvoc={word1,word2,...,words};

(1.4)统计wvoc的中的元素,得到词汇-id表集wvocid={word1,1,word2,2,...,words,s};其中,words,s为词汇words,的id编号是s;

(1.5)定义分类-id集,ctid={ct1,1,ct2,2,...,ct10,10},其中,ctk,k为分类为ctk的id编号为k;

(1.6)将wvocid翻转,得到id-词汇表集idwvoc={word1,1,word2,2,...,words,s};其中,words,s为第s个id编号对应的词汇是words;

(1.7)将测试集wtrain中的词汇转变为固定长度的id序列,得到文本训练id序列集wid={tid1,tid2,...tidin},其中,tidin为cti文本集中的第n篇文章的id序列;

(1.8)设定cnn的词向量维度、序列长度、卷积核数目、总迭代次数;

(1.9)使用tensorflow框架,用cnn算法训练wid,得到最终的分类准确率;

(1.10)得到基于卷积神经网络的文本分类器cnn-cla。

进一步的,所述步骤(2)中得到待分类资源结构化链接的分类词集的详细步骤如下:

(2.1)定义待分类资源结构化链接地址集web={web1,web2,…,webn};

(2.2)定义变量k,并赋初值k=1;

(2.3)如果k<=n,转到步骤2.4;否则,转到步骤2.10;

(2.4)去除webk中的“https://”和“http://”,统计webk中“.”和“/”的数量为num;

(2.5)将webk按照“.”和“/”进行切分,得到待分类资源结构化链接域名集weburl={webu1,webu2,...,webunum+1},其中,num是webk中“.”和“/”的数量;

(2.6)使用第三方翻译接口,对待分类资源结构化链接域名集进行英-汉转换,得到待分类资源结构化链接域名翻译集webtran={webt1,webt2,…,webtnum+1};

(2.7)将待分类资源结构化链接域名翻译集与待分类网页域名集相交,然后与待分类资源结构化链接域名翻译集做差,得到待资源结构化链接网页词汇集webword=webtran-(webtran∩weburl)={word1,word2…wordm};

(2.8)使用文本分类器cnn-cla对webword中的词进行分类,得到待分类资源结构化链接分类词集webcla={cla1,cla2,..,clam};

(2.9)k=k+1;

(2.10)得到待分类资源结构化链接总词集其中,为编号为n的待分类资源结构化链接,其所对应的待分类资源结构化链接分类词集为webclan。

进一步的,所述步骤(3)中得到待分类资源结构化链接的分类结果的详细步骤如下:

(3.1)统计待分类资源结构化链接总词集中每个待分类资源结构化链接的分类词数量,得到待分类资源结构化链接分类数量集webcount={count1,count2,…,countn},其中,countn代表第n个待分类资源结构化链接所对对应的分类词数量为count;

(3.2)定义分类词数量阈值为y;

(3.3)定义变量f,并赋初值f=1;

(3.4)如果f<=n,转到步骤2.5;否则,转到步骤3.11;

(3.5)如果countf<y,转到步骤3.6;否则,转到步骤3.8;

(3.6)使用脚本爬取资源结构化链接webn,得到资源结构化链接的网页内容,使用文本分类器cnn-cla对网页内容进行分类;

(3.7)f=f+1;

(3.8)对webf对应的待分类资源结构化链接分类词集webclaf进行统计,得到待分类资源结构化链接统计集webnum={cla1,1,cla2,2…,claq,qn};其中,claq,qn为分类结果为ctq的词数量为qn,q=10;

(3.9)对待分类资源结构化链接统计集webnum中的元素进行倒序排序,得到待分类资源结构化链接分类最多的一项分类结果;

(3.10)f=f+1;

(3.11)得到资源结构化链接分类集webfin={fin1,fin2,…,finn}。

本发明采用上述技术方案,具有以下有益效果:本专利首先统计文本预料库中的词汇,将词汇表示为一个唯一的id号码,设置文本词汇的长度,将所有的id号映射为具有固定长度的id序列,使用卷积神经网络对文本语料库进行训练,得到文本分类器,接着将资源结构化链接切分,将切分的数据使用第三方翻译接口进行英-汉转换,得到待分类资源结构化链接的分类词集,然后设定分类词阈值,统计每一个待分类资源结构化链接的分类词数量,分类词数小于阈值时,使用脚本爬取资源结构化链接的网页内容,并进行分类,分类词数大于阈值时,将分类词进行倒序排序,得到待分类资源结构化链接的分类结果。本发明方法有效的提取了资源结构化链接中的有效信息,提高了网页分类的效率。

附图说明

图1为本发明的整体流程图;

图2为图1中基于卷积神经网络文本分类器训练流程图;

图3为图1中提取资源结构化链接信息流程图;

图4为图1中基于提取资源结构化链接信息的网页分类流程图;

具体实施方式

下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1-4所示,本发明所述的一种资源结构化链接的信息快速分类方法,包括如下步骤:

步骤一:统计文本语料库中的词汇,并将每个词汇表示为一个唯一的id号,设置文本词汇的长度,将所有的文本映射为具有固定长度的id序列,使用卷积神经网络对文本语料库中的训练集进行训练,得到基于卷积神经网络的文本分类器cnn-cla,具体的如图2所示:

步骤1.1:定义ct1,ct2,ct3,ct4,ct5,ct6,ct7,ct8,ct9,ct10,分别为体育,财经,房产,家具,教育,科技,时尚,时政,游戏,娱乐文本,定义文本分类集urlfct={ct1,ct2,ct3,ct4,ct5,ct6,ct7,ct8,ct9,ct10},cti={txti1,txti2,...txtin},其中txtin为cti文本集中的第n篇文章,i∈[1,10],n为cti的文章数;

步骤1.2:从每个ct中拷贝50000个文件,并按照5:2:3的比例进行切割,得到文本训练集wtrain,文本测试集wtest,文本验证集wval;

步骤1.3:统计wtrain中的文本,得到wtrain的词汇表集wvoc={word1,word2,...,words};

步骤1.4:统计wvoc的中的元素,得到词汇-id表集wvocid={word1,1,word2,2,...,words,s}。其中,words,s为词汇words,的id编号是s;

步骤1.5:定义分类-id集,ctid={ct1,1,ct2,2,...,ct10,10},其中,ctk,k为分类为ctk的id编号为k;

步骤1.6:将wvocid翻转,得到id-词汇表集idwvoc={word1,1,word2,2,...,words,s}。其中,words,s为第s个id编号对应的词汇是words;

步骤1.7:将测试集wtrain中的词汇转变为固定长度的id序列,得到文本训练id序列集wid={tid1,tid2,...tidin},其中,tidin为cti文本集中的第n篇文章的id序列;

步骤1.8:设定cnn的词向量维度、序列长度、卷积核数目、总迭代次数;

步骤1.9:使用tensorflow框架,用cnn算法训练wid,得到最终的分类准确率;

步骤1.10:得到基于卷积神经网络的文本分类器cnn-cla。

步骤二:统计待分类的资源结构化链接中的“/”和“.”的数量,将资源结构化链接进行切分,使用第三方翻译接口对切分的数据进行英-汉转换,将翻译后的数据放入cnn-cla中进行分类,得到待分类资源结构化链接的分类词集,具体的如图3所示:

步骤2.1:定义待分类资源结构化链接地址集web={web1,web2,…,webn};

步骤2.2:定义变量k,并赋初值k=1;

步骤2.3:如果k<=n,转到步骤2.4;否则,转到步骤2.10;

步骤2.4:去除webk中的“https://”和“http://”,统计webk中“.”和“/”的数量为num;

步骤2.5:将webk按照“.”和“/”进行切分,得到待分类资源结构化链接域名集weburl={webu1,webu2,...,webunum+1},其中,num是webk中“.”和“/”的数量;

步骤2.6:使用第三方翻译接口,对待分类资源结构化链接域名集进行英-汉转换,得到待分类资源结构化链接域名翻译集webtran={webt1,webt2,…,webtnum+1};

步骤2.7:将待分类资源结构化链接域名翻译集与待分类网页域名集相交,然后与待分类资源结构化链接域名翻译集做差,得到待资源结构化链接网页词汇集webword=webtran-(webtran∩weburl)={word1,word2…wordm};

步骤2.8:使用文本分类器cnn-cla对webword中的词进行分类,得到待分类资源结构化链接分类词集webcla={cla1,cla2,..,clam};

步骤2.9:k=k+1;

步骤2.10:得到待分类资源结构化链接总词集其中,为编号为n的待分类资源结构化链接,其所对应的待分类资源结构化链接分类词集为webclan。

步骤三:设定分类词阈值,统计每一个待分类资源结构化链接的分类词数量,如果分类词数量小于阈值,则使用脚本爬取资源结构化链接的网页内容,并使用cnn-cla对网页进行分类,如果分类词数量大于阈值,将分类词进行倒序排序,得到待分类资源结构化链接的分类结果,具体的如图4所示:

步骤3.1:统计待分类资源结构化链接总词集中每个待分类资源结构化链接的分类词数量,得到待分类资源结构化链接分类数量集webcount={count1,count2,…,countn},其中,countn代表第n个待分类资源结构化链接所对对应的分类词数量为count;

步骤3.2:定义分类词数量阈值为y;

步骤3.3:定义变量f,并赋初值f=1;

步骤3.4:如果f<=n,转到步骤2.5;否则,转到步骤3.11;

步骤3.5:如果countf<y,转到步骤3.6;否则,转到步骤3.8;

步骤3.6:使用脚本爬取资源结构化链接webn,得到资源结构化链接的网页内容,使用文本分类器cnn-cla对网页内容进行分类;

步骤3.7:f=f+1;

步骤3.8:对webf对应的待分类资源结构化链接分类词集webclaf进行统计,得到待分类资源结构化链接统计集webnum={cla1,1,cla2,2…,claq,qn}。其中,claq,qn为分类结果为ctq的词数量为qn,q=10;

步骤3.9:对待分类资源结构化链接统计集webnum中的元素进行倒序排序,得到待分类资源结构化链接分类最多的一项分类结果;

步:3.10:f=f+1;

步骤3.11:得到资源结构化链接分类集webfin={fin1,fin2,…,finn}。

为了更好的说明本方法的有效性,抽取10000条符合资源结构化链接的url进行分析。首先通过脚本爬取url所对应的网页信息,使用训练好的cnn-cla文本分类器进行网页分类,可以确定2803条url的类型,占总数的28.03%,消耗时间35分钟;使用本发明方法的步骤,能够确定8961条url的类型,占总数的89.61%,消耗时间8分钟,相比传统的网页爬取的网页分类方法,url类型确认率提高了61.58%,消耗时间缩短了27分钟。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1