搜索未知信息网络时的路径规划方法及网络盗版发现系统与流程

文档序号:16754850发布日期:2019-01-29 17:15阅读:167来源:国知局
搜索未知信息网络时的路径规划方法及网络盗版发现系统与流程
本发明涉及信息
技术领域
,具体涉及一种搜索未知信息网络时的路径规划方法及使用该方法的网络盗版发现系统。
背景技术
:信息网络通常由结点和结点间的连接构成。每个结点包含以下信息:一、内容信息,二、连接信息。内容信息格式上可以是文本、图像、声音、视频等,含义由特定应用而定。连接信息指向其他结点,系统利用此信息可以找到其他结点。连接信息有时被称为链接、地址等。一般来说,“结点的属性”是指结点的内容信息的某种特性,比如文本是广告还是非广告;声音是人声、音乐还是市声;视频是否包含非法内容,等等。判断结点是否有某属性通常需要付出(人力或机器的)资源。通常,信息网络对搜索系统而言是未知的。系统渐次、逐步地了解信息网络,此过程中,系统对一个结点的了解可有以下几种状态:一、隐藏,系统完全不知道此结点的存在;二、发现而未访问,系统通过相邻结点知道了此结点的存在,但还未获取其数据,自然也谈不上对其信息作任何分析;三、了解连接而不了解内容,系统知道了此结点的连接信息,但还不知道其内容(是否满足某属性);四、了解内容而不了解连接,系统知道了此结点的内容,但还不知道它的连接信息;五、完全了解。搜索系统通过逐次访问结点来发现网络,在此过程中隐藏结点的信息逐步被揭示出来。系统内部保存一批结点的信息,这些结点信息可处于上述二到五的某个状态中。系统要决定下一步走向哪里,即从状态二、三、四的众多结点中选择一个,获取其信息或进行后续的分析,如此循环。系统的目标是在未知的网络中尽量快而准确地找到特定属性的结点,上述决策的好坏将决定系统的效能。现有技术中,上述网络发现的相关技术有以下几种:一、深度优先搜索和广度优先搜索;二、基于内容聚类的方法;三、以pageranking为代表的链接分析方法。基本的搜索路径有广度优先和深度优先两种。网络结构在图论中是一个无向图。广度优先策略从无向连通图里面的任一顶点v0出发,在访问v0点以后再依次搜索访问v0点其他还未被访问过的邻接点w1,w2,w3,…,之后再依次搜索访问w1的各个还没有被访问过的邻接点,w2各个还没有被访问过的邻接点,以此类推,即从v0点开始从近到远,按层次逐个访问跟v0点路径相通且路径长度从1开始依次是递增的顶点,最终直至图中所有顶点都被访问一次。深度优先捜索则首先访问图中任一顶点v,再从顶点v点出发开始访问跟v邻接但是还没有被访问的另一顶点w1,接着访问跟w1邻接且还没有被访问的任一顶点w2,w3,…,重复上述过程直到不能继续往下访问时,依次逐步回退到最近访问过的顶点,这时如果还有没有被访问过邻接顶点,就从该顶点开始再次执行上述搜索的过程,直到图中所有顶点全部都被访问到为止。这两种方法都按照预定义的顺序搜索网络,对发现特定属性结点这一目标没有任何优化。基于内容聚类的方法需要定义一种内容信息之间距离的计算方法。距离近的结点被认为是围绕着同一“主题”,从这些结点发出的连接具有更高的优先级,被更早访问,用于网络爬虫的fish-search和shark-search方法都是此类。debrra等人首次提出fish-search方法,系统维护一个按优先级排序的链接列表,并根据它选择下一个搜索目标。在信息搜索过程中,相关度较高结点所属的链接被赋予更高的优先权。hersovic等人基于fish-search方法提出了shark-search方法,创造性地使用向量空间模型来计算结点的相似度,此方法对比向量间的距离来判断出相似性,实际是一种文本聚类。链接分析方法以google创始人larrypage和sergeybrind在1997年提出的pageranking为代表。它最初使用在google搜索引擎中,作用是根据出入链关系计算出网页的重要性,据此对网页进行排序。在网络搜索中引入链接分析方法,是用网页的重要性构造访问优先级,重要的网页先访问。在未知的信息网络中搜索含特定属性的结点,上述三种方法都有其弱点。广度优先和深度优先搜索是基本搜索方式,对发现目标没有任何优化。基于内容聚类的方法要求结点内容有可度量的相似性,比如“关于中医的结点”,而对于没有可度量的相似性的属性,比如“含盗版文本的结点”则无能为力,因“盗版”这一属性涉及的内容是分散的,相互之间并不要求相似。链接分析方法最初在google引擎中计算网页重要性,其条件是结点信息都已获得,即都是前述状态五的结点,系统尽可以去计算它们之间的排序。在未知信息网络搜索应用中,系统渐次、逐步地揭示结点信息,过程中的大量结点是隐藏或信息不全的,用链接分析难以准确重构结点的重要性。技术实现要素:本发明解决的技术问题在于提供一种应用于如下场合的方法:使用具有智能的系统在未知的信息网络中搜索含特定属性的结点。本发明的目的是合理规划搜索路径以提高搜索效率,同时实现网络盗版的搜索发现。为了实现上述目的,本发明采用了如下技术方案:一种搜索未知信息网络时的路径规划方法,应用于初始时所有结点的属性为未知的信息网络,包括如下步骤:s1、若发现某一结点具有特定属性,则将其关联值判定为正值,并将其周围结点的关联值也赋为正值,且该正值的大小随离原节点的距离而递减;s2、优先访问所述正值大的节点,若被访问节点具有所述特定属性,则重复步骤s1。进一步的,s1具体包括:s11、对所述信息网络中的每个节点关联一个p值,p为正值且初始为0,p(v)表示结点v的p值;s12、设定常数m和l,其中m为大于零的正数,表示结点上发现所述特定属性时p的增量,l为影响能力系数,0<l<m,当p(v)<l时,不再向其周围节点的关联值赋值;s13、当确定某结点v具有所述特定属性时,增加其p值:p(v)’=p(v)+m,并相应增加其周围结点的p值,且周围节点的p值增加随离结点v的距离而递减;以及s2具体包括:s14、对每个节点的p值进行累加,以p值从高到低排列决定结点的访问次序。进一步的,s13具体包括:以节点v为根,以宽度优先方式遍历v周围的n层结点,增加每个访问到的结点的p值;具体的,令vij是第i层第j个结点,δpij是p(vij)的增量,每一层的δpij值从前一层按系数α衰减,则δp1j=αm,δp2j=α2m,δp3j=α3m,…;p(vij)’=p(vij)+δpij,其中0<α<1。优选的,m的取值范围为50~500,l的取值范围为0~0.1m。进一步的,所述特定属性包括节点涉及盗版内容或非法内容或发散的舆论热点。本发明还提供了一种网络盗版发现系统,包括相互连接的数据库服务器、业务服务器和取证服务器,所述数据库服务器用于记录原著作品相关信息、网络爬虫工作信息和系统运行信息,所述业务服务器用于通过网络爬虫进行数据爬取、执行搜索策略以及检测是否侵权,所述取证服务器用于执行取证动作;其中,所述网络爬虫包括基础爬虫单元、特征管理单元和策略执行单元,所述基础爬虫单元用于进行数据爬取;所述特征管理单元用于将基础爬虫单元爬取的内容与所述原著作品进行特征匹配,判断节点是否存在盗版内容;所述策略执行单元用于基于所述特征匹配及判断结果,使用如上所述的路径规划方法执行搜索策略。进一步的,所述基础爬虫进行数据爬取包括下载网页内容并过滤为文本,以及下载网页中的图像;所述特征管理单元进行特征匹配包括将过滤后的文本与文本原著作品做匹配或将下载的图像与图像原著作品做匹配。进一步的,所述数据库服务器记录的网络爬虫工作信息和系统运行信息包括:url、链接关系和侵权发现结果。进一步的,系统包括由一台数据库服务器和若干台业务服务器形成的主从式计算机集群,所述取证服务器与业务服务器部署在同一台硬件上或分布式部署于因特网的不同位置,所述业务服务器和取证服务器通过局域网的出口连入因特网。本发明的有益效果:“发现了某种属性的结点”这一事件包含着关于网络的信息,本发明充分利用了这种信息,服务于后续的搜索。本发明的方法适用于结点属性非聚类、但有一定关联的情况,典型的如盗版内容、某些非法内容、发散的舆论热点等。调节方法中的参数如m、l、α值可使本发明适应各种不同的场合。本发明的方法,可在茫无头绪的搜索中找出成功概率大的路径,提高未知信息网络搜索的效率。本发明的网络盗版发现系统,可在网络上有效发现盗版内容并进行取证和记录,解决了网络的庞大和侵权行为的分散使权利人难以发现侵权行为,以及法律对电子证据的规定相对滞后,即使发现侵权也难以取证的难题。附图说明图1为本发明的路径规划方法中目标结点对周围节点的影响示意图。图2为本发明的网络盗版发现系统实施例的组成示意图。图3为本发明的网络盗版发现系统实施例中业务服务器的功能层次结构。具体实施方式为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。实施例1本实施例提供了一种搜索未知信息网络时的路径规划方法,应用于初始时所有结点的属性为未知的信息网络,包括如下步骤:s1、若发现某一结点具有特定属性,则将其关联值判定为正值,并将其周围结点的关联值也赋为正值,且该正值的大小随离原节点的距离而递减;s2、优先访问所述正值大的节点,若被访问节点具有所述特定属性,则重复步骤s1。上述方法用于在未知的信息网络中搜索含特定属性结点的过程中规划路径以提高搜索的效果。其基本的原理是概率的:初始时所有结点的属性为未知,当某一结点的属性判定为正时,周围结点的属性也为正的概率增加。可以看作,具有特定属性(如内容为盗版)的结点对周围结点有一定影响力,这种影响力随距离而递减。将这种影响力及随距离递减的情形数字化,受影响大的结点先访问,就形成一种优化的搜索策略。作为进一步的优选实施方案,s1具体包括:s11、对所述信息网络中的每个节点关联一个p值,p为正值且初始为0,p(v)表示结点v的p值;s12、设定常数m和l,其中m为大于零的正数,表示结点上发现所述特定属性时p的增量,l为影响能力系数,0<l<m,当p(v)<l时,不再向其周围节点的关联值赋值;s13、当确定某结点v具有所述特定属性时,增加其p值:p(v)’=p(v)+m,并相应增加其周围结点的p值,且周围节点的p值增加随离结点v的距离而递减;以及s2具体包括:s14、对每个节点的p值进行累加,以p值从高到低排列决定结点的访问次序。本发明中,设定某属性为正的结点对周围结点有影响力,影响程度随距离衰减,衰减到一定低就失去影响能力。如图1所示,值为p1的点对链接路径上的点的影响按照系数α的指数函数变化,而中间的点同时受到值为p1和p2的两个点的影响,其影响值累积起来。虚线连接的点是隐藏的结点,如果被发现时p1>l(此处是的),则它的影响值将是αp1。基于此,作为进一步的优选实施方案,s13具体包括:以节点v为根,以宽度优先方式遍历v周围的n层(如n=5)结点,增加每个访问到的结点的p值;具体的,令vij是第i层第j个结点,δpij是p(vij)的增量,每一层的δpij值从前一层按系数α衰减,则δp1j=αm,δp2j=α2m,δp3j=α3m,…;优选的,m的取值范围为50~500,l的取值范围为0~0.1m。比如取α=0.6,m=100,则(δp1j,δp2j,δp3j,δp4j,δp5j)=(60,36,21.6,12.96,7.776);p(vij)’=p(vij)+δpij。作为优选实施方式,上述的特定属性可为节点涉及盗版内容或非法内容或发散的舆论热点。调节m、l、α值可使本发明适应各种不同的场合。实施例2本实施例提供了一种网络盗版发现系统,如图2所示,其包括相互连接的数据库服务器、业务服务器和取证服务器。数据库服务器用于记录原著作品相关信息、网络爬虫工作信息和系统运行信息,业务服务器用于通过网络爬虫进行数据爬取、执行搜索策略以及检测是否侵权,取证服务器用于执行取证动作;如图3所示为业务服务器的功能层次结构,其使用的网络爬虫包括基础爬虫单元、特征管理单元和策略执行单元,基础爬虫单元用于进行数据爬取,本实施例中可选取webmagic;特征管理单元用于将基础爬虫单元爬取的内容与所述原著作品进行特征匹配,判断节点是否存在盗版内容;策略执行单元用于基于特征匹配及判断结果,使用实施例1中的路径规划方法执行搜索策略。作为进一步的优选实施方案,基础爬虫进行数据爬取包括下载网页内容并过滤为文本,以及下载网页中的图像;所述特征管理单元进行特征匹配包括将过滤后的文本与文本原著作品做匹配或将下载的图像与图像原著作品做匹配,从而实现文本内容和图像内容的盗版发现。可选的,数据库服务器记录的网络爬虫工作信息和系统运行信息包括:url、链接关系和侵权发现结果,可用于爬取策略的计算。作为进一步的优选实施方案,本实施例中的系统包括由一台数据库服务器和若干台业务服务器形成的主从式计算机集群,取证服务器与业务服务器部署在同一台硬件上或分布式部署于因特网的不同位置,业务服务器和取证服务器通过局域网的出口连入因特网。本发明中,将盗版网站看做一种“污染源”,因而其采用的实施例1中的路径规划方法也可称为污染扩散方法。实际执行中,对实施例1中的路径规划方法进一步说明如下:一、实施例1中衰减方式选择了指数函数,便于计算,其它实施例中还可以考虑其他函数。二、一个结点可以受多次污染,节点的污染可累积,因而结点的p值可以超过100(假如设m=100)。三、程序实现上,由于爬取和侵权检测都是批处理的,故扩散路径上碰到的结点有几种情况:a)尚未经过爬取,即尚未获得网页数据的结点(url);b)已经获得网页的结点(url),它又分为两类:i.未作侵权检测,不知其是否含有盗版;ii.做过检测,知道其是否含有盗版,检测结果可分为:1.含有盗版2.不含盗版情况b)的结点不可能成为候选的url。b)-ii的情况表示已知当前结点是否是盗版,“污染”与否(概率,可能性)似乎无关紧要。一种实施例的的做法是不区分这些情况,一律无差别地执行前述策略,即不因结点(url)的操作状态阻断污染的扩散。在选取爬虫的候选url时自然会把不合适的结点过滤掉。实施例3使用本发明的网络盗版发现系统进行了实际运行测试,实测结果如下表所示:种子总数3358304污染的种子数20802污染的种子中发现的盗版点7未污染的种中发现的盗版点164污染种子盗版几率3.37*10-4未污染种子盗版几率4.91*10-5在整个系统运行期间,url种子队列有平常状态(未受污染)的元素,其间发现盗版点164个;有受污染(p≠0)的元素,其间发现盗版点7个。在污染点中发现盗版的比率是平常状态的6.85倍,说明系统所采用的方法是有效的。以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1