用于提高统一资源定位符提取准确率的方法和设备的制作方法

文档序号:6488607阅读:171来源:国知局
用于提高统一资源定位符提取准确率的方法和设备的制作方法
【专利摘要】本发明公开了用于提高统一资源定位符提取准确率的方法和设备,该方法包括:使用根据规则从原始数据中提取的原始统一资源定位符进行网络访问;当所述网络访问失败时,修改所述原始数据中的原始统一资源定位符以获得最终统一资源定位符;根据所述最终统一资源定位符修改所述规则。使用本发明的方法和设备可以提高统一资源定位符提取准确率。
【专利说明】用于提高统一资源定位符提取准确率的方法和设备
【技术领域】
[0001]本发明的实施方式涉及一种用于提供统一资源定位符(URL)提取准确率的方法和设备。
【背景技术】
[0002]Web 2.0时代的到来,逐渐改变了 Web 1.0时代的信息传播方式,用户的角色也发生了改变并被重新定位。通过Web 2.0技术,信息传播的成本变得非常低廉而且效率非常高,用户在互联网上可以获得更大、更好的传播、分享信息的自由。例如,各种社交网络、资源共享网络、各种社区、论坛、博客、微博等都为用户发布各种信息和内容提供了各种各样的途径。因此,在互联网上将存在越来越多由用户创作的内容(UGC)和用户分享的内容。
[0003]当用户分享诸如视频、音频或网页之类的网络内容时,经常通过在其发送的内容中加入引用或分享的内容的链接。当前的社交网站或其它一些的网络提供商经常提供短链接服务,其将用户发送的内容中的URL转换成较短的形式予以显示。例如,人人网提供的短链接服务可以将内容中的 URL(比如 http://v.youku.com/v_show/id_XNDMyNTQlMTE2.html)转换成比如http://rrurl.cn/3h9d4i。这需要从用户发送的内容的中提取正确的URL。一种常用的提取方式是基于正则表达式的字符串匹配,即在程序中写一个正则,然后每次在内容中寻找匹配。这种方式是一种性价比很高的方式,解析效果比较好,大多数情况都能解析,但是涉及到一些特殊的规则的时候则会出现问题,比如出现了中文,有的是中文域名的网站,有的是在url本身(不是参数部分queryString)包含中文比如“http://www.campaignchina.com/Article/285702,徐进加盟灵狮中国,出任合伙人兼北京灵狮首席执行官.aspx”这个网址,如果在正则中不支持中文(这是目前各大网站的策略)则不能正确解析这个链接,如果我们在正则中支持中文那么问题更严重,因为很多用户在粘贴了链接后会马上输入别的内容,比如 “http://news.163.com/12/0416/22/7V8CVANB00014JB5.html这里面说事情好奇怪啊”这时会把整句话都进行转换,此时的错误更加严重。所以需要解决这个问题。

【发明内容】

[0004]为了解决上述问题,根据本发明的一个方面,提供了一种用于提高统一资源定位符提取准确率的方法,包括:使用根据规则从原始数据中提取的原始统一资源定位符进行网络访问;当所述网络访问失败时,修改所述原始数据中的原始统一资源定位符以获得最终统一资源定位符;根据所述最终统一资源定位符修改所述规则。
[0005]根据本发明的另一方面,提供了一种用于提高统一资源定位符提取准确率的设备,包括:用于使用根据规则从原始数据中提取的原始统一资源定位符进行网络访问的装置;用于当所述网络访问失败时修改所述原始数据中的原始统一资源定位符以获得最终统一资源定位符的装置;用于根据所述最终统一资源定位符修改所述规则的装置。
[0006]通过使用根据本发明的一些方面的方法和设备,可以较为准确地识别内容中的URL,从而提高了 URL的提取准确率。
【专利附图】

【附图说明】
[0007]通过对结合附图所示出的实施方式进行详细说明,本发明的上述以及其他特征将更加明显,本发明附图中相同的标号表示相同或相似的元素。在附图中:
[0008]图1示出了适于实现本发明实施方式的计算系统的框图;
[0009]图2是根据本发明的一个实施例的方法的流程图;
[0010]图3是根据本发明的另一个实施例的方法的流程图;
[0011]图4是根据本发明的又一个实施例的方法的流程图;
[0012]图5示出了根据本发明的一个实施例的设备的框图。
[0013]在附图中,相同或对应的标号表不相同或对应的部分。
【具体实施方式】
[0014]下文将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
[0015]可以理解,本发明的一些实施例所涉及的用于提供URL提取准确率的方法可以通过使用诸如台式计算机、膝上型计算机、服务器、工作站、平板型计算机、一体机、手机、PDA之类的具有计算能力的计算设备上执行,而本发明的一些实施例所涉及的用于提供URL提取准确率的设备可以体现为诸如台式计算机、膝上型计算机、服务器、工作站、平板型计算机、一体机、手机、PDA之类的具有计算能力的计算设备中的一个或一些部件或其组合。
[0016]例如,参见图1,图1示出了本发明的各种实施方式可以在其中实现的一种示例性设备的框图。
[0017]图1中所示的设备包括CPU(中央处理单元)101、RAM(随机存取存储器)102、ROM(只读存储器)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示器控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。在这些部件中,与系统总线104相连的有CPU IOU RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108和显示器控制器109。硬盘110与硬盘控制器105相连,键盘111与键盘控制器106相连,串行外部设备112与串行接口控制器107相连,并行外部设备113与并行接口控制器108相连,以及显示器114与显示器控制器109相连。
[0018]图1所述的结构框图仅仅为了示例的目的而示出的,并非是对本发明的限制。在一些情况下,可以根据需要添加或者减少其中的一些设备。例如,图1所示的设备可以省略键盘111,而仅仅是一个能够被外部设备访问的服务器。图1所示的设备可以单独地实现本发明运行的环境,也可以通过网络互相连接起来而实现本发明运行的环境,例如本发明的各个模块和/或步骤可以分布地实现在互相连接的各个设备中。
[0019]上述的各个方面可以被单独使用或是以各种组合来适用。本申请的教导可以通过硬件和软件的组合来实现,但是同样可以在软件或硬件中实现。本申请的教导同样可以实施为在计算机可读介质上的计算机程序产品,所述计算机可读介质可以是任何物质介质,例如软盘、⑶-ROM、DVD、硬驱动器甚至网络介质等。
[0020]例如,当用户发了日志“今天看了相声,乐疯了。视频在此http://www.tudou.com/programs/view/lmrSw6ffX4-A/? resourceld = 102053057 08 12 99&rpid = 102053057dff5pb25faffQ9MTAw0TYzXzEwMDAwMV8wMV8wMQ 极赞”。人人网根据正则表达式提取 URL:http://www.tudou.com/programs/view/lmrSw6ffX4-A/? resourceld = 102053057 08 1299&rpid = 102053057dff5pb25faffQ9MTAw0TYzXzEwMDAwMV8wMV8wMQ,并且例如将其转换为短URL:http://rrurl.cn/349d4i。通常情况下,这种转换通常都能成功,但是有些特殊的网站,因其URL中包含中文或其它特殊字符而不能被正则表达式识别正确,因此所提取的URL 基本都是错误的。例如上述的 “http://www.campaignchina.com/Article/285702,徐进加盟灵狮中国,出任合伙人兼北京灵狮首席执行官.aspx”。因此,需要修改规则,以正确识别这类特殊的URL。
[0021]下面结合图2来描述根据本发明的一个实施例的用于提供URL提取准确率的方法。该方法并非是针对在线转换,而是旨在提供离线分析URL并基于分析修改提取规则的方法。具体而言,例如,诸如社交网站之类的网络提供商从其短链接(短URL)库中提取出一条短URL,并继而使用该URL进行访问,如果访问成功,例如返回200,则该短URL所针对的原始URL的提取是正确的;如果访问失败,例如返回404,则该短URL所针对的原始URL的提取是错误的。访问失败的原因可能有多种,其中之一是上述的提取出错,也有其它可能,比如原本存在的网址出于各种原因被删除,例如网络服务提供商因认为其不适于公开而将其删除。本发明主要针对的是前一种情形,即因提取错误而导致的访问失败。
[0022]在步骤S201处,诸如社交网站之类的网络提供商使用根据规则原始数据中提取的原始 URL(例如,http://www.campaignchina.com/Article/285702)进行网络访问。上述规则可以包括正则表达式、针对特殊域名的规则等。
[0023]在步骤S202处,当网络访问失败时,诸如社交网站之类的网络提供商修改原始数据中的原始URL 以获得最终URL(例如,http://www.campaignchina.com/Article/285702,徐进加盟灵狮中国,出任合伙人兼北京灵狮首席执行官.aspx)。在另一种情形中,当网络访问成功时,则诸如社交网站之类的网络提供商从库中提取下一个原始URL进行分析。
[0024]在步骤S203处,诸如社交网站之类的网络提供商根据最终URL(例如,http://WWW.campaignchina.com/Article/285702,徐进加盟灵狮中国,出任合伙人兼北京灵狮首席执行官.aspx)修改规则。例如,诸如社交网站之类的网络提供商可以在规则中增加一条,例如当提取的URL是涉及campaignchina域名时,提取URL不仅仅使用正则表达式,还应提取正则表示提取部分之后的中文,直至“aspx”。
[0025]下面根据图3描述根据本发明的另一实施例的用于提高URL提取准确率的方法。该实施例与之前针对图2描述的实施例相似,例如步骤S301和S303分别与步骤S201和S203相同,不同之处在于步骤S304和S305。因此,在此为了突显本实施例的特征而省略对步骤S301和步骤S303的描述。
[0026]在步骤S304处,诸如社交网站之类的网络提供商可以计算最终URL所涉及的域名的提取错误率。并且在步骤S304处,当提取错误率超出阈值时,诸如社交网站之类的网络提供商可以根据最终URL修改规则。步骤S304和步骤S305与步骤S205不同之处在于加入了对提取错误率的判定。这是由于提取出错的原因有很多种,如果针对每次错误都修改规则,则容易造成提取系统的不稳定和较大的处理量。因此,可以使用提取错误率来减少修改。例如涉及campaignchina域名的原始URL中100次中错误了 80次(对应于80%的提取错误率),则此时可以修改规则,例如,诸如社交网站之类的网络提供商可以在规则中增加一条,例如当提取的URL是涉及campaignchina域名时,提取URL不仅仅使用正则表达式,还应提取正则表示提取部分之后的中文,直至“aspx”。此外,该方法还可以根据原始URL和最终URL来修改规则,例如通过比较原始URL和最终URL,分析出提取错误原因,并且针对该原因进行规则修改。
[0027]下面根据图4描述根据本发明的又一实施例的用于提高URL提取准确率的方法。该实施例与之前针对图3描述的实施例相似,例如步骤S401、S404和S405分别与步骤S301、S304和5305相同,不同之处在于步骤S402'、S4022、S4023和S403。因此,在此为了突显本实施例的特征而省略对步骤S4301、S404和S405的描述。
[0028]在步骤S4021处,诸如社交网站之类的网络提供商可以确定网络访问是否成功。当访问成功,该URL即为最终URL。当访问不成功时,判断是否可以修改URL,如果不可以修改,则该URL即为最终URL。当可以修改URL时,对URL进行修改,例如原始URL为 http.//www.campaignchina.com/Article/285702,此时对其进行修改,将其修改为http://www.campaignchina.com/Article/285702,。此时,使用修改后的该 URL (http://www.campaignchina.com/Article/285702,)访问。再通过上述过程(步骤 S4021、S4022 和S4023),将上一URL 继续修改为 http://www.campaignchina.com/Article/285702,徐。如此循环,直至访问成功,此时 URL 为 http://www.campaignchina.com/Article/285702,徐进加盟灵狮中国,出任合伙人兼北京灵狮首席执行官.aspx。由此可见,对于原始URL的修改可以是多次修改。以上是一种修改方式,其是逐次增加在上一URL(原始或经修改的URL)之后的一个字符,直至获得最终URL。与此对照,另一修改方式是逐次删除在上一 URL (原始或经修改的URL)中最后的一个字符,直至获得最终URL。
[0029]上面针对各种实施例描述了本发明的一个方面的方法。可以理解,上面的方法及其包括的各种步骤可以根据实际需要而进行组合、添加新的步骤或是删除一些步骤以获得一些属于本发明的权利要求书限定的保护范围及其等同范围的其他方法。显然,这些修改、添加、删除所获得的新的方法同样位于本发明的保护范围内。
[0030]根据本发明的另一方面,还提供了一种用于提高提取准确率的设备。参见图5,该设备500包括用于使用根据规则从原始数据中提取的原始URL进行网络访问的装置510、用于当网络访问失败时修改原始数据中的原始URL以获得最终URL的装置520、用于根据最终URL修改规则的装置530。装置510用于从原始数据提取原始URL并且使用原始URL进行网络访问。装置520用于在网络访问失败时,对原始URL进行修改以获得最终URL,其可以使用上面针对图2、图3和图4描述的任一方法而对原始URL进行修改。当修改完成之后,装置530用于根据最终URL修改规则。以上仅是示例性的描述示例,本领域技术人员知晓,可以对其进行修改,例如设备500可以包括用于根据提取错误率修改规则的装置。
[0031]此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。[0032]综上所述,本发明的一个方面提供了一种用于提高统一资源定位符提取准确率的方法,包括:使用根据规则从原始数据中提取的原始统一资源定位符进行网络访问;当所述网络访问失败时,修改所述原始数据中的原始统一资源定位符以获得最终统一资源定位符;根据所述最终统一资源定位符修改所述规则。
[0033]优选地,还包括:计算所述最终统一资源定位符所涉及的域名的提取错误率;当所述提取错误率超出阈值时,根据所述最终统一资源定位符修改所述规则。
[0034]优选地,进一步包括根据所述原始统一资源定位符和所述最终统一资源定位符修改所述规则。
[0035]优选地,其中所述修改所述原始数据中的原始统一资源定位符以获得最终统一资源定位符可以是多次修改。
[0036]优选地,其中所述修改包括在所提取的上一统一资源定位符之后增加在所述原始数据中紧接其后的字符。
[0037]优选地,其中所述修改包括删除所提取的上一统一资源定位符中最后的字符。
[0038]优选地,其中修改所述规则包括添加针对所述域名的规则。
[0039] 此外,本发明的又一方面提供了一种用于提高统一资源定位符提取准确率的设备,包括:用于使用根据规则从原始数据中提取的原始统一资源定位符进行网络访问的装置;用于当所述网络访问失败时修改所述原始数据中的原始统一资源定位符以获得最终统一资源定位符的装置;用于根据所述最终统一资源定位符修改所述规则的装置。
[0040]优选地,还包括:用于计算所述最终统一资源定位符所涉及的域名的提取错误率的装置;用于当所述提取错误率超出阈值时根据所述最终统一资源定位符修改所述规则的
>J-U ρ?α装直。
[0041]优选地,进一步包括用于根据所述原始统一资源定位符和所述最终统一资源定位符修改所述规则的装置。
[0042]优选地,其中所述修改所述原始数据中的原始统一资源定位符以获得最终统一资源定位符可以是多次修改。
[0043]优选地,其中所述修改包括在所提取的上一统一资源定位符之后增加在所述原始数据中紧接其后的字符。
[0044]优选地,其中所述修改包括删除所提取的上一统一资源定位符中最后的字符。
[0045]优选地,其中用于修改所述规则的装置包括用于添加针对所述域名的规则的装置。
[0046]虽然已经参考若干【具体实施方式】描述了本发明,但是应该理解,本发明并不限于所公开的【具体实施方式】。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。
【权利要求】
1.一种用于提高统一资源定位符提取准确率的方法,包括: 使用根据规则从原始数据中提取的原始统一资源定位符进行网络访问; 当所述网络访问失败时,修改所述原始数据中的原始统一资源定位符以获得最终统一资源定位符; 根据所述最终统一资源定位符修改所述规则。
2.根据权利要求1所述的方法,还包括: 计算所述最终统一资源定位符所涉及的域名的提取错误率; 当所述提取错误率超出阈值时,根据所述最终统一资源定位符修改所述规则。
3.根据权利要求2所述的方法,进一步包括根据所述原始统一资源定位符和所述最终统一资源定位符修改所述规则。
4.根据权利要求1所述的方法,其中所述修改所述原始数据中的原始统一资源定位符以获得最终统一资源定位符可以是多次修改。
5.根据权利要求4所述的方法,其中所述修改包括在所提取的上一统一资源定位符之后增加在所述原始数据中紧接其后的字符。
6.根据权利要求4所述的方法,其中所述修改包括删除所提取的上一统一资源定位符中最后的子符。
7.根据权利要求1-6中任一项所述的方法,其中修改所述规则包括添加针对所述域名的规则。
8.一种用于提高统一资源定位符提取准确率的设备,包括: 用于使用根据规则从原始数据中提取的原始统一资源定位符进行网络访问的装置; 用于当所述网络访问失败时修改所述原始数据中的原始统一资源定位符以获得最终统一资源定位符的装置; 用于根据所述最终统一资源定位符修改所述规则的装置。
9.根据权利要求8所述的设备,还包括: 用于计算所述最终统一资源定位符所涉及的域名的提取错误率的装置; 用于当所述提取错误率超出阈值时根据所述最终统一资源定位符修改所述规则的装置。
10.根据权利要求9所述的设备,进一步包括用于根据所述原始统一资源定位符和所述最终统一资源定位符修改所述规则的装置。
11.根据权利要求8所述的设备,其中所述修改所述原始数据中的原始统一资源定位符以获得最终统一资源定位符可以是多次修改。
12.根据权利要求11所述的设备,其中所述修改包括在所提取的上一统一资源定位符之后增加在所述原始数据中紧接其后的字符。
13.根据权利要求11所述的设备,其中所述修改包括删除所提取的上一统一资源定位符中最后的子符。
14.根据权利要求8-13中任一项所述的设备,其中用于修改所述规则的装置包括用于添加针对所述域名的规则的装置。
【文档编号】G06F17/30GK103678333SQ201210326012
【公开日】2014年3月26日 申请日期:2012年9月3日 优先权日:2012年9月3日
【发明者】张良 申请人:北京千橡网景科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1