互联网上使用访问/搜索应用自动搜索非法内容的系统和方法

文档序号:6455978阅读:170来源:国知局

专利名称::互联网上使用访问/搜索应用自动搜索非法内容的系统和方法
技术领域
:本发明涉及在互联网上使用访问/搜索应用自动搜索非法内容的系统和方法。更加具体地说,本发明涉及在互联网上使用访问/搜索应用的非法内容自动搜索系统及其方法,所述系统基于诸如对等服务(P2P)、网络^埂盘和网页的互联网站点内的访问/搜索应用的配置信息、编辑用于搜索/下载非法内容的脚本文件,并基于该脚本文件控制该访问/搜索应用,从而在P2P/网络硬盘中自动搜索非法内容。
背景技术
:在当前的数字版权管理(DRM)环境中,虽然内容被合法地传送给用户,但是用户能够通过捕获工具或黑客活动来非法地复制图像、音频和视频内容,同时又不使语音或画面的质量恶化。当用户未经许可通过对等(P2P)服务或网络硬盘服务在互联网上发布非法复制的内容时,其他用户就能够^f吏用非法内容,而无需购买所述内容。发布非法数字内容严重地影响了数字内容产业。因而,需要用于防止非法复制的技术。虽然需要跟踪并惩罚非法活动以防止对数字内容的非法复制,但是在传统技术中,很难搜索/下载非法复制的内容并跟踪非法内容的发布者。一种传统方法通过^吏用了7>用协议(诸如e-donkey(电驴)和bitTorrent)的、包括简单超文本标记语言(HTML)的在线网页收集内容,但是该方法的功能有限。而且,存在不可能取得一部分信息的问题。由于在P2P或网络硬盘中提供了个人通信协议和接口,P2P或网络硬盘是一般用户所使用的额外付费的公共服务(premiumcommonservice)环境,因此存在很难自动搜索内容的问题。防止和跟踪非法发布传统数字内容的技术包括一种用于跟踪和搜索图像的技术,其基于网页搜索器、基于内容的特征点提取器和基于内容的搜索引擎,对发布于互联网上的图像的特征点和元数据进行搜索和分类,由此来发现互联网上的版4又侵权。5然而,这一传统技术仅限于网页搜索,并且对象内容仅限于图像。并且,根据服务提供商在不同的公共P2P/网络硬盘中搜索非法复制的内容不是自动进行的,而是手动进行的。存在另一种传统技术,其使用客户端代理来防止和跟踪非法复制和未经许可的发布。所述技术能够建立一个系统,该系统通过用于在互联网或P2P共享网络上监视非法作品的非法作品监視服务器以及从该非法作品监视服务器发布的非法作品跟踪程序,来跟踪互联网或P2P共享网络上的非法作品,由此有效控制和监视在互联网上发布的非法作品。并且,该非法作品监视系统能够通过向监视非法作品的客户端支付非法作品跟踪费用(诸如里程点(mileagepoint)或适当的报酬)来有效地维持。然而,该传统技术只能在简单网页/公用P2P中进行搜索。由于每个应用具有不同的接口和不同的传输协议,因此存在这样的问题在被作为公共服务提供的封闭P2P(closedP2P)或网络硬盘中的搜索以及发布者信息的跟踪要手动执行
发明内容技术问题因此,本发明的一个目的是提供一种在互联网上使用访问/搜索应用搜索非法内容的系统及其方法。该系统根据诸如对等(P2P)、网络硬盘和网页的互联网站点中的访问/搜索应用的配置信息,编辑用于搜索/下载非法内容的脚本文件,并基于该脚本文件控制该访问/搜索应用,由此来自动搜索P2P/网络硬盘中的非法内容。本发明的其它目的和优点将通过下面的描述而被理解,并且将通过下文阐述的本发明的实施例而变得更加清楚。还将清楚的是,本发明的目的和优点能够通过权利要求中定义的装置及其組合容易地实现。技术方案根据本发明的一个方面,提供一种在互联网上使用访问/搜索应用的非法内容自动搜索系统。所述系统包括关键字输入单元,其从搜索客户接收与内容相关的关键字,并按照关键字群組来管理所述关键字;脚本文件编辑单元,其从访问/搜索应用的配置信息中提取窗口类标识ID,并基于所提取的窗口类ID和访问信息编辑用于搜索/下载非法内容的脚本文件,其中所述窗口类ID能够控制该访问/搜索应用;脚本文件自动化装置,其控制所述访问/搜索应用,以根据用于搜索/下载脚本文件的所编辑的非法内容,在互联网上自动搜索/下载与关键字群組相关的非法内容;和非法内容信息存储单元,其存储使用所述访问/搜索应用搜索的和下载的非法内容信息。根据本发明的另一个方面,提供一种在互联网上使用访问/搜索应用的非法内容自动搜索方法,该方法包含如下步骤a)从所述访问/搜索应用的配置信息提取用于控制该访问/搜索应用的窗口类标识ID;b)通过所提取的窗口类ID和所述访问/搜索应用,基于被用于访问互联网站点的访问信息来编辑用于搜索/下载非法内容的脚本文件;c)从搜索客户接收与所述内容相关的关键字,并根据每一群組来管理所述关键字;以及d)控制所述访问/搜索应用,以根据所编辑的用于搜索/下载所述非法内容的脚本文件,在互联网上自动地搜索/下载与所述关键字群组相关的非法内容。本发明的一个目的是在互联网上的封闭P2P/网络硬盘中自动搜索非法内容。通过基于诸如P2P、网络硬盘和网页的、待搜索的互联网站点上的访问/搜索应用的配置信息编辑脚本文件,并根据所编辑的脚本文件来控制该访问/搜索应用搜索/下载与关键字群組相关的非法内容,来自动地搜索非法内容信息。当诸如发布服务器、拥有版权的个人和内容服务提供商这样的搜索请求客户请求跟踪非法的复制内容时,本发明执行互联网上的诸如封闭P2P/网络硬盘访问程序这样的内容服务程序,根据关键字群組执行自动搜索,并下载与包括图像、音频和视频的非法复制内容相关的信息。并且,本发明包括用于收集发布者信息的发布者信息跟踪模块。有益效果在传统的技术中,手动地执行在简单网页或公用P2P中的简单搜索、在收费P2P或网络硬盘中的内容搜索和发布者确定工作。相反,本发明基于能够控制封闭的访问/搜索应用的脚本来搜索非法内容,并提取搜索到的内容的发布者信息,从而能够自动地搜索非法内容和发布者信息。并且,当访问/搜索应用是网页类型的网络硬盘时,例如,当内容被存储7在网页的公告板中时,本发明将访问/搜索应用作为脚本进行调用,通过网页分析块对源进行分析,并通过分析结果获得链"l妻信息,由此,当位置信息改变时,本发明无需校正脚本,能够容易地进行搜索。本发明通过钩住在访问/搜索应用内部所传送的窗口消息,来在窗口消息内部提取发布者信息。从而,当不能够提取发布者信息时,本发明能够强制提取发布者信息,并控制访问/搜索应用。通过在在线服务上自动搜索内容并确定内容是否非法,本发明能够减少防止非法复制所需的劳动力和预算,并且能够激励对内容非法复制的防止。本发明的上述和其它目的和特征将从以下结合附图给出的对优选实施例的描述变得清楚,其中图1示出了根据本发明的实施例的、在互联网上使用访问/搜索应用的非法内容自动搜索系统;图2为说明根据本发明的实施例的、图1的脚本文件编辑块的框图;图3为说明根据本发明的实施例的、图1的脚本文件自动化块的框以及图4为说明根据本发明实施例的基于访问/搜索应用在互联网上自动搜索非法内容的方法中的、根据每一群组搜索关键字的方法的流程图。具体实施例方式本发明的其它目的和优点将从下列参考附图对实施例的描述变得清楚。因此,本发明的领域的技术人员能够容易地具体实施本发明的技术概念和范围。另外,如果对相关技术的详细描述会模糊本发明的要点,在这里就不再提供这样的详细描述。在下文中将参考附图详细描述本发明的优选实施例。图1示出了根据本发明的实施例的、在互联网上使用访问/搜索应用自动搜索非法内容的系统。在互联网上使用访问/搜索应用的非法内容自动搜索系统10包括信息管理块12、关键字输入块13、脚本文件编辑块14、脚本文件自动化块15和内容存储块16。访问/搜索应用11为用户执行访问、搜索和下载功能,以便在公用对等(P2P)站点、一般的网页和封闭P2P/网络硬盘站点中存储和共享内容。信息管理块12管理访问/搜索应用的配置信息,并管理用于通过访问/搜索应用11访问互联网站点的访问信息。访问/搜索应用信息管理单元121管理访问/搜索应用的配置信息。也就是,访问/搜索应用信息管理单元121能够输入、纠正和删除访问/搜索应用11的配置信息,记录并管理某一种类的访问/搜索服务及细节。访问信息管理单元122管理用于通过访问/搜索应用11访问互联网站点的访问信息。所述访问信息包括连接器ID、密码、访问/搜索应用的程序版本、安装位置和在客户端程序中使用的可执行文件。关键字输入块13从诸如具有版权的个人和内容服务提供商这样的内容搜索请求客户接收与内容相对应的关键字,并按照每一群组来管理所输入的关键字。关键字输入块13向用于搜索内容的关键字群组添加或删除关键字。图2为说明图1的脚本文件编辑块的框图。脚本文件编辑块14包括窗口类ID提取单元21、窗口命令输入单元22、脚本命令输入单元23和脚本编辑单元24。脚本文件编辑块14从访问/搜索应用的配置信息中提取用于控制该访问/搜索应用的窗口类ID,并基于所提取的窗口类ID和在信息管理块12中所管理的访问信息来编辑用于搜索/下载非法内容的脚本文件。窗口类ID提取单元21从在信息管理块12中管理的访问/搜索应用的配置信息中提取用于控制访问/搜索应用11的窗口类ID,以便将窗口消息直接传送到窗口类,并将命令直接指定给与所提取的窗口类ID相对应的窗口类。窗口命令输入单元22接收窗口命令,该窗口命令用于基于从窗口类ID提取单元21提取的窗口类ID将命令直接传送到窗口类。脚本命令输入单元23接收自动执行窗口输入的脚本命令。脚本编辑单元24基于从窗口类ID提取单元21提取的窗口类ID、从窗口命令输入单元22传送的窗口命令、从脚本命令输入单元23传送的脚本命令、以及访问信息,编辑用于搜索/下载非法内容的脚本文件。脚本文件分为宏、窗口命令和程序命令。宏是用于自动执行诸如键盘或鼠标点击这样的窗口输入的脚本。窗口命令是用于将命令直接传送到窗口类的脚本。程序命令是用于执行文件复制、外部程序操作和强制外部程序终止的脚本文件。9图3为说明根据本发明的实施例的、图1的脚本文件自动化块的框图。脚本文件自动化块15包括脚本文件分析单元31、脚本文件操作单元32、自动关键字输入单元33、网页分析单元34、文件下载控制单元35、发布者信息提取单元36和附加(add-on)单元37。脚本文件自动化块15控制访问/搜索应用根据用于搜索/下载所编辑的非法内容的脚本文件,在互联网上自动地搜索/下载与关键字群組相关的非法内容。脚本文件分析单元31分析在脚本文件编辑块14中编辑的、用于搜索/下载非法内容的脚本文件,并将该脚本文件转换成用于搜索/下载非法内容的脚本操作文件。也就是,脚本文件分析单元31分析以美国信息交换标准码(ASCII)的格式存储的脚本文件,并将所分析的脚本文件转换成脚本操作文件,并将该脚本操作文件存储于存储器中,其中,所述脚本操作文件为将在脚本文件操作单元32中操作的字节码的格式。脚本文件操作单元32操作在脚本文件分析单元31中转换的、用于搜索/下载非法内容的脚本操作文件,并控制访问/搜索应用ll在互联网上根据每一群組自动搜索/下载与在自动关键字输入单元33中输入的关键字相关的非法内容。脚本文件操作单元32读取在脚本文件分析单元31中的存储器中所存储的、字节码格式的脚本操作文件,并执行与该脚本操作文件相对应的命令。字节码格式的命令如下表1所示。表1<table>tableseeoriginaldocumentpage10</column></row><table><table>tableseeoriginaldocumentpage11</column></row><table>自动关键字输入单元33执行从关键字输入块13加载根据每一群組进行管理的关键字,并自动地输入关键字。也就是,自动关键字输入单元33取得在关键字输入块13中根据每一群組进行管理的关键字群组,并执行按照每一群組在关键字窗口上加载包括在关键字群组中的每一关键字的操作。因而,由脚本文件操作单元32所操作的访问/搜索应用11能够自动地搜索所有关键字。当访问/搜索应用11是网页类型的网络硬盘时,例如,当在网页的公告板上通报和存储内容、或链接内容时,网页分析单元34分析网页源,获得并搜索包括非法内容的链接信息。脚本文件操作单元32只通过脚本就能够控制不同的网页。然而,当访问/搜索应用11为网页类型时,存在一个困难,即,脚本文件操作单元32应该基于客户环境校正用于搜索/下载的脚本文件(诸如位置信息或布局的各种变化)。因此,脚本文件自动化块15通过网页分析单元34执行搜索,并通过调用用于搜索/下载的脚本文件来对内容下载部分执行搜索。由于存在每当位置信息改变都要校正脚本的困难,因此将网页分析单元34调用到脚本以容易地执行搜索。文件下载控制单元35下载一部分内容(所述内容可能祐:确认为由访问/搜索应用11搜索到的非法内容),并将所述部分内容识别为非法内容。只下载部分内容会提高搜索和下载的效率。当可识别出在脚本文件操作单元32的控制下由访问/搜索应用11搜索到的部分内容为非法时,文件下载控制单元35停止下载并复制所下载的非法内容。结合基于特征点的内容识别技术,仅利用部分内容,就能够快速和准确地检查内容的元信息。通过文件下载控制单元35,能够将流量减少全部网络流量的十分之一。因而,能够将搜索速度提高以前速度的十分之一。发布者信息提取单元36从互联网站点提取非法内容的发布者信息,其中,由访问/搜索应用11搜索到的非法内容被发布在所述互联网站点上。发布者信息提取单元36提取关于发布内容的实际发布者的信息,以便将责任转移给内容发布者,并获得关于发布非法内容的确凿事实。能够在发布者信息提取单元36中收集的关于非法内容发布者的信息包括服务名称、用户IP、用户ID、收集日期、相应的内容和下载捕获屏幕、以及诸如标题、作者名、相册名和下载URL的内容元数据。当产生不能够从中提取非法内容的发布者信息、或者不能够根据用于搜索/下载非法内容的脚本操作文件对其进行控制的信息时,或者在需要精确控制访问/搜索应用11时,附加单元37能够通过钩住从访问/搜索应用11的内部发送的窗口消息来提取发布者信息或控制程序。附加单元37通过附加编程、相应于每个访问/搜索应用11执行到汇编语言的硬编码,并执行强制跟踪。非法内容信息存储块16存储在脚本文件自动化块15中收集的非法内容信息。与非法内容相关的非法内容信息包括非法内容、非法内容收集信息和非法内容的发布者信息。非法内容信息还包括链^t妄信息(在网页类型的网络硬盘的情况下,该链接信息包括非法内容)和诸如文件名、文件大小和格式的非法内容元数据。非法内容的方法中的、按照每一群組搜索关键字的方法的流程图。脚本文件自动化块15通过用于搜索/下载非法内容的脚本操作文件,来操作访问/搜索应用11。并且,在所操作的访问/搜索应用11中创建关键字窗口。自动关键字输入单元33执行在访问/搜索应用11的关键字窗口上加载和自动插入关键字的功能。自动关键字插入过程包括如下步骤根据每个关键字群组来搜索非法内容,并将搜索到的非法内容的发布者信息存储在数据库(DB)中。对每个群12组重复执行该搜索过程,并且当搜索了最后的群组后,该搜索过程结束。自动关键字输入单元33在步骤S402执行加载第一关键字群组,并在步骤S404将来自第一关键字的关键字插入到访问/搜索应用11的关键字窗口中。访问/搜索应用11在步骤S406搜索与所插入的第一关键字相关的内容,并在步骤S408逐个地下载搜索到的非法内容。在步骤S410,发布者信息提取单元36收集发布者信息,所述发布者信息可以从提供访问/搜索服务的互联网站点提耳又。如上所述,文件下载控制单元35控制内容的下载以下载一部分内容,并且,通过基于特征点的内容识别技术,仅利用所述一部分内容就能够识别内容。当下载了一部分文件时,在步骤S412,复制所下载的文件。随后,在步骤S414,停止文件下载,并删除文件夹的文件。对下一个文件夹重复执行所述过程。在步骤S416,将所收集的非法内容的信息记录在非法内容存储块16中,以避免下载相同的文件。在步骤S418,检查所下载的文件是否是最后的搜索文件。当所下载的文件不是最后的搜索文件时,逻辑流返回到步骤S408,并且重复上面的过程。当所下载的文件是最后的搜索文件时,在步骤S420检查关键字是否是最后的关键字。当关键字不是最后的关键字时,在步骤S422插入下一个关键字,并且逻辑流返回到步骤S406。当关键字是最后的关键字时,在步骤S424检查关键字群组是否是最后的关键字群組。当关键字群组不是最后的关键字群组时,在步骤S426加载下一个关键字群组,并且逻辑流返回到步骤S404。当关键字群组是最后的关键字群組时,在步骤S428处理搜索到的文件。如上面所详细描述的,本发明的技术可以被实现为程序并存储在诸如CD-ROM、RAM、ROM、软盘、硬盘和磁光盘的计算机可读记录介质中。由于本领域技术人员能够容易地实现所述过程,因此此处不提供进一步的描述。本申请包含与2006年7月25日提交到韩国知识产权局的第2006-0069970号韩国专利申请相关的主题,以参考的形式将该韩国专利申请的全部内容并入本文中。尽管已经参照特定优选实施例描述了本发明,但是本领域技术人员将会明白,可以进行各种改变和修改而不背离权利要求所定义的本发明的范围。1权利要求1、一种在互联网上使用访问/搜索应用的非法内容自动搜索系统,包括关键字输入装置,其从搜索客户接收与内容相关的关键字,并按照关键字群组来管理所述关键字;脚本文件编辑装置,其从访问/搜索应用的配置信息中提取能够控制该访问/搜索应用的窗口类标识ID,并基于所提取的窗口类ID和访问信息编辑用于搜索/下载非法内容的脚本文件;脚本文件自动化装置,其控制所述访问/搜索应用,以根据所编辑的用于搜索/下载脚本文件的非法内容,在互联网上自动搜索/下载与关键字群组相关的非法内容;和非法内容信息存储装置,其存储使用所述访问/搜索应用搜索和下载的非法内容信息。2、如权利要求l所述的系统,还包括信息管理装置,其管理所述访问/搜索应用的配置信息,并管理用来通过该访问/4窆索应用访问互联网站点的访问信息。3、如权利要求l所述的系统,其中,所述脚本文件编辑装置包括窗口类ID提取单元,其从所述访问/搜索应用的配置信息中提取能够控制该访问/搜索应用的窗口类ID;窗口命令输入单元,其接收窗口命令,以基于所提取的窗口类ID将命令直接传送到窗口类;脚本命令输入单元,其接收用于自动执行窗口输入的脚本命令;和脚本编辑单元,其根据所提取的窗口类ID、输入的窗口命令、输入的脚本命令和所管理的访问信息来编辑用于搜索/下载非法内容的脚本文件。4、如权利要求3所述的系统,其中,所述脚本文件自动化装置包括脚本文件分析单元,其分析所编辑的用于搜索/下载非法内容的脚本文件,并将该脚本文件转换成用于搜索/下载非法内容的脚本操作文件;自动关键字输入单元,其加载并自动输入来自所述关键字输入装置的、按照每个群组进行管理的关键字;和脚本文件操作单元,其操作转换后的用于搜索/下载非法内容的脚本操作文件,并控制所述访问/搜索应用,使其按照每个群组在互联网上自动搜索/下载与所输入的关键字相关的非法内容。5、如权利要求4所述的系统,其中,所述脚本文件自动化装置还包括发布者信息提取单元,其从发布脚本文件操作单元中的非法内容的互联网站点提取非法内容的发布者信息;文件下载控制单元,其基于搜索到的和所下载的非法内容的特征点下载一部分内容,并将所述内容识别为非法内容;网页分析单元,当所述访问/搜索应用为网页类型的网络^^盘时,其分析网页的源,并获取包括非法内容的链接信息;和附加单元,当根据用于搜索/下载非法内容的脚本操作文件没有提取出非法内容的发布者信息时,其钩住从访问/搜索应用的内部传送的窗口消息,并提取发布者信息。6、如权利要求5所述的方法,其中,所述访问/搜索应用访问公用对等P2P、网页类型的网络石更盘、封闭P2P应用和封闭网络硬盘中的至少一个,并搜索内容。7、如权利要求5所述的方法,其中,所述发布者信息包括发布者IP、发布者ID、发布者所使用的访问/搜索服务名称、非法内容的元数据、发布者信息的收集日期、搜索到的非法内容和非法内容的搜索/下载捕获屏幕。8、如权利要求5所述的方法,其中,所述发布者信息包括发布者IP、发布者ID、发布者所使用的访问/搜索服务名称、非法内容的元数据、发布者信息的收集日期、搜索到的非法内容和非法内容的搜索/下载捕获屏幕。9、如权利要求8所述的方法,其中所述步骤b)包括bl)接收窗口命令,该窗口命令用于根据所提取的窗口类ID将命令直接传送到窗口类;b2)接收用于自动执行窗口输入的脚本命令;以及b3)基于所提取的窗口类ID、所输入的窗口命令、所输入的脚本命令和被管理的访问信息,编辑用于搜索/下载非法内容的脚本文件。10、如权利要求8所述的方法,其中,步骤d)包括dl)分柝在脚本文件编辑中所编辑的、用于搜索/下载非法内容的脚本文件,并将该脚本文件转换成用于搜索/下载非法内容的脚本操作文件;d2)加载并自动输入在步骤b)中按照每个群組进行管理的关键字;以及d3)操作转换后的、用于搜索/下载非法内容的脚本操作文件,并控制访问/搜索应用,以按照每个群組在互联网上自动搜索/下载与所输入的关键字相关的非法内容。11、如权利要求10所述的方法,其中,步骤d)还包括步骤d4)从步骤d3)中的发布非法内容的互联网站点提取非法内容的发布者信息;d5)基于搜索到的/所下载的非法内容的特征点下载一部分内容,并将所述内容识别为非法内容;d6)当访问/搜索应用为网页类型的网络硬盘时,分析网页的源,并获取包括非法内容的链接信息;以及d7)当根据用于搜索/下载非法内容的脚.本操作文件没有提取出非法内容的发布者信息时,钩住从所述访问/搜索应用的内部传送的窗口消息,并提取发布者信息。12、如权利要求11所述的方法,其中,所述访问/搜索应用访问公用对等(P2P)、网页类型的网络硬盘、封闭P2P和封闭网络硬盘之中的至少一个,并搜索内容。13、如权利要求ll所述的方法,其中所述发布者信息包括发布者IP、发布者ID、由发布者所使用的访问/搜索服务名称、非法内容的元数据、发布者信息的收集日期、搜索到的非法内容和非法内容的搜索/下载捕获屏幕。全文摘要提供一种在互联网上使用访问/搜索应用自动搜索非法内容的系统和方法。所述系统包括关键字输入单元,其从搜索客户接收与内容相关的关键字,并按照关键字群组来管理关键字;脚本文件编辑单元,其从访问/搜索应用的配置信息中提取窗口类标识ID,并基于所提取的窗口类ID和访问信息编辑用于搜索/下载非法内容的脚本文件,其中所述窗口类ID能够控制该访问/搜索应用;脚本文件自动化单元,其控制所述访问/搜索应用,以根据用于搜索/下载脚本文件的所编辑的非法内容,在互联网上自动搜索/下载与关键字群组相关的非法内容;和非法内容信息存储单元,其存储使用所述访问/搜索应用搜索和下载的非法内容信息。文档编号G06F17/30GK101517574SQ200780035645公开日2009年8月26日申请日期2007年1月29日优先权日2006年7月25日发明者俞元英,吴元根,尹英锡,徐庸硕,徐泳浩,李善和,李承宰,李相光,李诚晥,李骏硕,郑彗源,金元谦申请人:韩国电子通信研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1