内容采集方法和装置与流程

文档序号:12121406阅读:233来源:国知局
内容采集方法和装置与流程
本发明涉及互联网
技术领域
,尤其涉及一种内容采集方法和装置。
背景技术
:对于视频等多媒体资源,现有的内容采集方法有多种。例如:编辑人工采集视频内容;人工整理视频源列表,机器采集最热门视频;采集视频分享网站的视频。其中,编辑人工采集的效率低,无法及时追踪最新最热的视频。人工整理的视频源有限,且跟踪不及时,对用户关注热点覆盖不全面。来自社交网站等视频分享网站的热门视频无法反应用户主动搜索的话题。并且,无法覆盖长尾话题的视频。技术实现要素:技术问题有鉴于此,本发明要解决的技术问题是,提供一种采集效率高、覆盖热点多的内容采集方法和装置。解决方案为了解决上述技术问题,根据本发明的一实施例,提供了一种内容采集方法,包括:从各内容源采集各热点词;根据所采集的各热点词构建热点池;从所述热点池中读取待处理热点,并从各内容源中采集与所述待处理热点相关的热点资源。对于上述方法,在一种可能的实现方式中,从各内容源采集各热点词,包括:从搜索引擎、社交媒体和资源网站中的至少一种内容源,获取各热门搜索词及其对应的搜索排名和获取时间;根据各热门搜索词对应的搜索排名和获取时间,从各热门搜索词中选取用于构建所述热点池的各热点词。对于上述方法,在一种可能的实现方式中,根据所采集的各热点词构建热点池,包括:在各所述内容源获取各热点词对应的各搜索结果;采用网页正文抽取方法,从各所述搜索结果中抽取正文,并从所抽取的正文中提取各关键词;计算各所述关键词对应的指纹;将各所述关键词及其对应的指纹保存在热点池中。对于上述方法,在一种可能的实现方式中,将各所述关键词及其对应的指纹保存在热点池中,包括:若所述热点池中不存在所述关键词对应的指纹,则从所述关键词中提取地域属性;将每个关键词及其对应的指纹和地域属性保存到所述热点池中。对于上述方法,在一种可能的实现方式中,从所抽取的正文中提取各关键词,包括:按照式1计算对所抽取的正文进行去重后的各个词的权重,wi=tfi*idfi式1,式1中的wi表示第i个词的权重,tfi是第i个词在所抽取的正文的所有词中的词频,idfi是第i个词的IDF值;计算所抽取的正文的所有词的平均权重及权重的标准差;从所抽取的正文的所有词中提取权重超过平均值的词作为关键词。对于上述方法,在一种可能的实现方式中,从所述热点池中读取待处理热点,并从各内容源中采集与所述待处理热点相关的热点资源,包括:从所述热点池中读取所述待处理热点所包括的各关键词以及各关键词对应的指纹和地域属性;采用分布式抓取系统,从各内容源获取与所述待处理热点的关键词相关的热点资源;保存所述待处理热点所包括的各关键词以及各关键词对应的指纹、地域属性和热点资源。对于上述方法,在一种可能的实现方式中,采用分布式抓取系统,从各内容源获取与所述待处理热点的关键词相关的热点资源,包括:各所述内容源发送抓取命令,所述抓取命令中包括所述待处理热点的关键词;从各所述内容源获取与所述关键词相关的资源链接和标题;过滤掉已经处理过的资源链接;从所述标题中提取标题关键词;计算所述待处理热点的关键词与所提取的标题关键词的相似度和/或所述标题的指纹;根据所述相似度和/或所述标题的指纹从资源链接中获取热点资源。对于上述方法,在一种可能的实现方式中,还包括:对各所述热点资源进行后期处理,所述后期处理包括压缩和/或标题美化。对于上述方法,在一种可能的实现方式中,还包括:在交互界面检测用户操作,所述用户操作包括对所述热点资源进行删除、增加和修改中的至少一项处理;根据所述用户操作,对各所述热点资源进行相应处理。为了解决上述技术问题,根据本发明的另一实施例,提供了一种内容采集装置,包括:热点词采集模块,用于从各内容源采集各热点词;构建模块,用于根据所采集的各热点词构建热点池;资源采集模块,用于从所述热点池中读取待处理热点,并从各内容源中采集与所述待处理热点相关的热点资源。对于上述装置,在一种可能的实现方式中,所述热点词采集模块包括:第一获取子模块,用于从搜索引擎、社交媒体和资源网站中的至少一种内容源,获取各热门搜索词及其对应的搜索排名和获取时间;第一选取子模块,用于根据各热门搜索词对应的搜索排名和获取时间,从各热门搜索词中选取用于构建所述热点池的各热点词。对于上述装置,在一种可能的实现方式中,所述构建模块包括:搜索结果子模块,用于在各所述内容源获取各热点词对应的各搜索结果;关键词提取子模块,用于采用网页正文抽取方法,从各所述搜索结果中抽取正文,并从所抽取的正文中提取各关键词;指纹计算子模块,用于计算各所述关键词对应的指纹;第一保存子模块,用于将各所述关键词及其对应的指纹保存在热点池中。对于上述装置,在一种可能的实现方式中,所述第一保存子模块还用于若所述热点池中不存在所述关键词对应的指纹,则从所述关键词中提取地域属性;将每个关键词及其对应的指纹和地域属性保存到所述热点池中。对于上述装置,在一种可能的实现方式中,所述关键词提取子模块还用于:按照式1计算对所抽取的正文进行去重后的各个词的权重,wi=tfi*idfi式1,式1中的wi表示第i个词的权重,tfi是第i个词在所抽取的正文的所有词中的词频,idfi是第i个词的IDF值;计算所抽取的正文的所有词的平均权重及权重的标准差;从所抽取的正文的所有词中提取权重超过平均值的词作为关键词。对于上述装置,在一种可能的实现方式中,所述资源采集模块包括:读取子模块,用于从所述热点池中读取所述待处理热点所包括的各关键词以及各关键词对应的指纹和地域属性;抓取子模块,用于采用分布式抓取系统,从各内容源获取与所述待处理热点的关键词相关的热点资源;第三保存子模块,用于保存所述待处理热点所包括的各关键词以及各关键词对应的指纹、地域属性和热点资源。对于上述装置,在一种可能的实现方式中,所述抓取子模块还用于各所述内容源发送抓取命令,所述抓取命令中包括所述待处理热点的关键词;从各所述内容源获取与所述关键词相关的资源链接和标题;过滤掉已经处理过的资源链接;从所述标题中提取标题关键词;计算所述待处理热点的关键词与所提取的标题关键词的相似度和/或所述标题的指纹;根据所述相似度和/或所述标题的指纹从资源链接中获取热点资源。对于上述装置,在一种可能的实现方式中,还包括:后期处理模块,用于对各所述热点资源进行后期处理,所述后期处理包括压缩和/或标题美化。对于上述装置,在一种可能的实现方式中,还包括:用户处理模块,用于在交互界面检测用户操作,所述用户操作包括对所述热点资源进行删除、增加和修改中的至少一项处理;根据所述用户操作,对各所述热点资源进行相应处理。有益效果本发明实施例,通过采集热点词构建热点池,再根据热点池中的热点自动采集热点资源,能够全面覆盖用户的关注热点,与人工采集相比,可以实时追踪最新最热的资源,采集效率高。进一步地,可以对用户的社交分享的资源形成差异补充。进一步地,通过采集各关键词地域属性,有利于发现各个地域的热点资源,形成长尾效应。根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。附图说明包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面,并且用于解释本发明的原理。图1示出根据本发明一实施例的内容采集方法的流程图。图2示出根据本发明一实施例的内容采集方法的另一流程图。图3示出根据本发明一实施例的内容采集方法中分布式抓取的流程图。图4示出根据本发明另一实施例的内容采集方法对应的实现模块的结构框图。图5示出根据本发明另一实施例的内容采集方法中网络热点监控的流程图。图6示出根据本发明另一实施例的内容采集方法中构建热点池的流程图。图7示出根据本发明另一实施例的内容采集方法中视频采集的流程图。图8示出根据本发明另一实施例的内容采集方法中分布式视频抓取的流程图。图9示出根据本发明一实施例的内容采集装置的结构框图。图10示出根据本发明另一实施例的内容采集装置的结构框图。图11示出根据本发明另一实施例的内容采集装置的结构框图。具体实施方式以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。实施例1图1示出根据本发明一实施例的内容采集方法的流程图。如图1所示,该内容采集方法可以包括:步骤101、从各内容源采集各热点词;步骤102、根据所采集的各热点词构建热点池;步骤103、从所述热点池中读取待处理热点,并从各内容源中采集与所述待处理热点相关的热点资源。在本发明实施例中,内容源可以包括诸如搜索引擎、社交媒体和资源网站等多种类型。用户在内容源中进行搜索、点击、编辑等各种操作时,内容源的服务器可以记录相关的搜索词,并对搜索词进行排名。通常,可以按照一定时间内例如每天或每周内,出现次数从多到少的顺序对搜索词进行排名。出现次数越多,说明该搜索词越热门。在本实施例中,在某内容源中,可以选取搜索排名比较靠前,例如前5至10个热门搜索词,作为用于构建热点池的各热点词。在一种可能实现方式中,如图2所示,从各内容源采集各热点词(步骤101)包括:步骤201、从搜索引擎、社交媒体和资源网站中的至少一种内容源,获取各热门搜索词及其对应的搜索排名和获取时间;步骤202、根据各热门搜索词对应的搜索排名和获取时间,从各热门搜索词中选取用于构建所述热点池的各热点词。其中,对于搜索引擎或社交媒体,可以访问搜索引擎或社交媒体的热门搜索词网址;利用网页正文抽取方法,从所述热门搜索词网址对应的页面中抽取各热门搜索词及其对应的搜索排名和获取时间。对于资源网站,可以从资源网站的搜索日志中,获取各热门搜索词及其对应的搜索排名和获取时间。在一种可能实现方式中,如图2所示,根据所采集的各热点词构建热点池(步骤102)包括:步骤203、在各所述内容源获取各热点词对应的各搜索结果;步骤204、采用网页正文抽取方法,例如HTML(HyperTextMarkupLanguage,超文本标记语言)正文抽取方法,从各所述搜索结果中抽取正文,并从所抽取的正文中提取各关键词;步骤205、计算各所述关键词对应的指纹;步骤206、将各所述关键词及其对应的指纹保存在热点池中。在一种可能实现方式中,如图2所示,将各所述关键词及其对应的指纹保存在热点池中(步骤206)包括:若所述热点池中不存在所述关键词对应的指纹,则从所述关键词中提取地域属性;将每个关键词及其对应的指纹和地域属性保存到所述热点池中。在热点池中,可能已经保存了许多热点词。为了减少数据重复,在每次向热点池中新增关键词之前,可以先查找热点池中是否已经保存了该关键词的指纹,如果有相同的指纹,则不将该关键词加入热点池中。如果没有相同的指纹,可以从该关键词中提取地域属性,并将该关键词及其指纹和地域属性作为一个热点对应的保存到热点池中。其中,关键词的指纹可以是通过特定算法计算得到的一个很大的数值,通常为整数。例如,通过特定的散列算法计算某关键词中每个字符的散列值,然后再将各字符的散列值合并,可以得到该关键词的指纹。从概率上讲,由两个不同关键词计算出来的指纹,相同的概率很小。因此,通过比对关键词的指纹可以区分两个关键词是否相同。其中,有的关键词具有地域属性,有的关键词没有地域属性。例如,“北京天气”中的“北京”属于地域属性。对于没有地域属性的关键词,在热点池中,可以不保存其地域属性,也可以将该关键词对应的地域属性字段设置为NULL(空)或ALL(所有)。在一种可能实现方式中,如图2所示,在步骤204中,从所抽取的正文中提取各关键词,包括:按照式1计算对所抽取的正文进行去重后的各个词的权重,wi=tfi*idfi式1,式1中的wi表示第i个词的权重,tfi是第i个词在所抽取的正文的所有词中的词频,idfi是第i个词的IDF(InverseDocumentFrequency,逆文档频率)值;计算所抽取的正文的所有词的平均权重及权重的标准差;从所抽取的正文的所有词中提取权重超过平均值的词作为关键词。在一种可能实现方式中,如图2所示,从所述热点池中读取待处理热点,并从各内容源中采集与所述待处理热点相关的热点资源(步骤103)包括:步骤207、从所述热点池中读取所述待处理热点所包括的各关键词以及各关键词对应的指纹和地域属性;步骤208、采用分布式抓取系统,从各内容源获取与所述待处理热点的关键词相关的热点资源;步骤209、保存所述待处理热点所包括的各关键词以及各关键词对应的指纹、地域属性和热点资源。在本发明实施例中,可以将各关键词及其对应的指纹、地域属性和资源等对应的保存到所采集的内容库中。内容库中所保存的资源既可以是资源链接例如某视频的网页地址,也可以是资源文件例如视频文件等。在一种可能实现方式中,如图3所示,采用分布式抓取系统,从各内容源获取与所述待处理热点的关键词相关的热点资源(步骤210)包括:步骤301、各所述内容源发送抓取命令,所述抓取命令中包括所述待处理热点的关键词;步骤302、从各所述内容源获取与所述关键词相关的资源链接和标题;步骤303、过滤掉已经处理过的资源链接;步骤304、从所述标题中提取标题关键词;步骤305、计算所述待处理热点的关键词与所提取的标题关键词的相似度和/或所述标题的指纹;步骤306、根据所述相似度和/或所述标题的指纹从资源链接中获取热点资源。举例而言,可以设置相似度阈值,如果某一待处理热点的关键词与根据该待处理热点的关键词所获取的资源标题的关键词的相似度,小于该相似度阈值,表示所获取的资源不符合预期,可以忽略该资源。反之,如果二者的相似度大于该相似度阈值,可以将该资源保存到内容库中。在一种可能实现方式中,如图2所示,该方法还包括:步骤104、对各所述热点资源进行后期处理,所述后期处理包括压缩和/或标题美化。在一种可能实现方式中,如图2所示,该方法还包括:步骤105、在交互界面检测用户操作,所述用户操作包括对所述热点资源进行删除、增加和修改中的至少一项处理;根据所述用户操作,对各所述热点资源进行相应处理。实施例2本发明实施例的内容采集方法,能够全面及时覆盖网民主动关心的热点,并采集到相关资源例如视频文件,可以用于视频聚合产品。如图4所示,整个流程可以通过四个关键模块来实现:网络热点监控模块401、视频采集模块402、后期处理模块403和人工干预模块404。下面分别介绍各模块的具体原理。一、网络热点监控模块网络热点监控模块可以收集监控视频话题来源,对主流搜索引擎、社交媒体、视频网站的实时热门搜索词进行监控。如图5所示,为网络热点监控的流程的一种示例:步骤501、获取主流搜索引擎的热门搜索词。主流搜索引擎的热门搜索词获取地址列举如下表1:表1名称地址百度http://top.baidu.com/buzz?b=1&c=513&fr=topbuzz_b1_c513搜狗http://top.sogou.com/hot/instantnews_1.html360搜索http://top.so.com/hotnews/detail搜索引擎热门搜索词获取方法包括但不限于以下至少一种:1)访问热门搜索词网址。2)利用通用的HTML正文抽取技术抽取页面中的搜索词。3)保存搜索词、搜索排名、获取时间。步骤502、获取主流社交媒体的热门搜索词,以表2为例。表2名称地址微博http://s.weibo.com/top/summary?cate=realtimehot微信公众号http://weixin.sogou.com/?p=73141200知乎http://zhihu.sogou.com/其中,社交媒体热门搜索词获取方法包括但不限于以下至少一种:1)访问热门搜索词网址2)利用通用的HTML正文抽取技术抽取页面中的搜索词3)保存搜索词、搜索排名、获取时间步骤503、从视频网站例如优酷内部的搜索日志获取搜索热词。例如,清洗优酷的视频搜索(http://www.soku.com/)日志,得到热门搜索词、搜索排名、更新时间等。步骤504、构建热点池。本发明实施例不限定上述的步骤501至步骤503之间的时序关系,可以按照一定顺序执行,也可以两个或两个以上并行执行。来自各个监控源头的热门搜索词(或称为热点词)需要经过统一的处理流程进入到一个热点池,供视频采集模块使用。如图6所示,为构建热点池的流程的一种示例:步骤601、获取热点词(即关键词)在某内容源例如搜索引擎对应的网页搜索结果。具体可以取网页搜索结果的前几个,例如前5个。例如,通过百度,热点搜索“XXX青海考察”,其中“XXX”可以表示人名,可以得到网页搜索结果的前五个为:“XXX到青海考察--时政--人民网”、“XXX青海考察:在保护环境前提下搞好开发利用”、“XXX考察青海:易地扶贫搬迁要实现可持续发展”””“独家V观:XXX到青海考察走进察尔汗盐湖”、“XXX青海冒雨考察易地扶贫搬迁新村”。步骤602、对搜索结果提取关键词。例如采用通用的网页正文抽取技术抽取搜索结果的正文,并提取关键词。关键词抽取流程依次为:按照式1计算去重后的每个词的权重;计算这5个搜索结果中所有词平均权重及权重的标准差,提取那些权重超过平均值的词作为关键词。wi=tfi*idfi式1,接着前面的例子,式1中的wi表示第i个词的最终权重,tfi是这个词在前5个搜索结果中的词频,idfi是这个词的IDF值,可以提前根据语料库计算得到的。例如,IDF值可以采用式2计算:式2中的N是语料库中所有的文档个数,ni是某个词出现的文档数。接着前面的例子,词的权重计算结果如下表3:表3词tf(词频)idf值权重均值关键词XXX573520.17是青海584020.17是考察563020.17是环境17720.17否开发15520.17否利用14420.17否......步骤603、用关键词构建文本指纹。例如,采用通用的Simhash算法(一种字符串匹配算法)计算关键词的文本指纹。如关键词“XXX、青海、考察”计算出的文本指纹为“5780264752849569925457966”,这个文本指纹的数字的不同可以表明原始关键词的不同。步骤604、合并高相似的关键词。例如,在热点池中搜索是否存在与该关键词具有相同文本指纹的热点。如果已经存在则忽略。步骤605、如果不存在,提取关键词中属于地域名称的词,作为该热点的地域属性(或称为地域特征)。二、视频采集模块。视频采集模块可以持续读取热点池。然后通过分布式的视频爬虫(一种影音图像类软件)等方式,获取到视频源文件(包括视频链接或视频文件)。如图7所示,为视频采集流程的一种示例:步骤701、读取热点池。从热点池中一个一个读出热点,热点包含的信息有多种。例如:地域、关键词和热点指纹等。步骤702、分布式视频抓取。采用通用的分布式视频抓取系统,对每一个来自热点池的热点的关键词,从各大原始热点来源网站获取相关视频链接。如图8所示,为分布式视频抓取流程的一种示例:步骤801、发送热点及其关键词到原始热点获取网站。例如,把热点及其关键词作为抓取命令发送至原始热点获取网站,如百度、搜狗、微博、优酷的视频搜索等。步骤802、从原始网站获取搜索视频结果中的视频链接和标题。步骤803、使用例如布隆过滤器对已经处理过的视频链接进行去重,例如忽略已经处理过的视频链接。步骤804、提取视频标题的关键词(方法同第一个模块),按照式3计算热点的关键词和视频标题的关键词的相似度。然后可以忽略相似度在例如0.7以下的视频。式3中,SA,B表示相似度;A=[w1,w2,…wi,…wn],wi表示热点的第i个关键词的权重(计算方法可以参见上述的式1和式2);B=[x1,x2,…xi,…xn],xi表示标题的第i个关键词的权重;n为关键词总数。其中,在i的取值相同的情况下,热点的第i个关键词与标题的第i个关键词为相同的词。假设热点的关键词中有某个词,但是在标题的关键词中没有该词,则计算相似度时可以将这个词对应的权重xi设置为0。反之类似。此外,还利用Simhash计算标题的文本指纹,并去除指纹已存在于所采集的视频库中的视频。步骤703、视频处理:将视频热点的关键词、地域、指纹等以及视频文件本身(或视频链接),一起存储到本地硬盘(例如所采集的视频库)。三、视频后期处理模块视频后期处理模块可以对已经存储的视频内容进行处理。例如对视频进行压缩、对视频的标题进行美化等操作。四、人工干预模块整个系统处理流程之外,还可以设置人工干预模块。例如,提供一个网页界面,可以对自动发现的网络热点进行删除、增加、修改等操作。人工干预模块是对自动发现网络热点的补充。本实施例通过采集热点词构建热点池,再根据热点池中的热点采集热点资源,具有如下优点:1、可以实时追踪最新最热的视频。2、可以全面覆盖用户关注热点。3、可以对社交分享的热门视频形成差异补充。4、可以发现各个地域的热门视频,形成长尾效应。实施例3图9示出根据本发明一实施例的内容采集装置的结构框图。如图9所示,该内容采集装置可以包括:热点词采集模块91,用于从各内容源采集各热点词;构建模块93,用于根据所采集的各热点词构建热点池;资源采集模块95,用于从所述热点池中读取待处理热点,并从各内容源中采集与所述待处理热点相关的热点资源。其中,热点词采集模块91和构建模块93的功能的示例,可以参见上述实施例中网络热点监控模块401的相关描述。资源采集模块95的功能的示例,可以参见上述实施例中视频采集模块402的相关描述。实施例4图10示出根据本发明另一实施例的内容采集装置的结构框图。图10中标号与图9相同的组件具有相同的功能,为简明起见,省略对这些组件的详细说明。如图10所示,与上一实施例的主要区别在于,所述热点词采集模块91可以包括:第一获取子模块911,用于从搜索引擎、社交媒体和资源网站中的至少一种内容源,获取各热门搜索词及其对应的搜索排名和获取时间;第一选取子模块913,用于根据各热门搜索词对应的搜索排名和获取时间,从各热门搜索词中选取用于构建所述热点池的各热点词。在一种可能的实现方式中,所述构建模块93包括:搜索结果子模块931,用于在各所述内容源获取各热点词对应的各搜索结果;关键词提取子模块933,用于采用网页正文抽取方法,从各所述搜索结果中抽取正文,并从所抽取的正文中提取各关键词;指纹计算子模块935,用于计算各所述关键词对应的指纹;第一保存子模块937,用于将各所述关键词及其对应的指纹保存在热点池中。在一种可能的实现方式中,所述第一保存子模块937还用于若所述热点池中不存在所述关键词对应的指纹,则从所述关键词中提取地域属性;将每个关键词及其对应的指纹和地域属性保存到所述热点池中。在一种可能的实现方式中,所述关键词提取子模块933还用于:按照式1计算对所抽取的正文进行去重后的各个词的权重,wi=tfi*idfi式1,式1中的wi表示第i个词的权重,tfi是第i个词在所抽取的正文的所有词中的词频,idfi是第i个词的IDF值;计算所抽取的正文的所有词的平均权重及权重的标准差;从所抽取的正文的所有词中提取权重超过平均值的词作为关键词。在一种可能的实现方式中,所述资源采集模块95包括:读取子模块951,用于从所述热点池中读取所述待处理热点所包括的各关键词以及各关键词对应的指纹和地域属性;抓取子模块953,用于采用分布式抓取系统,从各内容源获取与所述待处理热点的关键词相关的热点资源;第三保存子模块955,用于保存所述待处理热点所包括的各关键词以及各关键词对应的指纹、地域属性和热点资源。在一种可能的实现方式中,所述抓取子模块953还用于各所述内容源发送抓取命令,所述抓取命令中包括所述待处理热点的关键词;从各所述内容源获取与所述关键词相关的资源链接和标题;过滤掉已经处理过的资源链接;从所述标题中提取标题关键词;计算所述待处理热点的关键词与所提取的标题关键词的相似度和/或所述标题的指纹;根据所述相似度和/或所述标题的指纹从资源链接中获取热点资源。在一种可能的实现方式中,该装置还包括:后期处理模块97,用于对各所述热点资源进行后期处理,所述后期处理包括压缩和/或标题美化。后期处理模块97的功能的示例,可以参见上述实施例中后期处理模块403的相关描述。在一种可能的实现方式中,该装置还包括:用户处理模块99,用于在交互界面检测用户操作,所述用户操作包括对所述热点资源进行删除、增加和修改中的至少一项处理;根据所述用户操作,对各所述热点资源进行相应处理。用户处理模块99的功能的示例,可以参见上述实施例中人工干预模块404的相关描述。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。本发明实施例的内容采集装置,通过采集热点词构建热点池,再根据热点池中的热点自动采集热点资源,能够全面覆盖用户的关注热点,与人工采集相比,可以实时追踪最新最热的资源,采集效率高。进一步地,可以对用户的社交分享的资源形成差异补充。进一步地,通过采集各关键词地域属性,有利于发现各个地域的热点资源,形成长尾效应。实施例5图11示出根据本发明另一实施例的内容采集装置的结构框图。所述内容采集装置1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算节点的具体实现做限定。所述内容采集装置1100包括处理器(processor)1110、通信接口(CommunicationsInterface)1120、存储器(memory)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。通信接口1120用于与网络设备通信,其中网络设备包括例如虚拟机管理中心、共享存储等。处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(ApplicationSpecificIntegratedCircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。存储器1130用于存放文件。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。在一种可能的实施方式中,上述程序可为包括计算机操作指令的程序代码。该程序具体可用于:执行实施例1和实施例2中的内容采集方法。本领域普通技术人员可以意识到,本文所描述的实施例中的各示例性单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件形式来实现,取决于技术方案的特定应用和设计约束条件。专业技术人员可以针对特定的应用选择不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。如果以计算机软件的形式来实现所述功能并作为独立的产品销售或使用时,则在一定程度上可认为本发明的技术方案的全部或部分(例如对现有技术做出贡献的部分)是以计算机软件产品的形式体现的。该计算机软件产品通常存储在计算机可读取的非易失性存储介质中,包括若干指令用以使得计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各实施例方法的全部或部分步骤。而前述的存储介质包括U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本
技术领域
的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1