网络内容获取方法、装置及服务终端与流程

文档序号:11545211阅读:214来源:国知局
网络内容获取方法、装置及服务终端与流程

本发明涉及互联网技术领域,具体而言,涉及一种网络内容获取方法、装置及服务终端。



背景技术:

在现有技术中,当前各大网站通过门户站点的内容层级顺序抓取信息,以实现数据的同步更新,通过这种方式获取的数据量有限,同时需要耗费较大的人力去搜索数据。因此,提供一种自动获取其他网络站点内容,得到较大的数据量,同时能够节省大量人力的收集数据的方法是非常必要的。



技术实现要素:

本发明的目的在于提供一种网络内容获取方法,以实现自动获取其他网络站点的数据,得到较大的数据量,同时节省人力成本。

本发明的另一目的在于提供一种网络内容获取装置,以实现自动获取其他网络站点的数据,得到较大的数据量,同时节省人力成本。

本发明的另一目的在于提供一种服务终端,以实现自动获取其他网络站点的数据,得到较大的数据量,同时节省人力成本。

为了实现上述目的,本发明实施例采用的技术方案如下:

第一方面,本发明实施例提供了一种网络内容获取方法,应用于服务终端,所述服务终端与网络站点通信,所述方法包括:

对已有的网络内容名称进行拆分得到多个分词;

根据所述多个分词获取所述网络站点的网络内容及所述网络站点的网络内容的名称;

对所述网络站点的网络内容进行分析以确定是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称。

第二方面,本发明实施例还提供了一种网络内容获取装置,应用于服务终端,所述服务终端与网络站点通信,所述装置包括:

拆分模块,用于对已有的网络内容名称进行拆分得到多个分词;

获取模块,用于根据所述多个分词获取所述网络站点的网络内容及所述网络站点的网络内容的名称;

分析模块,用于对所述网络站点的网络内容进行分析以确定是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称。

第三方面,本发明实施例还提供了一种服务终端,所述服务终端与网络站点通信,所述服务终端包括:

存储器;

处理器;以及

网络内容获取装置,所述网络内容获取装置安装于所述存储器中并包括一个或多个由所述处理器执行的软件功能模块,所述网络内容获取装置包括:

拆分模块,用于对已有的网络内容名称进行拆分得到多个分词;

获取模块,用于根据所述多个分词获取所述网络站点的网络内容及所述网络站点的网络内容的名称;

分析模块,用于对所述网络站点的网络内容进行分析,根据分析得到的结果判断是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称。

本发明实施例提供的一种网络内容获取方法、装置及服务终端,该网络内容获取方法应用于服务终端,该网络内容获取方法包括对已有的网络内容名称进行拆分得到多个分词,根据所述多个分词获取所述网络站点的网络内容及所述网络站点的网络内容的名称,对所述网络站点的网络内容进行分析以确定是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称,存储后的所述网络站点的网络内容的名称即为已有的网络内容名称,再次对该网络站点的网络内容的名称进行拆分得到分词,并根据该分词继续获取网络站点的网络内容及网络站点的网络内容的名称,从而形成循环不断地从网络站点获取网络内容,得到了较大的数据量,同时节约了人力成本。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的服务终端应用环境的结构示意图。

图2示出了本发明实施例提供的服务终端的结构示意图。

图3示出了本发明实施例提供的网络内容获取方法的流程示意图。

图4示出了本发明实施例提供的网络内容获取装置的方框示意图。

图示:100-网络站点;200-网络;300-服务终端;310-网络内容获取装置;320-存储器;330-处理器;340-通信单元;311-第一过滤模块;312-第一移除模块;313-拆分模块;314-第二过滤模块;315-第二移除模块;316-验证模块;317-第二存储模块;318-第二舍弃模块;319-获取模块;350-分析模块;351-第一存储模块;352-第一舍弃模块。

具体实施方式

下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

请参照图1,是本发明实施例提供的服务终端300的应用环境的结构示意图。服务终端300通过网络200与多个网络站点100通信连接,以便于进行数据通信或交互,服务终端300从网络站点100获取网络内容,该网络内容可以为,但不限于,商品、资讯、小说或游戏。该服务终端300可以是,但不限于,网络服务器或数据库服务器,该网络站点100可以是,但不限于,网络服务器或数据库服务器。

请参照图2,是本发明实施例提供的服务终端300的方框结构示意图。该服务终端300包括网络内容获取装置310、存储器320、处理器330以及通信单元340。

该存储器320、处理器330以及通信单元340各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述网络内容装置310包括至少一个可以软件或固件(firmware)的形式存储于存储器320中或固化在服务终端300的操作系统(operatingsystem,os)中的软件功能模块。处理器330用于执行存储器320中存储的可执行模块,例如网络内容装置310包括的软件功能模块及计算机程序等。

其中,存储器320可以是,但不限于,随机存取存储器(randomaccessmemory,ram),只读存储器(readonlymemory,rom),可编程只读存储器(programmableread-onlymemory,prom),可擦除只读存储器(erasableprogrammableread-onlymemory,eprom),电可擦除只读存储器(electricerasableprogrammableread-onlymemory,eeprom)等。其中,存储器320用于存储程序,处理器330在接收到执行指令后,执行所述程序。通信单元340用于通过网络200建立服务终端300与网络站点100之间的通信连接,并用于通过所述网络200收发数据。

请参照图3,是本发明实施提供的一种网络内容获取方法的流程图,该网络内容获取方法应用于服务终端300。该网络内容获取方法包括:

步骤s113,对已有的网络内容名称进行拆分得到多个分词。

该已有的网络内容可以为商品信息、相关资讯或小说信息等,当已有的网络内容为商品信息,如平板电脑简介,相应的已有的网络内容名称为该商品信息对应的名称,即平板电脑简介对应的标题,如“小米平板电脑”。通过任务调度对该已有的网络内容的名称进行分词,如将“小米平板电脑”分为“小”、“米”“平”“板”“电”“脑”,也可以将“小米平板电脑”分为“小米”和“平板电脑”,但不限于此,还可以随机地将“小米平板电脑”拆分为一个或多个字符的组合。该任务调度为一种定时执行指定任务的程序,从而使得能及时对已有的网络内容的名称进行分词,提高了分词效率,但不限于此,还可以通过能够实现相同功能的程序实施。

步骤s119,根据所述多个分词获取所述网络站点的网络内容及所述网络站点的网络内容的名称。

如将“小米平板电脑”分为“小米”和“平板电脑”的组合序列后,爬虫分别根据“小米”和“平板电脑”这两组关键词对其他网络站点100进行搜索,进而获取网络站点100上的网络内容及该网络站点100的网络内容的名称。具体为,当爬虫根据关键词“小米”进行搜索时,获取网络站点100上的关于“小米”的信息,如小米手机信息或小米电脑信息,同时获取该网络站点100的网络内容的名称,如小米手机信息对应的标题“国产小米手机”。容易理解的,当爬虫根据关键词“平板电脑”进行搜索时,获取网络站点100上的关于“平板电脑”的信息,如苹果平板电脑信息或小米平板电脑信息,同时获取该网络站点100的网络内容的名称,如该苹果平板电脑信息对应的标题“美国苹果平板电脑”。该爬虫为一种获取及分析网页内容的程序,但不限于此,还可以使用其他能够达到相同功能的程序实施。

获取网络站点100的网络内容及对应的网络站点100的网络内容的名称后,对所述网络站点100的网络内容进行分析,具体包括:

对所述网络站点100的网络内容进行分析,具体对该网络站点100的网络内容以及该网络站点100的网络内容的类型进行分析,即将网络站点100的网络内容与预存储的网络内容进行比较,该预存储的网络内容存储于服务终端300中,同时将网络站点100的网络内容的类型与预设的网络内容的类型进行比较,该预设的网络内容的类型预存储于服务终端300中,该预设的网络内容的类型可以是,但不限于,资讯、新闻或小说。根据不同的情况,分别执行步骤s120、s121或s122,具体为:

步骤s120,当所述网络站点的网络内容的类型与预设的网络内容的类型一致且所述网络站点的网络内容与预存储的网络内容不一致时,分别存储所述网络站点的网络内容及所述网络站点的网络内容的名称。

如预设的网络内容的类型是新闻类型,当爬虫从其他网络站点100上获取网络内容及网络内容对应的名称后,将获得的网络内容类型与需求的新闻类型进行比较,同时将该网络站点100的网络内容与该新闻类型下的网络内容进行比较,仅当从网络站点100获得网络内容的类型与需求的新闻类型一致且该网络站点100的网络内容与该新闻类型下的网络内容不一致时,存储该从网络站点100获取的网络内容及该网络内容对应的名称。

步骤121,当所述网络站点的网络内容的类型与预设的网络内容的类型不一致时,舍弃所述网络站点的网络内容及所述网络站点的网络内容的名称。

如预设的网络内容的类型是新闻类型,通过爬虫从其他网络站点100获取网络内容及该网络内容对应的名称后,对该网络站点100的网络内容进行分析得到该网络站点100的网络内容的类型,如果该网络站点100的网络内容的类型为小说类型,表明该类型与预设的网络内容的类型,即新闻类型不一致,则舍弃该网络站点100的网络内容及该网络站点100的网络内容的名称。

步骤s122,当所述网络站点的网络内容的类型与预设的网络内容的类型一致且所述网络站点的网络内容与预存储的网络内容一致时,舍弃所述网络站点的网络内容及所述网络站点的网络内容的名称。

如预设的网络内容的类型为新闻类型,当爬虫从其他网络站点100获取网络内容及该网络内容对应的名称,对获得的网络内容的类型进行分析,如获得的网络内容的类型为新闻类型,则该网络站点100的网络内容的类型与预设的网络内容的类型,即新闻类型一致,表明该网络站点100的网络内容的类型是需求类型。同时将该网络站点100的网络内容与新闻类型下的预存储的网络内容进行比较,如果该网络站点100的网络内容与新闻类型下的预存储的网络内容一致,表明该网络站点100的网络内容已经存在。因此,当网络站点100的网络内容的类型与预设的网络内容的类型一致且网络站点100的网络内容与预存储的网络内容一致时,应舍弃网络站点100的网络内容及网络站点100的网络内容的名称。

在执行步骤s113之前,还包括步骤s111和步骤s112。

步骤s111,过滤重复的已有的网络内容的名称。

对网络站点100的网络内容进行分析,当网络站点100的网络内容的类型与预设的网络内容的类型一致且网络站点100的网络内容与预设的网络内容不一致时,存储该网络站点100的网络内容及该网络站点100的网络内容的名称。该网络站点100的网络内容的名称即为已有的网络内容的名称,随着存储的网络站点100的网络内容的名称增多,则可能出现重复的情况,则需要过滤重复的已有的网络内容的名称,以减少存储量,提高运算效率。

步骤s112,移除不包含预设字符的已有的网络内容名称。

对已有的网络内容的名称进行去重操作之后,进一步移除不包含预设字符的已有的网络内容名称,该预设字符为中英文字符。如,该已有的网络内容名称全为符号字符或全为数字,其中不包含至少一个中英文字符,则移除该已有的网络内容名称。

执行步骤s113之后,还包括执行步骤s114、s115、s116、s117和s118。

步骤s114,过滤所述多个分词中重复的分词。

在步骤s113中对已有的网络内容名称进行拆分得到多个分词,如该已有的网络内容名称为“不用大理石就用简一大理石123”,对该已有的网络内容名称进行拆分得到的分词可能为“不用”“大理石”“就用”“简”“一”“大理石”“123”。对该已有的网络内容名称进行拆分得到的多个分词中出现了两个相同的分词,即“大理石”,则需过滤掉该重复的分词,进而减少运算量。

步骤s115,移除所述多个分词中不符合预定长度的分词及只包含数字的分词。

所述预定长度为大于一个单位长度且小于可存储的单位长度,当该分词的长度为一个单位长度时,表意不明确不便于爬虫根据该分词检索其他网络站点100的网络内容,当该分词的单位长度大于可存储的单位长度时,不能对该分词进行存储,容易理解的,当该分词只包含数字,则该分词表意不明确,爬虫不能根据该分词检索到其他网络站点100的网络内容。如将已有的网络内容名称“不用大理石就用简一大理石123”拆分为“不用”“大理石”“就用”“简”“一”“大理石”“123”多个分词,对该多个分词进行去重操作后,余下“不用”“就用”“简”“一”“123”多个分词。其中,“简”“一”为一个单位长度的分词,不符合预定长度则移除,“123”为只包含数字的分词也应当移除。

步骤s116,比较所述多个分词与预存储的分词是否一致。即将多个分词分别与预存储的分词进行比较,该预存储的分词存储于服务终端300中。

步骤s117,将所述多个分词中与预存储的分词均不一致的分词进行存储。从而不断增加存储的分词量,使得爬虫根据该分词检索其他网络站点100获取网络内容时,检索更加全面。

步骤s118,将所述多个分词中与预存储的分词一致的分词舍弃。从而减少重复的分词,减少存储量和计算量。

请参照图4,是本发明实施例提供的一种网络内容获取装置310的方框示意图,该网络内容获取装置310存储于服务终端300。该网络内容获取装置310包括拆分模块313、获取模块319以及分析模块350。

拆分模块313,用于对已有的网络内容名称进行拆分得到多个分词。

在本发明实施例中,步骤s113可以由拆分模块313执行。

获取模块319,用于根据所述多个分词获取所述网络站点100的网络内容及所述网络站点100的网络内容的名称。

在本实施例中,步骤s119可以由获取模块319执行。

分析模块350,用于对所述网络站点100的网络内容进行分析以确定是否存储所述网络站点100的网络内容及所述网络站点100的网络内容的名称。

在本实施例中,步骤s120、121、122可以由分析模块350执行。

该网络内容获取装置310还包括第一存储模块351和第一舍弃模块352。

第一存储模块351,用于当所述网络站点的网络内容的类型与预设的网络内容的类型一致且所述网络站点的网络内容与预存储的网络内容不一致时,分别存储所述网络站点的网络内容及所述网络站点的网络内容的名称。

在本实施例中,步骤s120可以由第一存储模块351执行。

第一舍弃模块352,用于当所述网络站点的网络内容的类型与预设的网络内容的类型不一致时,舍弃所述网络站点的网络内容及所述网络站点的网络内容的名称。

在本发明实施例中,步骤s121可以由第一舍弃模块352执行。

第一舍弃模块352,还用于当所述网络站点的网络内容的类型与预设的网络内容的类型一致且所述网络站点的网络内容与预存储的网络内容一致时,舍弃所述网络站点的网络内容及所述网络站点的网络内容的名称。

在本发明实施例中,步骤s122可以由第一舍弃模块352执行。

该网络内容获取装置310还包括第一过滤模块311和第一移除模块312。

在执行拆分模块313之前还包括执行第一过滤模块311和第一移除模块312。

第一过滤模块311,用于过滤重复的已有的网络内容名称。

在本发明实施例中,步骤s111可以由第一过滤模块311执行。

第一移除模块312,用于移除不包含预设字符的已有的网络内容名称。

在本发明实施例中,步骤s112可以由第一移除模块312执行。

该网络内容获取装置310还包括第二过滤模块314、第二移除模块315、验证模块316、第二存储模块317以及第二舍弃模块318。

在执行拆分模块313之后,还要执行第二过滤模块314、第二移除模块315、验证模块316、第二存储模块317以及第二舍弃模块318。

第二过滤模块314,用于过滤所述多个分词中重复的分词。

在本发明实施例中,步骤s114可以由第二过滤模块314执行。

第二移除模块315,用于移除所述多个分词中不符合预定长度的分词及只包含数字的分词。

在本发明实施例中,步骤s115可以由第二移除模块315执行。

验证模块316,用于对所述多个分词进行验证。

在本发明实施例中,步骤s116可以由验证模块316执行。

第二存储模块317,用于将所述多个分词中与预存储的分词均不一致的分词进行存储。

在本发明实施例中,步骤s117可以由第二存储模块317执行。

第二舍弃模块318,用于将所述多个分词中与预存储的分词一致的分词舍弃。

在本发明实施例中,步骤s118可以由第二舍弃模块318执行。

综上所述,本发明实施例提供的一种网络内容获取方法及装置可对已有的网络内容名称进行拆分得到多个分词,根据所述多个分词获取所述网络站点的网络内容及所述网络站点的网络内容的名称,对所述网络站点的网络内容进行分析以确定是否存储所述网络站点的网络内容及所述网络站点的网络内容的名称,存储后的所述网络站点的网络内容的名称即为已有的网络内容名称,再次对该网络站点的网络内容的名称进行拆分得到分词,并根据该分词继续获取网络站点的网络内容及网络站点的网络内容的名称,从而形成循环不断地从网络站点获取网络内容,得到了较大的数据量,同时节约了人力成本。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1