网页内容的自动筛选方法及装置制造方法

文档序号:6638581阅读:464来源:国知局
网页内容的自动筛选方法及装置制造方法
【专利摘要】本发明公开了一种网页内容的自动筛选方法及装置。其中,该方法包括:读取源数据库中的网页内容;根据预先设置的关键词字典和预先设置的筛选参数,对网页内容进行筛选,得到网页筛选结果;提取预先设置的标签信息字典;将标签信息字典中任意一种或多种类型的标签添加至网页筛选结果当中;根据网页筛选结果中添加的标签信息,对网页筛选结果执行与标签信息对应的功能处理,得到自动筛选后网页内容。本发明解决了现有技术中对每日更新的大量网页内容进行手动筛选,导致的过程冗杂效率低下的问题。
【专利说明】网页内容的自动筛选方法及装置

【技术领域】
[0001]本发明涉及计算机领域,具体而言,涉及一种网页内容的自动筛选方法及装置。

【背景技术】
[0002]目前,对于网页内容中的内容进行监控的舆论情报监测系统而言,虽然能够让用户对所需要的文本内容进行再筛选,以及可以对再筛选之后的文本内容进行操作(例如:分类操作,打标签操作等),可以很好的满足用户的多元化需求,但是存在一个问题:在网络上的网页内容是每日都进行更新的,并且每日更新的数据量巨大,就导致了用户如果需要持续监测最新的情况,在每次对更新的网页内容进行分析时,都需要从自己想要的分类维度去分析更新的网页内容,这就需要每天人为的手工对所有的文本内容进行筛选以及筛选之后的再操作,过程冗杂、麻烦。
[0003]针对现有技术中对每日更新的大量网页内容进行手动筛选导致的过程冗杂、效率低下的问题,目前尚未提出有效的解决方案。


【发明内容】

[0004]本发明的主要目的在于提供一种网页内容的自动筛选方法及装置,以解决现有技术中对每日更新的大量网页内容进行手动筛选,导致的过程冗杂效率低下的问题。
[0005]为了实现上述目的,根据本发明实施例的一个方面,提供了一种网页内容的自动筛选方法。该方法包括:读取源数据库中的网页内容;根据预先设置的关键词字典和预先设置的筛选参数,对网页内容进行筛选,得到网页筛选结果;提取预先设置的标签信息字典;将标签信息字典中任意一种或多种类型的标签添加至网页筛选结果当中;根据网页筛选结果中添加的标签信息,对网页筛选结果执行与标签信息对应的功能处理,得到自动筛选后网页内容。
[0006]为了实现上述目的,根据本发明实施例的另一方面,提供了一种网页内容的自动筛选装置,该装置包括第一读取模块,用于读取源数据库中的网页内容;筛选模块,用于根据预先设置的关键词字典和预先设置的筛选参数,对网页内容进行筛选,得到网页筛选结果;提取模块,用于提取预先设置的标签信息字典;第一处理模块,用于根据网页筛选结果中的网页内容,将标签信息字典中任意一种或多种类型的标签添加至网页筛选结果当中;第二处理模块,用于根据网页筛选结果中添加的标签信息,对网页筛选结果执行与标签信息对应的功能处理,得到自动筛选后网页内容。
[0007]根据发明实施例,通过读取源数据库中的网页内容;根据预先设置的关键词字典和预先设置的筛选参数,对网页内容进行筛选,得到网页筛选结果;提取预先设置的标签信息字典;将标签信息字典中任意一种或多种类型的标签添加至网页筛选结果当中;根据网页筛选结果中添加的标签信息,对网页筛选结果执行与标签信息对应的功能处理,得到自动筛选后网页内容,解决了现有技术中对每日更新的大量网页内容进行手动筛选,导致的过程冗杂效率低下的问题。实现了自动对网页进行筛选,并根据网页内容对网页进行处理的效果。

【专利附图】

【附图说明】
[0008]构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0009]图1是根据本发明实施例一的网页内容的自动筛选方法的流程图;
[0010]图2是根据本发明实施例一优选的网页内容的自动筛选方法的流程图;
[0011]图3是根据本发明实施例二的网页内容的自动筛选装置的结构示意图;以及
[0012]图4是根据本发明实施例二优选的网页内容的自动筛选装置的结构示意图。

【具体实施方式】
[0013]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0014]为了使本【技术领域】的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0015]需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0016]实施例1
[0017]本发明实施例提供了一种网页内容的自动筛选方法。
[0018]图1是根据本发明实施例的网页内容的自动筛选方法的流程图。如图1所示,该方法包括步骤如下:
[0019]步骤311,读取源数据库中的网页内容。
[0020]具体的,通过上述步骤311,对源数据库中存储的网页内容进行读取。其中,源数据库用于存储定期更新的网页内容。
[0021]步骤313,根据预先设置的关键词字典和预先设置的筛选参数,对网页内容进行筛选,得到网页筛选结果。
[0022]具体的,通过上述步骤313,对从源数据库中读取得到的网页内容进行筛选。其中,对网页内容进行筛选方法可以先根据预先设置的关键词字典对网页内容进行筛选,然后对筛选结果通过预先设定的筛选参数进行筛选,得到网页筛选结果。
[0023]步骤315,提取预先设置的标签信息字典。
[0024]具体的,通过上述步骤315,将为网页内容预先设定好的标签信息字典进行提取,获得用于对网页进行标识的标签信息字典。
[0025]步骤317,根据网页筛选结果中的网页内容,将标签信息字典中与网页内容匹配的任意一种或多种类型的标签添加至网页筛选结果当中。
[0026]具体的,通过上述步骤317,将网页筛选结果的内容与标签信息字典中的标签进行匹配,通过匹配获得与网页筛选结果的内容匹配的一种或多种类型中的一个或多个标签。在标签信息字典中,包括了若干个不同类型的标签信息。
[0027]步骤319,根据网页筛选结果中添加的标签信息,对网页筛选结果执行与标签信息对应的功能处理,得到自动筛选后网页内容。
[0028]具体的,通过上述步骤319,针对与网页筛选结果相应的一种或多种类型的标签信息,调用与标签类型相应的功能函数对该网页筛选结果中的网页内容进行处理,从而实现对网页筛选结果的自动筛选的功能。
[0029]通过步骤311至步骤319,对源数据库中的网页内容进行读取之后,先根据关键词字典和预先设置的筛选参数,对网页内容进行筛选。得到包含关键词字典中的一个或者多个关键词的网页内容,并且,进一步根据筛选参数对网页内容进行筛选,得到符合筛选参数中一个或者多个筛选条件的网页内容,从而得到网页筛选结果。在网页筛选结果的基础上,进一步根据标签信息字典对网页筛选结果进行识别。当网页筛选结果中某个网页内容与标签信息字典中的一种或者多种标签类型相匹配时,为网页筛选结果中的网页内容添加标签。最后,根据标签类型调用与标签类型匹配的功能函数,对网页筛选结果中的网页内容进行处理。
[0030]综上可知,本发明解决了现有技术中对每日更新的大量网页内容进行手动筛选,导致的过程冗杂效率低下的问题,实现了自动对网页进行筛选,并根据网页内容对网页进行处理的效果。
[0031]优选的,本申请上述实施例中,标签信息字典可以包括如下标签类型中的一种或几种:分类标签、情绪标签、地域标签、黑名单标签、待删除标签,其中,在步骤319根据网页筛选结果中添加的标签信息,对网页筛选结果执行与标签信息对应的功能处理,得到自动筛选后网页内容中,步骤包括:
[0032]步骤3191,读取网页筛选结果中的一个或多个标签的标签信息。
[0033]步骤3193,根据标签信息的类型调用相对应的功能函数来处理网页筛选结果,生成自动筛选后网页内容。
[0034]具体的,通过上述步骤3191至步骤3193,通过对网页筛选结果中标签的标签信息的读取,调用与标签类型对应的功能函数。通过不同的功能函数对网页筛选结果中的网页内容进行相应的处理。
[0035]优选的,本申请上述实施例中,步骤3193根据标签信息的类型调用相对应的功能函数来处理网页筛选结果,生成自动筛选后网页内容的步骤中,至少包括如下任意一个或多个方案:
[0036]方案一:在标签为分类标签的情况下,调用到的功能函数为分类功能函数,使得对网页筛选结果进行分类处理,生成分类后的网页内容。
[0037]方案二:在标签为情绪标签的情况下,调用到的功能函数为修正情绪标签的功能函数,使得对网页筛选结果的情绪标签进行修正处理,生成修正后的网页内容。
[0038]方案三:在标签为地域标签的情况下,调用到的功能函数为修正地域标签的功能函数,使得对网页筛选结果的地域标签进行修正处理,生成修正后的网页内容。
[0039]方案四:在标签为黑名单标签的情况下,调用到的功能函数为筛选与黑名单标签对应的网页筛选结果的功能函数,使得对网页筛选结果的黑名单标签进行筛选处理,生成筛选后的网页内容。
[0040]方案五:在标签为待删除标签的情况下,调用到的功能函数为删除与待删除标签对应的网页筛选结果的功能函数,使得对带有待删除标签的网页筛选结果进行删除处理,生成删除后的网页内容。
[0041]具体的,在实际应用当中,根据实际情况的需要,还可以对网页筛选结果进行其他的处理方案,并不限于上述的五种方案。
[0042]优选的,本申请上述实施例中,步骤313根据预先设置的关键词字典和预先设置的筛选参数,对网页内容进行筛选,得到网页筛选结果的步骤包括:
[0043]步骤3131,根据预先设置的关键词字典,对网页内容进行筛选,得到第一预处理网页内容。
[0044]步骤3133,根据预设的筛选参数对第一预处理网页内容进行筛选,得到作为网页筛选结果的第二预处理网页内容,其中,第二预处理网页内容为网页筛选结果。
[0045]具体的,通过上述步骤3131至步骤133,首先根据预先设置的关键词字典,对网页进行筛选,得到与关键词字典包含的关键词相匹配的第一预处理网页内容。然后,根据预先设置的筛选参数,对第一预处理网页内容进行筛选。通过对第一预处理网页内容的筛选,得到与筛选参数的条件匹配的第二预处理网页内容。第二预处理网页内容即为网页筛选结果。
[0046]优选的,本申请上述实施例中,在步骤3133根据预设的筛选参数对第一预处理网页内容进行筛选,得到作为网页筛选结果的第二预处理网页内容的步骤包括:
[0047]31331,读取预先设置的筛选参数和筛选顺序。
[0048]31333,根据筛选参数和筛选顺序,依次按照筛选顺序对第一预处理网页内容以筛选参数为条件进行筛选,得到第二预处理网页内容,其中,筛选参数至少包括如下筛选项之中的任意一个或多个:网页文本内容、网页文本来源、网页文本作者、网页文本获取时间、网页情绪标签和网页文本发布地域信息。
[0049]具体的,通过上述步骤31331至步骤31333,按照筛选顺序,依次对第一预处理网页内容按照筛选参数进行筛选。通过筛选参数的层层筛选,逐步将筛选的范围缩小,去除第一预处理网页内容中的脏数据,得到网页筛选结果。
[0050]优选的,如图2所示,本申请上述实施例中,在步骤311读取源数据库中的网页内容之前,方法还包括:
[0051〕 步骤3101,读取预先设定的目标网页地址。
[0052]步骤3103,根据目标网页地址,将与目标网页地址对应的网页内容进行下载。
[0053]步骤3105,将下载到的目标网页内容存储于源数据库中。
[0054]具体的,通过上述步骤3101至步骤3105,对预先设定的目标网页地址中的网页内容进行抓取。通过访问目标网页地址,获取到与目标网页地址对应的网页内容。将获取到的网页内容进行储存,作为源数据储存于源数据库中。
[0055]优选的,本申请上述实施例中,网页内容可以包括如下一项或几项:网页文本内容、网页文本来源、网页文本作者、网页文本获取时间和网页文本发布地域信息。
[0056]具体的,在根据目标网页地址,将与目标网页地址对应的网页内容进行下载的步骤中,在对网页内容中的网页文本内容进行下载的同时,需要保存与网页文本内容对应的网页文本来源、网页文本作者、网页文本获取时间和网页文本发布地域信息等。并将这些信息,对应存储至源数据库中。
[0057]优选的,本申请上述实施例中,在步骤313根据预先设置的关键词字典和预先设置的筛选参数,对网页内容进行筛选,得到网页筛选结果之后,方法还包括:
[0058]步骤3141,读取预先设置的文本情绪词典,其中,文本情绪字典包括:正面情绪词字典和负面情绪词字典。
[0059]步骤3143,根据文本情绪字典对网页筛选结果的内容进行判断,得到与网页筛选结果的内容对应的情绪标签。
[0060]具体的,通过上述步骤3141和步骤3143,根据预先设置的文本情绪字典对网页筛选结果中的网页内容进行情绪分析。将网页内容分别与文本情绪字典中的正面情绪词字典和负面情绪词字典中的一个或多个情绪词条进行匹配,得到与网页筛选结果的内容对应的情绪标签。
[0061]优选的,本申请上述实施例中,在步骤3143根据文本情绪字典对网页筛选结果的内容进行判断,得到与网页筛选结果的内容对应的情绪标签中,步骤包括:
[0062]步骤31431,根据文本情绪字典对网页筛选结果的内容进行判断;
[0063]当网页筛选结果的内容中包含正面情绪词字典中的正面情绪词的数量超过预先设置的阈值时,确定网页筛选结果的内容的情绪标签为正面情绪;
[0064]当网页筛选结果的内容中包含负面情绪词字典中的负面情绪词的数量超过预先设置的阈值时,确定网页筛选结果的内容的情绪标签为负面情绪。
[0065]具体的,通过上述步骤31431,对网页筛选结果的内容所对应的情绪标签进行判断。当网页筛选结果的内容中,包含的正面情绪词的数量超过预先设定的阈值时,则判定该网页筛选结果的内容为正面情绪;当网页筛选结果的内容中,包含的负面情绪词的数量超过预先设定的阈值时,则判定该网页筛选结果的内容为负面情绪。
[0066]在实际应用当中,一个网页中可能会既包含正面情绪词,又包含负面情绪词。这时,可以对网页中的正面情绪词的数量和负面情绪词的数量的差值进行判断。当正面情绪词的数量大于负面情绪词的数量时,则判定该网页的情绪为正面情绪;当正面情绪词的数量小于负面情绪词的数量时,则判定该网页的情绪为负面情绪。
[0067]综上所述,在实际应用当中,为了弥补现有技术中,每天对所有的文本内容进行过滤以及过滤之后的再操作这一缺点,可以通过为网页内容设置多个规则判断的逻辑,及用户可按照自己的喜好预先设定好的筛选条件(例如:包含什么关键词,来源自哪个渠道,时间范围是什么,情感度是多少,作者人物等然后,每当有新的网页文本内容从互联网上抓取到之后,自动判断是否满足之前设定的判断规则和筛选规则。若满足,则自动对网页文本进行操作(例如分类,打标签,改情绪,改地域属性,加星号,拉入黑名单,删除等等操作
[0068]为了实现上述功能,可以通过前端自动筛选条件设定模块和机器人爬虫模块(即网页抓取模块)这两个模块实现。
[0069]前端自动筛选条件设定模块:
[0070]用户在产品前端可设定自动筛选及操作:首先,通过判断是否包含关键词;然后,通过筛选参数设定筛选条件,如:判断文本来源、文本情绪、文本作者的相关信息、文本抓取时间等条件。最后,当满足上述这两个条件时,对网页内容自动进行操作(例如:分类,打标签,改情绪,改地域属性,加星号,拉入黑名单,删除等等操作)。
[0071]网页抓取模块:
[0072]网页抓取模块可以是一段』代码,会预先确定要爬取的范围(网站),爬虫会将网上所有的文字和图片内容都抓取下来,储存到数据库中并判断是否满足用户设定好的筛选条件,若满足,则将之进行相应的处理。
[0073]本发明通过用户预先手动设定的筛选规则,自动对互联网上的内容进行抓取后进行筛选,并且将筛选得到的网页内容自动地进行后续操作。全部过程中,除了初期的设置之夕卜,其他都不需要用户干预。采用本方法极大的提高了用户的主观能动性,可以根据预先设定的规则来对每次新抓取到的网页内容进行筛选,并将经过筛选得到的网页内容进行相应的操作,减少了因网站或者网页的更新,用户需要手动反复操作的复杂性。
[0074]实施例2
[0075]本发明实施例还提供了一种网页内容的自动筛选装置,如图3所示,该装置可以包括:第一读取模块31、筛选模块33、提取模块35、第一处理模块37和第二处理模块39。
[0076]其中,第一读取模块31,用于读取源数据库中的网页内容。
[0077]具体的,通过第一读取模块31,对源数据库中存储的网页内容进行读取。其中,源数据库用于存储定期更新的网页内容。
[0078]筛选模块33,用于根据预先设置的关键词字典和预先设置的筛选参数,对网页内容进行筛选,得到网页筛选结果。
[0079]具体的,通过上述筛选模块33,对从源数据库中读取得到的网页内容进行筛选。其中,对网页内容进行筛选方法可以先根据预先设置的关键词字典对网页内容进行筛选,然后对筛选结果通过预先设定的筛选参数进行筛选,得到网页筛选结果。
[0080]提取模块35,用于提取预先设置的标签信息字典。
[0081]具体的,通过上述提取模块35,将为网页内容预先设定好的标签信息字典进行提取,获得用于对网页进行标识的标签信息字典。
[0082]第一处理模块37,用于根据网页筛选结果中的网页内容,将标签信息字典中任意一种或多种类型的标签添加至网页筛选结果当中。
[0083]具体的,通过上述第一处理模块37,将网页筛选结果的内容与标签信息字典中的标签进行匹配,通过匹配获得与网页筛选结果的内容匹配的一种或多种类型中的一个或多个标签。在标签信息字典中,包括了若干个不同类型的标签信息。
[0084]第二处理模块39,用于根据网页筛选结果中添加的标签信息,对网页筛选结果执行与标签信息对应的功能处理,得到自动筛选后网页内容。
[0085]具体的,通过第二处理模块39,针对与网页筛选结果相应的一种或多种类型的标签信息,调用与标签类型相应的功能函数对该网页筛选结果中的网页内容进行处理,从而实现对网页筛选结果的自动筛选的功能。
[0086]通过第一读取模块31、筛选模块33、提取模块35、第一处理模块37和第二处理模块39,对源数据库中的网页内容进行读取之后,先根据关键词字典和预先设置的筛选参数,对网页内容进行筛选。得到包含关键词字典中的一个或者多个关键词的网页内容,并且,进一步根据筛选参数对网页内容进行筛选,得到符合筛选参数中一个或者多个筛选条件的网页内容,从而得到网页筛选结果。在网页筛选结果的基础上,进一步根据标签信息字典对网页筛选结果进行识别。当网页筛选结果中某个网页内容与标签信息字典中的一种或者多种标签类型相匹配时,为网页筛选结果中的网页内容添加标签。最后,根据标签类型调用与标签类型匹配的功能函数,对网页筛选结果中的网页内容进行处理。
[0087]综上可知,本发明解决了现有技术中对每日更新的大量网页内容进行手动筛选,导致的过程冗杂效率低下的问题,实现了自动对网页进行筛选,并根据网页内容对网页进行处理的效果。
[0088]进一步的,标签信息字典可以包括如下标签类型中的一种或几种:分类标签、情绪标签、地域标签、黑名单标签、待删除标签,在第二处理模块39中,执行的根据网页筛选结果中添加的标签信息,对网页筛选结果执行与标签信息对应的功能处理,得到自动筛选后网页内容的步骤包括:
[0089]读取网页筛选结果中的一个或多个标签的标签信息。
[0090]根据标签信息的类型调用相对应的功能函数来处理网页筛选结果,生成自动筛选后网页内容。
[0091]具体的,通过上述步骤对网页筛选结果中标签的标签信息的读取,调用与标签类型对应的功能函数。通过不同的功能函数对网页筛选结果中的网页内容进行相应的处理。
[0092]进一步的,根据标签信息的类型调用相对应的功能函数来处理网页筛选结果,生成自动筛选后网页内容的步骤中,至少包括如下任意一个或多个方案:
[0093]方案一:在标签为分类标签的情况下,调用到的功能函数为分类功能函数,使得对网页筛选结果进行分类处理,生成分类后的网页内容。
[0094]方案二:在标签为情绪标签的情况下,调用到的功能函数为修正情绪标签的功能函数,使得对网页筛选结果的情绪标签进行修正处理,生成修正后的网页内容。
[0095]方案三:在标签为地域标签的情况下,调用到的功能函数为修正地域标签的功能函数,使得对网页筛选结果的地域标签进行修正处理,生成修正后的网页内容。
[0096]方案四:在标签为黑名单标签的情况下,调用到的功能函数为筛选与黑名单标签对应的网页筛选结果的功能函数,使得对网页筛选结果的黑名单标签进行筛选处理,生成筛选后的网页内容。
[0097]方案五:在标签为待删除标签的情况下,调用到的功能函数为删除与待删除标签对应的网页筛选结果的功能函数,使得对带有待删除标签的网页筛选结果进行删除处理,生成删除后的网页内容。
[0098]具体的,在实际应用当中,根据实际情况的需要,还可以对网页筛选结果进行其他的处理方案,并不限于上述的五种方案。
[0099]进一步的,在筛选模块33中,执行的根据预先设置的关键词字典和预先设置的筛选参数,对网页内容进行筛选,得到网页筛选结果的步骤包括:
[0100]根据预先设置的关键词字典,对网页内容进行筛选,得到第一预处理网页内容。
[0101]根据预设的筛选参数对第一预处理网页内容进行筛选,得到作为网页筛选结果的第二预处理网页内容,其中,第二预处理网页内容为网页筛选结果。
[0102]具体的,通过上述步骤,首先根据预先设置的关键词字典,对网页进行筛选,得到与关键词字典包含的关键词相匹配的第一预处理网页内容。然后,根据预先设置的筛选参数,对第一预处理网页内容进行筛选。通过对第一预处理网页内容的筛选,得到与筛选参数的条件匹配的第二预处理网页内容。第二预处理网页内容即为网页筛选结果。
[0103]进一步的,在上述步骤根据预设的筛选参数对第一预处理网页内容进行筛选,得到作为网页筛选结果的第二预处理网页内容的步骤包括:
[0104]读取预先设置的筛选参数和筛选顺序。
[0105]根据筛选参数和筛选顺序,依次按照筛选顺序对第一预处理网页内容以筛选参数为条件进行筛选,得到第二预处理网页内容,其中,筛选参数至少包括如下筛选项之中的任意一个或多个:网页文本内容、网页文本来源、网页文本作者、网页文本获取时间、网页情绪标签和网页文本发布地域信息。
[0106]具体的,通过上述步骤,按照筛选顺序,依次对第一预处理网页内容按照筛选参数进行筛选。通过筛选参数的层层筛选,逐步将筛选的范围缩小,去除第一预处理网页内容中的脏数据,得到网页筛选结果。
[0107]优选的,如图4所示,本申请上述实施例中,装置还包括:第二读取模块301、下载模块303和存储模块305。
[0108]其中,第二读取模块301,用于读取预先设定的目标网页地址。
[0109]下载模块303,用于根据目标网页地址,将与目标网页地址对应的网页内容进行下载。
[0110]存储模块305,用于将下载到的目标网页内容存储于源数据库中。
[0111]具体的,通过上述第二读取模块301、下载模块303和存储模块305,对预先设定的目标网页地址中的网页内容进行抓取。通过访问目标网页地址,获取到与目标网页地址对应的网页内容。将获取到的网页内容进行储存,作为源数据储存于源数据库中。
[0112]进一步的,网页内容可以包括如下一项或几项:网页文本内容、网页文本来源、网页文本作者、网页文本获取时间和网页文本发布地域信息。
[0113]具体的,在根据目标网页地址,将与目标网页地址对应的网页内容进行下载的步骤中,在对网页内容中的网页文本内容进行下载的同时,需要保存与网页文本内容对应的网页文本来源、网页文本作者、网页文本获取时间和网页文本发布地域信息等。并将这些信息,对应存储至源数据库中。
[0114]进一步的,本申请上述实施例中,装置还包括:第三读取模块341和判断模块343。
[0115]其中,第三读取模块341,用于读取预先设置的文本情绪词典,其中,文本情绪字典包括:正面情绪词字典和负面情绪词字典。
[0116]判断模块343,用于根据文本情绪字典对网页筛选结果的内容进行判断,得到与网页筛选结果的内容对应的情绪标签。
[0117]具体的,通过上述第三读取模块341和判断模块343,根据预先设置的文本情绪字典对网页筛选结果中的网页内容进行情绪分析。将网页内容分别与文本情绪字典中的正面情绪词字典和负面情绪词字典中的一个或多个情绪词条进行匹配,得到与网页筛选结果的内容对应的情绪标签。
[0118]进一步的,在上述根据文本情绪字典对网页筛选结果的内容进行判断,得到与网页筛选结果的内容对应的情绪标签中的步骤包括:
[0119]根据文本情绪字典对网页筛选结果的内容进行判断;
[0120]当网页筛选结果的内容中包含正面情绪词字典中的正面情绪词的数量超过预先设置的阈值时,确定网页筛选结果的内容的情绪标签为正面情绪;
[0121]当网页筛选结果的内容中包含负面情绪词字典中的负面情绪词的数量超过预先设置的阈值时,确定网页筛选结果的内容的情绪标签为负面情绪。
[0122]具体的,通过上述步骤对网页筛选结果的内容所对应的情绪标签进行判断。当网页筛选结果的内容中,包含的正面情绪词的数量超过预先设定的阈值时,则判定该网页筛选结果的内容为正面情绪;当网页筛选结果的内容中,包含的负面情绪词的数量超过预先设定的阈值时,则判定该网页筛选结果的内容为负面情绪。
[0123]在实际应用当中,一个网页中可能会既包含正面情绪词,又包含负面情绪词。这时,可以对网页中的正面情绪词的数量和负面情绪词的数量的差值进行判断。当正面情绪词的数量大于负面情绪词的数量时,则判定该网页的情绪为正面情绪;当正面情绪词的数量小于负面情绪词的数量时,则判定该网页的情绪为负面情绪。
[0124]需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
[0125]在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0126]在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
[0127]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0128]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0129]所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:11盘、只读存储器¢01, 1^68(1-011171611101^)、随机存取存储器^811(10111 ^00688 1611101^)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0130]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种网页内容的自动筛选方法,其特征在于,包括: 读取源数据库中的网页内容; 根据预先设置的关键词字典和预先设置的筛选参数,对所述网页内容进行筛选,得到网页筛选结果; 提取预先设置的标签信息字典; 根据所述网页筛选结果中的网页内容,将所述标签信息字典中与所述网页内容匹配的任意一种或多种类型的标签添加至所述网页筛选结果当中; 根据所述网页筛选结果中添加的标签信息,对所述网页筛选结果执行与所述标签信息对应的功能处理,得到自动筛选后网页内容。
2.根据权利要求1所述的方法,其特征在于,所述标签信息字典包括如下标签类型中的一种或几种:分类标签、情绪标签、地域标签、黑名单标签、待删除标签,其中,根据所述网页筛选结果中添加的标签信息,对所述网页筛选结果执行与所述标签信息对应的功能处理,得到自动筛选后网页内容的步骤包括: 读取所述网页筛选结果中的一个或多个标签的标签信息; 根据所述标签信息的类型调用相对应的功能函数来处理所述网页筛选结果,生成所述自动筛选后网页内容。
3.根据权利要求2所述的方法,其特征在于,根据所述标签信息的类型调用相对应的功能函数来处理所述网页筛选结果,生成所述自动筛选后网页内容的步骤至少包括如下任意一个或多个方案: 方案一:在所述标签为所述分类标签的情况下,调用到的所述功能函数为分类功能函数,使得对所述网页筛选结果进行分类处理,生成分类后的网页内容; 方案二:在所述标签为所述情绪标签的情况下,调用到的所述功能函数为修正所述情绪标签的功能函数,使得对所述网页筛选结果的情绪标签进行修正处理,生成修正后的网页内容; 方案三:在所述标签为所述地域标签的情况下,调用到的所述功能函数为修正所述地域标签的功能函数,使得对所述网页筛选结果的地域标签进行修正处理,生成修正后的网页内容; 方案四:在所述标签为所述黑名单标签的情况下,调用到的所述功能函数为筛选与所述黑名单标签对应的所述网页筛选结果的功能函数,使得对所述网页筛选结果的黑名单标签进行筛选处理,生成筛选后的网页内容; 方案五:在所述标签为所述待删除标签的情况下,调用到的所述功能函数为删除与所述待删除标签对应的所述网页筛选结果的功能函数,使得对带有待删除标签的所述网页筛选结果进行删除处理,生成删除后的网页内容。
4.根据权利要求1所述的方法,其特征在于,根据预先设置的关键词字典和预先设置的筛选参数,对所述网页内容进行筛选,得到网页筛选结果的步骤包括: 根据预先设置的关键词字典,对所述网页内容进行筛选,得到第一预处理网页内容; 根据预设的筛选参数对所述第一预处理网页内容进行筛选,得到作为所述网页筛选结果的第二预处理网页内容,其中,所述第二预处理网页内容为所述网页筛选结果。
5.根据权利要求4所述的方法,其特征在于,所述根据预设的筛选参数对所述第一预处理网页内容进行筛选,得到作为所述网页筛选结果的第二预处理网页内容的步骤包括: 读取预先设置的筛选参数和筛选顺序; 根据所述筛选参数和所述筛选顺序,依次按照所述筛选顺序对所述第一预处理网页内容以所述筛选参数为条件进行筛选,得到所述第二预处理网页内容,其中,所述筛选参数至少包括如下所述筛选项之中的任意一个或多个:所述网页文本内容、所述网页文本来源、所述网页文本作者、所述网页文本获取时间、所述网页情绪标签和所述网页文本发布地域信息。
6.根据权利要求1所述的方法,其特征在于,在读取源数据库中的网页内容之前,所述方法还包括: 读取预先设定的目标网页地址; 根据所述目标网页地址,将与所述目标网页地址对应的所述网页内容进行下载; 将下载到的所述目标网页内容存储于所述源数据库中。
7.根据权利要求6所述的方法,其特征在于,所述网页内容包括如下一项或几项:网页文本内容、网页文本来源、网页文本作者、网页文本获取时间和网页文本发布地域信息。
8.根据权利要求1所述的方法,其特征在于,在根据预先设置的关键词字典和预先设置的筛选参数,对所述网页内容进行筛选,得到网页筛选结果之后,所述方法还包括: 读取预先设置的文本情绪词典,其中,所述文本情绪字典包括:正面情绪词字典和负面情绪词字典; 根据所述文本情绪字典对所述网页筛选结果的内容进行判断,得到与所述网页筛选结果的内容对应的情绪标签。
9.根据权利要求8所述的方法,其特征在于,所述根据所述文本情绪字典对所述网页筛选结果的内容进行判断,得到与所述网页筛选结果的内容对应的情绪标签的步骤包括: 根据所述文本情绪字典对所述网页筛选结果的内容进行判断; 当所述网页筛选结果的内容中包含所述正面情绪词字典中的正面情绪词的数量超过预先设置的阈值时,确定所述网页筛选结果的内容的所述情绪标签为正面情绪; 当所述网页筛选结果的内容中包含所述负面情绪词字典中的负面情绪词的数量超过预先设置的阈值时,确定所述网页筛选结果的内容的所述情绪标签为负面情绪。
10.一种网页内容的自动筛选装置,其特征在于,包括: 第一读取模块,用于读取源数据库中的网页内容; 筛选模块,用于根据预先设置的关键词字典和预先设置的筛选参数,对所述网页内容进行筛选,得到网页筛选结果; 提取模块,用于提取预先设置的标签信息字典; 第一处理模块,用于根据所述网页筛选结果中的网页内容,将所述标签信息字典中与所述网页内容匹配的任意一种或多种类型的标签添加至所述网页筛选结果当中; 第二处理模块,用于根据所述网页筛选结果中添加的标签信息,对所述网页筛选结果执行与所述标签信息对应的功能处理,得到自动筛选后网页内容。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括: 第二读取模块,用于读取预先设定的目标网页地址; 下载模块,用于根据所述目标网页地址,将与所述目标网页地址对应的所述网页内容进行下载; 存储模块,用于将下载到的所述目标网页内容存储于所述源数据库中。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括: 第三读取模块,用于读取预先设置的文本情绪词典,其中,所述文本情绪字典包括:正面情绪词字典和负面情绪词字典; 判断模块,用于根据所述文本情绪字典对所述网页筛选结果的内容进行判断,得到与所述网页筛选结果的内容对应的情绪标签。
【文档编号】G06F17/30GK104504027SQ201410769099
【公开日】2015年4月8日 申请日期:2014年12月12日 优先权日:2014年12月12日
【发明者】陈俊宏, 余德乐, 杨韬, 赵冬玲 申请人:北京国双科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1