负面舆论收集方法、装置、计算机设备及存储介质与流程

文档序号:19991517发布日期:2020-02-22 02:20阅读:100来源:国知局
负面舆论收集方法、装置、计算机设备及存储介质与流程

本发明涉及信息收集技术领域,尤其涉及负面舆论收集方法、装置、计算机设备及存储介质。



背景技术:

现在是网络时代,也是自媒体时代,人手一部手机,人人都是一个微媒体,所有人都是新闻和舆论的监督人,作为单位或者个人如果遭遇了一些负面舆论消息,则需要对这些负面舆论消息进行处理。对负面舆论进行处理的重要步骤就是舆情监控,也就是说遇到了负面舆论信息,不但要积极的处置和应对,还要对这些负面舆论进行监测和预测,随时掌握到舆情信息的发展动态,看看舆情信息的发展方向,只有随时跟进到这些信息动态,才能更妥善地处置这些不利消息。

现有技术中,负面舆论的收集方法一般是通过搜索引擎按关键字进行收集,这种收集方法匹配度不高,收集结果不精确,并且还需后期人工筛查、人工打标签。



技术实现要素:

本发明实施例提供了负面舆论收集方法、装置、计算机设备及存储介质,旨在解决现有负面舆论收集方法匹配度不高,收集结果不精确,并且还需后期人工筛查、人工打标签的问题。

本发明实施例提供一种基于标签的负面舆论收集方法,其包括:

预先定义指定目标、搜索引擎、关键字集合和过滤域名集合,所述关键字集合中包含负面舆论的关键字;

遍历所述关键字集合,将关键字集合中的关键字与指定目标进行组合形成组合关键词;

通过搜索引擎在网络上查询包含所述组合关键词的记录,根据查询到的记录生成收集记录;

为所述收集记录中的各记录打上对应关键字的标签;

根据所述过滤域名集合对所述收集记录进行过滤,剔除所述收集记录中命中的记录;

输出过滤后的收集记录。

优选的,所述指定目标包括企业名称、个人姓名和手机号中的一种或几种。

优选的,所述根据所述过滤域名集合对所述收集记录进行过滤,剔除所述收集记录中命中的记录,包括:

获取过滤域名集合中的各条指定域名;

将各条指定域名与所述收集记录中的各记录进行匹配;

从收集记录中筛选出链接属于或包含所述指定域名的记录;

将筛选出的记录删除,获取过滤后的收集记录。

优选的,所述通过搜索引擎在网络上查询包含所述组合关键词的记录,根据查询到的记录生成收集记录,包括:

通过搜索引擎在网络上查询包含所述组合关键词的信息;

获取所述信息的标题、摘要和链接,并将所述信息的标题、摘要和链接组成所述信息的记录;

将查询到的多个记录进行组合,生成收集记录。

优选的,所述获取所述信息的标题、摘要和链接,并将所述信息的标题、摘要和链接组成所述信息的记录,包括:

获取所述信息的标题、摘要和链接;

获取所述标题和摘要中所包含的关键字;

将所述标题和摘要中的关键字进行突出显示;

将所述信息的标题、摘要和链接组成所述信息的记录。

优选的,所述为所述收集记录中的各记录打上对应关键字的标签,包括:

获取各记录的标题和摘要中所包含的关键字;

根据所述关键字为各记录自动添加关键字。

优选的,还包括:

根据关键字集合中各关键字的级别,对收集记录中对应各记录进行排序和分类,使同一关键字对应的记录划分为同一类,并且使级别高的关键字对应的记录显示于级别低的关键字对应的记录之前。

本发明实施例还提供一种基于标签的负面舆论收集装置,其包括:

定义单元,用于预先定义指定目标、搜索引擎、关键字集合和过滤域名集合,所述关键字集合中包含负面舆论的关键字;

组合单元,用于遍历所述关键字集合,将关键字集合中的关键字与指定目标进行组合形成组合关键词;

收集单元,用于通过搜索引擎在网络上查询包含所述组合关键词的记录,根据查询到的记录生成收集记录;

打标单元,用于为所述收集记录中的各记录打上对应关键字的标签;

过滤单元,用于根据所述过滤域名集合对所述收集记录进行过滤,剔除所述收集记录中命中的记录;

输出单元,用于输出过滤后的收集记录。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于标签的负面舆论收集方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于标签的负面舆论收集方法。

本发明实施例提供了负面舆论收集方法、装置、计算机设备及存储介质,该方法包括:预先定义指定目标、搜索引擎、关键字集合和过滤域名集合,所述关键字集合中包含负面舆论的关键字;遍历所述关键字集合,将关键字集合中的关键字与指定目标进行组合形成组合关键词;通过搜索引擎在网络上查询包含所述组合关键词的记录,根据查询到的记录生成收集记录;为所述收集记录中的各记录打上对应关键字的标签;根据所述过滤域名集合对所述收集记录进行过滤,剔除所述收集记录中命中的记录;输出过滤后的收集记录。该方法能够自动通过搜索引擎按组合关键词进行搜索,自动对记录打标签,自动进行进一步过滤,从而提高了收集记录的匹配度、提高收集和过滤效率、通过标签化明确匹配维度。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于标签的负面舆论收集方法的流程示意图;

图2为本发明实施例提供的基于标签的负面舆论收集装置的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

请参阅图1,图1为本发明实施例提供的一种基于标签的负面舆论收集方法的流程示意图,该方法可以包括步骤s101~s106:

s101、预先定义指定目标、搜索引擎、关键字集合和过滤域名集合,所述关键字集合中包含负面舆论的关键字;

本步骤中,首先定义好指定目标、搜索引擎、关键字集合和过滤域名集合。

其中的指定目标是指所要收集的负面舆论所属的目标,该指定目标可以是特定的名称,也可以是目标其他相关信息,例如该指定目标可以包括企业名称、个人姓名和手机号中的一种或几种。

当指定目标是企业名称是表明需要收集对应企业的负面舆论,当指定目标是个人姓名是表明需要收集对应个人的负面舆论。当然该指定目标可以是手机号等等,同样可以基于这些相关信息可以收集到指定目标的负面舆论。或者将不同的信息进行组合得到指定目标,从而收集更准确的负面舆论。

其中的搜索引擎是指本次需要收集的负面舆论的搜索方式,例如搜索引擎可以是百度搜索、搜狗搜索等等,表明通过上述搜索引擎来搜索指定目标的负面舆论。

其中的关键字集合是指由关键字构成的集合。关键字是能表征负面舆论的一些关键信息的特征。例如所述关键字可以是“逾期”、“跑路”、“欺诈”等等。这样可以方便后续根据这些关键字来收集指定目标的负面舆论。

其中的过滤域名集合是指已经确认不需要或者确认已有或者已经得到处理的域名,方便在后续对收集记录进行过滤。

s102、遍历所述关键字集合,将关键字集合中的关键字与指定目标进行组合形成组合关键词;

此步骤中,遍历关键字集合,然后将关键字集合中的关键字与指定目标进行组合,这样组合后即可形成组合关键词,这样组合的目的是在搜索时更有针对性,而不是全盘搜索指定目标,导致搜索范围过大。

另外,在进行组合时,可以通过多种方式进行组合,例如可以依次将关键字集合中的每一关键字与指定目标进行组合形成组合关键词,在这种组合方式下,最终得到的组合关键字的数量将与关键字集合中关键字的数量相同。也可以将关键字集合中的多个关键字与指定目标进行组合形成组合关键词,在这种组合方式下,可以随机挑选出关键字集合中的至少两个关键字,并与指定目标进行组合形成组合关键词,这样可以组成较多的组合关键词。也可以将关键字集合中的所有关键字与指定目标进行组合形成组合关键词。

本发明实施例优选的是同时采用上述所有组合方式,这样可以形成各种组合关键词,使收集的信息更全。且由于关键字集合中的关键字数量有限,所以增加的工作量并不多。

更进一步的,在设置所述组合关键词时,还可根据需要设置组合关键词中各个部分的关系,该关系可以是和、或、非、包括等等。其中的“和”是指搜索结果中必须同时包含“和”的前后两个部分,其中的“或”则是指搜索结果中可以包含“或”的前和后任何一个部分。其中的“非”是指排除包含有“非”后的部分的搜索结果。其中的“包括”则是指将一些部分组合起来作为一个整体并与其他部分形成新的关系。

例如所述组合关键词中包含五个部分:关键字1、关键字2、关键字3、关键字4、指定目标。其中,指定目标可以是一个,也可以是多个,如果是多个,各个指定目标就能采用上述关系进行组合,形成组合指定目标。组合指定目标将作为一个整体与其他关键字再次形成新的关系,为了方便说明,下面将指定目标作为关键字5进行说明,显然关键字5下可能有多个关键字按照不同关系进行组合而成。

这样组合关键词就包含:关键字1、关键字2、关键字3、关键字4和关键字5。

在设置所述组合关键词的关系时,各个关键字可以是和的关系,例如组合关键词:关键字1和关键字2和关键字3和关键字4和关键字5。

在设置所述组合关键词的关系时,各个关键字可以是或的关系,例如组合关键词:关键字1或关键字2或关键字3或关键字4或关键字5。

在设置所述组合关键词的关系时,其中某个或某些关键字可以是非的关系,例如组合关键词:关键字1和(非关键字2)和(关键字3)和关键字4和关键字5。即在设置非的关系时,可以将对应的关键词用括号包裹。对于上述实例,表示排除包含关键字2和关键字3的搜索结果。

在设置所述组合关键词的关系时,还可以将某些关键字包括起来。例如组合关键词:(关键字1和关键字2或关键字3)和(关键字4或关键字5)。采用包括的关系时,可以将几个关键字组合起来作为一个整体,然后与其他部分进行组合,这样就可以实现更复杂、更个性化的组合关键词。

s103、通过搜索引擎在网络上查询包含所述组合关键词的记录,根据查询到的记录生成收集记录;

此步骤是通过上述搜索引擎在网络上查询包含组合关键词的记录,查询到的记录可能有多条(或多个),所以可将查询到的多条记录组成集合,生成收集记录(也可以称为记录集)。

在一实施例中,所述步骤s103,包括步骤s201~s203:

s201、通过搜索引擎在网络上查询包含所述组合关键词的信息;

首先利用搜索引擎查询包含组合关键词的信息,该信息包含多种内容,例如该内容可以是标题、摘要、链接、作者、正文、时间等等。

s202、获取所述信息的标题、摘要和链接,并将所述信息的标题、摘要和链接组成所述信息的记录;

此步骤可以根据所述信息获取其中的标题、摘要和链接,这些内容基本能够涵盖了信息的主要内容,从这些内容即可看出该信息的正文大概介绍了什么。所以可将这些内容组成信息的记录,这样可以节省存储量,提高处理效率。

在一实施例中,所述步骤s202包括步骤s301~s304:

s301、获取所述信息的标题、摘要和链接;

首先获取信息的标题、摘要和链接。如前所述,这些内容基本能涵盖信息的主要内容。

s302、获取所述标题和摘要中所包含的关键字;

在搜索到的信息中,关键字可能存在于信息的不同位置,例如可能存在于标题中,也可能存在于摘要中,所以此步骤可以同时获取标题和摘要中包含的关键字,当然此处的同时是指同时检查标题和摘要中是否包含关键字,如果有则同时提取,如果只是其中的标题或摘要包含关键字,则可以获取标题或摘要的关键字。一般来说,标题中若有关键字,摘要中极大可能也会存在该关键字,摘要中包含关键字,标题中极大可能也会存在该关键字。这是因为,本发明实施例中关键字是负面舆论的关键字,一般标题和摘要都会提到类似的关键字,以吸引用户注意力,提高影响力。

s303、将所述标题和摘要中的关键字进行突出显示;

然后将标题和摘要的关键字进行突出显示,此处也是指标题和摘要同时存在关键字的情况,假如只是标题或摘要存在关键字,则只对标题或摘要的关键字进行突出显示。例如进行标黄处理或标绿处理或标红处理或标蓝处理,或者进行标粗处理,或者进行标下划线处理,或者结合上面的两种或两种以上的方式进行处理。这样当其他用户查看到这些记录时,便能对该信息的类型一目了然,例如标题中有“跑路”这个关键字,在进行突出显示后,即可知道对应记录是有关跑路的负面舆论。

s304、将所述信息的标题、摘要和链接组成所述信息的记录。

最后是将信息的标题、摘要和链接组成信息的记录。

s203、将查询到的多个记录进行组合,生成收集记录。

由于查询到的记录可能有多个(或称多条),所以此步骤可以将多个记录进行组合,生成收集记录,该收集记录相当于一个记录的集合,包含了多个记录。在生成收集记录时,可以按照顺序进行组合,排序的方式在后文进行说明。

s104、为所述收集记录中的各记录打上对应关键字的标签;

虽然在上述步骤中,对记录的标题和摘要进行了突出显示,但由于记录可能是有多个,所以为了更方便进行管理和后续处理,可以为记录整体上打上标签。

具体地,所述步骤s104包括:

获取各记录的标题和摘要中所包含的关键字;

根据所述关键字为各记录自动添加关键字。

首先获取记录的标题和摘要中所包含的关键字,标题和摘要中所包含的关键字并不必然相同,例如标题的关键字可能是“逾期”,而摘要的关键字可能是“跑路”,所以本步骤是获取二者的所有关键字,然后为相应记录添加关键字,从而打上标签。即一个记录中可能有多个关键字,也可能只有一个关键字,所以打上的标签可能也有多个,或者可能只有一个。

此外,在进行打标签时,同于同一条记录,如果有多个相同的关键字,则可以删除多余的关键字,只保留其中一个关键字,例如摘要和标题中都包含“逾期”这个关键字,那么打标签时,则只需要保留一个“逾期”关键字。

s105、根据所述过滤域名集合对所述收集记录进行过滤,剔除所述收集记录中命中的记录;

此步骤是根据前述的过滤域名集合对收集记录进行过滤,以便剔除不需要的记录。

具体地,在一实施例中,所述步骤s105包括s401~s404:

s401、获取过滤域名集合中的各条指定域名;

首先获取过滤域名集合中的所有指定域名,这些指定域名均为预先设置。

s402、将各条指定域名与所述收集记录中的各记录进行匹配;

具体的,可以依次取出收集记录中的每条记录并与过滤域名集合中所有指定域名进行匹配,匹配的方式是将记录中的链接与指定域名进行匹配,判断该链接是否属于或包含指定域名。

s403、从收集记录中筛选出链接属于或包含所述指定域名的记录;

本步骤中,从收集记录中筛选出链接属于或者包含指定域名的记录,其中的“属于”是指指定域名包含链接,这样链接就属于指定域名的一部分或者链接等于指定域名,其中的“包含”是指链接包含指定域名,这样指定域名就属于链接的一部分或者指定域名等于链接。

通过上述筛选方法,即可筛选出链接与指定域名关联的记录,并且二者有包含或者被包含的关系。

s404、将筛选出的记录删除,获取过滤后的收集记录。

此步骤是将筛选出的记录删除,保留未被筛选的记录,从而获取最终的收集记录。

s106、输出过滤后的收集记录。

本步骤是输出最终的收集记录,该收集记录是已经进行过过滤处理。

在一实施例中,所述基于标签的负面舆论收集方法还包括:

根据关键字集合中各关键字的级别,对收集记录中对应各记录进行排序和分类,使同一关键字对应的记录划分为同一类,并且使级别高的关键字对应的记录显示于级别低的关键字对应的记录之前。

本实施例中,是对收集记录进行排序。排序的步骤可以是在前面第一次(如步骤s203)生成收集记录的时候进行,也可以是在最后得到过滤后的收集记录时进行。本实施例是根据关键字的级别来对收集记录中各记录进行排序和分类。同一关键字对应的记录划分为同一类,这样不同类的记录将会分开显示,具体地,可以将同一类的记录放置在一起。另外,可以使级别高的关键字对应的记录显示于级别低的关键字对应的记录之前。如果某个记录有多个关键字,则将其级别最高的关键字作为主关键字,并根据主关键字以及其级别来进行排序和分类。

此外,对于同一类的记录而言,还可进一步按照记录的相关性来进行排列,使相关性高的记录排列在前,相关性低的记录排列在后。

具体的,所述相关性是指记录与组合关键词的接近程度。相关性越高的记录,表示对应记录可能是最终希望搜索得到的记录,相关性越低的记录,表示对应记录可能不是希望搜索到的记录。故可以根据相关性来将对同一类的记录进行排序。

具体的,可以从多个维度来表示记录的相关性,例如可以从次数维度来表示记录的相关性。比如记录中出现关键字的次数,次数越多,则该记录可能是最终希望搜索到的记录,故可以统计每条记录中出现关键字的次数,并对出现关键字的次数进行排序,得到每条记录的第一类排名。另外,统计次数时,可以统计摘要和标题的总次数。

另外,还可以从时间维度来表示记录的相关性,例如最近发布的记录可能是最终希望搜索到的记录,所以可以统计每条记录在网络上发布的时间,并按照发布时间对各条记录进行排序,发布时间越晚的,排名越靠前,发布时间越早的,排名越靠后,这样就可以得到每条记录的第二类排名。

另外,还可以从点击量维度来表示记录的相关性,例如记录的点击量越多,则该记录可能是最终希望搜索到的记录,故可以统计每条记录的点击量,并对点击量进行排序,得到每条记录的第三类排名。由于各个记录的点击量由于相应网站或软件的用户的不同,会千差万别,所以如果仅仅是对点击量进行排名无法对记录点击量进行真实的反映。所以本实施例可以对点击量进行分级,例如将点击量分为6个级别,一个级别代表一个量级,例如亿级、千万级、百万级、十万级、万级、千级、百级,可见不同级别的点击量千差万别。所以本实施例在对记录的点击量进行排序时,按照点击量的级别进行排序,同一个级别的点击量的记录则无需进行排名,因为这些记录将会同样重要。这样每个记录将会分在6个级别中,形成最终的第三类排名,这样第三类排名将最终只有6个名次。

本实施例中,优选综合采用上述维度来表示记录的相关性,具体的,可以为每一个维度设置一个权重,各权重相加之和为1,可以将各条记录在不同维度上的排名与相应权重进行加权组合,得到最终分数,然后按照最终分数进行排名得到最终排名。例如可以将点击量维度的权重设置较高,例如设置为0.7,次数维度和时间维度可以设置为0.15。这样,综合计算出每条记录的最终排名,然后可按所述最终排名对记录进行排序,将排名高的记录排列在前,将排名低的记录排列在后。当然需说明的是,上述排名的方式是针对同一类的记录。

请参阅图2,图2为本发明实施例提供的一种基于标签的负面舆论收集装置的示意性框图,该装置200可以包括:

定义单元201,用于预先定义指定目标、搜索引擎、关键字集合和过滤域名集合,所述关键字集合中包含负面舆论的关键字;

组合单元202,用于遍历所述关键字集合,将关键字集合中的关键字与指定目标进行组合形成组合关键词;

收集单元203,用于通过搜索引擎在网络上查询包含所述组合关键词的记录,根据查询到的记录生成收集记录;

打标单元204,用于为所述收集记录中的各记录打上对应关键字的标签;

过滤单元205,用于根据所述过滤域名集合对所述收集记录进行过滤,剔除所述收集记录中命中的记录;

输出单元206,用于输出过滤后的收集记录。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于标签的负面舆论收集方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于标签的负面舆论收集方法。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1