一种评论信息获取方法、装置、设备及存储介质与流程

文档序号:14519249阅读:165来源:国知局
一种评论信息获取方法、装置、设备及存储介质与流程

本发明涉及计算机应用技术领域,特别是涉及一种评论信息获取方法、装置、设备及存储介质。



背景技术:

随着互联网技术的快速发展,基于网络的社交平台、应用不断出现,为人们进行信息发布、交流互动等提供了便利。很多应用,如视频应用,微博应用等为用户提供了用户评论功能,用户可以对各种事件信息进行评论,发表自己的看法。

获取各种应用中的评论信息,对评论信息进行分析处理,可以为各相关企业、部门等进行问题处理或者采取行动举措等提供依据。比如通过评论信息,可以了解到大众对社会热点事件的舆论倾向,有利于相关部门及时采取相关引导措施,再比如,通过评论信息,可以了解到消费者对所购买产品的评论倾向,有利于生产厂家及时提高产品质量,改善用户体验等,还可以帮助销售商采取相应的销售策略。

在对应用的评论信息进行获取过程中,必然会增加这些应用的访问量,加重服务器负担,一般情况下,这些应用会采取一定措施,增加了评论信息的获取难度。

综上所述,如何有效地进行评论信息获取,是目前本领域技术人员急需解决的技术问题。



技术实现要素:

本发明的目的是提供一种评论信息获取方法、装置、设备及存储介质,以有效进行评论信息的获取,以便充分利用评论信息。

为解决上述技术问题,本发明提供如下技术方案:

一种评论信息获取方法,包括:

通过预先获得的目标应用的访问入口,访问所述目标应用;

对所述目标应用的评论信息进行爬取;

在爬取过程中,每达到设定存储触发条件时,将爬取到的评论信息保存到数据库中。

在本发明的一种具体实施方式中,所述对所述目标应用的评论信息进行爬取,包括:

根据预设的关键词,对所述目标应用的评论信息进行爬取。

在本发明的一种具体实施方式中,还包括:

在爬取过程中,如果网络状态返回值非请求成功返回值,则停止爬取,并执行所述将爬取到的评论信息保存到数据库中的步骤。

在本发明的一种具体实施方式中,还包括:

对所述数据库中的评论信息进行去重处理。

在本发明的一种具体实施方式中,还包括:

生成所述数据库中每条评论信息的情感倾向值;

根据所述情感倾向值,进行情感倾向统计,并输出统计结果。

一种评论信息获取装置,包括:

目标应用访问模块,用于通过预先获得的目标应用的访问入口,访问所述目标应用;

评论信息爬取模块,用于对所述目标应用的评论信息进行爬取;

评论信息保存模块,用于在爬取过程中,每达到设定存储触发条件时,将爬取到的评论信息保存到数据库中。

在本发明的一种具体实施方式中,所述评论信息爬取模块,具体用于:

根据预设的关键词,对所述目标应用的评论信息进行爬取。

在本发明的一种具体实施方式中,还包括停止爬取模块,用于:

在爬取过程中,如果网络状态返回值非请求成功返回值,则停止爬取,并触发所述评论信息保存模块执行所述将爬取到的评论信息保存到数据库中的步骤。

一种评论信息获取设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现上述任一项所述评论信息获取方法的步骤。

一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述评论信息获取方法的步骤。

应用本发明实施例所提供的技术方案,通过预先获得的目标应用的访问入口,访问目标应用,对目标应用的评论信息进行爬取,在爬取过程中,在每达到设定存储触发条件时,将爬取到的评论信息保存到数据库中。尽量避免在爬取评论信息过程中,因出现异常情况而丢失爬取到的评论信息的问题,有效进行评论信息的获取,以便后续能够充分利用评论信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种评论信息获取方法的实施流程图;

图2为本发明实施例中一种评论信息获取装置的结构示意图;

图3为本发明实施例中一种评论信息获取设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1所示,为本发明实施例所提供的一种评论信息获取方法的实施流程图,该方法可以包括以下步骤:

s110:通过预先获得的目标应用的访问入口,访问目标应用。

在本发明实施例中,目标应用为具有用户评论功能的任何一个应用。用户在使用目标应用过程中,可以在用户评论区域发表自己对事件、信息等的看法或想法。

不同的应用可能具有不同的访问入口,可以预先获得目标应用的访问入口,如预先获得目标应用面向开发者的包含app_key(api接口验证序号)、app_secret(应用密钥)等信息的api接口。通过目标应用的访问入口,可以对目标应用进行访问。

s120:对目标应用的评论信息进行爬取。

目标应用中可能具有很多评论信息,在访问目标应用过程中,可以对目标应用的评论信息进行爬取,具体可以利用现有技术中的爬虫技术对目标应用的评论信息进行爬取。

在本发明的一种具体实施方式中,可以根据预设的关键词,对目标应用的评论信息进行爬取。

可以理解的是,目标应用中可能存在大量的评论信息,在不同应用场景中,所关注的评论信息可能有所不同。比如,a商品的生产厂家,其关注的主要是a商品或者与a商品类别相同商品的评论信息。

在本发明实施例中,可以根据实际应用场景,预设一些关键词,根据预设的关键词,对目标应用的评论信息进行爬取。如仅爬取与关键词匹配度高于预设阈值的评论信息。这样可以减少对不相关评论信息的获取,方便后续对评论信息的处理和分析。

关键词具体可以为时间关键词、名称关键词、情感关键词等,本发明实施例对此不做限制。

另外,还可以依据预先获得的目标应用中热门评论、最新评论的网址变化规律,有针对性地爬取热门评论、最新评论中的评论信息。

s130:在爬取过程中,每达到设定存储触发条件时,将爬取到的评论信息保存到数据库中。

在本发明实施例中,可以设定存储触发条件。在对目标应用的评论信息进行爬取的过程中,只要监测到达到设定存储触发条件,就将爬取到的评论信息保存到数据库中。以尽量避免在爬取过程中,因出现异常情况而丢失爬取到的评论信息的问题。

具体的,达到设定时间间隔即可视为达到存储触发条件,即在爬取过程中,每达到设定时间间隔,则将爬取到的评论信息保存到数据库中,或者,达到设定数据量即可视为达到存储触发条件,即在爬取过程中,爬取到的评论信息的数据量每达到设定数据量,则将爬取到的评论信息保存到数据库中。

当然,还可以根据实际情况设定其他存储触发条件,本发明实施例对此不做限制。

应用本发明实施例所提供的方法,通过预先获得的目标应用的访问入口,访问目标应用,对目标应用的评论信息进行爬取,在爬取过程中,在每达到设定存储触发条件时,将爬取到的评论信息保存到数据库中。尽量避免在爬取评论信息过程中,因出现异常情况而丢失爬取到的评论信息的问题,有效进行评论信息的获取,以便后续能够充分利用评论信息。

在本发明的一个实施例中,该方法还可以包括以下步骤:

在爬取过程中,如果网络状态返回值非请求成功返回值,则停止爬取,并执行将爬取到的评论信息保存到数据库中的步骤。

在爬取评论信息过程中,每次爬取请求可以得到一个网络状态返回值。不同的网络状态返回值表示对爬取请求的不同响应结果。如网络状态返回值200表示请求成功。

如果网络状态返回值为请求成功返回值,则表明请求已成功,可继续对评论信息进行爬取。如果网络状态返回值非请求成功返回值,则表明请求未成功,网络或程序可能出现了异常,在这种情况下,可以停止爬取,并及时将爬取到的评论信息保存到数据库中,以尽量避免爬取到的评论信息丢失的问题。

在本发明的一个实施例中,该方法还可以包括以下步骤:

对数据库中的评论信息进行去重处理。

可以理解的是,数据库中存储有很多爬取到的评论信息,这些评论信息可能存在重复现象。可以对数据库中的评论信息进行去重处理,具体的,针对每两条评论信息,可以先确定出这两条评论信息之间的相关性,根据这两条评论信息之间的相关性确定这两条评论信息是否为重复信息,如果是,则删除其中一条评论信息,保留另一条评论信息。

对数据库中的评论信息进行去重处理,可以提高后续进行评论信息的分析效率。

在本发明的一个实施例中,该方法还可以包括以下步骤:

步骤一:生成数据库中每条评论信息的情感倾向值;

步骤二:根据情感倾向值,进行情感倾向统计,并输出统计结果。

在本发明实施例中,数据库中存储有爬取到的评论信息,可以对每条评论信息进行情感倾向分析,生成每条评论信息的情感倾向值。

具体的,可以利用python中nlp库snownlp生成每条评论信息的情感倾向值。即通过snownlp将每条评论信息生成一个0-1之间的情感倾向值,当情感倾向值大于0.5时,情感极性偏向积极,当情感倾向值小于0.5时,情感极性偏向消极,情感倾向值离区间两端越近情感倾向越明显。

在本发明的一种具体实施方式中,在生成数据库中每条评论信息的情感倾向值之前,还可以对数据库中每条评论信息进行文本预处理。因为评论信息多是来自于网络用户,在编辑文本中可能存在较多不规范的地方,如网络用语、错别字、缩写、表情符号、网络链接等。基于此,可以对每条评论信息进行文本预处理,如纠正错别字、统一缩写语义、删除表情符号等。对每条评论信息进行文本预处理后,再生成每条评论信息的情感倾向值,使得生成的情感倾向值更加准确,降低对后续工作的影响。

根据每条评论信息的情感倾向值,可以进行情感倾向统计,并进一步输出统计结果,具体的,可以以分布图方式输出。为后续使用提供依据。

相应于上面的方法实施例,本发明实施例还提供了一种评论信息获取装置,下文描述的一种评论信息获取装置与上文描述的一种评论信息获取方法可相互对应参照。

参见图2所示,该装置包括以下模块:

目标应用访问模块210,用于通过预先获得的目标应用的访问入口,访问目标应用;

评论信息爬取模块220,用于对目标应用的评论信息进行爬取;

评论信息保存模块230,用于在爬取过程中,每达到设定存储触发条件时,将爬取到的评论信息保存到数据库中。

应用本发明实施例所提供的装置,通过预先获得的目标应用的访问入口,访问目标应用,对目标应用的评论信息进行爬取,在爬取过程中,在每达到设定存储触发条件时,将爬取到的评论信息保存到数据库中。尽量避免在爬取评论信息过程中,因出现异常情况而丢失爬取到的评论信息的问题,有效进行评论信息的获取,以便后续能够充分利用评论信息。

在本发明的一种具体实施方式中,评论信息爬取模块220,具体用于:

根据预设的关键词,对目标应用的评论信息进行爬取。

在本发明的一种具体实施方式中,还包括停止爬取模块,用于:

在爬取过程中,如果网络状态返回值非请求成功返回值,则停止爬取,并触发评论信息保存模块230执行将爬取到的评论信息保存到数据库中的步骤。

在本发明的一种具体实施方式中,还包括去重处理模块,用于:

对数据库中的评论信息进行去重处理。

在本发明的一种具体实施方式中,还包括情感统计模块,用于:

生成数据库中每条评论信息的情感倾向值;

根据情感倾向值,进行情感倾向统计,并输出统计结果。

相应于上面的方法实施例,本发明实施例还提供了一种评论信息获取设备,参见图3所示,该设备包括:

存储器310,用于存储计算机程序;

处理器320,用于执行计算机程序时实现上述评论信息获取方法的步骤。

相应于上面的方法实施例,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述评论信息获取方法的步骤。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备及存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1