细分领域舆情监控方法、装置、计算机设备及存储介质与流程

文档序号:18465263发布日期:2019-08-17 02:24阅读:231来源:国知局
细分领域舆情监控方法、装置、计算机设备及存储介质与流程

本申请涉及数据展示技术领域,尤其涉及一种细分领域舆情监控方法、装置、计算机设备及计算机可读存储介质。



背景技术:

传统技术中,对一个行业中细分领域的舆情进行监控,一般是通过媒体报导或者固定的渠道获取细分领域的相关信息,比如从期刊、报纸、财经网站、app或者公众号等渠道获取细分领域的相关信息,这样采集的细分领域信息是碎片化的内容,比较零碎,从而导致对细分领域舆情监控效率不高。



技术实现要素:

本申请实施例提供了一种细分领域舆情监控方法、装置、计算机设备及计算机可读存储介质,能够解决传统技术中对细分领域舆情监控效率不高的问题。

第一方面,本申请实施例提供了一种细分领域舆情监控方法,所述方法包括:通过第一预设方式获取行业所包含细分领域的细分领域标识;根据所述细分领域标识获取预先存储的所述细分领域对应的关键字和所述细分领域对应的数据源网站列表;根据所述关键字从所述数据源网站列表所包含的数据源网站中爬取所述细分领域的语料;采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征;将所述对象名称及所述舆情特征导入图数据库以构建所述细分领域的舆情关系图谱;显示所述舆情关系图谱。

第二方面,本申请实施例还提供了一种细分领域舆情监控装置,包括:第一获取单元,用于通过第一预设方式获取行业所包含细分领域的细分领域标识;第二获取单元,用于根据所述细分领域标识获取预先存储的所述细分领域对应的关键字和所述细分领域对应的数据源网站列表;爬取单元,用于根据所述关键字从所述数据源网站列表所包含的数据源网站中爬取所述细分领域的语料;识别单元,用于采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征;构建单元,用于将所述对象名称及所述舆情特征导入图数据库以构建所述细分领域的舆情关系图谱;显示单元,用于显示所述舆情关系图谱。

第三方面,本申请实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现所述细分领域舆情监控方法。

第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行所述细分领域舆情监控方法。

本申请实施例提供了一种细分领域舆情监控方法、装置、计算机设备及计算机可读存储介质。本申请实施例实现细分领域舆情监控时,在获取对细分领域的选择后,根据选择的细分领域获取细分领域对应的关键字和数据源网站列表后,根据所述关键字从所述数据源网站列表所包含的数据源网站中准确爬取所述细分领域的语料,然后采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征,将所述对象名称及所述舆情特征导入图数据库以构建所述细分领域的舆情关系图谱,从而准确的可视化显示所述细分领域的舆情关系图谱,提高对细分领域舆情监控的效率。

附图说明

为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的细分领域舆情监控方法的流程示意图;

图2为本申请实施例提供的细分领域舆情监控方法中保险行业的寿险细分领域中各个对象关系示意图;

图3为本申请实施例提供的细分领域舆情监控方法的另一个流程示意图;

图4为本申请实施例提供的细分领域舆情监控方法的一个子流程示意图;

图5为本申请实施例提供的细分领域舆情监控方法的另一个子流程示意图;

图6为本申请实施例提供的细分领域舆情监控方法的第三个子流程示意图;

图7为本申请实施例提供的细分领域舆情监控装置的示意性框图;

图8为本申请实施例提供的细分领域舆情监控装置的另一个示意性框图;以及

图9为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

本申请实施例提供的细分领域舆情监控方法可应用于终端或者服务器等计算机设备中,通过安装于终端或者服务器上的软件来实现所述细分领域舆情监控方法的步骤,其中所述终端可以为手机、笔记本电脑、平板电脑或者台式电脑等电子设备,所述服务器可以为云服务器或者服务器集群等。以终端为例,本申请实施例提供的细分领域舆情监控方法的具体实现过程如下:终端通过第一预设方式获取行业所包含细分领域的细分领域标识;根据所述细分领域标识获取预先存储的所述细分领域对应的关键字和所述细分领域对应的数据源网站列表;根据所述关键字从所述数据源网站列表所包含的数据源网站中爬取所述细分领域的语料;采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征;将所述对象名称及所述舆情特征导入图数据库以构建所述细分领域的舆情关系图谱;显示所述舆情关系图谱。

需要说明的是,在实际操作过程中,上述细分领域舆情监控方法的应用场景仅仅用于说明本申请技术方案,并不用于限定本申请技术方案。

图1为本申请实施例提供的细分领域舆情监控方法的示意性流程图。该细分领域舆情监控方法应用于终端或者服务器中,以完成细分领域舆情监控方法的全部或者部分功能。请参阅图1,如图1所示,该方法包括以下步骤s210-s260:

s210、通过第一预设方式获取行业所包含细分领域的细分领域标识。

其中,细分领域是指对行业按照不同属性进行分类后行业所包含的细分行业,也可以称为行业的子行业,细分领域标识是指细分领域之间彼此进行区分的标识,是识别行业内细分领域的标记,细分领域标识包括细分领域的名称或者细分领域的代号。比如,以保险行业为例,请参阅图2,图2为本申请实施例提供的细分领域舆情监控方法中保险行业的寿险细分领域中各个对象关系示意图,保险行业按照保险业务内容的不同,可以划分为的细分领域包括寿险细分领域、财险细分领域及车险细分领域等,寿险为保险行业中寿险细分领域的细分领域标识,财险为保险行业中财险细分领域的细分领域标识,车险为保险行业中车险细分领域的细分领域标识等。另外,若以数字指代保险行业,比如以“1”指代保险行业,可以以“1-1”指代寿险细分领域,以“1-2”指代财险细分领域,以“1-3”指代车险细分领域,接收到“1-1”,会去对应寿险细分领域,接收到“1-21”,会去对应财险细分领域,接收到“1-3”,会去对应车险细分领域,。

第一预设方式包括输入方式和选择方式,所述选择方式可以通过预先设置下拉框或者列表的形式进行选择。比如,以保险行业为例,由于保险行业可以划分为的细分领域包括为寿险细分领域、财险细分领域及车险细分领域等,要实现对保险行业中细分领域舆情监控,用户可以输入寿险细分领域的标识“寿险”,输入财险领域的细分领域的标识“财险”等,也可以将保险行业中寿险细分领域、财险细分领域及车险细分领域采取下拉框或者列表的形式展示,让用户选择需要进行舆情监控的细分领域。

具体地,获取行业所包含细分领域的细分领域标识,比如,以保险行业为例,要实现对保险行业中寿险细分领域的舆情监控,通过接收用户输入或者选择获取寿险细分领域的细分领域标识“寿险”。

s220、根据所述细分领域标识获取预先存储的所述细分领域对应的关键字和所述细分领域对应的数据源网站列表。

其中,所述细分领域的关键字包括细分领域名称、细分领域的特征词及细分领域内预设目标对象的对象关键字。比如,寿险细分领域的关键字是指描述寿险特征的词汇,其包括“寿险”、“人寿保险”、“定期人寿保险”、“终身人寿保险”、“疾病险”、“意外险”等描述寿险产品特征的词汇。细分领域内目标对象是指细分领域内的单位或者组织,细分领域内目标对象的对象关键字是指细分领域内单位或者组织的特征信息,对象关键字包括对象名称、对象商标及对象产品等能够识别出目标对象的词汇,比如,寿险细分领域里的组织或者单位包括保监会、人寿企业1、人寿企业2及人寿企业3等,其中,人寿企业1、人寿企业2及人寿企业3一般为寿险领域里的代表性企业,人寿企业1的关键字为寿险细分领域内预设目标对象企业1的对象关键字,人寿企业2的关键字为寿险细分领域内预设目标对象企业2的对象关键字,人寿企业3的关键字为寿险细分领域内预设目标对象企业3的对象关键字等,各个人寿企业又可以对应相应的热点、新闻及专题,都属于寿险细分领域的语料。通过细分领域名称、细分领域的特征词及细分领域内预设目标对象的对象关键字,可以实现从多个维度获取关于细分领域较为全面的语料,从而提高细分领域舆情监控的可靠性。

具体地,预先存储所述细分领域对应的关键字和所述细分领域对应的数据源网站列表,若获取到要对细分领域进行舆情监控的细分领域标识,根据所述细分领域标识获取预先存储至数据库或者可读存储介质中的所述细分领域对应的关键字和所述细分领域对应的数据源网站列表。比如,以保险行业为例,请参阅表格1,寿险对应有寿险领域的关键字和数据源网站,财险对应有财险领域的关键字和数据源网站,车险对应有车险领域的关键字和数据源网站,预先存储寿险领域的预设的关键字和数据源网站、财险领域的预设关键字和数据源网站及车险领域的预设的关键字和数据源网站至数据库中,要实现对寿险领域的舆情监控,获取寿险领域的细分领域标识“寿险”,根据细分领域标识“寿险”从数据库中获取寿险领域的关键字“保监会、寿险、人寿企业1、人寿企业2、人寿企业3,人寿保险、定期人寿保险、终身人寿保险、疾病险及意外险”和寿险领域的数据源网站列表“url1、url2及url3”,进而通过关键字和数据源网站列表获取寿险领域的语料,其中,url,英文为uniformresourcelocator,统一资源定位符,缩写为url。需要说明的是,所述细分领域对应的关键字和所述细分领域对应的数据源网站列表可以通过人工设置的方式根据实际变化进行更新。

表格1

s230、根据所述关键字从所述数据源网站列表所包含的数据源网站中爬取所述细分领域的语料。

其中,爬取是指通过爬虫进行爬取,爬虫是指网络爬虫,网络爬虫又被称为网页蜘蛛、网络机器人或者网页追逐者等,是一种按照一定规则自动地抓取万维网信息的程序或者脚本,比如java爬虫,包括arachnid爬虫、crawlzilla爬虫、heritrix网络爬虫及ex-crawler网页爬虫等,可以采取的网络爬虫的爬取策略包括深度爬取策略、广度优先遍历策略、partialpagerank策略、ocip策略及大站优先策略等。

具体地,要实施对细分领域的舆情监控,可以通过构建爬虫系统根据获得的细分领域的关键字和细分领域的数据源网站列表中所包含的网址通过爬取互联网上细分领域的语料,并对语料进行解析以构建细分领域的舆情关系图谱,细分领域的舆情监控人员通过所述舆情关系图谱获取细分领域的舆情以实现对细分领域的舆情监控。网络爬虫是一个自动提取网页的程序,由于是根据细分领域对应的关键字进行爬取的,爬虫程序根据细分领域的关键字可以只爬取与细分领域有关的语料据,从而从所述数据源网站中只爬取包含所述细分领域对应的关键字的语料。通过第一预设方式获取要进行舆情监控的细分领域标识,并根据所述细分领域标识获取细分领域的关键字和数据源网站列表后,爬虫系统根据细分领域的关键字和数据源网站列表通过爬取获取数据源网站中细分领域的丰富语料。比如,请继续参阅图2,要实现对寿险领域的舆情监控,获取寿险领域的细分领域标识“寿险”,根据细分领域标识“寿险”从数据库中获取寿险领域的关键字“保监会、寿险、人寿企业1、人寿企业2、人寿企业3,人寿保险、定期人寿保险、终身人寿保险、疾病险及意外险”和寿险领域的数据源网站列表“url1、url2及url3”,进而通过关键字从数据源网站列表所包含的数据源网站url1、url2及url3中爬取寿险领域的语料

进一步地,所述根据所述关键字从所述数据源网站列表所包含的数据源网站中爬取所述细分领域的语料的步骤包括:

根据所述关键字从所述数据源网站列表所包含的数据源网站中爬取预设时间内所述细分领域的语料。

具体地,预设时间是指预设时间段,比如,一个星期、一个月或者半年内,此处的预设时间可以根据实际需要进行设置,从而对语料进行筛选以实现爬取数据的聚焦,提高对细分领域语料的处理效率,进一步显示的细分领域舆情图谱呈现出该预设时间内的细分领域舆情,从而进一步地对细分领域舆情进行分析和监控。

进一步地,按照第一预设条件对数据源进行筛选,根据筛选出的数据源获取细分领域的语料,以提高细分领域舆情监控中语料的可靠性,进而提高细分领域舆情监控的可靠性。其中,第一预设条件包括数据源的性质,比如细分领域中各主体的官方网站及知名网站。比如寿险领域,若寿险领域主要包括保监会、人寿企业1、人寿企业2及人寿企业3,对寿险领域的数据源进行筛选,可以优先爬取保监会、人寿企业1、人寿企业2及人寿企业3的官方网站的语料,及知名新闻网站、财经网站及论坛的数据,从而提高细分领域舆情监控的可靠性,提高细分领域舆情监控的质量。

进一步地,还可以对语料按照第二预设条件进行筛选,其中,第二预设条件包括细分领域中的对象或者主体,根据筛选出的数据获取细分领域舆情中预设主体或者对象的舆情。比如,仍以寿险领域为例,寿险领域中包括人寿企业1、人寿企业2、人寿企业3等主体及各企业中对应的产品或者项目,分别以人寿企业1、人寿企业2、人寿企业3及各企业中对应的产品或者项目为筛选条件对语料进行筛选,可以获得人寿企业1、人寿企业2、人寿企业3及各企业中对应的产品或者项目对应的语料,以实现对寿险领域中人寿企业1、人寿企业2、人寿企业3及各企业中对应的产品或者项目等企业、产品或者项目的舆情监控,从而实现对细分领域中更具体范围的舆情监控,以提高细分领域内舆情监控的效率。

更进一步地,还可以将上述第一预设条件和第二预设条件结合起来实现对细分领域舆情监控中数据的筛选,从而进一步提高细分领域舆情监控的效率和质量。

s240、采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征。

其中,所述第二预设方式包括构建命名实体模型或者使用正则表达式,也就是通过构建命名实体模型或者使用正则表达式的方式识别所述语料包含的对象名称及舆情特征。

对象名称,是指细分领域中对象的名称,包括主体对象的名称及主题对象的名称,主体对象包括细分领域中的组织或者单位,比如寿险领域中包括的主体对象有保监会、人寿企业1、人寿企业2及人寿企业3等组织或者单位,主题对象是指细分领域中的主要内容及其分类内容的名称,比如,寿险领域中的主题对象包括人寿保险、定期人寿保险、终身人寿保险、疾病险及意外险等主题对象,人寿保险、定期人寿保险、终身人寿保险、疾病险及意外险等名称也就是寿险领域的主题名称。

舆情特征,是指细分领域舆情的关键词,是评价细分领域的特征描述,用于描述细分领域中主体对象或者主题对象等对象的舆论情况,比如,针对寿险领域,寿险领域中寿险政策的出台及变化,寿险事件的发生及发展,寿险产品的评价等,相关寿险领域中的主体都会产生对应的舆论情况。进一步地,舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕行业事件的发生、发展和变化,作为主体的民众对作为客体的行业的取向产生和持有的态度。

具体地,通过自然语言处理解析所述语料,是指将所述语料根据句子分隔号进行分割以获取句子数据集,根据所述语料构建命名实体模型,通过所述命名实体模型识别出所述句子数据集中所包含的对象,对所述语料进行词性分析及目标关系的检索以获取所述细分领域的舆情特征。比如,针对寿险领域,通过自然语言处理技术,解析获取的寿险领域的语料,识别出寿险领域中的对象,比如人寿企业1、人寿企业2及人寿企业3等对象,对所述寿险领域的语料进行词性分析及目标关系的检索以获取所述寿险细分领域的舆情特征,比如,保监会对寿险产品的政策出台,人寿企业1的投资或者人寿企业2的理赔等事件的舆情,为寿险细分领域舆情提供重要的数据。其中,命名实体识别,英文为namedentityrecognition,简称ner,又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。中文命名实体模型包括crf模型及基于字的bilstm-crf模型。

s250、将所述对象名称及所述舆情特征导入图数据库以构建所述细分领域的舆情关系图谱。

其中,图数据库,又称为图形数据库,英文为graphdatabase,图形数据库是nosql数据库的一种类型,常见的图形数据库包括neo4j、flockdb及allegrograp等。在一个图形数据库中,数据库的最主要组成主要有两种,结点集和连接结点的关系,结点集就是图中一系列结点的集合,图形数据库中,每个结点具有标示自己所属实体类型的标签,也既是其所属的结点集,并记录一系列描述该结点特性的属性,除此之外,还可以通过关系来连接各个结点。

具体地,将通过自然语言处理解析所述语料识别出来所述细分领域的对象名称及舆情特征导入到图数据库中,完善图数据库的节点和连接节点关系的数据,其中,节点对应对象名称和舆情特征,同时描述节点之间的关系。在设计图形数据库时,由多个节点组成节点集,节点之间通过关系进行关联,分清图中节点集,节点以及节点之间的相互关系,在导入数据时,图形数据库自动识别导入数据中的节点数据和关系数据,将所述节点数据和关系数据分别归属到图形数据库的对应位置上。在本实例中,将所述对象名称及所述舆情特征导入图数据库后,可以自动构建所述细分领域的舆情关系图谱,比如,针对寿险领域,识别出寿险领域中的对象及舆情关系特征为“人寿企业1理赔a”,“人寿企业1”及“a”分为图数据库中的两个节点,这两个节点之间用“理赔”作为连接关系,箭头由“人寿企业1”节点指向“a”节点。本申请实施例中通过所述行业的舆情关系图谱的方式,存储行业的动态舆情数据,能更好地可视化和提取行业的舆情。

s260、显示所述舆情关系图谱。

具体地,将构建的所述细分领域的舆情关系图谱进行显示,提供给舆情监控人员以使舆情监控人员根据所述细分领域的舆情关系图谱实现对所述细分领域的舆情监控,以使监控人员根据细分领域的舆情关系图谱获得细分领域的精确舆情结论,实现对细分领域舆情监控,以对细分领域舆情进行对应处理,可以获得细分领域的正面舆情信息和反面舆情信息,获取细分领域舆情中的事件评估信息和渠道评估信息,以作相应公关措施。比如,针对寿险领域,可以获得寿险产品的正面信息和反面信息,获得寿险产品的事件评估信息和渠道评估信息,比如,针对寿险产品中的万能险的正面信息和反面信息,万能险的投资回报率等评估信息及万能险的线上销售渠道和线下销售渠道,基于关系知识图谱中,可以得到细分领域的简洁结果,提高对细分领域舆情监控的效率。

进一步地,还可以对获取的行业舆情中正面和反面的舆情结论根据不同机制进行排序,充分利用正面舆情实现利益最大化,对反面舆情采取对应措施,消除消极影响,比如,针对万能险产品中投资回报率过高问题的调整和整改等,若保险行业舆情中,获得保监会对万能险的调控,则需进一步研究政策法规,以应对万能险业务面临的变化。

本申请实施例实现细分领域舆情监控时,在获取对细分领域的选择后,根据选择的细分领域获取细分领域对应的关键字和数据源网站列表后,根据所述关键字从所述数据源网站列表所包含的数据源网站中准确爬取所述细分领域的语料,然后采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征,将所述对象名称及所述舆情特征导入图数据库以构建所述细分领域的舆情关系图谱,从而准确的可视化显示所述细分领域的舆情关系图谱,提高对细分领域舆情监控的效率。

请参阅图3,图3为本申请实施例提供的细分领域舆情监控方法的另一个流程示意图。在该实施例中,所述根据所述细分领域标识获取预先存储的所述细分领域对应的关键字和所述细分领域对应的数据源网站列表的步骤之后,还包括:

s221、通过爬取的方式更新所述数据源网站列表。

具体地,构建一个自动化增加数据源的爬虫策略,通过深度爬取从互联网上获取细分领域较为全面的数据源。

能够自动化增加数据源的爬虫策略,是指所述爬虫接收根据所述细分领域标识获取预先存储的所述细分领域对应的关键字和所述细分领域对应的数据源网站列表中所包含的初始化的数据源网站后,根据获得的数据源网站能够自动扩展出更多的数据源网站以增加语料来源,从而获取细分领域较全面的语料。在本实施例中,能够自动化增加数据源的爬虫策略是指爬虫根据获得的数据源网站的类型和网址结构特征,通过爬取的方法,挖掘出与获得的数据源网址有关联的新数据源网站,比如与获得的数据源网址有相同的后缀,或者与获得的数据源网址属于同一个类型,比如均属于财经类网站、新闻网站或者寿险论坛等,从而从一个网站扩展出更多的网站来,比如,从一个财经类网站扩展到其他财经类网站,由于同属财经类网站,就有可能存在针对同一个细分领域中同一事件从不同角度进行解读的语料。由于彼此之间有关联的网站,尤其是在面对细分领域的热点事件时,会从不同的角度对事件进行解读和报道,从而不断完善数据源网站中的网站,丰富数据源网站中的数据源,达到增加数据源,保证数据量的基础。通过数据源网站获取细分领域的有关语料,通过丰富的数据源以获取细分领域全面而丰富的语料。进一步地,自动化增加数据源的爬虫策略可以为构建实时分布式的爬虫系统,通过分布式爬虫系统提高爬取数据的效率。具体地,获取预存的初始数据源网站列表,将所述初始数据源网站列表按照预设条件进行分类以获取不同类型的数据源网站列表,封装不同类型的所述数据源网站列表至对应的docker容器,将不同的docker容器部署到不同的服务器上,启动所述docker容器以使所述docker容器通过爬取的方式从互联网上获取新数据源网站,将所述新数据源网站添加至对应的初始数据源网站列表以更新所述细分的数据源网站。比如,构建一个自动化增加数据源的爬虫策略为实时分布式的爬虫系统,所述爬虫系统能根据输入的清单,比如根据输入的清单中网站网址的标识,区分不同网站的类型,根据网站的类型,分配清单到各个服务器中,实现分布式的数据爬取和数据入库,以提高爬取数据的效率。

通过爬虫爬取就能够自动增加数据源,自动化增加数据源就是指采取爬虫策略,如图4所示,图4所示的子流程就是构建自动增加数据源的爬虫策略的过程。请参阅图4,图4为本申请实施例提供的细分领域舆情监控方法的一个子流程示意图。如图4所示,在该实施例中,所述通过爬取的方式更新所述数据源网站列表的步骤包括:

s2210、获取所述细分领域的初始数据源网站列表;

s2211、将所述初始数据源网站列表按照预设条件进行分类以获取不同类型的数据源网站列表;

s2212、封装所述不同类型的数据源网站列表至对应的docker容器;

s2213、启动所述docker容器以使所述docker容器通过爬取的方式从互联网上获取新数据源网站;

s2214、将所述新数据源网站按照类型分别添加至对应的分类后的数据源网站列表以更新所述细分领域的数据源网站列表。

其中,预设条件包括网站地址或者数据来源等条件,网站地址是指根据网站的统一资源定位符url来进行分类,由于不同网站的反爬虫策略不一样,导致网站中网页的数据结构不一样,针对不同的网站需要用不同的爬取策略,比如,新浪网的新闻比较好爬取,用beautifulsoup直接解析,进行直接爬取即可,网易新闻的标题及内容是使用js异步加载的,单纯的下载网页源代码是没有标题及内容的,可以在network的js中找到需要的内容,可以使用正则表达式来获取我们需要的标题及其链接,今日头条的新闻跟前两个不一样,它的标题和链接是封装到json文件中的,但是json文件的url参数是通过一个js随机算法变化的,需要模拟json文件的参数,否则找不到json文件的具体url,网站来源包括财经网站、新闻网站或者论坛等。

具体地,获取配置的细分领域的初始数据源网站列表,爬虫系统自动根据所述初始数据源网站列表的预设条件将所述初始数据源网站列表进行分类以获取不同类型的数据源网站列表,比如根据网站标识将数据源网站分为不同类型,然后封装不同类型的所述数据源网站列表至对应的docker容器,所述docker容器被部署到不同的服务器上,启动所述docker容器以使所述docker容器通过爬取从互联网上获取丰富的新数据源网站,将所述新数据源网站添加至对应的初始数据源网站列表以更新所述细分领域的数据源网站列表,从而不断完善细分领域的数据源网站。具体来说,包括以下子步骤:

首先,获得初始网站列表,该列表可以通过手动配置,也就是由人工提供初始的数据源网站,也可以是根据关键字通过网络搜索到的网站列表。

其次,通过将编写好的爬虫代码封装到docker容器中,其中代码包括了提取网站url的部分,同时还有匹配url与对应爬取程序的代码,从而使url自动与爬取程序对应,通过对应的爬虫程序爬取对应的url的网站。其中,需要构建url与爬虫程序的索引关系,提前做好所有url类型的网络爬虫,以使不同类型的url爬虫对应不同的爬虫程序。

第三,启动容器docker1,通过爬虫代码将总输入清单进行分类和分割,将同一类的数据源清单进行保存,形成待爬取列表,等待爬取。其中,通过启动url分类和分割的代码,对输入的网站url列表根据url类型进行分类,实现网站url列表进行分类操作,然后,启动列表分割的代码,将不同的数据源清单分成若干个列表,对应不同机器上的docker容器。

第四,启动容器docker2,通过获得的数据源清单列表,通过匹配url对应的爬虫程序,比如,x网站,对应着x网站爬取和解析的代码,传入x网站即可爬取,对外部网络进行访问,分开抓取对应的数据,并将数据返回到数据库中。

进一步地,爬虫程序根据获取的url挖掘出新的url,也就是爬虫程序通过启动url挖掘出新的url,并将新的url存储到待爬取的url列表中以完善url列表。同时,还可以核对是否有爬取数据过程中报错的情况,若有报错的情况,针对此网站的爬取过程结束。

对url进行分类,可以通过预先设置的url正则表达式进行。每类url列表都有对应的正则表达式,通过判断返回的结果是否为空,来判定是否为该类url。判断过程如下:若返回结果非空,则判断为该类url,若判断结果为空,判断为非该类url。

第五,直到所有docker2的待爬取网站列表为空,停止操作。为了完善数据源网站列表,可以采取定时或者不定时的方式根据已获得的数据源网站列表重复上述步骤,以实现数据源网站列表的更新。

在一个实施例中,所述启动所述docker容器以使所述docker容器通过爬取的方式从互联网上获取新数据源网站的步骤之后,还包括:

存储所述新数据源网站至所述细分领域对应的数据源网站列表。

具体地,将所述新数据源网站按照类型分别添加至对应的分类后的数据源网站列表以更新所述细分领域的数据源网站列表后,在爬取细分领域语料的过程中,可以通过更新后的数据源网站列表从更多的数据源网站中爬取较为全面的细分领域语料,为了在下次爬取细分领域语料时继续使用这次获得的新数据源网站,需要将新数据源网站存储至所述细分领域对应的数据源网站列表中,比如,在这次爬取过程中,由a网站爬取到b网站后,经过更新后,这次能从b网站爬取语料,但若不将b网站进行存储,b网站若是临时在缓存里,下次进行爬取时,由于数据源网站列表里将不包含b,无法继续使用b网站爬取细分领域语料。将通过爬取的方式获取的细分领域的新数据源网站存储至细分领域对应的数据源网站列表以完善细分领域的数据源网站列表,下次再进行细分领域的舆情监控进行语料爬取时,可以直接从细分领域较为完善的数据源网站列表中的网站爬取较为全面的语料,从而提高细分领域舆情监控的效率。比如,若寿险领域的数据源网站列表包括url1、url2及url3,在爬取的过程中,获得寿险领域的新数据源网站包括url11及url12,将url11及url12存储至寿险领域的数据源网站列表url1、url2及url3中,形成寿险领域新的数据源网站列表url1、url2、url3、url11及url12,从而完善寿险领域的数据源网站列表,在下一次进行寿险领域的舆情监控时,根据寿险领域的关键字从数据源网站列表url1、url2、url3、url11及url12中爬取寿险领域的语料,可以提高寿险领域语料的爬取效率,进而提高寿险领域舆情监控的效率。

在一个实施例中,所述通过第二预设方式识别所述语料包含的对象名称及舆情特征的步骤包括:

通过构建命名实体模型或者使用正则表达式的方式识别所述语料包含的对象名称及舆情特征。

具体地,采用自然语言处理解析所述语料以获得词汇后,可以通过构建命名实体模型的方式识别所述语料包含的对象名称及舆情特征,也可以通过使用正则表达式的方式识别所述语料包含的对象名称及舆情特征。

进一步地,请参阅图5,图5为本申请实施例提供的细分领域舆情监控方法的另一个子流程示意图。如图5所示,在该实施例中,通过构建命名实体模型的方式识别所述语料包含的对象名称及舆情特征,实现所述采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征的步骤时,具体包括以下步骤:

s2400、将所述语料根据句子分隔号进行分割以获取句子数据集。

其中,句子分隔号包括句子标点符号和分解词,所述句子标点符号包括“。”、“?”、“;”及“!”等标点符号,所述分解词包括“的”、“且”、“中”、“我们”及“根据”等预先设置的可以作为句子隔断的字或者词。

具体地,将通过爬虫系统爬取的语料根据句子分隔号进行分隔,得到句子数据集,以便从句子数据集中筛选出包含名称的句子。

s2401、根据所述语料构建命名实体模型。

其中,命名实体,英文为namedentity,所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体,更广泛的实体还包括数字、日期、货币、地址等等。

具体地,诸如中文分词、词性标注、命名实体等问题均属于序列标签标注问题,经典的模型有hmm、memm及crf模型,随着深度学习的兴起,将dnn模型应用到标签标注问题上,取得了较好的结果。比较各模型的结果,一般来说,dnn之前,crf的结果最好。dnn模型应用到标签标注问题上之后,dnn重在特征的学习和表示,通过dnn学习特征,取代传统crf中的特征工程,集合dnn和crf各自的优点。其中,crf模型,crf,英文为conditionalrandomfield,条件随机场,是自然语言处理领域常用的算法之一,基于统计学的模型。

以crf模型为例,通过crf安装包进行crf安装后,可以通过crf软件现有的功能构建crf命名实体模型,并可以根据所述语料进行crf模型的训练,比如,以寿险领域为例,使用寿险领域的一些特征词,比如“寿险”、“人身险”、“人寿企业1”及“人寿企业2”等寿险领域包含的特征词,进行crf模型的训练,从而使crf模型能够针对性的识别出寿险领域的命名实体。使用训练好的crf模型,进一步识别通过自然语言处理的语料中的命名实体,识别出细分领域的对象名称,也就是进入步骤s2402。

s2402、通过所述命名实体模型识别出所述句子数据集中所包含的对象名称。

其中,命名实体识别,英文为namedentityrecognition,简称ner,又称作“专名识别”,是指识别文本中具有特定意义的对象,主要包括人名、地名、机构名、专有名词等。

具体地,命名实体模型构建完成后,通过命名实体模型处理获得的句子数据集,通过命名实体模型可以自动识别出句子数据集中包含的对象名称。比如,通过所述语料内容进行命名实体对象的标注,通过crf模型,构建命名实体识别模型,识别出对象名称。通过命名实体模型,识别出所述细分领域的相关信息中的句子语料,对词进行词性分析和项目关键关系的检索,若出现了核心的关键词,将相关信息保存为细分领域的具体属性,同时该具体属性还可以携带上当前日期和时间,丰富行业的舆情关系图谱的舆情数据。

s2403、对所述语料进行词性分析及目标关系的检索以获取所述行业的舆情特征。

其中,词性是指以词的特点作为划分词类的根据,比如动词、名词等词性。目标关系是指所述语料中包含的细分领域涉及的对象之间的关系,比如,人寿企业1对项目的投资关系,人寿企业2对投保人的理赔关系,保监会对人寿企业的监管关系等。

具体地,对所述语料进行词性分析和主体关系的识别,包括以下过程

首先,对所述语料进行分词。对语句类型进行分词操作可以采用结巴分词。其中,结巴分词是python中分词工具之一,python中分词工具很多,包括盘古分词、yaha分词、jieba分词、清华thulac等。

其次,进行核心关系的抽取。具体地,抽取出动词的动作,并且进行关键词列表的匹配,若是动词词汇在关键词内,则认定为核心关系,并且获取到动词后面的名词对象,为命名关系客体,获取到动词前面的名词对象,为命名关系主体,命名关系主体也就是目标。将获取的命名关系主体、命名关系客体以及命名关系主体和命名关系客体之间的关系作为舆情特征,将抽取的核心关系涉及的主体名称及体现属性的特征数据存入图数据库中,比如,人寿企业1理赔投保人1,人寿企业1为命名关系主体,投保人1为命名关系客体,理赔为命名关系主体和命名关系客体之间的关系。

进一步地,所述根据所述语料构建命名实体模型的步骤包括:

1)、对所述语料进行分词以获取分词结果;

2)、通过预设的特征模板提取所述分词结果中的特征数据;

3)、基于所述特征数据训练预设的条件随机场模型以构建命名实体模型。

具体地,通过获取的语料构建命名实体模型,具体包括以下步骤:

首先,获得命名实体训练语料,该语料主要来自于爬虫系统通过爬取的方式获取的行业的语料。

其次,对所述语料预处理。主要采用结巴分词并且去除停用词以及无意义的词,获取分词结果。

第三,进行特征提取。通过由正则表达式组成的特征模板进行特征提取,获取的特征包括词、词性、边界词、命名实体特征词。

第四,创建和训练基于条件随机场的模型。条件随机场也就是crf模型,通过训练数据训练crf模型,获得crf模型的参数,保存训练后的crf模型。

第五,通过测试数据的评价,并保留识别率高等最终符合要求的模型,以获取构建的命名实体模型。

进一步地,请参阅图6,图6为本申请实施例提供的细分领域舆情监控方法的第三个子流程示意图。在该实施例中,通过使用正则表达式的方式识别所述语料包含的对象名称及舆情特征,实现所述采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征的步骤时,具体包括以下步骤:

s2500、对所述语料进行分词以获取所述语料的词汇列表。

具体地,对所述语料预处理,主要采用结巴分词并且去除停用词以及无意义的词,获取词汇列表。

s2501、使用第一正则表达式抽取出所述词汇列表中的核心关系以得到舆情特征;

s2502、使用第二正则表达式抽取出所述词汇列表中的核心关系涉及的命名实体以得到对象名称。

具体地,使用正则表达式进行核心关系的抽取。比如对于一个语料集,若实体的组成规律是这样的:若干地名+若干其他成分+若干特征词,对语料进行自然语言处理后的数据集做一个正则表达式的匹配即可,模式为:s+o*e+,上面表达式的意思是,必须以1个以上地名开头,以1个以上特征词结尾,中间成分和数量无所谓,匹配出符合要求的字符,将其背后的中文组合起来,就是符合要求的实体,可以任意定义标注和模式,来适应预设规则。比如,针对寿险领域来说,可以定义一个针对“a地b保险公司理赔”,通过这样的正则表达式,可以获知符合条件的理赔关系。通过正则表达式抽取出动词的动作,并且进行关键词列表的匹配,若是动词词汇在关键词内,则认定为核心关系,并且获取到动词后面的名词对象,为命名关系客体,获取到动词前面的名词对象,为命名关系主体,命名关系主体也就是对象。将获取的命名关系主体、命名关系客体以及命名关系主体和命名关系客体之间的关系作为舆情特征,比如,人寿企业1理赔投保人1,人寿企业1为命名关系主体,投保人1为命名关系客体,理赔为命名关系主体和命名关系客体之间的关系。其中,正则表达式,又称规则表达式,英语为regularexpression,常简写为regex、regexp或re,通常被用来检索、替换那些符合某个模式(规则)的文本。

然后,将所述核心关系作为舆情特征及所述命名实体作为主体名称导入图数据库以构建所述细分领域的舆情关系图谱。在设计图形数据库时,分清图中结点集,结点以及关系之间的相互联系,在导入数据时,图形数据库自动识别导入数据中的节点数据和关系数据,将所述节点数据和关系数据分别归属到图形数据库的对应位置上。在本实例中,将所述核心关系及所述命名实体导入图数据库后,可以自动构建所述细分领域的舆情关系图谱。其中,图数据库,又称为图形数据库,英文为graphdatabase,图形数据库是nosql数据库的一种类型,它应用图形理论存储实体之间的关系信息,常见的图形数据库包括neo4j、flockdb及allegrograp等。

在一个实施例中,所述显示所述舆情关系图谱的步骤包括:

以预设字体格式显示所述舆情关系图谱中的预设内容。

其中,预设字体格式包括字体种类、字体颜色、字体大小及字体粗细等字体格式,其中,字体种类包括楷体、宋体及黑体等字体,字体颜色包括黑色、红色、及黄色等颜色,字体粗细是指字体加粗或者不加粗等,以预设字体格式显示所述舆情关系图谱中的预设内容,可以实现差异化方式显示所述细分领域中包含的对象及各个对象的舆情,从而提高舆情关系图谱的辨识度。

具体地,以预设字体格式显示所述舆情关系图谱中的预设内容,就是以差异化方式显示所述舆情关系图谱中的各部分,通过将所述舆情关系图谱中的各部分内容采取不同显示形式加以区分,可以提高舆情关系图谱的辨识度,提高对行业舆情关系图谱信息获取的效率。比如,仍以寿险领域为例,寿险领域中包括寿险、保监会、人寿企业1、人寿企业2及人寿企业3等对象,将寿险以绿色显示,保监会以红色显示,进一步地还可以将保监会的字体加粗,人寿企业1、人寿企业2及人寿企业3以黑色显示,进一步地,人寿企业1、人寿企业2及人寿险企业3也可以用不同的形式加以区分,比如,不同颜色或者字体是否加粗或者带下划线等方式,若需要重点关注保监会的政策,可以通过加粗的红色迅速找到对应的舆情信息,若人寿险企业1需要重点关注自己企业的舆情信息,可以只将人寿企业1的舆情通过预设方式重点加以突出显示,人寿企业1可以通过预设方式迅速找到自己企业的舆情,从而提高舆情获取的效率,再进一步去关注行业内的其他信息。尤其当行业舆情信息图谱比较复杂时,通过差异化方式重点突出显示指定对象的舆情,可以提高舆情监控的效率。

进一步地,还可以对细分领域舆情监控中更新部分的数据重点突出显示。比如,对一细分领域舆情关系图谱,若有细分领域数据更新前的细分领域舆情关系图谱1和细分领域数据更新后的细分领域舆情关系图谱2,若细分领域舆情关系图谱1和细分领域舆情关系图谱2有重叠部分,通过差异化方式重点突出细分领域舆情关系图谱1和细分领域舆情关系图谱2的不同部分,从而提高细分领域舆情监控的效率。

请继续参阅图3,如图3所示,在该实施例中,所述显示所述舆情关系图谱的步骤之后,还包括:

s270、按照预设顺序组合所述舆情关系图谱中的元素以通过文字形式描述所述细分领域的舆情。

具体地,不但以所述细分领域的舆情关系图谱的形式显示细分领域业的舆情以实现细分领域的舆情监控,同时,通过结合文字的显示形式,给出所述细分领域的舆情关系图谱的舆情结论,以供细分领域舆情监控人员参考,比如,寿险领域中,人寿企业1为命名关系主体,投保人1为命名关系客体,理赔为命名关系主体和命名关系客体之间的关系,可以得出舆情“人寿企业1理赔投保人1”。

进一步地,所述舆情包括正面舆情信息、反面舆情信息、事件评估信息和渠道评估信息,其中,所述正面舆情信息指舆情的正面影响,反面舆情信息指舆情的反面影响,事件评估信息是指对舆情中某一事件的影响进行预测评价和估计,渠道评估信息是指语料来源所属的渠道对该目标的影响,比如,不同网站的受众、规模及影响均不相同,需要评估事件所属的渠道对目标影响的估计,比如,微博、微信朋友圈及论坛对目标的影响各不相同。

按照预设顺序组合所述细分领域的舆情关系图谱中的元素以通过文字形式描述所述细分领域的舆情时,可以根据图形数据库中存储的实体之间的关系信息,根据图形数据库在设计图形数据库时的信息特征,分清图中结点集与结点以及关系之间的相互联系,然后将节点与节点之间的关系通过文字描述出来,以实现通过文字形式描述所述细分领域的舆情,给细分领域舆情监控人员以文字性的提示。比如,若所述细分领域的舆情关系图谱中,结点a和b之间的关系从属关系,通过文字形式描述所述行业的舆情时可以描述为“节点a从属于节点b”。进一步地,若获得节点a影响节点b的信息,还可以进一步从获取的语料中筛选出节点a影响节点b的相关信息,根据训练出的正则表达式或者语言模型形成节点a影响节点b的信息摘要,以文字形式提供给细分领域舆情监控人员,供细分领域舆情监控人员参考,比如,寿险领域中,人寿企业1为命名关系主体,投保人1为命名关系客体,理赔为命名关系主体和命名关系客体之间的关系,可以得出舆情“人寿企业1理赔投保人1”。其中,语言模型,比如n-gram语言模型或者神经网络语言模型等。

需要说明的是,上述各个实施例所述的细分领域舆情监控方法,可以根据需要将不同实施例中包含的技术特征重新进行组合,以获取组合后的实施方案,但都在本申请要求的保护范围之内。

请参阅图7,图7为本申请实施例提供的细分领域舆情监控装置的示意性框图。对应于上述细分领域舆情监控方法,本申请实施例还提供一种细分领域舆情监控装置。如图7所示,该细分领域舆情监控装置包括用于执行上述细分领域舆情监控方法的单元,该装置可以被配置于终端等计算机设备中。具体地,请参阅图7,该细分领域舆情监控装置700包括第一获取单元701、第二获取单元702、爬取单元703、识别单元704、构建单元705及显示单元706。

其中,第一获取单元701,用于通过第一预设方式获取行业所包含细分领域的细分领域标识;

第二获取单元702,用于根据所述细分领域标识获取预先存储的所述细分领域对应的关键字和所述细分领域对应的数据源网站列表;

爬取单元703,用于根据所述关键字从所述数据源网站列表所包含的数据源网站中爬取所述细分领域的语料;

识别单元704,用于采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征;

构建单元705,用于将所述对象名称及所述舆情特征导入图数据库以构建所述细分领域的舆情关系图谱;

显示单元706,用于显示所述舆情关系图谱。

请参阅图8,图8为本申请实施例提供的细分领域舆情监控装置的另一个示意性框图。如图8所示,在该实施例中,所述细分领域舆情监控装置700还包括:

更新单元707、用于通过爬取的方式更新所述数据源网站列表。

请继续参阅图8,如图8所示,所述更新单元707包括:

获取子单元7071,用于获取所述细分领域的初始数据源网站列表;

分类子单元7072,用于将所述初始数据源网站列表按照预设条件进行分类以获取不同类型的数据源网站列表;

封装子单元7073,用于封装所述不同类型的数据源网站列表至对应的docker容器;

爬取子单元7074,用于启动所述docker容器以使所述docker容器通过爬取的方式从互联网上获取新数据源网站;

更新子单元7075,用于将所述新数据源网站按照类型分别添加至对应的分类后的数据源网站列表以更新所述细分领域的数据源网站列表。

在一个实施例中,所述更新单元707包括:

存储子单元7076,用于存储所述新数据源网站至所述细分领域对应的数据源网站列表。

在一个实施例中,所述识别单元704,用于通过构建命名实体模型或者使用正则表达式的方式识别所述语料包含的对象名称及舆情特征。

在一个实施例中,所述显示单元706,用于以预设字体格式显示所述舆情关系图谱中的预设内容。

请继续参阅图8,如图8所示,在该实施例中,所述细分领域舆情监控装置700还包括:

描述单元708,用于按照预设顺序组合所述舆情关系图谱中的元素以通过文字形式描述所述细分领域的舆情。

需要说明的是,所属领域的技术人员可以清楚地了解到,上述细分领域舆情监控装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。

同时,上述细分领域舆情监控装置中各个单元的划分和连接方式仅用于举例说明,在其他实施例中,可将细分领域舆情监控装置按照需要划分为不同的单元,也可将细分领域舆情监控装置中各单元采取不同的连接顺序和方式,以完成上述细分领域舆情监控装置的全部或部分功能。

上述细分领域舆情监控装置可以实现为一种计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9,图9是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备900可以是台式机电脑或者服务器等计算机设备,也可以是其他设备中的组件或者部件。

参阅图9,该计算机设备900包括通过系统总线901连接的处理器902、存储器和网络接口905,其中,存储器可以包括非易失性存储介质903和内存储器904。

该非易失性存储介质903可存储操作系统9031和计算机程序9032。该计算机程序9032被执行时,可使得处理器902执行一种上述细分领域舆情监控方法。

该处理器902用于提供计算和控制能力,以支撑整个计算机设备900的运行。

该内存储器904为非易失性存储介质903中的计算机程序9032的运行提供环境,该计算机程序9032被处理器902执行时,可使得处理器902执行一种上述细分领域舆情监控方法。

该网络接口905用于与其它设备进行网络通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备900的限定,具体的计算机设备900可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图9所示实施例一致,在此不再赘述。

其中,所述处理器902用于运行存储在存储器中的计算机程序9032,以实现如下步骤:通过第一预设方式获取行业所包含细分领域的细分领域标识;根据所述细分领域标识获取预先存储的所述细分领域对应的关键字和所述细分领域对应的数据源网站列表;根据所述关键字从所述数据源网站列表所包含的数据源网站中爬取所述细分领域的语料;采用自然语言处理解析所述语料并通过第二预设方式识别所述语料包含的对象名称及舆情特征;将所述对象名称及所述舆情特征导入图数据库以构建所述细分领域的舆情关系图谱;显示所述舆情关系图谱。

在一实施例中,所述处理器902在实现所述根据所述细分领域标识获取预先存储的所述细分领域对应的关键字和所述细分领域对应的数据源网站列表的步骤之后,还实现以下步骤:

通过爬取的方式更新所述数据源网站列表。

在一实施例中,所述处理器902在实现所述通过爬取的方式更新所述数据源网站列表的步骤时,具体实现以下步骤:

获取所述细分领域的初始数据源网站列表;

将所述初始数据源网站列表按照预设条件进行分类以获取不同类型的数据源网站列表;

封装所述不同类型的数据源网站列表至对应的docker容器;

启动所述docker容器以使所述docker容器通过爬取的方式从互联网上获取新数据源网站;

将所述新数据源网站按照类型分别添加至对应的分类后的数据源网站列表以更新所述细分领域的数据源网站列表。

在一实施例中,所述处理器902在实现所述启动所述docker容器以使所述docker容器通过爬取的方式从互联网上获取新数据源网站的步骤之后,还实现以下步骤:

存储所述新数据源网站至所述细分领域对应的数据源网站列表。

在一实施例中,所述处理器902在实现所述通过第二预设方式识别所述语料包含的对象名称及舆情特征的步骤时,具体实现以下步骤:

通过构建命名实体模型或者使用正则表达式的方式识别所述语料包含的对象名称及舆情特征。

在一实施例中,所述处理器902在实现所述显示所述舆情关系图谱的步骤时,具体实现以下步骤:

以预设字体格式显示所述舆情关系图谱中的预设内容。

在一实施例中,所述处理器902在实现所述显示所述舆情关系图谱的步骤之后,还实现以下步骤:

按照预设顺序组合所述舆情关系图谱中的元素以通过文字形式描述所述细分领域的舆情。

应当理解,在本申请实施例中,处理器902可以是中央处理单元(centralprocessingunit,cpu),该处理器902还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来完成,该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。

因此,本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行如下步骤:

一种计算机程序产品,当其在计算机上运行时,使得计算机执行以上各实施例中所描述的细分领域舆情监控方法的步骤。

所述计算机可读存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述计算机可读存储介质可以是u盘、移动硬盘、只读存储器(read-onlymemory,rom)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述,仅为本申请的具体实施方式,但本申请明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1