本发明涉及网络舆情监测领域,特别是涉及一种用于海外投资风险预警的网络舆情检测方法及系统。
背景技术:
我国走出去企业面临各国政治、经济、产业、技术、金融、税收、政策、资源、环保、生态、生物、自然灾害等多维度风险因素,加之战争动乱、恐怖活动、反华势力等不利影响,往往使我国海外投资项目遭受重大损失的案例时有发生。
国际舆情是在全球范围社会空间内,人们对于政治、经济、社会、道德等某一现象和问题所表达的信念、态度、意见和情绪等现象。舆情监测对于我国走出去企业的投资安全具有重要意义,利用互联网舆情监控系统,可以从纷繁复杂的涉华舆情信息中及时预判出即将出现的政治、经济、文化、宗教、社会风险,并通知年企业提前做好预案。
然而,由于无法有效的综合国际舆情信息,从而导致海外投资风险预警的及时性和准确性都比较差。
技术实现要素:
为了解决现有技术中的上述问题,即为了解决有效的综合国际舆情信息,提高海外投资风险预警的及时性和准确性,本发明提供了一种用于海外投资风险预警的网络舆情检测方法及系统。
为解决上述技术问题,本发明提供了如下方案:
一种用于海外投资风险预警的网络舆情检测方法,所述网络舆情检测方法包括:
采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息;
根据所述有效舆情信息,确定海外投资风险情报。
可选的,所述采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息,具体包括:
通过过滤无关页面和链接,获取主题相关页面;
对主题相关页面中的数据进行格式统一和语义理解,得到标准词汇;
根据所述标准词汇,分析情感倾向,确定网民观点;
根据所述网民观点,进行事件分析及层级构建,挖掘提炼出有效舆情信息。
可选的,所述根据所述有效舆情信息,确定海外投资风险情报,具体包括:
从所述有效舆情信息中,识别热点事件的信息内容,以文本形式保存;
通过各所述信息内容,对不同话题进行关联检测;
根据关联检测结果,将针对同一话题的报道归为一类舆情信息;
追踪各类舆情信息的后续报道,分析对应话题的发展趋势以及倾向性,探究出不同的事件在网络舆情中的发生发展和演变机理,确定海外投资风险情报。
可选的,所述通过各所述信息内容,对不同话题进行关联检测,具体采用以下任意方法:
相似度计算方法,话题检测方法,话题追踪方法,极性词典的构建及情感分析方法。
可选的,(1)通过各所述信息内容,基于相似度计算方法,对不同话题进行关联检测,具体包括:
建立信息内容的特征向量;
通过以下欧氏距离计算公式获取信息内容间相似度:
其中,n表示信息内容的特征向量数量,k=1,2,…,n;xak表示第a信息内容的第k个特征向量,xbk表示第二信息内容的第k个特征向量,dab表示第a信息内容与第b信息内容的相似度值;
根据各相似度值,进行聚类并去掉冗余信息;
(2)通过各所述信息内容,基于话题检测方法,对不同话题进行关联检测,具体包括:
根据以下公式,将m个特征空间中的特征点划分为指定为q类:
其中,cj是第j个聚类类别,μj是第j个聚类类别所对应的聚类中心,xi是属于类别cj的数据点;r表示基于话题检测方法的关联检检测结果;
(3)通过各所述信息内容,基于话题追踪方法,对不同话题进行关联检测,具体包括:
在基于话题检测方法的关联检检测结果的基础上进行话题追踪分析,分析结果为整个话题的起因、发展、消亡过程;
通过自适应话题追踪算法完成话题追踪,构造多个话题修正模型,实现话题动态的及时反馈;
(4)通过各所述信息内容,基于极性词典的构建及情感分析方法,对不同话题进行关联检测,具体包括:
基于基础词典、网络词词典、领域词典以及修饰词词典中至少一者,构建极性词典;
基于极性词典的情感分析,在极性词典的匹配基础上,采用支持向量机svm方法完成极性分类。
可选的,所述分析对应话题的发展趋势以及倾向性具体采用以下方法中至少一者:
溯源分析、态势分析、趋势预测、波及范围分析、影响程度分析、重点任务社会关系图谱、舆论倾向分析。
可选的,所述网络舆情检测方法还包括:
接收用户查询请求;
根据所述查询请求,进行检索,得到数据信息;将数据信息以图形图像可视化的形式呈现出来;
生成的初级报告。
可选的,所述网络舆情检测方法还包括:
通过分布式综合集成数据库,对有效舆情信息及海外投资风险情报进行存储和管理。
可选的,所述通过分布式综合集成数据库对有效舆情信息及海外投资风险情报进行存储和管理,具体包括:
基于hadoop搭建大数据云存储平台,支持结构化数据、半结构化数据和非结构化数据的分布式存储和并行计算,实现pb级多源异构大数据的批量和流式处理。
为解决上述技术问题,本发明还提供了如下方案:
一种用于海外投资风险预警的网络舆情检测系统,所述网络舆情检测系统包括:
采集处理单元,用于采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息;
舆情分析单元,用于根据所述有效舆情信息,确定海外投资风险情报。
根据本发明的实施例,本发明公开了以下技术效果:
本发明通过采用聚焦爬虫技术,进行网络数据的采集和处理,可有效综合国际舆情信息,进而根据所述有效舆情信息,确定海外投资风险情报,可提高海外投资风险预警的及时性和准确性。
附图说明
图1是本发明用于海外投资风险预警的网络舆情检测方法的流程图;
图2是本发明用于海外投资风险预警的网络舆情检测方法的实施例示意图;
图3是本发明用于海外投资风险预警的网络舆情检测系统的模块结构示意图。
符号说明:
采集处理单元—1,舆情分析单元—2,接收单元—3,查询单元—4,生成单元—5。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的目的在于提供一种用于海外投资风险预警的网络舆情检测方法,通过采用聚焦爬虫技术,进行网络数据的采集和处理,可有效综合国际舆情信息,进而根据所述有效舆情信息,确定海外投资风险情报,可提高海外投资风险预警的及时性和准确性。
如图1所示,本发明用于海外投资风险预警的网络舆情检测方法包括:
步骤100:采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息。
步骤200:根据所述有效舆情信息,确定海外投资风险情报。
步骤300:接收用户查询请求。
步骤400:根据所述查询请求,进行检索,得到数据信息;将数据信息以图形图像可视化的形式呈现出来。
步骤500:生成的初级报告。
其中,聚焦爬虫是在普通爬虫的基础上引入页面相关性分析和url优先级判断两个模块。
在步骤100中,所述采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息,具体包括:
步骤101:通过过滤无关页面和链接,获取主题相关页面;
步骤102:对主题相关页面中的数据进行格式统一和语义理解,得到标准词汇;
步骤103:根据所述标准词汇,分析情感倾向,确定网民观点;
步骤104:根据所述网民观点,进行事件分析及层级构建,挖掘提炼出有效舆情信息。
在步骤200中,所述根据所述有效舆情信息,确定海外投资风险情报,具体包括:
步骤201:从所述有效舆情信息中,识别热点事件的信息内容,以文本形式保存。
步骤202:通过各所述信息内容,对不同话题进行关联检测。
可具体采用相似度计算方法,话题检测方法,话题追踪方法,极性词典的构建及情感分析方法中任意一者,对不同话题进行关联检测。
步骤203:根据关联检测结果,将针对同一话题的报道归为一类舆情信息。
步骤204:追踪各类舆情信息的后续报道,分析对应话题的发展趋势以及倾向性,探究出不同的事件在网络舆情中的发生发展和演变机理,确定海外投资风险情报。
其中,(1)相似度计算:
数据库中的信息十分庞杂,有些信息之间内容相似,应进行聚类;有些信息之间则几乎没有相关性。这种情况不利于计算机的分析处理,还需要利用文本相似度计算技术,对信息进行进一步的处理,将相似度很高的信息聚类并去掉冗余信息。相似度计算即计算文本之间的相似度并实现主题之间的语义关联,其基本方法是基于向量实现的,而后计算特征向量之间的欧式距离。
其中,通过各所述信息内容,基于相似度计算方法,对不同话题进行关联检测,具体包括:
建立信息内容的特征向量;
通过以下欧氏距离计算公式获取信息内容间相似度:
其中,n表示信息内容的特征向量数量,k=1,2,…,n;xak表示第a信息内容的第k个特征向量,xbk表示第二信息内容的第k个特征向量,dab表示第a信息内容与第b信息内容的相似度值;
根据各相似度值,进行聚类并去掉冗余信息。
(2)话题检测:
话题检测的目标是对信息中所要表达的内容进行聚类分析。话题检测技术主要有两类:回溯检测与在线检测。回溯检测主要是在己有的信息中检测以前未发现的话题;而在线话题检测的重点在于能够迅速的从实时信息流中标识出新的话题。大多数的话题检测算法是基于聚类算法展开的,然后通过向量空间模型来描述新闻报道以及相应话题,计算话题间的相似度,最后按照既定策略对信息进行聚类。在本实施例中,话题检测方法为k均值聚类算法。
其中,通过各所述信息内容,基于话题检测方法,对不同话题进行关联检测,具体包括:
根据以下公式,将m个特征空间中的特征点划分为指定为q类:
其中,cj是第j个聚类类别,μj是第j个聚类类别所对应的聚类中心,xi是属于类别cj的数据点;r表示基于话题检测方法的关联检检测结果。
其中,确定聚类中心点的具体方法包括:
1)首先是选取每一类的初始聚类中心。
对于每一个类别,对于不同问题可以根据一定的偏限制条件选取聚类中心,只要就得到了k个初始聚类中心。
2)将每个特征点找到其所对应的类。
一般地,选取欧几里得距离,通过对数据中的每个特征点与第一步选取的聚类中心点的距离的计算,选择距离最短中心所属类别作为其类别标签。
3)基于第二步的结果,利用每一类中的特征点继续重复计算得到新的聚类中心,这样将会得到一组新的聚类中心点。
4)重复进行第二部和第三步的操作直到所有被聚类点的类别不变。
(3)话题追踪:
通过各所述信息内容,基于话题追踪方法,对不同话题进行关联检测,具体包括:
在基于话题检测方法的关联检检测结果的基础上进行话题追踪分析,分析结果为整个话题的起因、发展、消亡过程;
通过自适应话题追踪算法完成话题追踪,构造多个话题修正模型,实现话题动态的及时反馈。
(4)极性词典的构建及情感分析:
通过各所述信息内容,基于极性词典的构建及情感分析方法,对不同话题进行关联检测,具体包括:
基于基础词典、网络词词典、领域词典以及修饰词词典中至少一者,构建极性词典。
基于极性词典的情感分析,在极性词典的匹配基础上,采用支持向量机(supportvectormachine,svm)方法完成极性分类。
极性词典在倾向性分析和文本情感分析中起到了基础作用的,它的构建主要包括基础词典、网络词词典、领域词典以及修饰词词典几个方面。建立完善的极性词典之后,就可以在此基础上对网络舆情进行相应的情感分析,将目标文本提出主要情感词,与构建好的极性词典进行比对,从而确定整篇文本的情感倾向,有利于用户快速、高效、准确的把握某事件的整体社会倾向性。
文本情感分析,可以采用支持向量机用于分类,可以准确快速的判断待检测文本的感情色彩(褒义或贬义),其原理与过程如下:
支持向量机svm是一种基于输入的正负样本的分类器,其核心思想是训练一个超平面,使得在超平面两侧的点的距离最大,该分类器应用十分广泛,尤其在计算机视觉和模式识别领域。对于线性可分的数据核问题,其对数据进行线性变换,最终依靠拉格朗日乘子法选出最优超平面。然而对于有些线性不可分的数据,则可以对其进行非线性变换,这样一来低维的特征空间被映射到一个高维特征空间中。此时高维空间变为可以分割的,最后找到最优的分类超平面。
训练过程详细阐述如下:训练样本集为(x1,y1),(x2,y2)(x3,y3),...,(xn,yn),其中,xi是特征向量,yi∈{-1,+1}是特征向量的类别标签。支持向量机的目的是按照公式ω*x+b=0训练出最佳ω和b的值,进而在数据的分布先验知识没有给出的情况下,最终确定空间中的一个超平面,训练出最佳ω和b的值,使得两种样本的几何距离最大。ω和b的搜索过程依据如下:
其中,ai(i=1,2,3,...,m)是拉格朗日乘子,ai和b是svc学习算法学习出的参数。其中ai是求解得到的非零值xi是对应的特征向量,k(xi,x)是核函数,可以将低维度的特征空间直接映射到高维的空间中,进而使得样本在高维空间中线性可分。
在步骤400中,根据用户的数据查询请求,提供包括专题检索、标题检索、模糊检索、联想检索、字符串检索等多种快速查询检索方式。
检索结果支持按发布时间分类排序、按类别分类排序、按相似度分类排序、按重复度分类排序。
数据可视化是将数据信息以某种图形图像可视化的形式呈现出来,给观察者提供一种量化的方式,增加数据的可理解性和可信度。该系统中使用的可视化技术主要包括空间三维图形、颜色图、亮度图三种。
在步骤500中,为实现流程管理的自动化和业务逻辑的模块化,还开发一套报告自动生成系统,自动完成原始数据收集、原始数据的加工计算、数据提取录入、表格编辑、曲线绘制,编辑生成初级报告,极大地提高工作效率。
而且为了确保数据的安全性,本发明通讯数据流使用ssl3.0安全套接层通讯,采用https加密协议传输,服务器端与客户端之间的通讯需要相互认证,确保远程管理、浏览查询等用户操作时的通讯安全,各个功能模块之间通讯要求保证数据的合法性、数据的保密性、数据的不可否认性和数据的完整性。在系统安全管理方面,实时检测各功能模块运作状态,对重要模块提供双机热备份,安装反病毒、反木马、防火墙软件,加装入侵检测系统,定时更新病毒库、木马库,及时更新系统补丁,确保系统不被病毒、木马攻击和感染。
此外,本发明用于海外投资风险预警的网络舆情检测方法还包括:
通过分布式综合集成数据库,对有效舆情信息及海外投资风险情报进行存储和管理(如图2所示)。
其中,所述通过分布式综合集成数据库对有效舆情信息及海外投资风险情报进行存储和管理,具体包括:
基于hadoop搭建大数据云存储平台,支持结构化数据、半结构化数据和非结构化数据的分布式存储和并行计算,实现pb级多源异构大数据的批量和流式处理。
分布式综合集成数据库的作用是对搜集于新闻网站、社交媒体、论坛、博客的全媒体大数据进行存储和管理。舆情分析系统需要处理的数据量非常巨大,数据包括图文音视等多种媒体形态和xml、html、doc、pdf和excel等多种数据格式,因此系统对数据存储规模和管理科学程度有很高的要求。本发明基于hadoop搭建具有高可靠性和良好扩展性的大数据云存储平台,支持结构化数据、半结构化数据和非结构化数据的分布式存储和并行计算,实现pb级多源异构大数据的批量和流式处理。由hadoop交互模块对不同来源的数据进行清洗、格式判断,上传至hdfs进行存储;用mapreduce对于文本数据进行语义理解,挖掘提炼有效情报。
此外,本发明还提供一种用于海外投资风险预警的网络舆情检测系统,可有效的综合国际舆情信息,提高海外投资风险预警的及时性和准确性。
如图3所示,本发明用于海外投资风险预警的网络舆情检测系统包括采集处理单元1、舆情分析单元2、接收单元3、查询单元4及生成单元5。
其中,所述采集处理单元1用于采用聚焦爬虫技术,进行网络数据的采集和处理,得到有效舆情信息。
所述舆情分析单元2用于根据所述有效舆情信息,确定海外投资风险情报。
所述接收单元3用于接收用户查询请求。
所述查询单元4用于根据所述查询请求,进行检索,得到数据信息;将数据信息以图形图像可视化的形式呈现出来。
所述生成单元5用于生成的初级报告。
相对于现有技术,本发明用于海外投资风险预警的网络舆情检测系统与上述用于海外投资风险预警的网络舆情检测方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。