基于互联网的水务大数据舆情精准抓取识别系统的制作方法

文档序号:37466228发布日期:2024-03-28 18:49阅读:7来源:国知局
基于互联网的水务大数据舆情精准抓取识别系统的制作方法

本发明涉及水务大数据,尤其涉及基于互联网的水务大数据舆情精准抓取识别系统。


背景技术:

1、现有的抓取识别系统不便于对互联网上的水务大数据舆情进行抓取识别,且缺乏一个完善的水务相关知识库,不能有效识别大数据舆情中水务相关的信息,为此,我们提出基于互联网的水务大数据舆情精准抓取识别系统来解决上述问题。


技术实现思路

1、本发明的目的是为了解决现有技术中的抓取识别系统不便于对互联网上的水务大数据舆情进行抓取识别,且缺乏一个完善的水务相关知识库,不能有效识别大数据舆情中水务相关的信息的问题,而提出的基于互联网的水务大数据舆情精准抓取识别系统。

2、为了实现上述目的,本发明采用了如下技术方案:

3、基于互联网的水务大数据舆情精准抓取识别系统,包括数据抓取识别分析平台,所述数据抓取识别分析平台包括水务行业舆情研判预警和指挥系统、水务互联网舆情采集处理系统及水务智能数据抓取识别系统。

4、优选的,所述数据抓取识别分析平台以分层设计原则构建,所述数据抓取识别分析平台分为采集层、存储层、支撑层、分析层、服务层。

5、优选的,基于互联网的水务大数据舆情精准抓取识别系统,所述数据抓取识别分析平台分层运行步骤如下:

6、步骤1.采集层工作:采集层采集各业务系统需要的业务、互联网、微博、微信等数据,包括文字、图片、视频、用户数据等内容;

7、步骤2.存储层工作:存储层将步骤1采集到的数据存储至数据库中;

8、步骤3.分析层工作:分析层面向系统提供数据分析服务,在分析层内置词典,基于数据挖掘、深度神经网络技术,进行文本分类、文本聚类、情感分析、热点发现、数据比对、信息萃取、数据提取;

9、步骤4.服务层工作:服务层为水务部门户网站、河长制、湖长制、水资源管理、地下水监测、防汛会商等业务系统,提供数据服务、共享和监控管理;

10、步骤5.支撑层:支撑层为标准规范体系、安全保障体系及运行维护体系。

11、优选的,所述数据抓取识别分析平台运行技术包括数据采集分析加工技术与数据分析模板技术。

12、优选的,基于互联网的水务大数据舆情精准抓取识别系统,所述数据采集分析加工技术运行包括以下步骤:

13、步骤1.数据处理流程:根据数据质量要求,对平台进行整体开发、调整和优化,涉及从数据采集推送、数据解析入库、指标提取、数据评分到数据分析界面的整体流程;

14、步骤2.数据分析处理:接收推送的数据后,系统定时自动解析数据,生成装库文件后将数据初始化到全文检索数据库中,然后自动根据分类、提取、评分模板处理数据,提取或标注数据的类型、分值、指标,并根据系统设定阈值将数据显示到系统前台对应栏目,定时任务可以根据业务需求随时进行调整,保障用户随时随地从系统前端页面了解数据增量、处理情况,并和中心数据进行对比,找出差异和变化;

15、步骤3.数据质量控制:优化数据采集加工的流程,细化质量控制节点,并针对控制节点制定工作标准,以保证数据质量。

16、优选的,基于互联网的水务大数据舆情精准抓取识别系统,所述数据分析模板技术运行包括以下步骤:

17、步骤1.数据排重:推送入库的数据,经过自动分类和排重后,形成各类目标数据库,借助文本挖掘工具,设定数据分类和排重规则,进行数据分类、排重和过滤,为下一步实现数据智能分析提供数据准备,对于不符合需求的内容,将数据删除不入库;

18、标签的方式采用排除关键词规则,采用自动分类方式解决,自动分类方式,通过对初期采集内容进行人工设定,分为有用和无用,交由机器进行自动学习,形成智能处理模板;

19、步骤2.价值信息萃取:基于价值信息定义,构建信息评价模型,实现价值信息萃取,根据互联网分类信息,制定并优化萃取模版算法和评分模型,通过语义、规则优化,进一步提高数据萃取效果;

20、步骤3.实体对象及实体指标数据提取:萃取后的高价值密度数据,多以文本形式存在,通过文本分析技术抽取信息,实现对闸门名称、类型、流速、流量等实体名称和各类指标的抽取,形成结构化目标数据,文本信息抽取采用基于规则与统计相结合的技术,从非结构化的文本信息中抽取有意义的事实信息,被抽取的事实信息以结构化的形式描述,并存入结构化数据库中,供分析使用,对于水务工程指标的提取,根据当前成果库对象分类分级体系,进行抽取对象的整理,作为信息抽取的对象词库。

21、与现有技术相比,本发明的有益效果是:

22、1、提供了舆情中心功能,包含事件线索、脉络列表、事件溯源、热点排行、地域声量排行、信息列表、新闻报道分析、网民关注分析、涉事分析、微博分析等,通过事件线索可以清晰地展示事件原始报道点及传播途径,脉络列表主要展示与事件相关的网络信息,事件溯源则根据事件的引爆点和传播时间序列追踪事件发生源头,热点排行根据事件网络热点信息进行综合排行,网民关注分析主要针对社会公众关注的某个水务主题或水务事件进行分析,并对水务关键信息进行数据化抓取识别;

23、2、利用nlp构建水务行业基础词库、行业本体和知识体系,并对互联网水务相关信息进行抓取识别,针对水务内外宣传、行业监管、生态保护、水资源管理和水务工程建管特定特征业务需求,研发互联网数据分析处理、信息萃取模型,实现了网络舆情信息价值点、敏感点、关键点、发酵点的发现,精确定位,标引及提取,并对接业务系统提供数据产品及服务调用,实现舆情信息、互联网数据与业务数据的融合服务与展现,验证了互联网维度数据支持水务业务监管的有效途径,对促进水务各项业务融合舆情,围绕水资源短缺、水生态损害、水环境污染、水灾害威胁四大水问题的水务行业监管业务效率和能力建设有重要价值,有利于加强水务网络文明建设,强化网络平台管理,净化网络舆论环境,推进网络生态治理,提升网络舆情应对能力,为水务治理能力智能化、体系结构化、效能现代化和水务高质量发展提供支撑保障。



技术特征:

1.基于互联网的水务大数据舆情精准抓取识别系统,包括数据抓取识别分析平台,其特征在于,所述数据抓取识别分析平台包括水务行业舆情研判预警和指挥系统、水务互联网舆情采集处理系统及水务智能数据抓取识别系统。

2.根据权利要求1所述的基于互联网的水务大数据舆情精准抓取识别系统,其特征在于,所述数据抓取识别分析平台以分层设计原则构建,所述数据抓取识别分析平台分为采集层、存储层、支撑层、分析层、服务层。

3.根据权利要求2所述的基于互联网的水务大数据舆情精准抓取识别系统,其特征在于,所述数据抓取识别分析平台分层运行步骤如下:

4.根据权利要求1所述的基于互联网的水务大数据舆情精准抓取识别系统,其特征在于,所述数据抓取识别分析平台运行技术包括数据采集分析加工技术与数据分析模板技术。

5.根据权利要求4所述的基于互联网的水务大数据舆情精准抓取识别系统,其特征在于,所述数据采集分析加工技术运行包括以下步骤:

6.根据权利要求4所述的基于互联网的水务大数据舆情精准抓取识别系统,其特征在于,所述数据分析模板技术运行包括以下步骤:


技术总结
本发明公开了基于互联网的水务大数据舆情精准抓取识别系统,包括数据抓取识别分析平台,所述数据抓取识别分析平台包括水务行业舆情研判预警和指挥系统、水务互联网舆情采集处理系统及水务智能数据抓取识别系统,所述数据抓取识别分析平台以分层设计原则构建,所述数据抓取识别分析平台分为采集层、存储层、支撑层、分析层、服务层。本发明利用自然语言处理和人工智能等技术和手段,以精确抓取识别互联网络水务大数据舆情信息的敏感点、关键点、发酵点,实现信息萃取,数据提取,为水务行业智慧监督管理提供有力数据支撑。

技术研发人员:陈浩,李庆玲
受保护的技术使用者:安徽国耀通信科技有限公司
技术研发日:
技术公布日:2024/3/27
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1