基于图像处理技术监测的短视频数据处理系统及处理方法与流程

文档序号:36409996发布日期:2023-12-18 21:01阅读:22来源:国知局
基于图像处理技术监测的短视频数据处理系统及处理方法与流程

本发明涉及一种视频处理技术,尤其是涉及一种使用于舆情大数据处理应用的基于图像处理技术面向品牌监测的短视频数据处理系统及处理方法。


背景技术:

1、目前,主流的短视频平台有抖音、微博、快手、哔哩哔哩、今日头条、小红书等,每个短视频平台都有可能产生舆情,监测范围相当巨大,监测工作量相当繁重。这就要求我们做监测时要实时发现相关舆情,实时进行跟踪监测,实时进行汇报总结,但工作人员的时间和精力是有限的,人工检测是不可能做到的。当前采取的做法是根据监测领域,预设监测关键词,对比网络热论的话题中是否在该系统中有完全相同的关键词出现,当有完全相同的关键词出现时,确定产生了舆论,再对该舆论的来源进行定位。这在一定程度上减少了人们工作量,但由于各个舆论都具有自身的特点,人们无法预测到全部的话题关键词,所以,其信息的准确度还是非常有限的。因此,如何对网络上的舆情信息进行准确的采集监测成为了重要的问题。


技术实现思路

1、本发明为解决现有网络舆情监测存在着监测范围相当巨大,监测工作量大,监测不能及时到位,监测准确度不高等现状而提供的一种更具监测简单有效性,监测更全面,监测更及时高度,监测准确度高,可监测直观的基于图像处理技术监测的短视频数据处理系统及处理方法。

2、本发明为解决上述技术问题所采用的具体技术方案为:一种基于图像处理技术监测的短视频数据处理系统,其特征在于:包括数据源层、数据分析平台层、智能分析平台层、应用平台层和业务呈现层,数据源层包括品牌平台库和第三方搜索引擎,品牌平台库包括但不限于抖音、快手、小红书、微博、今日头条和哔哩哔哩;数据分析平台层包括预处理分层和信息采集分层,信息采集分层用于对数据源层进行信息采集处理,预处理分层用于对信息采集分层进行信息采集处理后获得的采集信息进行信息预处理,建立具有短视频舆情信息管理数据库;智能分析平台层包括统计分析单元和搜索引擎单元,统计分析单元用于构建分析导控服务联动指挥基础平台,应用平台层将数据源层、数据分析平台层和智能分析平台层获得的短视频舆情分析数据进行网络舆情监管理应用,构建形成网络舆情监测系统,业务呈现层用于将数据源层、数据分析平台层、智能分析平台层和应用平台层进行展示呈现,为网络舆情监管理应用指挥提供相应的直观呈现。搭建一个互联网短视频舆情信息采集分析导控服务联动指挥基础平台,建立具有短视频舆情来源信息收集、分类、监测、分析、研判和呈现为一体的基础数据库和管理数据库,以及与之相契合的全面、高效、直观的网络舆情监测系统。更具监测简单有效性,监测更全面, 监测更及时高度,监测准确度高,可监测直观。

3、优选的,所述的信息采集分层包括采集源配置模块、优先级配置模块、采集代理模块、采集群控制模块、采集监控模块和数据清洗模块;采集源配置模块用于利于网络信息挖掘引擎对短视频舆情信息采集源进行配置采集,优先级配置模块用于采集获得的舆情信息配置优先存储级,采集代理模块用于定时将采集得到的短视频舆情数据传送至服务器,并实时响应控制台发出的监视要求;采集群控制模块用于对多个短视频舆情数据目标进行统一控制和管理;采集监控模块用于对被监控采集的短视频舆情数据现场运行设备进行监视和控制;数据清洗模块用于对采集到的舆情数据重新审查效验,删除重复舆情数据信息。纠正错误数据信息,提供舆情数据信息一致性。提高各短视频舆情信息采集全面及时准确有效性。

4、优选的,所述的预处理分层包括舆情预警模块、数据汇总模块、自动摘要模块、中文切分词模块、构建索引模块、相似内容合并模块、增量同步模块、自动分类模块、关键词提取模块和热词提取模块;舆情预警模块用于根据事先设置的预警关键字词实现自动预警,数据汇总模块用于对舆情数据记录按照设定标准进行分类与汇总计算;自动摘要模块用于自动转换生成短视频舆情简要压缩信息,中文切分词模块用于进行中文分词,自动识别短视频舆情语句含义;构建索引模块用于创建定义与索引相关所有配置,相似内容合并模块用于处理判断合并相似短视频舆情数据,增量同步模块用于将每日增量变化数据同步至数据仓库,自动分类模块用于自定义分类标准进行索引排序处理,关键词提取模块用于提取候选词,判定输出关键词;热词提取模块用于高频出现热词提取。提高各短视频舆情信息处理全面及时准确有效性

5、优选的,所述的统计分析单元包括媒体关注度模块、自动聚类模块、词群关系构建模块、趋势分析模块、统计报表模块、主题研判模块、分析模型构建模块、热门事件模块、热词分析模块、传播轨迹模块和行业指数发布模块;媒体关注度模块用于对不同短视频舆情网络平台和账号进行属性分类,判定是否为网络舆情媒体,统计并提炼重复出现的舆情关注度词句和标题;自动聚类模块用于将内容相同和相似的舆情数据进行自动聚集和归类,词群关系构建模块用于自动提取和判定构建舆情文本中心含义和属性库;趋势分析模块用于以舆情事件出现频率和自定义时段为单位,计算舆情事件历史发展轨迹,演算未来发展趋势;统计报表模块用于以表格形式呈现已处理和统计的舆情数据,主题研判模块用于抓取舆情文本中心思想,对舆情文本进行属性判定;分析模型构建模块用于自定义选项权重并分析构建不同种类舆情数据;热门事件模块用于统计高频出现舆情事件,展示高频出现舆情事件;热词分析模块用于提取所有舆情事件中高频出现词并进行展示,传播轨迹模块用于追溯舆情事件历史发展轨迹,计算研判舆情事件传播轨迹;行业指数发布模块用于体现市场上各个行业发展状况的指数指标。提高各短视频舆情信息统计分析多样全面有效性。

6、优选的,所述的应用平台层包括互联网应用单元、分类检测单元、舆情报告单元、热点舆情单元、关键词配置单元、预警配置单元、通讯录管理单元和用户管理单元;互联网应用单元用于执行应用平台上于互联网应用归集汇总,分类检测单元用于执行短视频舆情信息进行独立分类检测,舆情报告单元用于执行舆情信息报告生成,热点舆情单元用于执行呈现特定时间段内高频舆情,关键词配置单元用于执行根据关键词和排除词录入语法进行编辑配置,预警配置单元用于执行配置推送预警信息,通讯录管理单元用于管理与短视频数据处理系统关联的联系人,用户管理单元用于执行管理账号下的用户名单和用户权限。提高各短视频舆情信息应用全面及时有效性。

7、本发明申请的另一个发明目的在于提供一种基于图像处理技术监测的短视频数据处理方法,其特征在于:包括如下数据处理方法

8、a1.数据架构处理方法:将网络舆情监测系统将互联网主流短视频平台舆情视频分为数据采集模块、数据处理模块、数据管理和存储模块和数据展现模块,实现将互联网舆情数据采集后,进行数据分析和管理,实现数据可视化;

9、a2.数据采集技术处理方法:数据采集是通过爬虫服务器集群协作完成,数据采集通过面向但不限于今日头条、快手、微博、抖音、小红书和哔哩哔哩监测获得的海量舆情数据进行采集,筛选出有用的舆情数据信息;

10、a3.数据去重技术处理方法:数据去重又称重复数据删除,是指在一个数字文件集合中,找出重复的舆情数据并将其删除,只保存唯一的数据单元;在删除的同时,要考虑数据重建,即虽然文件的部分内容被删除,但当需要时,仍然将完整的文件内容重建出来,这就需要保留文件与唯一数据单元之间的索引信息;

11、a4.ocr识别技术处理方法:系统通过智能爬虫系统获取社媒平台的数据,使用高并发的方式批量下载视频,并进行抽帧获取图片,ocr系统能够快速准确的定位到图片上的文字并进行识别;对于短视频中出现的场景、物体进行ocr识别,同时对短视频中的字幕内容进行ocr识别提取,有利于对舆情信息进行全方面的采集和监测;

12、a5.视频特征识别技术处理方法:通过智能爬虫系统获取社媒平台的数据,使用高并发的方式批量下载视频,并进行抽帧获取图片;

13、a6.企业形象舆情监督的短视频网络舆情监测系统的建设方法:通过对包括但不限于抖音、微博、快手、今日头条、哔哩哔哩和小红书的热门短视频平台涉及企业形象相关舆情监督,对于涉及企业经营管理、服务响应、电力供应和员工与公司品牌形象相关的舆情信息,通过7×24小时全自动的实时监测、分析与预警,系统性提升被监测公司互联网舆情风险掌控能力,助力被监测公司更加高效、及时、全面发现网络舆情,为舆情处置与引导获取先机;

14、a7.企业形象舆情分析处理方法:通过网络舆情监测系统专业分析能力,获取精准的舆情信息检索和深度分析参考,帮助被监测公司及时掌握短视频平台网络舆情动向,对有较大影响的重要事件快速发现、快速处理,从正面引导舆论和宣传,为公关管理提供决策依据,助力被监测公司更好的维护公司品牌形象,为企业发展提供良好的舆论环境。

15、提高对各短视频平台网络舆情视频数据处理识别及企业形象建设的及时全面高效性,对有较大影响的重要事件快速发现、快速处理,从正面引导舆论和宣传,为公关管理提供决策依据,助力被监测公司更好的维护公司品牌形象,为企业发展提供良好的良性助推舆论环境。

16、优选的,上述数据处理方法包括如下具体处理方式:

17、b1.设置关键词方案来查询、监测舆情信息,根据实际业务需求配置不同的关键词,以获取短视频平台中的相关信息;为舆情热点发现、重点舆情监测,提供便利化方案;

18、b2.设置完方案后可以在信息列表查看到该方案下监测到的舆情数据;

19、b3.设置快捷搜索,设置一两个简单的关键词用于信息的初步检索;

20、b4.根据业务需求,筛选粉丝量大、活跃度高和/或影响力大的短视频用户生成重点账号池,同时根据业务沉淀添加对应的重点用户进行监测,实现对不同平台的重点账号进行监测和采集,监测重点账号池短视频用户发布的舆情信息并实现更深层的ai分析;

21、b5.可视化数据:通过可视化数据大屏从多个维度对方案进行分析研判,将分析后的数据以图表的形式呈现,图表呈现形式包括敏感信息内容、热门信息内容、发布者地域分布信息、情感走势图、作品发布互动走势和信息来源分布;

22、b6.针对于每个舆情方案,网络舆情监测系统都会从多个维度对舆情数据进行分析和处理,支持根据用户设置的单方案生成数据图表,数据图表包括舆情来源分布、关键词舆情声量、内容词云和敏感分类相关信息;

23、b7.根据网络舆情监测系统监测方案,获取相关日、周和月的不同数据,并统计成报告,帮助被监测公司了解近期舆情状况,助力于提升舆情处置的效率;

24、b8. 网络舆情监测系统根据舆情信息在各短视频平台上的整体传播情况,收集全网舆情数据并跟踪分析,自动生成涵盖包括但不限于事件走势、网站统计、传播路径的多个维度全面分析报告。

25、提高对各短视频平台网络舆情视频重点数据处理高效及时可行性,提高舆情视频重点数据跟踪分析全面性与呈现性。

26、优选的,上述a4步骤中ocr识别技术处理方法包括如下技术实现步骤:

27、c1.图像预处理,为了更好的文本行定位和识别,从而提高舆情数据识别准确率;

28、c2.将文档图像的所有文本行进行定位,对文本文字信息转换成可编辑的文字信息;

29、c3.根据规则和大数据分析对识别结果进行矫正,提高字符识别的准确率;

30、c4.将识别结果按原文本图像原来的矫正,提高字符识别的准确率;

31、c5.将识别结果按原文本图像原来版面还原到web界面。

32、提高对各短视频平台网络舆情视频数据ocr识别技术处理高效及时有效性。

33、优选的,上述a2步骤数据采集技术处理方法中,通过海量的 ip 地址的地址池以及模拟自然人访问行为,持续不断的扫描所监控的网站,把采集到的数据保存在分布式存储服务集群中,并将所有动作和行为日志记录到日志服务器集群。采集到的数据通过采集数据接口传送给数据处理的情感判断、自然语言识别等子模块。提高舆情数据信息筛选处理ip地址监测判断获取高效及时性。

34、优选的,上述a2步骤舆情数据信息筛选处理中,将各短视频平台的舆情信息进行采集监测,并将其用于筛选舆情信息,通过设置舆情关键词来监测舆情,网络舆情监测系统匹配到相对应的关键词,就会采集该条信息进行展示;通过建立重点账号池,对涉及粉丝量高和/或影响力大的短视频用户进行重点采集和监测,监测短视频用户发布的舆情信息。提高舆情数据信息筛选处理重点监测采集及时有效性。

35、优选的,上述a1步骤数据采集模块通过爬虫服务器集群进行对今日头条、微博、快手、抖音、哔哩哔哩和小红书的互联网短视频信息采集,并经过ur去重、协作式爬虫、已知网站模板匹配和未知网站自动计算后传输至数据处理模块,上述a1步骤中数据处理模块的数据处理包括自动摘要、噪音计算、文本分类、文本分词、观点提取、地域识别、敏感发现、热点计算、突发计算、事件抽取和主题词抽取,上述a1步骤中数据管理的数据管理和存储模块的管理存储包括数据分发、数据存储、自动备份、分布式索引、查询管理和高级计算,上述a1步骤中数据展现模块的数据展现包括在前端web界面的用户配置、查询请求和数据呈现。提高数据采集全面高效及时呈现性。

36、本发明的有益效果是:本项目旨在搭建一个互联网短视频舆情信息采集分析导控服务联动指挥基础平台,建立具有短视频舆情信息收集、分类、监测、分析、研判和呈现为一体的基础数据库和管理数据库,以及与之相契合的全面、高效、直观的网络舆情监管体系。根据不同舆情事件,设置不同的关键词方案,系统通过爬虫技术对抖音、快手、微博、小红书、哔哩哔哩、今日头条等平台的短视频信息进行采集监测。可以用于筛选舆情信息,通过设置舆情关键词来监测舆情,系统匹配到相对应的关键词,就会采集该条信息进行展示。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1