一种基于社交话题的对目标事件进行分析的方法及系统与流程

文档序号:29474771发布日期:2022-04-02 06:41阅读:100来源:国知局
一种基于社交话题的对目标事件进行分析的方法及系统与流程

1.本发明涉及信息技术应用技术领域,更具体地,涉及一种基于社交话题的对目标事件进行分析的方法及系统。


背景技术:

2.随着互联网技术的蓬勃发展,人们越来越倾向于通过某一社交媒体获取近期的热点事件。然而,存在以下几个问题:(1)这些话题每天更新较快,无法快速直观的获取某一个热点事件随着时间发酵的整体发展趋势。(2)传统的话题发现只是针对某一采集到的数据集检测热点话题,无法做到从数据采集到结果分析的全自动化。(3)现有的话题发现技术适用于众多各异事件中挖掘热点事件,粒度较粗,不容易分析决策。
3.现有技术(申请公开号:cn113064990a)公开了一个从数据采集到热点事件发掘分析的自动化系统,包括:对文本进行预处理,将文本内容分割为多个短语;对经短语分割的文本进行文本向量化的处理,形成向量化的事件集合;采用无监督聚类算法对向量化的事件集合进行聚合,形成热点的事件簇;对每个事件簇采用深度学习算法进行向量化处理并再次使用无监督聚类算法进行聚合;使用新词发现算法,生成话题簇描述。然而,现有技术无法对热点话题的发展变化做出分析,提取关键词的精度也没法控制。
4.因此,如何在对热点话题进行分析时做到细粒度的全流程的自动化,同时在时间维度做社交话题的热点发现及演化,成为急需解决的问题。


技术实现要素:

5.本发明技术方案提供一种基于社交话题的对目标事件进行分析的方法及系统,以解决如何对社交话题的目标事件进行分析的问题。
6.为了解决上述问题,本发明提供了一种基于社交话题的对目标事件进行分析的方法,所述方法包括:
7.确定社交话题中的目标事件,并提取所述目标事件的初始关键词;
8.按预定的时间周期识别与所述初始关键词相关联的目标文本数据;
9.基于所述目标文本数据的类型,对所述目标文本数据进行处理;对处理后的所述目标文本数据进行分词处理,提取不同时间周期内的所述目标文本数据中的关键词;
10.基于不同时间周期的时间维度,通过所述目标事件的关键词对目标事件的发展进行可视化展示。
11.优选地,通过python爬取算法按预定的时间周期识别与所述初始关键词相关联的目标文本数据,并将所述目标文本数据存储至数据库中。
12.优选地,所述基于所述目标文本数据的类型,对所述目标文本数据进行处理,包括:
13.确定所述目标文本数据的数据格式;
14.根据每个目标文本数据的数据格式对样本文本进行内容解析,从而获得每个目标
文本数据的正文内容。
15.优选地,所述基于所述目标文本数据的类型,对所述目标文本数据进行处理,包括:
16.对所述目标文本数据的进行清洗,过滤所述目标文本数据中的无效文本数据。
17.优选地,所述基于所述目标文本数据的类型,对所述目标文本数据进行处理,包括:
18.将所述目标文本数据的繁体文本数据转换为中文简体文本。
19.优选地,所述对处理后的所述目标文本数据进行分词处理,包括:
20.基于注意力机制优化双向lstm分词算法对所述目标文本数据做分词处理。
21.优选地,所述提取不同时间周期内的所述目标文本数据中的关键词,包括:
22.基于自定义阈值的停用词字典提取不同时间周期内的所述目标文本数据中的关键词。
23.优选地,所述基于不同时间周期的时间维度,对所述目标事件的关键词进行可视化展示,其中展示方式包括:饼状图,热力图,柱状图。
24.基于本发明的另一方面,本发明提供一种基于社交话题的对目标事件进行分析的系统,所述系统包括:
25.初始单元,用于确定社交话题中的目标事件,并提取所述目标事件的初始关键词;
26.识别单元,用于按预定的时间周期识别与所述初始关键词相关联的目标文本数据;
27.处理单元,用于基于所述目标文本数据的类型,对所述目标文本数据进行处理;对处理后的所述目标文本数据进行分词处理,提取不同时间周期内的所述目标文本数据中的关键词;
28.结果单元,用于基于不同时间周期的时间维度,通过所述目标事件的关键词对目标事件的发展进行可视化展示。
29.优选地,所述初始单元,还用于通过python爬取算法按预定的时间周期识别与所述初始关键词相关联的目标文本数据,并将所述目标文本数据存储至数据库中。
30.优选地,所述处理单元用于基于所述目标文本数据的类型,对所述目标文本数据进行处理,还用于:
31.确定所述目标文本数据的数据格式;
32.根据每个目标文本数据的数据格式对样本文本进行内容解析,从而获得每个目标文本数据的正文内容。
33.优选地,所述处理单元用于基于所述目标文本数据的类型,对所述目标文本数据进行处理,还用于:
34.对所述目标文本数据的进行清洗,过滤所述目标文本数据中的无效文本数据。
35.优选地,所述处理单元用于基于所述目标文本数据的类型,对所述目标文本数据进行处理,还用于:
36.将所述目标文本数据的繁体文本数据转换为中文简体文本。
37.优选地,所述处理单元用于对处理后的所述目标文本数据进行分词处理,还用于:
38.基于注意力机制优化双向lstm分词算法对所述目标文本数据做分词处理。
39.优选地,所述处理单元用于提取不同时间周期内的所述目标文本数据中的关键词,还用于:
40.基于自定义阈值的停用词字典提取不同时间周期内的所述目标文本数据中的关键词。
41.优选地,所述结果单元用于基于不同时间周期的时间维度,对所述目标事件的关键词进行可视化展示,其中展示方式包括:饼状图,热力图,柱状图。
42.本发明技术方案提供一种基于社交话题的对目标事件进行分析的方法及系统,其中方法包括:确定社交话题中的目标事件,并提取目标事件的初始关键词;按预定的时间周期识别与初始关键词相关联的目标文本数据;基于目标文本数据的类型,对目标文本数据进行处理;对处理后的目标文本数据进行分词处理,提取不同时间周期内的目标文本数据中的关键词;基于不同时间周期的时间维度,通过目标事件的关键词对目标事件的发展进行可视化展示。本发明技术方案的目标是实现社交话题的热点事件自动化分析,热点事件发现方法设计自定义阈值的停用词字典,可以灵活的控制过滤粒度,同时采用注意力机制优化的双向lstm分词技术,可以精确地对数据进行切分和识别。本发明技术方案从爬取数据到可视化分析结果的全自动化分析系统,相对比传统的热点事件检测系统,将整个流程全部自动化处理,更加便捷高效,通过交互式页面的操作方式,提高信息获取的效率。
附图说明
43.通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
44.图1为根据本发明优选实施方式的一种基于社交话题的对目标事件进行分析的方法流程图;
45.图2为根据本发明优选实施方式的对目标文本数据进行数据处理的方法流程图;以及
46.图3为根据本发明优选实施方式的一种基于社交话题的对目标事件进行分析的系统结构图。
具体实施方式
47.现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
48.除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
49.图1为根据本发明优选实施方式的一种基于社交话题的对目标事件进行分析的方法流程图。为了对热点事件进行自动分析,本发明实施方式实现了对关键词的精确获取,并且实现了基于时间维度对热点事件的发展进行分析。
50.如图1所示,本发明提供一种基于社交话题的对目标事件进行分析的方法,方法包
括:
51.步骤101:确定社交话题中的目标事件,并提取目标事件的初始关键词;优选地,通过python爬取算法按预定的时间周期识别与初始关键词相关联的目标文本数据,并将目标文本数据存储至数据库中。
52.步骤102:按预定的时间周期识别与初始关键词相关联的目标文本数据;
53.本发明通过将前端页面传入的热点事件关键词,调用python爬取算法,将与该关键词相关的目标文本数据进行识别,并将识别出的目标文本数据存入数据库中。
54.步骤103:基于目标文本数据的类型,对目标文本数据进行处理;对处理后的目标文本数据进行分词处理,提取不同时间周期内的目标文本数据中的关键词;优选地,基于目标文本数据的类型,对目标文本数据进行处理,包括:
55.确定目标文本数据的数据格式;
56.根据每个目标文本数据的数据格式对样本文本进行内容解析,从而获得每个目标文本数据的正文内容。
57.优选地,基于目标文本数据的类型,对目标文本数据进行处理,包括:
58.对目标文本数据的进行清洗,过滤目标文本数据中的无效文本数据。
59.优选地,基于目标文本数据的类型,对目标文本数据进行处理,包括:
60.将目标文本数据的繁体文本数据转换为中文简体文本。
61.优选地,对处理后的目标文本数据进行分词处理,包括:
62.基于注意力机制优化双向lstm分词算法对目标文本数据做分词处理。
63.优选地,提取不同时间周期内的目标文本数据中的关键词,包括:
64.基于自定义阈值的停用词字典提取不同时间周期内的目标文本数据中的关键词。
65.本发明将获取到的社交目标文本数据进行数据清洗,过滤无效文本,或者将繁体文本转化为中文简体文本等。本发明对目标文本数据的格式进行解析,如目标文本数据可以是html、pdf或word格式,通过解析后的目标文本数据获得目标文本数据的正文内容。使用注意力机制优化双向lstm分词算法对文本数据做分词处理,设计自定义阈值的停用词字典筛选关键词,最后将热点话题提取出来。本发明的停用词字典可以自定义阈值,实现了灵活控制过滤粒度。
66.步骤104:基于不同时间周期的时间维度,通过目标事件的关键词对目标事件的发展进行可视化展示。
67.优选地,基于不同时间周期的时间维度,对目标事件的关键词进行可视化展示,其中展示方式包括:饼状图,热力图,柱状图。
68.本发明利用开源框架echarts技术,将提取到的文本数据以饼状图,热力图,柱状图等形式展示,支持鼠标悬浮提示,选中点击进入数据详情展示页面,并以时间的维度展示热点事件从开始到结束的整个变化过程。
69.本发明提供了从数据获取到分析展示的全自动化流程的分析方法,本发明设计了自定义阈值的停用词字典,并使用注意力机制优化双向lstm分词算法,提高分词的精度。
70.本发明所提供的基于社交话题的热点事件自动化分析系统集数据采集、数据存储、数据分析、可视化展示为一体,提供了全自动化流程,解决传统分析方法数据需要单独手动处理的不便。同时为了提高本发明的分词精度,使用注意力机制优化双向lstm分词算
法,提高算法的准确度。
71.图2为根据本发明优选实施方式的对目标文本数据进行数据处理的方法流程图。
72.本发明对获取的目标文本数据进行数据清洗,去除目标文本数据中的无效文本,并对清洗后的目标文本数据进行分词处理。本发明构建停用词字典,并且根据分词精度自定义阈值。分词后的目标文本数据经过停用词字典对停用词进行过滤,从而实现了对热点事件关键词的筛选。本发明构建可视化数据结构,对不同时间维度的热点事件关键词进行展示。
73.图3为根据本发明优选实施方式的一种基于社交话题的对目标事件进行分析的系统结构图。如图3所示,本发明提供一种基于社交话题的对目标事件进行分析的系统,系统包括:
74.初始单元301,用于确定社交话题中的目标事件,并提取目标事件的初始关键词;初始单元301,还用于通过python爬取算法按预定的时间周期识别与初始关键词相关联的目标文本数据,并将目标文本数据存储至数据库中。
75.识别单元302,用于按预定的时间周期识别与初始关键词相关联的目标文本数据;
76.本发明通过将前端页面传入的热点事件关键词,调用python爬取算法,将与该关键词相关的目标文本数据进行识别,并将识别出的目标文本数据存入数据库中。
77.处理单元303,用于基于目标文本数据的类型,对目标文本数据进行处理;对处理后的目标文本数据进行分词处理,提取不同时间周期内的目标文本数据中的关键词;
78.优选地,处理单元303用于基于目标文本数据的类型,对目标文本数据进行处理,还用于:
79.确定目标文本数据的数据格式;
80.根据每个目标文本数据的数据格式对样本文本进行内容解析,从而获得每个目标文本数据的正文内容。
81.优选地,处理单元303用于基于目标文本数据的类型,对目标文本数据进行处理,还用于:
82.对目标文本数据的进行清洗,过滤目标文本数据中的无效文本数据。
83.优选地,处理单元303用于基于目标文本数据的类型,对目标文本数据进行处理,还用于:
84.将目标文本数据的繁体文本数据转换为中文简体文本。
85.优选地,处理单元303用于对处理后的目标文本数据进行分词处理,还用于:
86.基于注意力机制优化双向lstm分词算法对目标文本数据做分词处理。
87.优选地,处理单元303用于提取不同时间周期内的目标文本数据中的关键词,还用于:
88.基于自定义阈值的停用词字典提取不同时间周期内的目标文本数据中的关键词。
89.本发明将获取到的社交目标文本数据进行数据清洗,过滤无效文本,或者将繁体文本转化为中文简体文本等。本发明对目标文本数据的格式进行解析,如目标文本数据可以是html、pdf或word格式,通过解析后的目标文本数据获得目标文本数据的正文内容。使用注意力机制优化双向lstm分词算法对文本数据做分词处理,设计自定义阈值的停用词字典筛选关键词,最后将热点话题提取出来。本发明的停用词字典可以自定义阈值,实现了灵
活控制过滤粒度。
90.结果单元304,用于基于不同时间周期的时间维度,通过目标事件的关键词对目标事件的发展进行可视化展示。
91.优选地,结果单元304用于基于不同时间周期的时间维度,对目标事件的关键词进行可视化展示,其中展示方式包括:饼状图,热力图,柱状图。
92.本发明利用开源框架echarts技术,将提取到的文本数据以饼状图,热力图,柱状图等形式展示,支持鼠标悬浮提示,选中点击进入数据详情展示页面,并以时间的维度展示热点事件从开始到结束的整个变化过程。
93.已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
94.通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个//该[装置、组件等]”都被开放地解释为装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1