一种基于时空多维度的热词计算方法及系统与流程

文档序号:23727834发布日期:2021-01-26 17:52阅读:93来源:国知局

[0001]
本发明涉及热词计算的技术领域,具体来说,涉及一种基于时空多维度的热词计算方法及系统。


背景技术:

[0002]
现如今,可存储介质技术的发展和数据处理能力的提升促使了大数据的迸发。相对应地,公安警务工作中产生的信息数据除传统数据库中结构化信息外,新增包括图像、视频、文本等各类非结构化数据。其中,文本数据就贯穿了公安各类业务工作,包括110报警简要案情、笔录等案件叙述性文本描述,尤其某些涉密信息只能通过文本传递,时代的进步要求公安工作在某些方面必须做出改变。在海量数据面前,传统的信息检索技术早已不尽如人意,文本挖掘的作用便日益凸显,利用文本挖掘方法对案事件文本进行分析,可以在一定程度上为公安侦查工作提供案件侦破突破口。
[0003]
对于现有的热词计算方法对诸如结构化数据中的关键词抽取效果较好,而对于非结构化数据进行关键词抽取的效果较差,由此导致大部分非结构化数据中的关键词不能很好地被抽取。
[0004]
针对相关技术中的问题,目前尚未提出有效的解决方案。


技术实现要素:

[0005]
针对相关技术中的上述技术问题,本发明提出一种基于时空多维度的热词计算方法,可将非结构化数据中的关键词抽取出来并根据其热度进行展示。
[0006]
为实现上述技术目的,本发明的技术方案是这样实现的:一种基于时空多维度的热词计算方法,包括以下步骤:s1将非结构化数据按照标准文档定义进行清洗转换后得到标准文档;s2对所述标准文档进行预处理并抽取出相应的关键词;s3将业务表与所述关键词进行关联并同步到相应的业务库;s4对所述业务表中的时间进行标准化处理得到时间维度;s5将所述业务表、所述关键词和所述时间维度进行关联扩充,得到所述业务表、所述关键词和所述时间维度的关联扩展信息,并通过所述关键词和所述时间维度的关联扩展信息得到历史关键词统计信息;s5将所述业务表和所述关键词的关联扩展信息以及所述历史关键词统计信息输入至热词热度分析预测模型中计算得到热词热度信息;s6将所述热词热度信息以时间维度和空间维度进行统计后展示出来。
[0007]
进一步地,在s1中,所述非结构化数据为非结构化警情文本。
[0008]
进一步地,s2具体包括:利用nlp技术对所述标准文档进行预处理,并通过无监督关键词提取网络模型抽取出相应的所述关键词。
[0009]
进一步地,在s3中,所述业务表为警情宽表。
[0010]
进一步地,在s4中,所述标准化处理包括将所述时间按照日、周、月、季度的标准时间格式进行处理。
[0011]
进一步地,在s5中,所述热词热度信息包括热词信息、热词周期信息、热词索引信息、热词分组信息。
[0012]
进一步地,在s6中,展示方式包括热词榜或新词榜,所述热词榜为某一时间范围内和相关空间范围内按照热度排名的热词列表,所述新词榜为某一时间范围内和相关空间范围内新出现的热词排名列表。
[0013]
本发明还提供了一种基于时空多维度的热词计算系统,包括:标准文档转换模块,用于将非结构化数据按照标准文档定义进行清洗转换后得到标准文档;关键词提取模块,用于对所述标准文档进行预处理并抽取出相应的关键词;标准同步模块,用于将业务表与所述关键词进行关联并同步到相应的业务库;索引计算模块,用于对所述业务表中的时间进行标准化处理得到时间维度;关键词计算模块,用于将所述业务表、所述关键词和所述时间维度进行关联扩充,得到所述业务表、所述关键词和所述时间维度的关联扩展信息,并通过所述关键词和所述时间维度的关联扩展信息得到历史关键词统计信息;热词计算模块,用于将所述业务表和所述关键词的关联扩展信息以及所述历史关键词统计信息输入至热词热度分析预测模型中计算得到热词热度信息;界面展示模块,用于将所述热词热度信息以时间维度和空间维度进行统计后展示出来。
[0014]
进一步地,所述关键词提取模块利用nlp技术对所述标准文档进行预处理,并通过无监督关键词提取网络模型抽取出相应的所述关键词。
[0015]
进一步地,所述界面展示模块通过热词榜或新词榜进行展示,所述热词榜为某一时间范围内和相关空间范围内按照热度排名的热词列表,所述新词榜为某一时间范围内和相关空间范围内新出现的热词排名列表。
[0016]
本发明的有益效果:可将非结构化数据中的关键词抽取出来并根据其热度以时间维度和空间维度进行统计后展示出来,从而便于公安人员对非结构化警情文本进行分析,以找到案件的侦破突破口。
具体实施方式
[0017]
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
[0018]
根据本发明实施例所述的一种基于时空多维度的热词计算方法,包括以下步骤:s1将非结构化数据按照标准文档定义进行清洗转换后得到标准文档;s2对所述标准文档进行预处理并抽取出相应的关键词;s3将业务表与所述关键词进行关联并同步到相应的业务库;s4对所述业务表中的时间进行标准化处理得到时间维度;
s5将所述业务表、所述关键词和所述时间维度进行关联扩充,得到所述业务表、所述关键词和所述时间维度的关联扩展信息,并通过所述关键词和所述时间维度的关联扩展信息得到历史关键词统计信息;s5将所述业务表和所述关键词的关联扩展信息以及所述历史关键词统计信息输入至热词热度分析预测模型中计算得到热词热度信息;s6将所述热词热度信息以时间维度和空间维度进行统计后展示出来。
[0019]
在本发明的一个具体实施例中,在s1中,所述非结构化数据为非结构化警情文本。
[0020]
在本发明的一个具体实施例中,s2具体包括:利用nlp技术对所述标准文档进行预处理,并通过无监督关键词提取网络模型抽取出相应的所述关键词。
[0021]
在本发明的一个具体实施例中,在s3中,所述业务表为警情宽表。
[0022]
在本发明的一个具体实施例中,在s4中,所述标准化处理包括将所述时间按照日、周、月、季度的标准时间格式进行处理。
[0023]
在本发明的一个具体实施例中,在s5中,所述热词热度信息包括热词信息、热词周期信息、热词索引信息、热词分组信息。
[0024]
在本发明的一个具体实施例中,在s6中,展示方式包括热词榜或新词榜,所述热词榜为某一时间范围内和相关空间范围内按照热度排名的热词列表,所述新词榜为某一时间范围内和相关空间范围内新出现的热词排名列表。
[0025]
本发明还提供了一种基于时空多维度的热词计算系统,包括:标准文档转换模块,用于将非结构化数据按照标准文档定义进行清洗转换后得到标准文档;关键词提取模块,用于对所述标准文档进行预处理并抽取出相应的关键词;标准同步模块,用于将业务表与所述关键词进行关联并同步到相应的业务库;索引计算模块,用于对所述业务表中的时间进行标准化处理得到时间维度;关键词计算模块,用于将所述业务表、所述关键词和所述时间维度进行关联扩充,得到所述业务表、所述关键词和所述时间维度的关联扩展信息,并通过所述关键词和所述时间维度的关联扩展信息得到历史关键词统计信息;热词计算模块,用于将所述业务表和所述关键词的关联扩展信息以及所述历史关键词统计信息输入至热词热度分析预测模型中计算得到热词热度信息;界面展示模块,用于将所述热词热度信息以时间维度和空间维度进行统计后展示出来。
[0026]
在本发明的一个具体实施例中,所述关键词提取模块利用nlp技术对所述标准文档进行预处理,并通过无监督关键词提取网络模型抽取出相应的所述关键词。
[0027]
在本发明的一个具体实施例中,所述界面展示模块通过热词榜或新词榜进行展示,所述热词榜为某一时间范围内和相关空间范围内按照热度排名的热词列表,所述新词榜为某一时间范围内和相关空间范围内新出现的热词排名列表。
[0028]
为了方便理解本发明的上述技术方案,以下通过具体使用方式对本发明的上述技术方案进行详细说明。
[0029]
本发明实施例所述的基于时空多维度的热词计算方法具体包括以下几个步骤:
1)标准文档转换,外部数据格式多种多样,包括非结构化数据和结构化数据,非结构化数据主要为具体案情中需要处理的非结构化警情文本,对于这类非结构化数据,按照标准文档定义,对外部数据进行清洗、转换,得到标准文档,标准文档的格式包括文档id、文档内容、创建时间和相关属性。
[0030]
2)关键词提取,利用nlp技术(如分词、实体抽取、时间抽取等)对标准文档进行预处理,通过无监督关键词提取网络模型抽取出相应的关键词。无监督关键词提取网络模型首先使用已知的大量公安文本数据进行预训练,用以帮助后续更好更准确地抽取出主题相关的关键词,同时所抽取出的关键词也能够融合与上下文相关的语义信息。
[0031]
3)标准同步,把业务表(以警情宽表为例)和关键词关联并同步到相应的业务库,保留业务表和关键词的关系。
[0032]
4)索引计算,对警情宽表中的时间按照日、周、月、季度的标准时间格式进行处理进行标准化处理,得到时间维度。
[0033]
5)关键词enrich计算,把业务表、关键词和时间维度进行关联扩充,得到业务表、关键词和时间维度的关联扩展信息,并通过关键词和时间维度的关联扩展信息得到历史关键词统计信息。
[0034]
6)热词计算,将业务表(以警情为例)和关键词的关联扩展信息以及历史关键词统计信息输入至热词热度分析预测模型中,基于热词热度分析预测模型计算得到警情热词信息、热词周期信息、热词和业务关系信息、热词索引信息、热词分组信息,并根据上述信息进一步得到热词在相应周期内热度信息即热词热度信息。
[0035]
热词热度分析预测模型:融合了基于在公安行业刑侦研判过程中积累的技战法抽象出的多种模型因子,如历史趋势因子描述的是与该关键词相关的事件过往发生的情况;事件驱动因子描述的是与该关键词描述的事件发展内部规律;季节趋势因子描述的是与该关键词相关的时间周期性规律;波动率因子描述的是与该关键词相关的历史趋势和季节趋势的变化幅度大小的波动情况;影响衰减因子是对与该关键词相关的呈剧烈变化的历史趋势、事件发展趋势和季节趋势进行平滑、同时可以综合过往所有信息而非仅仅综合上一次事件或上一时段的信息。在融合了这些因子后,该模型能够进一步突出与当前事件或当前季节相关性更紧密的关键热词,随后对这些关键热词分析其历史趋势和季节趋势,并结合当前事件与当前季节,可以进一步获取该热词的当前实时热度并预测其后续热度发展趋势。
[0036]
7)界面展示,基于热词热度信息,以时间维度、空间(行政区划)维度进行统计,按照热度打分排名,展示相应的热词榜或者新词榜,热词榜即这段时间范围、相关空间范围内按照热度排名的热词列表;新词榜即这段时间范围、相关空间范围内新出现的热词排名列表。
[0037]
综上所述,借助于本发明的上述技术方案,可将非结构化数据中的关键词抽取出来并根据其热度以时间维度和空间维度进行统计后展示出来,从而便于公安人员对非结构化警情文本进行分析,以找到案件的侦破突破口。
[0038]
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1