基于多维度报警信息文本相似度分析的推荐方法与流程

文档序号:20769218发布日期:2020-05-15 19:26阅读:149来源:国知局
基于多维度报警信息文本相似度分析的推荐方法与流程

本发明属于公安专用场景下的人工智能技术领域,具体涉及一种基于多维度报警信息文本相似度分析的推荐方法。



背景技术:

现阶段我国的报警信息推荐系统分为两种,一种是基于用户的推荐,根据某用户的特性推荐相关信息;另一种是根据文本内容推荐,推荐与文本信息相似的内容,本申请采用的报警信息文本推荐主要是第二种,通常是基于报警信息文本相似度的推荐,文本相似度计算的发展可大体分为三个阶段:从最开始的字面匹配近似,到第二阶段的词汇匹配相似,再到第三阶段的语义相似。

一种常见的处理方式是:首先将文本数字化,并且数字化后还能保持文本的基本信息,即将文本向量化,可以使用文本分词得到的标记向量化,也可以使用tf-idf方法,后者可以保留词在文档中的权重信息,即相当于保留了文本信息,其次,当文本获得向量化表达之后,就可以表述成向量空间的一个点,然后通过计算两个向量之间的相似度,即可表示原来文本之间的相似度。常用的向量相似度计算方法可以使用欧几里得距离、曼哈顿距离、切比雪夫距离、余弦相似度距离和海明距离等。最后,当获得文本之间的相似度之后,就可以根据相似度高低进行排序,推荐前若干个与被推荐文本相似度高的文本。

计算文本相似度的算法也可以大体分为基于词向量、基于具体字符、基于概率统计和基于词嵌入的文本相似度算法,结合上文的几种向量相似度计算方法,其中欧几里得距离、曼哈顿距离和余弦距离适用于词向量,而海明距离适用于基于字符的文本相似度度量方法。



技术实现要素:

针对相关技术中的上述技术问题,本发明提出一种基于多维度报警信息文本相似度分析的推荐方法,能够结合公安领域专业知识和多维度深层次的文本语义,并针对用户特征提供不同粒度级别的报警信息文本推荐。

为实现上述技术目的,本发明的技术方案是这样实现的:一种基于多维度报警信息文本相似度分析的推荐方法,其特征在于,

s1非结构化公安文本是案情中涉及的报警信息文本;

采用nlp技术将非结构化公安文本进行格式预处理,融合多粒度深层次文本语义和公安领域知识的文本嵌入向量后输出给场景相关的深层语义相似度分析网络;

s2结构化公安文本是根据公安文本数据库提取的报警信息;

运用已经构建的统一数据视图的数据库系统,执行相应操作自动提取相对应的数据,融合多粒度深层次文本语义和公安领域知识的文本嵌入向量后输出给场景相关的深层语义相似度分析网络;

s3场景相关的深层语义相似度分析网络获取结构化报警信息文本;

采用bilstm+crf模型转化报警信息文本成准确的公安文本信息,综合理解多粒度文本信息,分析并甄别刑事侦查细分的关注点、语义相似性数据集,输出为不同级别的语义嵌入向量;

s4基于多维度文本语义相似度的文本分析网络获取准确的公安文本和不同级别的语义嵌入向量,融入文本的多重深层语义特征,抽取得到实体链接信息归属和作案手法识别的实体特征;

s5结合用户特征的报警信息文本推荐系统获取公安文本不同级别的语义嵌入向量和被抽取出的多种实体特征,结合多维信息网络合理分配各维度权重的报警信息文本进行相似度分析,生成合理且全面兼顾广度和深度的报警信息文本的相似推荐;

s6相似文本推荐获取公安报警信息文本和用户特征结合公安领域知识,运用海量警报数据库和算法模型自动筛选生成综合的推荐列表,完成智能推送,极大的节省了出警前的甄别时间。

进一步地,s1所述非结构化公安文本是案情中所涉及的报警信息,采用nlp技术对其格式进行预处理,输出为结构化公安文本格式。

进一步地,s3所述场景相关的深层语义相似度分析网络获取自然语言报警信息文本由于格式各异,语义模糊,采用bilstm+crf模型,挖掘深层次语义信息,通过已知的大量公安文本数据库进行预训练,提炼出精确的案件语义信息。

进一步地,s3所述场景相关的深层语义相似度分析网络获取刑事侦查信息甄别关注点与新获知领域知识融合,同时结合上下文语义信息进一步地理解案件的语义信息,通过多层次多粒度对报警文本信息进行数据和数据集的理解,能够全面准确理解文本语义为深入的分析提供参考。

进一步地,s4所述基于多维度文本语义相似度的文本分析网络采用多重的语义嵌入向量进行不同层次不同粒度的文本理解后,将本申请特有的数据集进行解析、纠错、变化及语义表示的文本分析,进行事件数据的抽取、指代消解、时间合并、实体关联、事件相似度及段落级别的文本分析。

进一步地,s5所述结合用户特征的报警信息文本推荐系统通过场景相关的深层语义相似度分析网络融入了公安领域的专业知识,及基于多维度文本语义相似度的文本分析网络融入的多重语义嵌入向量特征的分析结果,结合用户行为特征信息,输出结合用户特征的个性化综合推荐。

本发明的有益效果:本申请通过自主算法模型,能够实现报警信息关键要素的抽取和区分,对于报警信息文本中描述的报警时间、案发时间、报警地点、案发地点、报警人、受害人、嫌疑人、民警、其他人员、作案工具等关键要素进行了准确抽取和区分,抽取即ner(命名实体抽取)的过程,区分是指对于同类实体进行了业务定义,即区分“报警时间”和“案发时间”,区分“报警地点”和“案发地点”,区分“涉案物品”和“作案工具,以及不同身份涉案人员的区分。

实现作案手法的准确识别,基于人员的行为分析准确识别出警报情信息述的核心作案手法,并输出可读、可解释性的结果,为民警进行报警信息甄别以及后续报警信息相似度计算提供支撑。

基于业务定义实现信息权重的合理分配,报警信息基本要素包括:时间、地点、人员、作案工具、作案手法,人员聚合信息包括:体貌特征、身份证号、手机号等,以及报警信息热词(另有专利《基于警情文本的主动发现报警信息热词的方法》中详细描述)等多维信息的权重分配方面,结合多种业务需求与定义,举例说明:号码类信息在业务中被称作硬串联要素,也就是说当两条报警信息的犯罪团伙的手机号码相同时,那么基本就可以确认是同一团伙的串案,所以在多维信息的权重分配方面充分结合了业务场景,得出十分具有业务价值的报警信息相似度。

实现相似报警信息的智能推送,多维度报警信息相似度计算得到报警信息相似度参考值,对于单条报警信息,自动按照相似度参考值在海量报警信息库中筛选相似报警信息并进行智能推送,极大缩短了出警时间,为出警提供数据集参考。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述的基于多维度报警信息文本相似度分析的推荐方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,根据本发明实施例所述的一种基于多维度报警信息文本相似度分析的推荐方法,所述的推荐方法包括以下步骤:

s1非结构化公安文本是案情中涉及的报警信息文本;

采用nlp技术将非结构化公安文本进行格式预处理,融合多粒度深层次文本语义和公安领域知识的文本嵌入向量后输出给场景相关的深层语义相似度分析网络;

s2结构化公安文本是根据公安文本数据库提取的报警信息;

运用已经构建的统一数据视图的数据库系统,执行相应操作自动提取相对应的数据,融合多粒度深层次文本语义和公安领域知识的文本嵌入向量后输出给场景相关的深层语义相似度分析网络;

s3场景相关的深层语义相似度分析网络获取结构化报警信息文本;

采用bilstm+crf模型转化报警信息文本成准确的公安文本信息,综合理解多粒度文本信息,分析并甄别刑事侦查细分的关注点、语义相似性数据集,输出为不同级别的语义嵌入向量;

s4基于多维度文本语义相似度的文本分析网络获取准确的公安文本和不同级别的语义嵌入向量,融入文本的多重深层语义特征,抽取得到实体链接信息归属和作案手法识别的实体特征;

s5结合用户特征的报警信息文本推荐系统获取公安文本不同级别的语义嵌入向量和被抽取出的多种实体特征,结合多维信息网络合理分配各维度权重的报警信息文本进行相似度分析,生成合理且全面兼顾广度和深度的报警信息文本的相似推荐;

s6相似文本推荐获取公安报警信息文本和用户特征结合公安领域知识,运用海量警报数据库和算法模型自动筛选生成综合的推荐列表,完成智能推送,极大的节省了出警前的甄别时间。

在本发明的一个具体实施例中,s1所述非结构化公安文本是案情中所涉及的报警信息,采用nlp技术对其格式进行预处理,输出为结构化公安文本格式。

在本发明的一个具体实施例中,s3所述场景相关的深层语义相似度分析网络获取公安文本,输出为不同级别的语义嵌入向量,如字级别、词级别、短串级别、句内级别、句间级别、段落级别、篇章级别等,利用了bilstm+crf模型,挖掘出深层次语义信息,通过已知的大量公安文本数据库进行预训练,融合公安领域的专业知识,提炼出精确的案件语义信息,如作案类型、作案手法、作案脚本、嫌疑人特征、团伙成员特征等,结合以上信息对文本数据进行深层次的语义理解。

在本发明的一个具体实施例中,s3所述场景相关的深层语义相似度分析网络,结合获取到的刑事侦查信息甄别关注点与新获知领域知识融合,同时结合上下文语义信息,根据现有的专业知识进一步地理解案件的语义信息,同时该网络可通过多层次多粒度角度对报警文本信息进行理解,除了字级别、词级别、篇章级别的语义信息外,该网络还融合了短串级别、句内级别、句间级别和段落级别的不同层次不同粒度的语义信息,能够全面准确理解文本语义为深入的分析提供参考。

在本发明的一个具体实施例中,s4所述基于多维度文本语义相似度的文本分析网络,将获取的公安文本和不同级别的语义嵌入向量,输出为所抽取出的多种实体特征,如作案类型、作案手法、作案脚本、嫌疑人特征、团伙成员特征、案件级别特征等,采用多重的语义嵌入向量进行不同层次粒度文本理解后,该网络不仅利用了字级别、词级别和篇章级别的语义信息,还融合了短串级别、句内级别、句间级别和段落级别的语义信息,获得一个对文本信息的理解,在此基础上,该网络可以进行不同层级的文本分析;以特有的短串进行短串解析、短串纠错、短串变换、短串语义表示等短串级别的文本分析,也可以进行事件数据的抽取、指代消解、时间合并、实体关联、事件相似度及段落级别的文本分析,这些不同层级的文本分析是在理解了文本的多粒度语义信息的基础上,又结合了实体抽取、关系抽取和事件抽取的技术而进行的,这使得该网络可以从文本语义信息中提取作案类型、作案手法、作案脚本、嫌疑人特征、团伙成员特征、案件级别特征等报警信息关键要素,并度量它们之间的多层次语义相似度,从而识别出作案类型相似、作案手法相似、作案脚本相似、嫌疑人特征相似、团伙特征相似、或案件级别如案情等相似的案件。

在本发明的一个具体实施例中,s5所述结合用户特征的报警信息文本推荐系统,将获取的公安文本不同级别的语义嵌入向量和被抽取出的多种实体特征,输出为不同报警信息文本之间的相似度及相似报警信息推荐,通过第一模块融入了公安领域的专业知识和第二模块融入的多重语义嵌入向量特征的分析结果,结合用户行为特征信息,输出结合用户特征的个性化综合推荐,本申请的算法模型可以结合用户当前所关注的报警信息文本,分析出该案件相关的关键特征,从而可以向用户推送一些相似作案类型、相似作案手法、相似作案脚本、相似嫌疑人特征、相似团伙特征、相似案情、或若干个要素结合的相似报警信息,实现合理且全面兼顾广度和深度的报警信息文本推荐。

为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。

在具体使用时,根据所述一种基于多维度报警信息文本相似度分析的推荐方法,案例一,实际应用场景举例(虚拟数据):“2018年5月1日14时30分许,13200001111报警,报警人叫王小明,在临江省湖港市白塔区宜家社区家中,称14时左右有个自称是天华燃气公司的工作人员上门,应社区物业要求上门定期检查住户的燃气设备,并称报警人家中的燃气软管出现质量问题需要更换,报警人支付了170元,对方微信wxid123456(拂晓),并留下了收据和联系方式:刘超18043210000,该工作人员走后报警人觉得不对劲打电话过去发现是空号,这才发觉被骗。”

针对上述报警信息文本,经过算法模型分词运算、实体抽取、实体链接、人员身份确认、作案手法识别、报警信息热词识别等运算解析,输出以下结果:

“时间”:{2018年5月1日14时30分,14时左右}

“地点”:{临江省湖港市白塔区宜家社区}

“报警人”:{姓名:王小明;手机号:13200001111;}

“受害人”:{姓名:王小明;手机号:13200001111;}

“嫌疑人”:{姓名:刘超;别称:天华燃气公司的工作人员;手机号:18043210000;微信号:wxid123456;昵称:拂晓}

“作案工具”:{燃气设备,燃气软管}

“损失情况”:170元

“报警信息热词”:{天华燃气公司,物业,燃气设备,燃气软管,质量问题,收据}

“作案手法”:{自称是天华燃气公司的工作人员上门,定期检查住户的燃气设备,燃气软管出现质量问题};

案例二,基于以上文本要素分析结果以及团伙特征等信息,从海量报警信息数据中推送以下相似报警信息(举例):

“临江省湖港市白塔区宜家社区,刘大明报警称4月27日15时许天华燃气维修人员上门给家里安装燃气设备,交了150元现金,并留下了收据和手机号18043210000,手机号是空号,怀疑被骗了,需要民警联系。”(相似度=0.93)

“白塔区欣欣社区,5月2日15时许有群众反映,小区里有个维修人员专门上门检查煤气,用劣质燃气设备骗钱的,留下的号码是空号18043210000,已经有多人受骗,需要民警到现场处理。”(相似度=0.87)

基于时间规律、空间位置等基本要素,结合犯罪分子较为固定的手法、话术以及所用工具,再结合手机号等不同要素信息的权重占比,综合评定得出“报警信息文本相似度”,并据此进行定向推送。

以上所述仅为本发明的较佳实施例而已,并不用以限制发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1