案件笔录的处理方法、装置、设备及介质与流程

文档序号:17763030发布日期:2019-05-24 21:52阅读:262来源:国知局
案件笔录的处理方法、装置、设备及介质与流程

本发明应用于案件侦查领域,尤其涉及一种案件笔录的处理方法、装置、设备及介质。



背景技术:

当前公安行业情报部门无自动提取案件笔录和串并的方法,而是通过手动处理。如果人工阅读笔录,手动提取其中的要素信息,并识别分类及录入,然后根据提取的信息进行案件的分析及侦破,在当前警力情况下,当面临大量案件时,很难及时的完成每个案件的信息提取,破案效率低,更会导致案件的无法侦破。因此,设计一种高效的案件笔录处理方法来非常有必要。



技术实现要素:

(一)要解决的技术问题

针对目前存在的技术问题,本发明提出一种案件笔录的处理方法,通过自动提取对案件笔录内容的关键信息,根据这些关键信息对笔录内容进行分类,根据分类的笔录数据对案件进行串并,得到串并结果。

(二)技术方案

本发明提供一种案件笔录的处理方法,包括:提取案件笔录中的内容,将其转化为纯文本数据;使用语义规则及分词模型对纯文本数据进行分词提取,得到所需关键词;对关键词进行依存句法分析和指代消解,得到分类的笔录数据;根据分类的笔录数据,对相同类型笔录数据对应的案件进行关联计算,得到同类案件串并结果。

可选地,提取所述案件笔录中的内容,将其转化为纯文本数据,包括:对案件笔录的扫描件进行图像预处理;对预处理后的扫描件进行版面分析和识别,得到纯文本数据。

可选地,使用语义规则及分词模型对纯文本数据进行分词提取包括:首先使用语义规则对纯文本数据进行分词提取;然后使用分词模型对纯文本数据进行分词提取。

可选地,图像预处理包括倾斜矫正、增加对比度和亮度、去除水印以及去干扰线中的至少一种。

可选地,根据分类的笔录数据,对相同类型笔录数据对应的案件进行关联计算,包括:以受害人和嫌疑人分类,分别对笔录数据对应的案件进行关联计算。

可选地,采用光学字符识别技术对案件笔录的扫描件进行图像预处理、版面分析及识别。

可选地,基于连接文本神经网络和卷积循环神经网络对预处理后的扫描件进行版面分析和识别。

本发明另一方面还提供一种案件笔录的处理装置,该装置包括:数据转化模块,用于提取案件笔录中的内容,将其转化为纯文本数据;分词模块,用于使用语义规则及分词模型对纯文本数据进行分词提取,得到所需关键词;分类模块,用于对关键词进行依存句法分析和指代消解,得到分类的笔录数据;串并模块,用于根据分类的笔录数据,对相同类型笔录数据对应的案件进行关联计算,得到同类案件串并结果。

本发明另一方面还提供一种电子设备,包括:处理器;存储器,其存储有计算机可执行程序,该程序在被所述处理器执行时,使得所述处理器执行本发明中的网站可用性监测方法。

本发明另一方面还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现本发明中的网站可用性监测方法。

(三)有益效果

本发明提供的一种案件笔录的处理方法,通过自动提取案件笔录中的要素并进行受害人和嫌疑人的分类并进行案件串并,以串并的结果来侦查案件,极大地提高了侦查效率。

附图说明

为了更完整地理解本发明及其优势,现在将参考结合附图的以下描述,其中:

图1示意性示出了根据本发明实施例的案件笔录的处理方法的原理图。

图2示意性示出了根据本发明实施例的案件笔录的处理方法流程图

图3示意性示出了根据本发明实施例的案件笔录的处理装置的框图。

图4示意性示出了根据本发明实施例的电子设备的框图。

具体实施方式

以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。

本发明实施例提出一种案件笔录的处理方法。其基本原理如图1所示,通过对案件笔录数据进行规则匹配,若匹配成功则根据规则对关键词进行提取,若匹配失败则根据分词模型提取关键词,对提取的词采用依存句法和指代消解求解,得到分类的笔录数据,根据分类的笔录数据,以嫌疑人信息和受害人信息分类,对相同类型笔录数据对应的案件进行关联计算,得到同类案件串并结果,该串并结果用于民警进行分析和侦查,以提高案件侦破的效率。下面对该方法作详细介绍。

图2示意性示出了根据本发明实施例的案件笔录处理方法的流程图。

如图2所示,该方法包括:

s1,提取案件笔录中的内容,将其转化为纯文本数据。

一般情况下,案件的笔录数据都是通过扫描件(图像)的形式保存,如若以文本的形式保存,很容易造成笔录数据被随意篡改,扫描件的保存很好地杜绝了该问题。但是当需要采用计算机语言自动提取笔录数据时,图像数据就存在很多问题,因此,需要将图像数据转化为纯文本数据以便进行后续的操作。在本发明实施例中,使用光学字符识别技术(opticalcharacterrecognition,ocr)提取笔录数据扫描件中的数据内容,将其转化为纯文本数据。具体如下:

首先,对笔录数据扫描件进行图像预处理,包括对笔录数据扫描件进行进行倾斜矫正,去除水印,增加对比度和高亮,去干扰线等。图像预处理采用的是开源计算机视觉库(opensourcecomputervisionlibrary,opencv),该计算机视觉库可以运行在linux、windows、android和macos操作系统上。它轻量级而且高效——由一系列c函数和少量c++类构成,同时提供了python、ruby、matlab等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。其中,图像度预处理并不仅限于开源计算机视觉库,可以使其他具有相同功能的视觉库,具体本发明不加以限制。

然后,对图像预处理后笔录数据扫描件进行版面的分析和识别,将具体的笔录数据转化为纯文本数据。版面的分析和识别是基于连接文本提议神经网络(connectionisttextproposalnetwork,cptn)和卷积循环神经网络(convolutionrecurrentneuralnetworks,crnn)实现的。

s2,使用语义规则及分词模型对纯文本数据进行分词提取,得到所需关键词。

在刑侦过程中,需要获取笔录数据中的关键词,比如:撬门、电诈、网诈、偷盗、失踪、具体的电话号码、名字等等,这些都需要从文本数据中提取出来。因此,本实施例采用规则提取和分词模型提取相结合的方式提取所需的关键词,保证内容的全面性。具体地,首先根据关键词的属性特点制定语义规则,本发明实施例采用的是正则规则对关键词进行规则匹配,对于匹配成功的关键词采用规则提取的方式提取出来。然后,对于匹配失败的关键词,采用分词模型继续进行提取,本实施例采用的是汉语言处理包(hanlanguageprocessing,hanlp)中的分词模型对未提取的文本进行提取剩余的关键词,并带有索引和标签。

s3,对关键词进行依存句法分析和指代消解,得到分类的笔录数据。

依存句法是描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,指代消解是确定代词指向哪个名词短语的问题。因此采用此种方法可以快速的得到所需关键词的主谓语。本实施例采用的是汉语言处理包中的句法分析,通过句法分析和指代消解,得到关键词的前后主语,谓语,例如:“我给张三打了三次电话,用的电话号码是’13121212112’,那么这里面用句法分析中会有两个代词“我”、“张三”,判定这个号码归属于谁的具体步骤:第一步,先判断上文中是否明确了这个号码的所属,如果确认,直接判定,第二步,如果不确定,再根据语义规则,一个代词+“的、用、拿...”+属性,得出这个关键词是属于这个代词的。第三步,如果以上规则都不满足,就使用a+“拨打了”+“电话”,a+“转给了”等一些特殊的事件规则来判定,第四步,如果句子出现了两个代词并且,上述都不确定,再依据关键词的前代词的距离(索引距离)+(关键词前的词性)+后代词的距离,进行临近主语加权求和,得出一个数值,进行判断,从而进行关键词的所属判别。根据最终的判断结果,对笔录数据进行分类,得到分类的笔录数据。

s4,根据分类的笔录数据,对相同类型笔录数据对应的案件进行关联计算,得到同类案件串并结果。

案件的串并是通过对作案手段、痕迹、物证等分析,得到案件的内在联系,将多个案件串并在一起进行审查,这样能极大地的提高案件的侦破效率。分类的笔录数据是进行案件串并的强有力基础,根据分类的笔录数据,可以很容易的就得到相同类型、相同要素的案件数据内在联系,对这些相同类型、相同要素的案件数据以受害人和嫌疑人分类,进行关联计算,得到案件的串并结果。该串并结果被用于民警进行分析和侦查,侦破案件。例如,针对于电信诈骗的案件,一个电信诈骗的团伙可能在多地作案,这些案件表面看起来没什么联系,但是通过对案件笔录进行详细的分析,可能分析出做这些电信诈骗的电话号码有一些是一样的,通过这些电话号码,就可以将这些电信诈骗案件做关联计算,将所有案件串并起来,以串并的结果对这些诈骗案件一起侦查,当破获其中一起诈骗案件,可能就使得所有诈骗案件得以侦破,极大地提高的侦查效率。但这些串并都需要建在前述所提及的从海量的笔录数据中,找出这些案件的关联关系,人为去筛选笔录数据是很难实现的。

综上所述,本发明提出一种笔录数据的处理方法,通过从大量的笔录数据中提取出关键词,根据这些关键词将相同的类型的案件串并起来一起侦破,大大提高刑侦效率。

图3示意性示出了根据本发明实施例的笔录数据的处理装置300的框图。

如图3所示,该笔录数据的处理装置300包括数据转化模块310、分词模块320、分类模块330及串并模块340。

数据转化模块310,用于提取案件笔录中的内容,将其转化为纯文本数据。具体地,首先,对笔录数据扫描件进行图像预处理,包括对笔录数据扫描件进行进行倾斜矫正,去除水印,增加对比度和高亮,去干扰线等,然后,对图像预处理后笔录数据扫描件进行版面的分析和识别,将具体的笔录数据转化为纯文本数据。

分词模块320,用于使用语义规则及分词模型对纯文本数据进行分词提取,得到所需关键词。具体地,采用正则规则对关键词进行规则匹配,对于匹配成功的关键词采用规则提取的方式提取出来,对于匹配失败的关键词,采用分词模型继续进行提取。

分类模块330,用于对关键词进行依存句法分析和指代消解,得到分类的笔录数据。

串并模块340,用于根据分类的笔录数据,对相同类型笔录数据对应的案件进行关联计算,得到同类案件串并结果。

应当理解,数据转化模块310、分词模块320、分类模块330及串并模块340可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,数据转化模块310、分词模块320、分类模块330及串并模块340中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,数据转化模块310、分词模块320、分类模块330及串并模块340中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。

本发明提供一种电子设备,如图4所示,该电子设备400包括处理器410和存储器420。该电子设备400可以执行根据图1所示的本发明实施例的方法。

具体地,处理器410例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器410还可以包括用于缓存用途的板载存储器。处理器410可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

存储器420,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(hdd);光存储装置,如光盘(cd-rom);存储器,如随机存取存储器(ram)或闪存;和/或有线/无线通信链路。

存储器420可以包括计算机程序421,该计算机程序421可以包括代码/计算机可执行指令,其在由处理器410执行时使得处理器410执行根据本公开实施例的方法或其任何变形。

计算机程序421可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序421中的代码可以包括至少一个程序模块,例如包括模块421a、模块421b、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器410执行时,使得处理器410可以执行根据本公开实施例的方法或其任何变形。

本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。

根据本公开的实施例,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1