一种文档分析的方法及装置与流程

文档序号:20918378发布日期:2020-05-29 13:49阅读:137来源:国知局
一种文档分析的方法及装置与流程

本发明涉及数据处理技术领域,具体而言,涉及一种文档分析的方法及装置。



背景技术:

随着人类社会进入大数据时代,如何快捷有效地获取数据信息,已成为当前各业界迫切需要解决的问题。尤其对于金融行业、司法部门、公安机关等具有海量信息的行业领域来说,在通过查询关键词,从存储的文档库中,锁定包含该关键词的文档后,如何快速从锁定的文档中了解其核心内容,从而确定该文档是否是自己所需的文档,是一个迫切需要解决的问题。

目前的方法,在锁定文档后,需要查询者通过浏览锁定文档的方式,自行提炼整理锁定文档中的核心内容,确定该文档是否是所需的文档,使得文档分析效率较低。



技术实现要素:

有鉴于此,本发明的目的在于提供文档分析的方法及装置,以提升文档的分析效率。

第一方面,本发明实施例提供了一种文档分析的方法,所述方法包括:

确定待分析文档所属的业务类型,依据所述待分析文档所属的业务类型映射的实体类型集合,提取所述待分析文档中包含的实体;

依据实体在所述待分析文档中出现的位置以及实体与实体之间的句法结构,获取实体与实体之间的关系;

以实体为节点,实体之间的关系为边,构建知识图谱以及所述知识图谱与所述待分析文档的映射关系;

存储所述待分析文档、所述知识图谱与所述映射关系。

结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述确定待分析文档所属的业务类型,包括:

获取上传所述待分析文档的用户的标签,依据所述用户的标签匹配预设的业务类型库,获取所述待分析文档所属的业务类型;或,

提取所述待分析文档中的关键词,分别与预设的业务类型库中的每一业务类型包含的业务关键词进行匹配,依据匹配结果确定所述待分析文档所属的业务类型。

结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述提取所述待分析文档中包含的实体,包括:

针对所述实体类型集合中的每一实体类型,从所述待分析文档中,提取与所述实体类型相匹配的实体。

结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述从所述待分析文档中,提取与所述实体类型相匹配的实体,包括:

获取待分析文档中的文本信息,对所述文本信息进行分词;

基于分词结果,选取与所述实体类型相匹配的词或词组,得到所述待分析文档中包含的实体。

结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述依据实体在所述待分析文档中出现的位置以及实体与实体之间的句法结构,获取实体与实体之间的关系,包括:

获取提取出的所述实体在所述待分析文档中分别出现的位置;

基于获取的位置,计算两实体之间的一个或多个距离;

若两实体之间的距离小于预设的距离阈值,依据小于预设的距离阈值内的该两实体之间的文本信息对应的句法结构,获取该两实体之间的关系。

结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述依据小于预设的距离阈值内的该两实体之间的文本信息对应的句法结构,获取该两实体之间的关系,包括:

依据标点对所述两实体之间的文本信息进行拆分,得到一个或多个拆分句;

针对每一拆分句,依据以谓语为核心的句法结构,对该拆分句进行依存句法分析,得到该拆分句中所述两实体之间的关系;

合并各拆分句中所述两实体之间的关系,得到所述两实体之间的关系。

结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述方法还包括:

接收文档查询请求,依据所述文档查询请求中包含的查询关键词,获取查询文档;

依据所述映射关系,获取所述查询文档映射的知识图谱;

展示所述查询文档以及获取的知识图谱。

第二方面,本发明实施例还提供了一种文档分析的装置,所述装置包括:

实体提取模块,用于确定待分析文档所属的业务类型,依据所述待分析文档所属的业务类型映射的实体类型集合,提取所述待分析文档中包含的实体;

实体关系提取模块,用于依据实体在所述待分析文档中出现的位置以及实体与实体之间的句法结构,获取实体与实体之间的关系;

知识图谱构建模块,用于以实体为节点,实体之间的关系为边,构建知识图谱以及所述知识图谱与所述待分析文档的映射关系;

信息存储模块,用于存储所述待分析文档、所述知识图谱与所述映射关系。

第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文档分析的方法的步骤。

第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述文档分析的方法的步骤。

本发明实施例提供的存储文档的方法及装置,通过确定待分析文档所属的业务类型,依据所述待分析文档所属的业务类型映射的实体类型集合,提取所述待分析文档中包含的实体,依据实体在所述待分析文档中出现的位置以及实体与实体之间的句法结构,获取实体与实体之间的关系,以实体为节点,实体之间的关系为边,构建知识图谱以及所述知识图谱与所述待分析文档的映射关系,存储所述待分析文档、所述知识图谱与所述映射关系。这样,后续在查询锁定文档后,通过映射关系,将该文档映射的知识图谱进行展示,从而使得查询者通过浏览该文档映射的知识图谱,能够快速确定该文档是否是所需的文档,并依据所述知识图谱对照分析锁定文档,有效提升了文档分析的效率。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的文档分析的方法流程示意图;

图2示出了本发明实施例所提供的提取所述待分析文档中包含的实体的方法流程示意图;

图3示出了本发明实施例所提供的文档分析的装置结构示意图;

图4为本申请实施例提供的一种计算机设备400的结构示意图。

元件符号说明:301-实体提取模块;302-实体关系提取模块;303-知识图谱构建模块;304-信息存储模块;400-计算机设备;401-存储器;402-处理器。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

考虑到公安、司法部门在处理案件卷宗时,由于案件卷宗所包含的文本信息具有保密性及其信息特有的繁琐性,使得公安、司法部门在进行案件卷宗的文档分析时,很难快速提取案件关键信息和理清案件线索。基于此,本申请实施例提供了一种文档分析的方法及装置,下面通过实施例进行描述。

为便于对本实施例进行理解,首先对本申请实施例所公开的一种文档分析的方法进行详细介绍。

实施例一

图1示出了本发明实施例所提供的存储文档的方法流程示意图,该方法包括步骤s101-s104;具体的:

s101,确定待分析文档所属的业务类型,依据所述待分析文档所属的业务类型映射的实体类型集合,提取所述待分析文档中包含的实体。

本申请实施例中,业务类型可以为司法卷宗、金融交易等,在预设由业务类型组成的业务类型库时,每种业务类型都对应的预设一个包含业务关键词的实体类型集合。

本申请实施例中,作为一可选实施例,可以通过获取上传所述待分析文档的用户的标签,依据所述用户的标签匹配预设的业务类型库,获取所述待分析文档所属的业务类型。

示例性的说明,例如,获取到上传所述待分析文档的用户的标签为司法机构,依据所述用户的标签匹配预设的业务类型库中各业务类型映射的实体类型集合,获取匹配度最高的业务类型为待分析文档所属的业务类型,例如,若匹配度最高的业务类型为司法卷宗,则该待分析文档所属的业务类型为司法卷宗。

本申请实施例中,作为另一可选实施例,还可以通过提取所述待分析文档中的关键词,分别与预设的业务类型库中的每一业务类型包含的业务关键词进行匹配,依据匹配结果确定所述待分析文档所属的业务类型。

示例性的说明,例如,根据提取到的所述待分析文档中的关键词“嫌疑人”,将该关键词分别与预设的业务类型库中的每一业务类型包含的业务关键词进行匹配,得到该关键词与各业务类型的匹配度,若该关键词与司法卷宗的匹配度最高,则确定所述待分析文档所属的业务类型为司法卷宗。

这样,作为一可选实施例,确定待分析文档所属的业务类型包括:

获取上传所述待分析文档的用户的标签,依据所述用户的标签匹配预设的业务类型库,获取所述待分析文档所属的业务类型;或,

提取所述待分析文档中的关键词,分别与预设的业务类型库中的每一业务类型包含的业务关键词进行匹配,依据匹配结果确定所述待分析文档所属的业务类型。

本申请实施例中,作为一可选实施例,提取所述待分析文档中包含的实体包括:

针对所述实体类型集合中的每一实体类型,从所述待分析文档中,提取与所述实体类型相匹配的实体。

示例性的说明,例如,在确定所述待分析文档所属的业务类型为司法卷宗之后,依据司法卷宗映射的实体类型集合包括的:司法机构、嫌疑人、姓名、日期、地点、身份证号码、车牌号码等实体类型,针对所述实体类型集合中的每一实体类型,从所述待分析文档中,提取与所述实体类型相匹配的实体。

本申请实施例中,作为一可选实施例,所述从所述待分析文档中,提取与所述实体类型相匹配的实体,包括:

获取待分析文档中的文本信息,对所述文本信息进行分词;

基于分词结果,选取与所述实体类型相匹配的词或词组,得到所述待分析文档中包含的实体。

s102,依据实体在所述待分析文档中出现的位置以及实体与实体之间的句法结构,获取实体与实体之间的关系。

本申请实施例中,作为一可选实施例,实体在所述待分析文档中出现的位置可通过相对文档起点的距离特征值来表征,例如,可以将提取出的所述实体在所述待分析文档中出现的位置与文档起点之间所包含的字符的个数作为所述实体在所述待分析文档中出现位置的距离特征值。

示例性的说明,例如,实体a在所述待分析文档中出现的位置与文档起点之间所包含的字符的个数为20个字符,则实体a在所述待分析文档中出现位置的距离特征值为20。

本申请实施例中,作为一可选实施例,依据实体在所述待分析文档中出现的位置以及实体与实体之间的句法结构,获取实体与实体之间的关系,包括:

获取提取出的所述实体在所述待分析文档中分别出现的位置;

基于获取的位置,计算两实体之间的一个或多个距离;

若两实体之间的距离小于预设的距离阈值,依据小于预设的距离阈值内的该两实体之间的文本信息对应的句法结构,获取该两实体之间的关系。

本申请实施例中,作为一可选实施例,可以基于所述实体在所述待分析文档中出现位置的距离特征值,规定两实体之间的距离为两个实体在所述待分析文档中出现位置的距离特征值之差的绝对值,计算两实体之间的一个或多个距离,若两实体之间的距离小于预设的距离阈值,则依据小于预设的距离阈值内的该两实体之间的文本信息对应的句法结构,获取该两实体之间的关系。

示例性的说明,例如,实体a在所述待分析文档中出现位置的距离特征值为20,实体b在所述待分析文档中出现位置的距离特征值分别为27和40,实体c在所述待分析文档中出现位置的距离特征值为34和42,预设的距离阈值为10,实体a与实体b之间的距离分别为7和20,实体a与实体c之间的距离为14和22,实体b与实体c之间的距离分别为7、15、6、2,由于实体a与实体b之间的最小距离、实体b与实体c之间的最小距离小于预设的距离阈值,实体a与实体c之间的最小距离大于预设的距离阈值,所以依据实体a与实体b之间、实体b与实体c之间文本信息对应的句法结构,获取实体a与实体b之间的关系以及实体b与实体c之间的关系。

本申请实施例中,所述依据小于预设的距离阈值内的该两实体之间的文本信息对应的句法结构,获取该两实体之间的关系,包括:

依据标点对所述两实体之间的文本信息进行拆分,得到一个或多个拆分句;

针对每一拆分句,依据以谓语为核心的句法结构,对该拆分句进行依存句法分析,得到该拆分句中所述两实体之间的关系;

合并各拆分句中所述两实体之间的关系,得到所述两实体之间的关系。

示例性的说明,例如,在获取实体a与实体b之间的关系时,针对每一含有实体a与实体b的拆分句,依据以谓语为核心的句法结构,作为一可选实施例,可以利用自然语言处理技术对该拆分句进行依存句法分析,得到该拆分句中实体a与实体b之间的关系,合并各拆分句中实体a与实体b之间相同的关系,得到实体a与实体b之间的关系。

s103,以实体为节点,实体之间的关系为边,构建知识图谱以及所述知识图谱与所述待分析文档的映射关系。

本申请实施例中,以所述提取的所述待分析文档中包含的实体为节点,实体与实体之间的关系为边,作为一可选实施例,可以使用自然语言处理技术构建知识图谱;对所述待分析文档以及为该文档所构建的知识图谱生成对应的共用存储标识,基于该共用存储标识,使得存储后的所述待分析文档与存储后的所述知识图谱形成映射关系。

示例性的说明,例如,提取出待分析文档c中包含的实体a与实体b,进一步,提取实体a与实体b之间的关系为d,则以实体a与实体b为节点,关系d为边,使用自然语言处理技术构建知识图谱f,在后续存储文档c与知识图谱f时,对文档c与知识图谱f生成共用的存储标识g,所述存储标识g即为文档c与知识图谱f之间的映射关系。

s104,存储所述待分析文档、所述知识图谱与所述映射关系。

本申请实施例中,作为一可选实施例,可以为所述待分析文档以及所述知识图谱设置共用存储标识,基于所述共用存储标识,在接收到文档查询请求时,依据所述文档查询请求中包含的查询关键词,获取查询文档,依据设置有共用存储标识的所述映射关系,获取与所述查询文档具有同一共用存储标识的知识图谱,展示所述查询文档以及获取的知识图谱。

示例性的说明,例如,在接收到文档查询请求时,依据所述文档查询请求中包含的查询关键词,获取查询文档,在展示所述查询文档以及获取的知识图谱时,可以使所述查询文档中的高亮部分对应知识图谱中的实体节点,以使用户根据知识图谱对照分析文档信息,作为一可选实施例,若用户根据自身理解认为所述知识图谱存在细节错误,用户可以对知识图谱进行手动修正,在存储时,修正后的知识图谱与所述查询文档的所述映射关系保持不变。

实施例二

图2示出了本发明实施例所提供的提取所述待分析文档中包含的实体的方法流程示意图,该方法包括步骤s201-s203;具体的:

s201,获取待分析文档中的文本信息,对获取到的所述文本信息进行分词以及词性标记,得到待分析文档中词的序列。

本申请实施例中,获取待分析文档中的文本信息,包括:

基于待分析文档的格式,对待分析文档进行格式转换,获取待分析文档中的文本信息。

本申请实施例中,作为一可选实施例,可以基于分词算法,调用现有词库对所述待分析文档中的文本信息进行分词以及词性标记,得到待分析文档中的词的序列。

s202,依据预存的实体类型识别规则信息库,识别所述待分析文档中词的序列中的词或词组所属的实体类型。

本申请实施例中,作为一可选实施例,以词的词性标记作为序列特征,依据预存的实体类型识别规则信息库,利用crf算法识别出所述待分析文档中词的序列中符合预存的实体类型识别规则信息库的词或词组。

本申请实施例中,作为一可选实施例,预存的实体类型识别规则信息库中的实体类型识别规则信息可以为从词的字面形式或是相邻词的组合中可以识别出该词或词组所属实体类型的信息。例如,词或词组的末尾字符是省、市、县,则将该词或词组的实体识别为地点;词或词组内字符包含年、月、日,则将该词或词组的实体识别为时间。

示例性的说明,例如,若所述词的序列中出现“北京市”,则可将“北京市”所属的实体类型识别为“地点”;若所述词的序列中出现相邻的词:“方正”“科技”“集团”,则可将词组“方正科技集团”所属的实体类型识别为“企业名称”。

进一步的,作为一可选实施例,还可以利用lstm-crf算法将分词后的所述待分析文档中的词提前用word2vec转换成词向量,得到待分析文档中词的词向量序列,以相邻的词向量作为序列特征,依据预存的实体类型识别规则信息库,利用crf算法识别出所述待分析文档中词的词向量序列中符合预存的实体类型识别规则信息库的词或词组。

s203,与图1所示的s101过程一致,在此不再赘述。

实施例三

本申请实施例提供了一种文档分析的装置,参见图3所示的是文档分析的装置结构示意图,具体的:

实体提取模块301,用于确定待分析文档所属的业务类型,依据所述待分析文档所属的业务类型映射的实体类型集合,提取所述待分析文档中包含的实体;

本申请实施例中,作为一可选实施例,可以获取上传所述待分析文档的用户的标签,依据所述用户的标签匹配预设的业务类型库,确定所述待分析文档所属的业务类型。作为另一可选实施例,也可以提取所述待分析文档中的关键词,分别与预设的业务类型库中的每一业务类型包含的业务关键词进行匹配,依据匹配结果确定所述待分析文档所属的业务类型。

实体关系提取模块302,用于依据实体在所述待分析文档中出现的位置以及实体与实体之间的句法结构,提取实体与实体之间的关系;

本申请实施例中,作为一可选实施例,实体在待分析文档中出现的位置可通过相对文档起点的距离特征值来表征,例如,可以将提取出的所述实体在所述待分析文档中出现的位置与文档起点之间所包含的字符的个数作为所述实体在所述待分析文档中出现位置的距离特征值。

知识图谱构建模块303,用于以实体为节点,实体之间的关系为边,构建知识图谱以及所述知识图谱与所述待分析文档的映射关系;

信息存储模块304,用于存储所述待分析文档、所述知识图谱与所述映射关系。

本申请实施例中,作为一可选实施例,实体提取模块301,包括:

业务类型确定单元,用于确定待分析文档所属的业务类型;

分词单元,用于获取待分析文档中的文本信息,对所述文本信息进行分词;

实体匹配单元,用于基于分词结果,选取与所述实体类型相匹配的词或词组,得到所述待分析文档中包含的实体。

本申请实施例中,作为一可选实施例,实体关系提取模块302,包括:

位置获取单元,用于获取提取出的所述实体在所述待分析文档中分别出现的位置;

距离计算单元,基于获取的位置,计算两实体之间的一个或多个距离;

实体间距筛选单元,若两实体之间的距离小于预设的距离阈值,依据小于预设的距离阈值内的该两实体之间的文本信息对应的句法结构,获取该两实体之间的关系。

作为一可选实施例,所述装置还包括:

文档查询模块(图中未示出),用于接收文档查询请求,依据所述文档查询请求中包含的查询关键词,获取查询文档,依据所述映射关系,获取所述查询文档映射的知识图谱,展示所述查询文档以及获取的知识图谱。

实施例四

基于同一技术构思,参见图4所示,本申请一实施例提供了一种计算机设备400,用于执行图1中的文档分析的方法,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述文档分析的方法的步骤。

具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述文档分析的方法。

对应于图1中的文档分析的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述文档分析的方法的步骤。

具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述文档分析的方法。

在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1