文本查重方法、装置、设备及存储介质与流程

文档序号:19006304发布日期:2019-10-29 23:43阅读:250来源:国知局
文本查重方法、装置、设备及存储介质与流程

本发明涉及数据处理技术领域,尤其涉及一种文本查重方法、装置、设备及存储介质。



背景技术:

目前,为了避免政府财政专项资金扶持项目被重复多次申请而造成资金的浪费,提高资金的使用效率,需要对企业申报的财政专项资金扶持项目进行查重。当前不同的财政专项资金扶持计划项目归属不同部门管理,部门之间项目申报信息共享程度低,查重较为困难。同时,现有的查重方式主要的关注点又在于如何利用算法实现和提高文本的匹配相似度,在计算相似度时往往笼统的采用的项目标题、项目描述、申请人等信息进行匹配,数据维度太过单一,查重效果准确度欠佳。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。



技术实现要素:

本发明的主要目的在于提供了一种文本查重方法、装置、设备及存储介质,旨在解决现有技术在进行文本查重时,所使用的数据维度单一,查重效果准确度欠佳的技术问题。

为实现上述目的,本发明提供了一种文本查重方法,所述方法包括以下步骤:

获取待查重文本,从所述待查重文本中提取预设维度的初始数据;

对所述初始数据进行预处理,并按预设分类策略将处理后的数据划分为不同重要程度的待查重数据;

基于预设查重语料库以及所述重要程度依次对所述待查重数据进行相似度计算,获取各待查重数据的相似度;

根据所述相似度获取所述待查重文本的查重结果。

优选地,所述对所述初始数据进行预处理,并按预设分类策略将处理后的数据划分为不同重要程度的待查重数据的步骤,包括:

按预设数据类型对所述初始数据进行数据提取以获取待处理数据,所述预设数据类型包括文本类型、属性类型以及数值类型;

对所述待处理数据进行预处理以获取处理后的数据,并按预设分类策略将处理后的数据划分为不同重要程度的待查重数据。

优选地,所述待处理数据包括文本数据;

所述对所述待处理数据进行预处理以获取处理后的数据的步骤,包括:

对所述文本数据进行分词以获取对应的词汇文本,去除所述词汇文本中包含的停用词,获得目标文本;

按所述目标文本的词汇序列将所述目标文本向量化,获取所述目标文本对应的数字向量,并将所述数字向量作为处理后的数据。

优选地,所述待处理数据还包括属性数据;

所述对所述待处理数据进行预处理以获取处理后的数据的步骤,包括:

提取所述属性数据中包含的属性词,在预先构建的属性词和属性标识之间的映射关系中查找所述属性词对应的目标属性标识;

根据所述目标属性标识对所述属性数据中对应的属性词进行替换,获取目标属性数据,并将所述目标属性数据作为处理后的数据。

优选地,所述待处理数据还包括数值数据;

所述对所述待处理数据进行预处理以获取处理后的数据的步骤,包括:

对所述数值数据进行数据维度划分,获取不同数据维度的数值数据集;

按从小到大的顺序将所述数值数据集中包含的数值数据等频分箱到若干区间;

对各区间进行编码,获取各区间对应的区间编码;

将各区间内包含的数值数据映射至对应的区间编码,以获取各区间对应的目标数值数据,并将所述目标数值数据作为处理后的数据。

优选地,所述重要程度包括第一重要程度、第二重要程度以及第三重要程度;

所述基于预设查重语料库以及所述重要程度依次对所述待查重数据进行相似度计算,获取各待查重数据的相似度的步骤,包括:

基于预设查重语料库获取所述第一重要程度的待查重数据对应的第一基准查重文本,利用预设相似度算法计算所述第一基准查重文本与所述第一重要程度的待查重数据之间的第一相似度;

检测所述第一相似度是否高于第一预设阈值以及所述第一相似度是否低于第二预设阈值,其中,所述第一预设阈值大于所述第二预设阈值;

若所述第一相似度低于所述第一预设阈值且高于所述第二预设阈值,则获取所述第二重要程度的待查重数据对应的第二基准查重文本,并对所述第二基准查重文本与所述第二重要程度的待查重数据进行字段匹配,根据字段匹配结果获取对应的第二相似度;

在检测到所述第二相似度满足预设相似度条件时,获取所述第三重要程度的待查重数据对应的第三基准查重文本,并对所述第三基准查重文本与所述第三重要程度的待查重数据进行检索匹配,根据检索匹配结果获取对应的第三相似度。

优选地,所述根据所述相似度获取所述待查重文本的查重结果的步骤,包括:

根据获取到的所述第一相似度、所述第二相似度以及所述第三相似度通过预设公式,确定所述待查重文本的查重结果;

其中,所述预设公式为,

式中,f(x)为查重结果,f(x)=1表示有重复,f(x)=0表示没有重复,s1为第一相似度,s2为第二相似度,s3为第三相似度,α为第一预设阈值,β为第二预设阈值,且α和β的取值范围为:0<α<β<1。

此外,为实现上述目的,本发明还提出一种文本查重装置,所述装置包括:

数据获取模块,用于获取待查重文本,从所述待查重文本中提取预设维度的初始数据;

数据提取模块,用于对所述初始数据进行预处理,并按预设分类策略将处理后的数据划分为不同重要程度的待查重数据;

文本匹配模块,用于基于预设查重语料库以及所述重要程度依次对所述待查重数据进行相似度计算,获取各待查重数据的相似度;

结果获取模块,用于根据所述相似度获取所述待查重文本的查重结果。

此外,为实现上述目的,本发明还提出一种文本查重设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本查重程序,所述文本查重程序配置为实现如上文所述的文本查重方法的步骤。

此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有文本查重程序,所述文本查重程序被处理器执行时实现如上文所述的文本查重方法的步骤。

本发明通过获取待查重文本,从待查重文本中提取预设维度的初始数据;对初始数据进行预处理,并按预设分类策略将处理后的数据划分为不同重要程度的待查重数据;基于预设查重语料库以及重要程度依次对待查重数据进行相似度计算,获取各待查重数据的相似度;根据相似度获取待查重文本的查重结果,由于是根据预设维度来提取初始数据,从而保证了数据维度的多样性;又因为是根据预设分类策略将处理后的数据划分为不同重要程度的待查重数据,然后根据预设查重语料库以及重要程度来依次计算待查重数据的相似度,从而使得文本查重具有较强的针对性,保证了查重结果的准确度以及查重效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的文本查重设备的结构示意图;

图2为本发明文本查重方法第一实施例的流程示意图;

图3为本发明文本查重方法第二实施例的流程示意图;

图4为本发明文本查重方法第三实施例的流程示意图;

图5为本发明文本查重装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的文本查重设备结构示意图。

如图1所示,该文本查重设备可以包括:处理器1001,例如中央处理器(centralprocessingunit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(randomaccessmemory,ram)存储器,也可以是稳定的非易失性存储器(non-volatilememory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的结构并不构成对文本查重设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及文本查重程序。

在图1所示的文本查重设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明文本查重设备中的处理器1001、存储器1005可以设置在文本查重设备中,所述文本查重设备通过处理器1001调用存储器1005中存储的文本查重程序,并执行本发明实施例提供的文本查重方法。

本发明实施例提供了一种文本查重方法,参照图2,图2为本发明文本查重方法第一实施例的流程示意图。

本实施例中,所述文本查重方法包括以下步骤:

步骤s10:获取待查重文本,从所述待查重文本中提取预设维度的初始数据;

需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通信以及程序运行功能的计算服务设备,例如智能手机、平板电脑、笔记本电脑、个人电脑等(以下简称查重终端)。所述预设初始维度包括项目信息表、项目评审信息表、合同表、企业相关信息以及其它信息等维度。所述待查重文本为需要进行内容查重的财政专项资金扶持项目文本。

其中,所述项目信息表包括:项目编号、申请单位名称、组织机构代码、申请单位负责人名称及其联系方式、项目团队成员名称及其联系方式、研究内容与目标、项目预算、项目计划、项目背景描述等;所述项目评审信息表包括:项目编号、申请单位名称、组织机构代码、申请单位负责人名称及其联系方式、研究内容与目标、项目预算、项目资助资金、项目计划、项目完成情况、项目成果、项目总结、专家评审意见等;所述合同表包括:合同编号、项目编号、申请单位名称(乙方)、组织机构代码、申请单位法人名称及其联系方式、项目团队成员名称及其联系方式、研究内容与目标、项目预算、资助金额、甲方单位等;所述企业相关信息包括:企业子公司以及分支机构、股东信息、法人信息、税收信息等;所述其它信息包括:如行政许可信息、行政处罚信息、企业经营异常名录、黑名单信息等。本实施例通过从所述待查重文本中提取上述预设维度的初始数据,保证了文本查重时查重数据的多维度以及全面性。

在具体实现中,查重终端在获取到待查重文本后,可按上述预设维度从待查重文本中提取相应的初始数据。

步骤s20:对所述初始数据进行预处理,并按预设分类策略将处理后的数据划分为不同重要程度的待查重数据;

需要说明的是,本步骤中所述对初始数据进行预处理可以是先将初始数据进行结构化处理,然后对结构化处理后的数据再进一步进行标准化处理。其中,所述结构化处理,即根据数据的类型或构成要素将划分为文本数据、属性数据和数值数据,例如文本数据“项目的研究意义在于……”、属性数据“单位负责人性别、申请单位性质”、数值数据“项目预算、项目资助资金等”。所述标准化处理,即将文本数据转化为数字向量数据,将属性数据中的属性词汇用统一的属性标识代替,将数值数据统一到相同的数值量纲等。

应理解的是,由于财政专项资金扶持项目的项目文本格式都较为固定,在检测项目文本的重复率时,若笼统的进行全文检测势必会降低查重效率。因此,本实施例中工作人员可预先根据实际文本查重情况,设定一个分类策略(即所述预设分类策略)来对预处理后的数据进行重要程度的分类,然后根据分类后数据的重要程度来依次进行文本查重。

例如,查重终端在获取到预处理后的向量数据、属性数据以及数值数据后,还将此基础上进行重要程度分类,具体的,可根据项目查重的重要性将上述数据分为第一重要程度、第二重要程度和第三重要程度等三类;其中,相同重要程度但不同维度的数据重要性相同,而对于不同的重要程度第一重要程度与项目查重的相关程度重要性最高,其次是第二重要程度,最后为第三重要程度。本实施例中重要程度分类的方法有多种,如根据专家知识进行人工分类、或者根据数据相关系数统计结果进行分类(需要注意的是:不同类型的数据计算相关系数的方法不一样,如对于数值类型的数据(数值数据)用pearson相关系数(pearsoncorrelationcoefficient)计算方法,对于向量化的文本类型数据(向量数据)用spearman相关系统(spearman'srankcorrelationcoefficient)计算方法,对属性数据采用kendall秩相关系数计算方法)。

本实施例中,按预设分类策略分类后得到的三类重要程度的示例如下:

(1)第一重要程度:如项目名称、项目背景和意义、项目研究内容和目标、创新点、项目计划、项目评审结果和评审意见、项目资助资金、项目成果等;

(2)第二重要程度:项目负责人、项目成员、联系方式等;

(3)第三重要程度:如企业(或单位)名称,组织机构代码、企业股东信息、法人信息、负责人信息、子公司(或分支机构信息)、监管银行、监管账号、企业行政许可信息、行政处罚信息、企业异常名录、黑名单等。

在具体实现中,查重终端可对初始数据进行预处理,然后按照预先设定的分类策略将处理后的数据划分为不同重要程度的待查重数据。

步骤s30:基于预设查重语料库以及所述重要程度依次对所述待查重数据进行相似度计算,获取各待查重数据的相似度;

需要说明的是,所述预设查重语料库可以是基于财政专项资金扶持(计划)项目归属的所有管理部门历年已申报的财政专项资金扶持项目的项目文本构建的数据库,从而能够保证作为数据比对基准的查重语料库的数据覆盖面,进一步提高了查重准确率。

本步骤中,对所述待查重数据进行相似度计算的方式可以是利用余弦相似度函数或词频-逆文件频率(termfrequency-inversedocumentfrequency,tf-idf)算法来进行。例如,通过tf-idf算法获取待查重数据的目标关键词集合以及预设查重语料库中每一个财政专项资金扶持项目对应的基准关键词集合,然后获取目标关键词集合对应的目标词频向量以及基准关键词集合对应的基准词频向量,然后通过余弦相似度函数计算两词频向量之间的相似度。

进一步地,本实施例中查重终端可按重要程度的顺序分别对第一重要程度、第二重要程度和第三重要程度的待查重数据进行相似度计算,以获取第一相似度、第二相似度以及第三相似度。

步骤s40:根据所述相似度获取所述待查重文本的查重结果。

应理解的是,由于根据上述预设分类策略分类后的待查重数据重要程度不同,因此本实施例中查出终端可先计算第一重要程度的待查重数据对应的第一相似度s1,然后根据第一相似度s1判断是否有重复;如果根据第一相似度s1能确定项目(即待查重文本)重复;则不需要进行后续其它(第二重要程度对应的或第三重要程度对应的)待查重数据的匹配,而可以直接输出查重结论;如果根据第一相似度s1不能确定项目是否重复,则需要再对第二重要程度对应的待查重数据进行查重分析,得到第二相似度s2;然后再根据第二相似度s2判断是否有重复,如果根据第二相似度s2能确定项目有重复,则直接输出查重结果;如果根据第二相似度s2仍不能确定项目是否重复,则需要进一步计算第三重要程度对应的待查重数据的第三相似度s3,然后再作进一步的判断。

具体的,若查重终端检测到第一相似度s1大于或等于第一预设阈值α,或小于第二预设阈值β,则判定待查重文本没有重复文本查重通过;若检测到第一相似度s1属于范围[β,α),则需要通过计算第二相似度s2来进一步判定查重结果。此处可直接通过字段匹配的方式获取第二相似度s2。具体包括对项目负责人、项目团队成员等第二重要程度的待查重数据进行匹配检查,如果其中有两项或者两项以上信息匹配成功,则判定第二相似度s2为1,否则判定第二相似度s2为0(默认值为0)。如果β≤s1<α且s2=1,则说明项目重复;否则需要通过计算第三相似度s3来进一步判定查重结果。

需要说明的是,本实施例中查重终端对于所述第三相似度s3的获取方式可以是通过对包括子公司(或分支机构)、法人代表、股东、负责人、监管银行及监管账号、企业行政处罚信息、企业经营异常名录、黑名单信息、企业信用信息等第三重要程度的待查重数据进行检索匹配后的匹配结果来获取,如果其中有两项或者两项以上信息匹配成功,则判定第三相似度s3为1,否则判定第三相似度s3为0(默认值为0)。

在本实施例中,当查重终端在获取到所述第一相似度、第二相似度以及第三相似度后,即可通过预设公式确定所述待查重文本的查重结果;

其中,所述预设公式为,

式中,f(x)为查重结果,f(x)=1表示有重复,f(x)=0表示没有重复,s1为第一相似度,s2为第二相似度,s3为第三相似度,α为第一预设阈值,β为第二预设阈值,且α和β的取值范围为:0<α<β<1。

本实施例通过获取待查重文本,从待查重文本中提取预设维度的初始数据;对初始数据进行预处理,并按预设分类策略将处理后的数据划分为不同重要程度的待查重数据;基于预设查重语料库以及重要程度依次对待查重数据进行相似度计算,获取各待查重数据的相似度;根据相似度获取待查重文本的查重结果,由于是根据预设维度来提取初始数据,从而保证了数据维度的多样性;又因为是根据预设分类策略将处理后的数据划分为不同重要程度的待查重数据,然后根据预设查重语料库以及重要程度来依次计算待查重数据的相似度,从而使得文本查重具有较强的针对性,保证了查重结果的准确度以及查重效率。

参考图3,图3为本发明文本查重方法第二实施例的流程示意图。

基于上述第一实施例,在本实施例中,所述步骤s20包括:

步骤s201:按预设数据类型对所述初始数据进行数据提取以获取待处理数据,所述预设数据类型包括文本类型、属性类型以及数值类型;

应理解的是,本实施例中查重终端在获取到初始数据后,可按照文本类型、属性类型以及数值类型三个维度对初始数据进行数据划分或提取,以分别获取对应的文本数据、属性数据和数值数据等待处理数据。

步骤s202:对所述待处理数据进行预处理以获取处理后的数据,并按预设分类策略将处理后的数据划分为不同重要程度的待查重数据。

可理解的是,在获取上述三类数据后,查重终端将分别采用三种不同的处理方式对其进行预处理,包括:

(1)对文本数据进行分词以获取对应的词汇文本,去除词汇文本中包含的停用词获得目标文本,按目标文本的词汇序列将目标文本向量化,获取目标文本对应的数字向量;

(2)提取属性数据中包含的属性词,在预先构建的属性词和属性标识之间的映射关系中查找属性词对应的目标属性标识;根据目标属性标识对属性数据中对应的属性词进行替换,获取目标属性数据;

(3)对数值数据进行数据维度划分,获取不同数据维度的数值数据集;按从小到大的顺序将数值数据集中包含的数值数据等频分箱到若干区间;对各区间进行编码,获取各区间对应的区间编码;将各区间内包含的数值数据映射至对应的区间编码,以获取各区间对应的目标数值数据。

具体的,对于文本数据,查重终端先将文本数据进行分词处理,即将一段文本序列转化为一段连续词语序列。如文本“项目的研究意义在于……”,经过分词之后得到词汇文本“项目/的/研究/意义/在于/……”;然后对分词处理后的词汇文本去停用词,即去掉语气助词、连接词、介词、副词等,如的、地、得等,如上述例子可以得到目标文本“项目/研究/意义……”;最后再按所述目标文本的词汇序列将所述目标文本向量化,获取所述目标文本对应的数字向量,如:

{项目:(1,9),

研究:(2,4),

意义:(3,2),

……

},上述括号中数字分别代表词语出现的序号和次数。

因此,上述文本数据“项目的研究意义在于……”转化为数字向量的形式为:{(1,9),(2,4),(3,2),……}。

对于属性数据,如性别,不同的项目文本表征方式可能不一样,有的用“男”和“女”,有的用“0”和“1”,有的用“f”和“m”,因此工作人员可预先对所有属性数据进行属性标识的统一配置,例如建立一个属性词{男,0,m}与属性标识“male”之间的多对一映射,以使得查重终端在获取到属性数据中包含属性词“男”时,将该属性词直接替换为属性标识“male”。当然,本实施例中具体表征属性的词汇以及对于的属性标识可由工作人员根据实际情况设定或配置,本实施例对此不加以限制。

对于数值数据,可理解的是,财政专项资金扶持项目中各类数值型的数据可能会存在量纲的差异,例如年龄取值范围为0-150左右,项目资助资金为0-10亿等,从数值上而言两者没有可比性。因此,本实施例中查重终端首先需要将不同数据维度(例如年龄、资金)的数值数据进行划分,以获取不同数据维度的数值数据集,然后按从小到大的顺序将所述数值数据集中包含的数值数据等频分箱到若干区间,例如将一组年龄数据(21,23,24,26,32,38,40,45)等频分箱到4个区间;然后对各区间进行编码,获取各区间对应的区间编码将4个区间分别编码为1,2,3,4;再将各区间内包含的数值数据映射至对应的区间编码,以获取各区间对应的目标数值数据“21-1,23-1,24-2,26-2,32-3,38-3,40-4,45-4”,即(21,23,24,26,32,38,40,45)-(1,1,2,2,3,3,4,4)。当然,本实施例中,查重终端也可以直接将所有数据维度的数值数据均统一映射至相同的量纲,如对其进行归一化处理映射到均值为0、方差为1的范围。

在具体实现中,查重终端在对上述三类待处理数据进行预处理后,即可按照预先设定的分类策略将处理后的数据作为一个整体,再划分为不同重要程度的待查重数据。

本实施例通过按预设数据类型(文本类型、属性类型以及数值类型)对初始数据进行数据提取以获取待处理数据,然后对待处理数据进行预处理以获取处理后的数据,并按预设分类策略将处理后的数据划分为不同重要程度的待查重数据,由于是先对提取到的待处理数据进行预处理,从而能够保证在处理后的数据在不失真的情况下,避免对待查重文本的全文匹配,最大化的提高了文本查重效率。

参考图4,图4为本发明文本查重方法第三实施例的流程示意图。

基于上述各实施例,在本实施例中,所述重要程度包括第一重要程度、第二重要程度以及第三重要程度;相应地,所述步骤s30可具体包括:

步骤s301:基于预设查重语料库获取所述第一重要程度的待查重数据对应的第一基准查重文本,利用预设相似度算法计算所述第一基准查重文本与所述第一重要程度的待查重数据之间的第一相似度;

应理解的是,本实施例中所述第一重要程度的待查重数据包括:如项目名称、项目背景和意义、项目研究内容和目标、创新点、项目计划、项目评审结果和评审意见、项目资助资金、项目成果等,查重终端在进行相似度计算时,可从预设查重语料库中读取与这些数据相关的数据作为第一基准查重文本,然后通过余弦相似度函数或tf-idf算法来计算两者之间的相似度,即所述第一相似度。

例如,获取第一重要程度的待查重数据对应的词频向量a,将第一基准查重文本进行结构化处理以及标准化处理后获得对应的词频向量a,然后通过公式cosθ=(a·a)/(||a||×||a||)来计算第一相似度cosθ的值,该值越接近1表明二者越相似,反之则越不相似。

步骤s302:检测所述第一相似度是否高于第一预设阈值以及所述第一相似度是否低于第二预设阈值,其中,所述第一预设阈值大于所述第二预设阈值;

需要说明的是,所述第一预设阈值以及所述第二预设阈值可以是工作人员设定的经验值,本实施例对此不作限制。

在具体实现中,查重终端在获取到第一相似度时,将检测其是否高于第一预设阈值以及是否低于第二预设阈值。

步骤s303:若所述第一相似度低于所述第一预设阈值且高于所述第二预设阈值,则获取所述第二重要程度的待查重数据对应的第二基准查重文本,并对所述第二基准查重文本与所述第二重要程度的待查重数据进行字段匹配,根据字段匹配结果获取对应的第二相似度;

需要说明的是,本实施例中工作人员可根据实际经验设定两个用户评判相似度的阈值,即所述第一预设阈值和所述第二预设阈值,其中,所述第一预设阈值大于所述第二预设阈值。

在具体实现中,若查重终端检测到第一相似度低于所述第一预设阈值且高于所述第二预设阈值,则表明需要对待查重文本进行进一步检测;即获取第二重要程度的待查重数据对应的第二基准查重文本,并对第二基准查重文本与第二重要程度的待查重数据进行字段匹配,根据字段匹配结果获取对应的第二相似度,例如对两者进行项目负责人、项目成员、联系方式等数据的匹配,若其中有两项或者两项以上信息匹配成功,则判定第二相似度等于1,则直接认定待查重文本重复率较高,查重不通过;反之则判定第二相似度等于0,表明需要对待查重文本再进行检测。

步骤s304:在检测到所述第二相似度满足预设相似度条件时,获取所述第三重要程度的待查重数据对应的第三基准查重文本,并对所述第三基准查重文本与所述第三重要程度的待查重数据进行检索匹配,根据检索匹配结果获取对应的第三相似度。

应理解的是,所述预设相似度条件,即在进行第二基准查重文本与第二重要程度的待查重数据的字段匹配时存在两项或者两项以上相同的字段,第二相似度等于0。

在具体实现中,查重终端在检测到第二相似度满足预设相似度条件时,获取第三重要程度的待查重数据对应的第三基准查重文本,并对第三基准查重文本与第三重要程度的待查重数据进行检索匹配,根据检索匹配结果获取对应的第三相似度,例如对子公司(或分支机构)、法人代表、股东、负责人、监管银行及监管账号、企业行政处罚信息、企业经营异常名录、黑名单信息、企业信用信息等信息进行检索匹配,若其中有两项或者两项以上信息匹配成功,则判定第三相似度为1,否则判定第三相似度为0(默认值为0)。

本实施例通过对待查重数据进行重要程度分类,首先对第一重要程度的待查重数据进行查重,如果能确定查重结果,则直接输出查重结果,如果不能确定查重结果,再依次对重要程度稍低的待查重数据进行查重,在保证查重准确度的同时能提高文本查重的效率。

此外,本发明实施例还提出一种存储介质,所述存储介质上存储有文本查重程序,所述文本查重程序被处理器执行时实现如上文所述的文本查重方法的步骤。

参照图5,图5为本发明文本查重装置第一实施例的结构框图。

如图5所示,本发明实施例提出的文本查重装置包括:

数据获取模块501,用于获取待查重文本,从所述待查重文本中提取预设维度的初始数据;

数据提取模块502,用于对所述初始数据进行预处理,并按预设分类策略将处理后的数据划分为不同重要程度的待查重数据;

文本匹配模块503,用于基于预设查重语料库以及所述重要程度依次对所述待查重数据进行相似度计算,获取各待查重数据的相似度;

结果获取模块504,用于根据所述相似度获取所述待查重文本的查重结果。

本实施例通过获取待查重文本,从待查重文本中提取预设维度的初始数据;对初始数据进行预处理,并按预设分类策略将处理后的数据划分为不同重要程度的待查重数据;基于预设查重语料库以及重要程度依次对待查重数据进行相似度计算,获取各待查重数据的相似度;根据相似度获取待查重文本的查重结果,由于是根据预设维度来提取初始数据,从而保证了数据维度的多样性;又因为是根据预设分类策略将处理后的数据划分为不同重要程度的待查重数据,然后根据预设查重语料库以及重要程度来依次计算待查重数据的相似度,从而使得文本查重具有较强的针对性,保证了查重结果的准确度以及查重效率。

基于本发明上述文本查重装置第一实施例,提出本发明文本查重装置的第二实施例。

在本实施例中,所述数据提取模块502,还用于按预设数据类型对所述初始数据进行数据提取以获取待处理数据;对所述待处理数据进行预处理以获取处理后的数据,并按预设分类策略将处理后的数据划分为不同重要程度的待查重数据。

进一步地,所述数据提取模块502,还用于对所述文本数据进行分词以获取对应的词汇文本,去除所述词汇文本中包含的停用词,获得目标文本;按所述目标文本的词汇序列将所述目标文本向量化,获取所述目标文本对应的数字向量,并将所述数字向量作为处理后的数据。

进一步地,所述数据提取模块502,还用于提取所述属性数据中包含的属性词,在预先构建的属性词和属性标识之间的映射关系中查找所述属性词对应的目标属性标识;根据所述目标属性标识对所述属性数据中对应的属性词进行替换,获取目标属性数据,并将所述目标属性数据作为处理后的数据。

进一步地,所述数据提取模块502,还用于对所述数值数据进行数据维度划分,获取不同数据维度的数值数据集;按从小到大的顺序将所述数值数据集中包含的数值数据等频分箱到若干区间;对各区间进行编码,获取各区间对应的区间编码;将各区间内包含的数值数据映射至对应的区间编码,以获取各区间对应的目标数值数据,并将所述目标数值数据作为处理后的数据。

进一步地,所述文本匹配模块503,还用于基于预设查重语料库获取所述第一重要程度的待查重数据对应的第一基准查重文本,利用预设相似度算法计算所述第一基准查重文本与所述第一重要程度的待查重数据之间的第一相似度;检测所述第一相似度是否高于第一预设阈值以及所述第一相似度是否低于第二预设阈值,其中,所述第一预设阈值大于所述第二预设阈值;若所述第一相似度低于所述第一预设阈值且高于所述第二预设阈值,则获取所述第二重要程度的待查重数据对应的第二基准查重文本,并对所述第二基准查重文本与所述第二重要程度的待查重数据进行字段匹配,根据字段匹配结果获取对应的第二相似度;在检测到所述第二相似度满足预设相似度条件时,获取所述第三重要程度的待查重数据对应的第三基准查重文本,并对所述第三基准查重文本与所述第三重要程度的待查重数据进行检索匹配,根据检索匹配结果获取对应的第三相似度。

进一步地,所述结果获取模块504,还用于根据获取到的所述第一相似度、所述第二相似度以及所述第三相似度通过预设公式,确定所述待查重文本的查重结果;其中,所述预设公式为,

式中,f(x)为查重结果,f(x)=1表示有重复,f(x)=0表示没有重复,s1为第一相似度,s2为第二相似度,s3为第三相似度,α为第一预设阈值,β为第二预设阈值,且α和β的取值范围为:0<α<β<1。

本发明文本查重装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1