一种征信数据采集方法与系统与流程

文档序号：11707771阅读：500来源：国知局

本发明涉及数据处理领域，具体涉及一种征信数据采集方法与系统。

背景技术：

征信系统是指征信机构为企业或个人提供征信信息服务的系统，按一定规则合法采集企业、个人的信用信息，加工整理形成企业、个人的信用报告等征信产品，有偿提供给经济活动中的贷款方、赊销方、招标方、出租方、保险方等有合法需求的信息使用者，为其了解交易对方的信用状况提供便利。

征信机构从税务局、工商局、互联网等采集企业、个人的征信数据时，需要对已采集的数据文件进行排重处理，目的是为了避免重复采集。传统的采集排重方法是将已采集的文件名或网页url(uniformresourcelocator，统一资源定位符)地址存储到数据库，当采集新文件时，查询数据库是否已存在相同的文件名或相同的网页url地址，从而进行采集排重。

但这种方式每采集一个文件就会新增一条记录，且文件名和url地址的字符都较长，当采集的文件达到海量级别后，记录集会变得非常庞大，并占用很大的存储空间，严重影响排重处理效率，进而降低采集效率。

技术实现要素：

本发明实施例提供了一种征信数据采集方法与系统，用于节省征信数据的存储空间，提高征信数据的采集效率。

本发明实施例第一方面提供了一种征信数据采集方法，包括：

获取目标对象待采集的目标数据文件的文件名称，所述目标数据文件包括征信数据文件和/或网页数据文件，其中所述网页数据文件的文件名为网页url地址；

根据所述目标数据文件的文件名称通过预设算法生成预设位数的目标特征值字符串；

将所述目标特征值字符串分割成为所述预设位数个特征值字符；

判断特征值存储模块中的任一存储层的特征值字符中是否包含对应位数的目标特征值字符，所述目标特征值字符包含于所述预设位数个特征值字符中，所述预设位数的数量与所述特征值储存储模块中的存储层的层数相对应；

若否，则采集所述目标数据文件。

本发明实施例第二方面提供了一种征信数据采集系统，包括：

获取模块，用于获取目标对象待采集的目标数据文件的文件名称，所述目标数据文件包括征信数据文件和/或网页数据文件，其中网页数据文件的文件名为网页url地址；

生成模块，根据所述目标数据文件的文件名称通过预设算法生成预设位数的目标特征值字符串；

分割模块，用于将所述目标特征值字符串分割成为所述预设位数个特征值字符；

第一判断模块，用于判断特征值存储模块中的任一存储层的特征值字符中是否包含对应位数的目标特征值字符，所述目标特征值字符包含于所述预设位数个特征值字符中，所述预设位数的数量与所述特征值储存储模块中的存储层的层数相对应；

采集模块，用于在所述特征值存储模块中的每一存储层的特征值字符中不包含对应位数的目标特征值字符，则采集所述目标数据文件。

从以上技术方案可以看出，本发明实施例具有以下优点：根据目标数据文件的文件名称通过预设算法生成预设位数的目标特征值字符串，保证了特征字符串的唯一性，将待采集的文件特征值字符串与已采集的特征值字符串进行对比，可达到采集排重的效果，其次，由于生成的特征值字符串为固定的位数，对较长的数据文件名或者网页url地址进行压缩处理，同时使用分存储层存储特征值字符串的方法，相同存储层的特征值字符可以共享空间，达到压缩存储的效果，所以可以节省征信数据的存储空间，提高排重处理效率，从而提高采集效率。

附图说明

图1为本发明实施例中征信数据采集方法的系统部署结构示意图；

图2为本发明实施例中征信数据采集方法的实施例示意图；

图3为本发明实施例中征信数据采集方法中数据文件中的特征值字符的对比示意图；

图4为本发明实施例中征信数据采集方法中网页url地址中的特征值字符的对比示意图；

图5为本发明实施例中征信数据采集系统的一个实施例示意图；

图6为本发明实施例中征信数据采集系统的另一实施例示意图。

具体实施方式

本发明实施例提供了一种征信数据采集方法与系统，用于节省征信数据的存储空间，提高征信数据的采集效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，本发明实施例中征信数据采集方法的系统部署的结构示意图，主要由数据源、征信数据采集系统以及征信系统组成，其中：

1、数据源，指征信数据的来源，例如税务数据和/或互联网数据，该税务数据包括纳税信用等级数据、营业执照数据、税务等级数据、纳税信用等级数据、经营许可证数据、质量体系认证数据和/或代理证书数据；该互联网数据包括互联网中与目标对象相关的媒体报道和/或与目标对象相关的信用评价数据等；

2、征信数据采集系统：指从数据源获取待采集文件列表，从文件名或者网页url地址进行特征值计算，再比较已采集文件的特征值，进行采集文件排重处理；

3、征信系统：指根据已采集的征信数据文件和与征信相关的网页数据等，进行处理，形成征信报告的系统。

请参阅图2，本发明实施例中征信数据采集方法的一个实施例包括：

201、获取目标对象待采集的目标数据文件的文件名称。

本实施例中，征信数据采集系统可以获取到目标对象待采集的目标数据文件的文件名称，该目标数据文件包括征信数据文件和/或网页数据文件，其中，网页数据文件的文件名称为网页url地址，该目标对象可以是企业，也可以为个人，也可以为其他机构，具体不做限定。例如目标数据文件名称为sync_data_20170101210922.txt的征信数据文件或者网页url地址为http://wenku.baidu.com/view/e180f72a7fd5360cba1adb78.html？from＝search的网页数据文件。

202、根据目标数据文件的名称通过预设算法生成预设位数的目标特征值字符串。

本实施例中，当目标数据文件为征信数据文件时，例如报告数据文件和/或表单数据文件等，征信数据采集系统可以根据目标数据文件的名称通过预设的算法生成预设位数的目标特征值字符串。例如可以根据目标数据文件的文件名，使用md5算法进行计算，生成唯一的特征值字符串，例如可以根据上述所说的待采集的目标对象的征信数据文件的文件名生成16位的特征值字符串为af3c2f1395777df1。

当所述目标数据文件为网页数据文件时，征信数据采集系统可以根据目标数据文件的url地址通过预设算法生成所述预设位数的目标特征值字符串。例如根据上述所说的待采集的目标对象的网页数据文件的网页url地址，使用预设的算法(md5算法)进行计算生成唯一的特征字符串，例如生成16位的特征值字符串ffc9964b325a6190。

需要说明的是，征信数据采集系统可以通过16位md5算法对目标数据文件的文件名称进行加密计算生成16位数的所述目标特征值字符串，此时特征存储模块中的存储层的层数为16层，也可以通过32位md5算法对目标数据文件的文件名称进行加密计算生成32位数的目标特征值字符串，此时特征存储模块中的存储层的层数为32层，还可以通过其他位数的md5算法对目标数据文件的文件名称进行加密计算，例如64位或者128位，具体此处不做限定，为了描述简便，下面均以16位为例进行说明。

203、将目标特征值字符串分割成为预设位数个特征值字符。

本实施例中，征信数据采集系统在确定目标数据文件的目标特征值字符串之后，可以将目标特征字符串分割成为预设位数个特征值字符。该预设位数可以为16位，与生成的特征值字符串的位数相同。例如得到的16位的特征值字符串为af3c2f1395777df1，可以将该特征值字符串分割成为16位的数组：

m[0]＝a

m[1]＝f

m[2]＝3

……

m[15]＝1。

204、判断特征值存储模块中的任一存储层的特征值字符中是否包含对应位数的目标特征值字符，若是，则执行步骤207，若否，则执行步骤205。

本实施例中，征信数据采集系统可以判断特征值存储模块中的任一存储层的特征值字符中是否包含对应位数的目标特征值字符，若是，则执行步骤207，若否，则执行步骤205，目标特征值字符包含于预设位数个特征值字符中，预设位数个特征值字符中的每个特征值字符与特征值存储模块的每一存储层相对应。例如以步骤203里的数组为例进行说明，即将每个数组中的特征值字符与特征值存储模块中的各存储层进行对比(预设位数个特征字符中的每个字符与特征值存储模块的每一存储层相对应，即每一个数组对应一个存储层，数组中的字符值与特征值存储模块中的存储层的对应关系为预设的，可以为数组中的第一个字符值对应特征存储模块中的第一存储层，以此类推，数组中的第十六个字符值对应特征存储模块中的第十六层，也可以为其他对应方式，例如数组中的第一字符值对应特征存储模块中的第十六层或者任意一层，只要数组中的各字符值与特征存储模块中的各存储层对应上即可，具体不做限定)。

下面结合图3进行说明，图3为本发明实施例中征信数据采集方法中数据文件中的特征值字符的对比示意图。

数组的第一个m[0]的字符值为a，与特征值存储模块的第一存储层中的特征值字符进行比较，确定在第一存储层已存在该字符值；数组的第二个m[1]的字符值为f，与特征值存储模块的第二存储层中的特征值字符进行比较，确定在第二存储层已存在该字符值；数组中的第三个m[2]的值为3，与第三存储层中的所有特征值字符进行比较，确定该字符值在第三层不存在，该字符值即为目标特征值字符；依次类推，数组的第十六个m[15]的字符值为1，与第十六存储层中的特征值字符进行对比，确定该字符值在第十六层中存在。此时可以确定数组中有字符值不存在对应的存储层中，此时可以确定目标数据文件为一个新的征信数据文件。

205、采集目标数据文件。

本实施例中，当特征值存储模块中的任一存储层的特征值字符中不包含对应位数的目标特征值字符时，将预设位数个特征值字符中的所有字符与对应层数的特征值存储模块中的存储层中的特征值字符进行比较，只要是有存储层的特征值字符中不包含对应位数的特征值字符时，则代表该待采集的目标对象的征信数据文件为未采集过的，则确定该目标数据文件为新的征信数据文件，征信数据采集系统采集该目标数据文件。

206、将目标特征值字符在目标存储层新建。

本实施例中，当征信数据采集系统确定特征值存储模块中的任一存储层的特征值字符中不包含对应位数的目标特征值字符，将预设位数个特征值字符中的所有字符与对应层数的特征值存储模块中的存储层中的特征值字符进行比较，只要是有存储层的特征值字符中不包含对应位数的目标特征值字符时，将该目标特征值字符在目标特征值字符对应的存储层中新建，并将该目标特征值字符标记为初次新建特征值字符。

需要说明的，征信数据采集系统通过步骤205可以采集目标数据文件，通过步骤206可以将目标特征值字符在目标特征值字符对应的存储层中新建，然而，这两个步骤并没有先后执行顺序的限制，可以先执行步骤205，也可以先执行步骤206，或者同时执行，具体此处不做限定。

207、确定目标文件为重复文件，且不采集所述目标数据文件。

本实施例中，征信数据采集系统将预设位数个特征值字符中的所有字符与对应层数的特征值存储模块中的存储层中的特征值字符进行比较，当特征值存储模块中的每一存储层的特征值字符中包含对应位数的目标特征值字符时，即预设位数个特征值字符中的每一位特征值字符在对应的特征值存储模块的存储层中都可以找到与之相匹配的字符值，征信数据采集系统可以确定该目标文件为重复文件，则不采集该目标数据文件。

为了便于理解，下面结合图4进行详细说明。图4为本发明实施例中征信数据采集方法中网页url的特征值字符的对比示意图：

数组的第一个m[0]的字符值为f，与特征值存储模块的第一存储层中的特征值字符进行比较，确定在第一存储层已存在该字符值；继续比较，数组的第二个m[1]的字符值为c，与特征值存储模块的第二存储层中的特征值字符进行比较，确定在第二存储层已存在该字符值；数组中的第三个m[2]的值为c，与第三存储层中的所有特征值字符进行比较，确定该字符值在第三层存在；依次类推，数组的第十六个m[15]的字符值为0，与第十六存储层中的特征值字符进行对比，确定该字符值在第十六层中存储。数组中的所有字符值在对应的存储层中都可以找到相同的，此时可以知道目标数据文件为一个重复的网页url地址。

208、判断目标数据文件是否采集成功，若是，则执行步骤209，若否，则执行步骤210。

本实施例中，当征信数据模块在对目标数据文件进行采集之后，可以判断该目标数据文件是否采集成功，若是，则执行步骤209，若否，则执行步骤210.

209、将目标数据文件发送至征信系统。

本实施例中，当征信数据模块在对目标数据文件采集成功之后，可以将该目标数据文件发送至征信系统，以使得征信系统根据目标数据文件生成目标对象的征信报告。

210、将初次新建特征值字符删除。

本实施例中，当征信数据模块在对目标数据文件采集失败之后，将目标特征值字符在对应的特征值存储模块的存储层中的新建的特征值字符删除，并进行回滚处理。

综上所述，可以看出，首先，当需要采集目标对象的征信数据文件时，可以获取到该目标数据文件的文件名称，使用预设算法(例如md5算法)对待采集文件名或网页url地址进行加密计算，生成固定位数的特征值字符串，16位的md5算法是使用10个数字和6个字符组合形成16位的组合，相当于有16的16次方个不同的组合，以此保证特征值字符串的唯一性，将待采集的文件的特征值字符串和已采集的文件的特征值字符串进行对比，可达到采集排重的效果。

其次，由于生成的特征值字符串是固定的，相当于对较长的文件名或网页url地址进行压缩处理，同时，使用分层存储特征值字符串的方法，相同存储层的特征值字符可共享存储空间，达到压缩存储的效果，而不必像传统做法一样每个文件名或每个网页url地址保存一条记录，通过本发明方法可大大节省存储空间，提高排重处理效率，从而提高采集效率。

上面从征信数据采集方法的角度对本发明实施例进行描述，下面从征信数据采集系统的角度对本发明实施例进行描述。

请参阅图5，图5为本发明实施例中征信数据采集系统的一个实施例示意图，该征信数据采集系统包括：

获取模块501，用于获取目标对象待采集的目标数据文件的文件名称，目标数据文件包括征信数据文件和/或网页数据文件，其中网页数据文件的文件名为网页url地址；

生成模块502，根据目标数据文件的名称通过预设算法生成预设位数的目标特征值字符串；

分割模块503，用于将目标特征值字符串分割成为预设位数个特征值字符；

第一判断模块504，用于判断特征值存储模块中的任一存储层的特征值字符中是否包含对应位数的目标特征值字符，目标特征值字符包含于预设位数个特征值字符中，预设位数的数量与特征值存储模块中的存储层的层数相对应；

采集模块505，用于特征值存储模块中的任一存储层的特征值字符中不包含对应位数的目标特征值字符时，采集目标数据文件。

为了便于理解，下面结合图6进行详细说明。

获取模块601，用于获取目标对象待采集的目标数据文件的文件名称，目标数据文件包括征信数据文件和/或网页数据文件，其中网页数据文件的文件名为网页url地址；

生成模块602，根据目标数据文件的名称通过预设算法生成预设位数的目标特征值字符串；

分割模块603，用于将目标特征值字符串分割成为预设位数个特征值字符；

第一判断模块604，用于判断特征值存储模块中的任一存储层的特征值字符中是否包含对应位数的目标特征值字符，目标特征值字符包含于预设位数个特征值字符中，预设位数的数量与特征值存储模块中的存储层的层数相对应；

采集模块605，用于特征值存储模块中的任一存储层的特征值字符中不包含对应位数的目标特征值字符时，采集目标数据文件；

处理模块606，用于当特征值存储模块中的每一存储层的特征值字符中包含对应位数的目标特征值字符时，确定所述目标数据文件为重复文件，且不采集所述目标数据文件；

处理模块607还用于当特征值存储模块中的任一存储层的特征值字符中不包含对应位数的目标特征值字符时，则将目标特征值字符在目标特征值字符对应的存储层新建，且将目标特征值字符标记为初次新建特征值字符；

第二判断模块608，用于在采集目标数据文件之后，判断目标数据文件是否采集成功；

删除模块609，用于在目标数据文件未采集成功时，将初次新建特征值字符删除；

发送模块610，用于在目标数据文件采集成功时，将目标数据文件发送至征信系统，以使得征信系统根据目标数据文件生成目标对象的征信报告。

其中，生成模块602具体用于：

通过16位md5算法对目标数据文件的文件名称进行加密计算生成16位数的目标特征值字符串，且特征存储模块中的存储层的层数为16层；

或，

通过32位md5算法对目标数据文件的文件名称进行加密计算生成32位数的目标特征值字符串，且特征存储模块中的存储层的层数为32层。

综上所述，可以看出，首先，当需要采集目标对象的征信数据文件时，可以获取到该目标数据文件，使用预设算法(例如md5算法)对待采集文件名或网页url地址进行加密计算，生成固定位数的特征值字符串，16位的md5算法是使用10个数字和6个字符组合形成16位的组合，相当于有16的16次方个不同的组合，以此保证特征值字符串的唯一性，将待采集的文件特征值字符串和已采集的文件特征值字符串进行对比，可达到采集排重的效果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡文彬;高翔;刘祥涛;赵彦晖;孙淏添
技术所有人：深圳微众税银信息服务有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。