本发明涉及不动产登记信息处理,更具体地说,本发明涉及一种大规模跨区域的流批处理一体化服务方法。
背景技术:
1、批处理是指对有界的数据流处理,如存量数据抽取,一次性将存量数据进行批量抽取入库。采用批处理技术解决存量数据入库问题。流处理是指对无界的数据流处理,如增量数据捕获、操作日志捕获,只要上游还在生产数据,数据输入永远不会结束,应用就得必须持续不断地对到达的数据进行处理。
2、不动产登记数据是关于特定地区内的不动产的变更信息和所有权信息的记录。不动产登记数据中心在对若干个区域的不动产登记数据进行处理时,其数据处理方式包括批处理和流处理,若对不动产登记数据单独使用批处理可能导致处理延迟高、数据更新滞后、实时监测困难;若对不动产登记数据单独使用流处理,由于不动产登记数据是跨区域且数据规模大,需要消耗较高的处理资源、复杂处理需求大、存在数据准确性风险,不能根据不动产登记数据的实际情况信息对不同区域来灵活地采用不同的不动产登记数据的数据处理方式。
3、为了解决上述问题,现提供一种技术方案。
技术实现思路
1、为了克服现有技术的上述缺陷,本发明的实施例提供一种大规模跨区域的流批处理一体化服务方法以解决上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:
3、一种大规模跨区域的流批处理一体化服务方法,包括如下步骤:
4、步骤s1:采集不动产登记变更信息,计算总交易占比,根据聚类算法计算近期不动产登记变更占比,通过总交易占比和近期不动产登记变更占比计算变更频繁隐匿系数;
5、步骤s2:采集不动产登记效率信息,根据不动产登记效率信息计算登记效率指数;
6、步骤s3:将变更频繁隐匿系数和登记效率指数通过归一化处理获得登记综合表现评估系数;通过将登记综合表现评估系数和更新判断阈值进行比较,生成流处理信号或批处理信号;
7、步骤s4:采集区域热度信息,根据区域热度信息计算网络关注值,对于生成批处理信号的不动产登记数据,通过网络关注值对初始批处理时间处理间隔进行调节,计算实时批处理间隔。
8、在一个优选的实施方式中,在步骤s1中,变更频繁隐匿系数的获取方法为:设定时间区间u,实时获取该区域在时间区间u内的不动产登记变更次数;将该区域在时间区间u内的不动产登记变更次数和时间区间u对应的时间长度的比值标记为总变更占比;
9、获取在时间区间u内不动产登记变更对应的时间点;使用聚类算法将在时间区间u内不动产登记变更对应的时间点划分为最近不动产登记变更时间点集合和时间较远不动产登记变更时间点集合,得到最近不动产登记变更时间点集合的最近不动产登记变更时间点的数量和时间较远不动产登记变更时间点集合的时间较远的不动产登记变更时间点的数量;
10、最近不动产登记变更时间点集合的最近不动产登记变更时间点的数量加上时间较远不动产登记变更时间点集合的时间较远的不动产登记变更时间点的数量为总不动产登记变更时间点数量;
11、将最近不动产登记变更时间点集合内的最近不动产登记变更时间点的数量与总不动产登记变更时间点数量的比值标记为近期不动产登记变更占比;
12、根据总变更占比和近期不动产登记变更占比,计算变更频繁隐匿系数,其表达式为:其中fh、fj、ut、zj、zd分别为变更频繁隐匿系数、该区域在时间区间u内的不动产登记变更次数、时间区间u对应的时间长度、最近不动产登记变更时间点集合内的最近不动产登记变更时间点的数量以及总不动产登记变更时间点数量。
13、在一个优选的实施方式中,在步骤s2中,登记效率指数的获取逻辑为:对时间区间u内的该区域的登记中心处理效率进行获取,在时间区间u内均等设置n个处理效率监测区间,获取处理效率监测区间所对应的登记中心处理效率,对登记中心处理效率进行编号;计算时间区间u内的n个处理效率监测区间所对应的登记中心处理效率的平均值;
14、登记中心处理效率为处理效率监测区间内在实际处理量与预设处理量的比值;设定登记中心处理效率阈值,获取时间区间u内登记中心处理效率大于登记中心处理效率阈值的处理效率监测区间的数量,计算登记效率指数,其表达式为:其中,dx、dzvi、q分别为登记效率指数、时间区间u内第i个登记中心处理效率以及时间区间u内登记中心处理效率大于登记中心处理效率阈值的处理效率监测区间的数量;i为在时间区间u内登记中心处理效率的编号,n为处理效率监测区间的数量,i=1、2、3、4、......、n,n、i为大于1的正整数。
15、在一个优选的实施方式中,在步骤s3中,将变更频繁隐匿系数和登记效率指数通过归一化处理获得登记综合表现评估系数;设定更新判断阈值;通过将登记综合表现评估系数和更新判断阈值进行比较,生成数据处理方式的信号,数据处理方式的信号包括流处理信号和批处理信号;
16、当登记综合表现评估系数大于更新判断阈值,此时,生成流处理信号,采用流处理方式;当登记综合表现评估系数小于等于更新判断阈值,此时,生成批处理信号,采用批处理方式。
17、在一个优选的实施方式中,在步骤s4中,网络关注值的获取方法为:建立关键词集合;在时间区间k内,对关键词集合的内容的检索次数进行获取,计算网络关注值,网络关注值为关键词集合的内容的检索次数加1后和预设检索次数的比值;
18、设定初始批处理时间处理间隔;对于生成批处理信号的不动产登记数据,计算实时批处理间隔,实时批处理间隔的计算公式为:其中,sl、ypj、wg、ω分别为实时批处理间隔、初始批处理时间处理间隔、网络关注值以及调节系数。
19、本发明一种大规模跨区域的流批处理一体化服务方法的技术效果和优点:
20、1、通过综合考虑变更频繁隐匿系数和登记效率指数,并将其归一化处理得到登记综合表现评估系数,在设定的更新判断阈值范围内进行比较,智能地生成数据处理方式的信号,即流处理信号或批处理信号,从而更好地满足不动产登记数据的处理需求,这样的智能化数据处理方式选择有助于使不动产登记数据中心更高效、灵活地运营,并提供更好的数据服务和分析结果。
21、2、通过获取网络关注值并计算实时批处理间隔,可以智能地调节批处理的时间间隔,可以更及时地处理和更新这些受关注的不动产登记数据,确保数据的准确性和实时性。通过智能调节批处理时间间隔,可以更有效地利用计算资源和存储空间,有助于提升不动产登记数据中心的综合运营能力和数据处理效率。
1.一种大规模跨区域的流批处理一体化服务方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种大规模跨区域的流批处理一体化服务方法,其特征在于:在步骤s1中,变更频繁隐匿系数的获取方法为:设定时间区间u,实时获取该区域在时间区间u内的不动产登记变更次数;将该区域在时间区间u内的不动产登记变更次数和时间区间u对应的时间长度的比值标记为总变更占比;
3.根据权利要求2所述的一种大规模跨区域的流批处理一体化服务方法,其特征在于:在步骤s2中,登记效率指数的获取逻辑为:对时间区间u内的该区域的登记中心处理效率进行获取,在时间区间u内均等设置n个处理效率监测区间,获取处理效率监测区间所对应的登记中心处理效率,对登记中心处理效率进行编号;计算时间区间u内的n个处理效率监测区间所对应的登记中心处理效率的平均值;
4.根据权利要求3所述的一种大规模跨区域的流批处理一体化服务方法,其特征在于:在步骤s3中,将变更频繁隐匿系数和登记效率指数通过归一化处理获得登记综合表现评估系数;设定更新判断阈值;通过将登记综合表现评估系数和更新判断阈值进行比较,生成数据处理方式的信号,数据处理方式的信号包括流处理信号和批处理信号;
5.根据权利要求4所述的一种大规模跨区域的流批处理一体化服务方法,其特征在于:在步骤s4中,网络关注值的获取方法为:建立关键词集合;在时间区间k内,对关键词集合的内容的检索次数进行获取,计算网络关注值,网络关注值为关键词集合的内容的检索次数加1后和预设检索次数的比值;