一种基于直播行业的主数据去重处理方法及系统与流程

文档序号:11864790阅读:557来源:国知局
一种基于直播行业的主数据去重处理方法及系统与流程

本发明属于互联网直播领域,更具体地,涉及一种基于直播行业的主数据疑似合并操作处理方法及系统。



背景技术:

对于直播行业的主数据管理,其并不与其它行业的主数据管理类似,其并不是针对物,也不是信息数据,直播行业针对的是主播个人,人是变化的,直播的情况也是实时变化,不可预测,这种不可预测性使得直播行业的主数据管理并不像其它类型的主数据管理,例如企业主数据管理中物品的折旧等是可以量化计算,但是主播个人的直播情况以及观看直播用户的反馈情况都是不可预测的,因此,现有的主数据方法并不能直接应用到直播行业中。另外,针对直播行业的主数据管理的重要性还体现在一方面是在于能够解决实时数据流量的计算,结算主播薪酬等,如果在所生成的主数据中还包括有重复的数据,会造成结算错误等一些问题,造成管理混乱以及资源浪费的问题。



技术实现要素:

针对现有技术的以上缺陷或改进需求,本发明提供了一种基于直播行业的主数据去重处理方法及系统,其目的在于提供一种能够实时并且准确地对直播行业的主数据进行去重,从而提高主数据管理的精确度。

为实现上述目的,按照本发明的一个方面,提供了一种基于直播行业的主数据去重处理方法,其特征在于,该处理方法包括如下步骤:

设定所述主数据的疑似重复的查询规则;所述查询规则为所述主数据的查询顺序;

设置所述主数据疑似重复的匹配规则,所述匹配规则包括多个匹配元素及所述匹配元素的匹配顺序;

按照所述查询规则及所述匹配规则对所述主数据进行去重筛查并进行去重处理。

进一步地,所述匹配规则包括模糊匹配和精确匹配两种,所述主数据中满足精确匹配的自动进行合并处理,所述主数据中满足模糊匹配的推送至人工判定是否合并处理。

进一步地,所述查询规则为按照所述主数据的生成时间顺序进行查询。

进一步地,所述匹配规则中不采用常用共有信息来作为疑似重复的所述匹配元素。

进一步地,所述匹配规则为先进行所述主数据的名称的匹配,再进行所述主数据的业务类型所涉及的实体对象端的身份信息匹配,所述实体对象包括主播端、广告端以及用户端。

进一步地,所述主数据去重前和去重后的数据源都被保存,以方便人工审核。

本发明还公开了一种基于直播行业的主数据去重系统,其特征在于,所述系统包括与业务系统中的实体对象进行交互的服务器,与所述服务器进行交互的主数据管理平台;

所述服务器包括中央控制模块及存储器模块,所述中央控制模块用于实现服务器与所述业务系统、所述主数据管理平台及所述存储器模块的控制;

所述存储器模块用于存储与所述业务系统中的实体对象对应的主数据;

所述主数据管理平台用于提供与所述服务器交互的界面化接口;

所述中央控制模块包括规则设定子单元、比较子单元及自动合并子单元;

所述规则设定子单元接受来自主数据管理平台的指令,设定针对所属主数据去重的查询规则和匹配规则;

所述比较子单元读取所述存储器模块中的主数据,按照所述规则设定子单元的查询规则和匹配规则执行去重比较;从而根据比较结论分别将主数据传输至所述自动合并子单元或所述存储器模块中的缓冲存储器单元。

进一步地,所述匹配规则包括模糊匹配和精确匹配两种。

进一步地,所述自动合并子单元的去重处理操作为:所述精确匹配产生的结果由所述自动合并子单元来执行合并操作,所述模糊匹配产生的结果由所述自动合并子单元发送至所述存储器模块中的缓冲存储器单元,所述主数据管理平台根据人工指令调取相应数据由人工判定是否合并处理。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:

(1)首次提出了直播行业主主数据的重复数据处理的方法,该方法能显著地提高直播结算的正确性,并且提高资源利用效率;

(2)对疑似的主数据进行多元素的对比搜索,并且进行分级管理,能够完全匹配的采用自动合并处理,并且将部分匹配的数据实现推送,由此实现用户选择的去除处理,使得直播行业主数据去重更加高效并且具有较高的准确率;

(3)对主数据的去重处理的管理也具有多维性,即采用名称和编号的多个角度来进行筛选,进一步地提高了去重的可靠性。

附图说明

图1为按照本发明实现的基于直播行业的主数据疑似合并处理的管理系统的框架示意图;

图2为按照本发明实现的基于直播行业的主数据疑似合并处理的中的服务器模块示意图;

图3为按照本发明实现的基于直播行业的主数据疑似合并处理中的主流程框架示意图;

图4为按照本发明实现的基于直播行业的主数据疑似合并处理中的一种实施例的执行细节框架图;

图5为按照本发明实现的基于直播行业的主数据疑似合并处理系统的框架模块结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示,本实施例所提供的主数据管理方法,主要是基于以下的直播系统来进行的相应管理,该主数据管理涉及的系统包括如下部分:

业务系统:包括主播端、广告端、用户端(即整个直播业务所涉及的实体对象)

主数据库

服务器

主数据管理平台

其中,在直播业务中,主要是通过服务器来完成所有的实体对象端的数据管理,而在该服务器中建立有很对多个实体对象管理的主数据库,来对相应的实体对象的主数据进行管理,相应的实体对象所产生的主数据就存储在相应的主数据库中。几个业务系统中的实体对象的主数据库之间可以直接通信,并且接受服务器的管理,服务器在于各个实体对象进行通信采集相应的数据后,将相应实体对象的主数据送入对应的主数据库进行管理,而主数据管理平台主要提供一个管理主数据的平台,主数据管理平台与服务器进行通信,从服务器中获取基于直播的主数据进行相应的分析。

如图2所示,针对上述的主数据管理系统,该系统主要包括服务器,以及与服务器通信的主数据管理平台,其中,服务器主要包括中央控制模块和存储器模块,其中中央控制模块用于对服务器和主数据管理平台的通信等实现总的控制,并且协调存储器模块实现相应的主数据的存储调用管理。

其中,服务器主要从业务系统包括的实体对象端采集获取相应的主数据进行存储并管理。

其中,在该主数据管理系统中,主数据管理平台先发送相应的主数据调用指令给服务器,服务器中的中央控制模块完成在存储器模块中存储的相应主数据的调取,由于直播行业主数据的实时性,在相应的主数据调用指令发送予服务器时,未调取到相应的主数据,此时中央控制模块向业务系统相应的实体对象发出相应的主数据调用指令,业务系统中的相应的实体对象生成相应的主数据传输予服务器,由此,主数据管理平台可完成相应的主数据管理操作。

其中该主数据管理平台可以是具有界面式主数据管理操作平台式的硬件总机处理平台的形式;

其中上述存储器模块中还设置有一用于存储疑似重复数据的缓冲存储器单元,该缓冲存储器单元用于存储疑似重复的数据,主数据管理平台可以从该缓冲存储器单元中读取相应的数据推送给管理员进行去重等的操作。

在上述的涉及主数据的管理中,比较重要的一个步骤就是对主数据进行疑似查重的处理,因此,要针对主数据的属性类型,来设计合理的针对直播行业主数据管理的方法。

如图3所示,针对直播行业的主数据管理的疑似合并处理规则业务分为三个主要步骤:

第一步:设定主数据疑似重复的规则,针对不同类型的主数据设定不同疑似查询的规则,该规则主要包括主数据的查询顺序。

第二步:设定主数据的疑似重复的匹配规则,对所有生成的主数据,根据设定的主数据规则,查询出满足规则的主数据。

第三步:处理疑似重复的主数据,对完全满足设定规则的疑似重复主数据,系统自动进行合并,对满足部分条件的主数据,单独查询出来,由人工手动进行合并、去重。

实施例1

如图4所示,更进一步的,针对直播行业的主数据疑似重复处理主要包括如下步骤:

STEP1:设置查询归档主数据的顺序

对所有归档的主数据进行查询,将所有的主数据在后台按照主数据生成时间的顺序进行查询;在本实施例中,是按照主数据的生成时间顺序来进行相应的主数据查询,但并不严格限定为主数据的生成时间,查询顺序可以根据主数据管理平台的请求进行灵活的管理,由于针对业务系统中的各个实体对象中的主数据可以存储于设置的不同数据库中,所以,还可以优先识别主数据所涉及的实体对象,按照实体对象类型,甚至是实体对象所涉及的身份认证确定后,按照身份认证的信息来进行相关信息的查询;

STEP2:根据主数据疑似重复的匹配规则设定

主数据匹配规则设定,在上述步骤中,设定了按照如何的规则来进行主数据的查询,为进一步地删选出疑似重复的主数据,必须要设定相应的主数据疑似重复的规则设定;

在本实施例中,只例举按照主数据名称进行匹配的规则,但并不具体限定为主数据的名称,还有其它的匹配规则所涉及的对象,例如名称、时间、业务类型,该业务类型主要是指的直播端的主播频道类型,广告端的广告类型等,当然上述匹配规则的设定还包括设定多个规则来进行匹配,以及规则匹配的顺序;

对STEP1中所有查询出来的主数据,根据已经生成的匹配的规则进行匹配,设定匹配规则后,即按照设定好的规则执行查询;

在本实施例中,规则的设定是先进行主数据的名称的按照主数据的生成顺序进行匹配筛查,再次是判断相应的主数据对应的身份信息,是属于哪个业务系统的实体对象端的数据;

STEP3:按照STEP2中设计的主数据匹配来进行主数据的疑似重复的筛查

STEP3-1:主数据名称是否相似的初步筛选

对名称相似的主数据进行筛选,将名称相似的数据单独的拎出来,对名称在该领域的相似主要体现在名称其中的连续若干字的相同,筛选出上述相似数据之后进入下一步精细的甄别;

在本实施例中是采用名称是否相似的规则来进行判断,但是类似的也可以采用时间的相似来进行判断,由于业务的复杂性和实时性,采用时间的相似来进行判断的时候,很多主数据生成的时间的判断精度要求是很高的,尽量设定到一个比较高精度的生成时间来进行判断;

具体地,除去有限、责任、公司等类似的常用字,将名称有相似字大于1个汉字,和名称中有相似字小于等于1个汉字的情况进行区分,针对这两种情况设定不同的查询规则,由此在不同的情况下把除了常用字以外的非重复主数据匹配规则单独设定出来,提高疑似主数据查询的准确率;

依据上述条件,将满足条件的疑似主数据查询出来;

STEP3-2:将满足步骤STEP3-1中的主数据筛查出后进一步查询主数据的身份信息

查询对应主数据的身份信息:核对疑似主数据的元素,对主数据的其它身份信息进行核查、对比。例如在主数据的名称疑似重复判断后,我们可以根据主数据对应的业务系统中的身份信息来进一步确认是否存在疑似重复的情况。

总之,在上述的查询疑似重复的思路中,主要是设定多级的匹配规则,针对不同的匹配规则也可根据相应的处理结果来进一步进行匹配原则的设定,这种处理结果可以为系统自动进行疑似数据和合并,或者是推送给用户自行选择判定是否进行主数据的合并。即:如果疑似主数据的元素出现重复,我们会根据核心元素是否重复来进行判断。如果核心元素出现重复,我们将会自动对主数据内容进行合并。例如:在主播端的业务实体所涉及的主数据中,观看其直播频道节目的用户身份信息是核心元素。如果该用户反馈给相应主播端的消息名称是疑似重复的,并且用户身份信息也出现重复,则该主数据默认为是已重复的主数据,系统会自动进行合并,这样在进行主播端的实时薪酬结算时能精确避免重复观看流量的计算;

STEP4:对STEP3中筛查出来的主数据进行处理

根据设定主数据的疑似重复筛查规则,将满足疑似重复的主数据查询出来,区分默认自动合并的主数据和未自动合并的主数据。

自动进行合并:如果核心元素出现重复,自动对主数据内容进行合并,将自动合并的主数据作为列表显示给主数据管理平台进行审核,由人工进一步地判断自动合并主数据的正确与否;

比对结果发送主数据管理平台进行审核:对处理疑似合并的主数据的处理结果生成记录,并通过工作流发送部门领导进行审核。

通过主数据管理平台根据比对结果进行核查:主数据管理平台上的用户可以对自动合并的相关数据进行筛查检查合并操作是否正确,并对疑似主数据进行检查,将检查的结果进行相应的记录。

对疑似主数据进行手动合并:点击手动合并,将上报的疑似主数据进行合并。

进一步地,上述处理过程中和过程后的源数据都会在存储器中进行存储,方便可以随时调用数据使得管理部门能对主数据的管理过程进行核查。

如图5所示,另外一方面,本发明还提出了一种基于直播行业的主数据去重处理系统,该系统是基于上述主数据管理系统中的中央控制模块,在上述中央控制模块中,主要包括如下子单元,规则设定子单元、比较子单元及自动合并子单元;

其中,规则设定子单元接受来自主数据管理平台的指令,设定针对主数据去重管理的匹配规则;

相关的主数据管理员可以根据业务系统的具体情况在主数据管理平台上进行匹配规则的设定,并且可以依据业务系统的主数据的规律形成相应的匹配规则案例库来进行匹配规则的设定;

其中比较子单元读取存储器模块中的主数据,按照规则设定子单元的匹配规则来进行主数据的去重比较;

比较子单元在获取相应的比较结果之后,将可以实现自动合并的相应数据发送至自动合并子单元来执行相应的合并操作,并且将合并后的数据发送至存储器模块中的缓冲存储器单元,并且比较子单元也将相应的要推送给管理员操作合并的相关数据也发送至缓冲存储器单元;

从而,在主数据管理平台上,能够从缓冲存储器单元中调用相关的数据来形成自动合并的记录或者是待合并的数据界面推送至主数据管理平台,由管理员来执行和审核相关的主数据去重操作。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1