本发明涉及数据处理技术领域,特别涉及一种数据处理方法和装置。
背景技术:
当数据对应语句比较复杂,不同识别系统识别出的结果可能差别较大;如情绪信息的获取与建模问题、情绪识别与理解问题、情感表达问题,以及自然和谐的人性化和智能化的人机交互的实现问题。就情绪识别而言,目前的情绪识别系统的准确率并不高,拿语句情绪识别举例,当语句比较复杂时,不同的情绪识别系统可能会出现截然不同的结果。
如何获取更准确的数据识别结果,是目前急需决绝的问题。
技术实现要素:
有鉴于此,本申请提供一种数据处理方法和装置,能够决证据冲突问题,提高数据处理的准确性,进而提高了数据识别的准确率
为解决上述技术问题,本申请的技术方案是这样实现的:
在一个实施例中,提供了一种数据处理方法和装置,所述方法包括:
获取多条待处理数据;
根据每条所述数据的置信水平调整对应所述数据的基本概率分配bpa;并将调整后的bpa进行归一化处理;其中,每个所述数据的置信水平根据对应数据与其它数据之间的距离总和确定;
按照预设融合规则融合所有数据的归一化后的bpa;并基于预设判决条件确定融合结果。
在另一个实施例中,提供了一种数据处理装置,所述装置包括:获取单元、调整单元和融合单元;
所述获取单元,用于获取多条待处理数据;
所述调整单元,用于根据每个所述获取单元获取的数据的置信水平调整对应所述数据的基本概率分配bpa;并将调整后的bpa进行归一化处理;其中,每个所述数据的置信水平根据对应数据与其它数据之间的距离总和确定;
所述融合单元,用于按照预设融合规则融合所述调整单元调整后的所有数据的归一化后的bpa;并基于预设判决条件确定融合结果。
在另一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如所述数据处理方法的步骤。
在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述数据处理方法的步骤。
由上面的技术方案可见,上述实施例中通过引入数据的置信水平来调整数据的bpa,使用调整后的bpa进行融合,并根据判决条件确定融合结果,该方案能够解决证据冲突问题,提高数据处理的准确性,进而提高了识别的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中数据处理流程示意图;
图2为本申请实施例中应用于上述技术的一种装置结构示意图;
图3为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
本申请实施例中提供一种数据处理方法,可以通过具有数据处理能力的处理设备实现。
处理设备可以是具有数据处理能力的服务器,或者具有数据处理能力的终端设备。其中,服务器可以是独立的服务器,也可以是由多个服务器构成的服务器集群。终端设备可以是具有数据处理能力的任何用户设备,包括但不限于:现有的、正在研发的或将来研发的智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。
本申请具体实现时通过引入数据的置信水平来调整证据的基本概率分配(basicprobabilityassignment,bpa),使用调整后的bpa进行融合,并根据判决条件确定融合结果,该方案能够解决证据冲突问题,提高数据处理的准确性,进而提高了识别的准确率。
该数据处理方法可以应用于各种数据的识别场景,如情绪识别相关数据、语音识别相关数据等。
以情绪识别相关数据为例,情绪识别可以基于语音进行识别,也可以基于文本进行识别;
以基于文本识别为例,待识别文本可以通过某种方式获取的一段文字,如完整的文学作品,也可以是文学作品中的一部分,也可以是获取的一段文字,或者一段语音转化的文本。
现有实现中存在多种情绪识别方式,基于上述待识别文本,使用每种情绪识别方式都可以获取一个情绪识别结果。
本申请提供的技术方案是将多个识别系统的识别结果对应的数据进一步进行处理,以确定最终的识别结果,即最接近真实情绪的识别结果。
下面结合附图,详细说明本申请实施例中实现数据处理的过程:
参见图1,图1为本申请实施例中数据处理流程示意图。具体步骤为:
步骤101,获取多条待处理数据。
步骤102,根据每个所述数据的置信水平调整对应证据的bpa;并将调整后的bpa进行归一化处理。
本申请在处理多条数据时,通过改进的d-s证据理论来进行融合时,可将所述每一条数据作为一条证据,证据距离描述了每条证据中所包含信息的相似程度,在解决冲突问题中具有显著的作用,证据距离能够将证据间相互支持的程度进行量化,方便d-s证据理论的数值计算。
为了解决证据冲突问题,提高数据处理的准确性,本申请实施中针对每个证据引入的置信水平来描述证据的可靠性和可信度,用来在证据融合之前修改以及预处理融合所需的原始数据。
本申请实施例中计算两个数据(证据)之间的距离时,采用基于相同域中离散概率分布的巴氏距离计算。
在相同域x中的离散概率分布p和q,则巴氏距离定为:
bb(p,q)=-ln(bc(p,q));
其中:
基于上述巴氏距离的对称特性,本申请实施例中给出计算两个证据之间的距离公式,具体如下:
两个证据mi与mj之间的距离公式定义为:
dbpa(mi,mj)=dij=-ln(bc(mi,mj));
其中:
由此可以得出一个n×n的距离矩阵dm,显而易见,dm为对称矩阵并且它的对角线元素都为0。
则证据ei与其他证据之间的距离总和为:
ui的大小代表证据ei与其他证据之间距离的和,它的大小反映出证据ei和其他证据之间的相似程度。ui越大,则证据ei与其他证据之间的距离总和越大、相似程度越低,证据ei为噪声点的可能性越大,同时其置信水平αi就越低。相反,证据ei的ui越小,表明证据ei与其他证据之间的距离总和越小、所表达信息的相似程度越高,证据ei所对应的置信水平αi就应该越高。
证据ei的置信水平αi被定义为:
第i个证据的置信αi为:
其中,ui为第i个证据与n个证据中的其它证据之间的距离总和;uj为第j个证据与n个证据中的其它证据之间的距离总和,n为证据的总个数。
在这里对运用巴氏距离计算两证据之间距离的特殊情况进行如下改进处理:
当bc(mi,mj)→0时,ln(bc(mi,mj))→-∞,则两个证据mi与mj之间的距离dbpa(mi,mj)→+∞,所以证据ei与其他证据之间距离总和为:ui→+∞,则证据ei的证据置信水平为:αi→0。
根据证据ei的置信水平αi,证据ei经过调整后的bpa被定义为:
m'(φ)=0;
经过上述调整后,
所以要对其进行归一化处理,得到最终调整后的bpa:
所得到的最终调整后的bpa解决了证据冲突问题,为后续使用融合规则进行融合做好了充分的准备。
步骤103,按照预设融合规则融合所有数据的归一化后的bpa;并基于预设判决条件确定融合结果。
本申请实施例中提供的预设融合规则为对d-s组合规则进行改进后的融合规则,具体融合时是第一次融合两个证据(数据)的bpa,后续每次在前一次的融合结果上再融合一个证据(数据)的bpa,直到将所有证据(数据)的bpa融合。
本申请实施例中按照预设融合规则融合获取的所有数据(证据)的归一化后的bpa,具体包括:
选择所有数据(证据)的归一化后的bpa中的两个bpa进行融合,并记录第一次融合结果为m1;
针对第一次融合可以在所有数据(证据)的bpa中随机选择两个数据(证据)的bpa进行融合,或者按照某种规则选择两个数据(证据)的bpa进行融合。
第x次融合时,使用第x-1次融合的结果与未进行融合的一个数据(证据)的归一化后的bpa进行融合,并记录融合结果为mx;
在未进行融合的数据(证据)中选择一个数据(证据)的bpa的方式可以按照设置的某种预设规则进行选择,如随机选择,按预先设定的数据(证据)标识对应顺序选择等。
第x次融合时,使用第x-1次融合的结果与未进行融合的数据(证据)的归一化后的bpa进行融合,并记录融合结果为mx;
其中,x为大于1且不小于x的整数,x=n-1。
其中,两两融合的融合规则为:
m(a)=∑b∩c=am”(b)×m”(c)+k×mnew(a);
其中,m(a)为当前两两融合后数据(证据)对事件a的支持程度,mnew(a)为上一次融合后数据(证据)对事件a的支持程度,k为数据(证据)冲突因子。
m(φ)=0,
m”(b)和m”(c)为当前融合的两数据(证据)中,满足b∩c=a的,表示b和c同时支持a。b、c是代指。如a∩a=a,那m”(b)即当前融合的两条数据(证据)中的其中一条数据(证据)的m(a),m”(c)即当前融合的两条数据(证据)中的另一条数据(证据)的m(a)。
如果存在n个数据(证据)的bpa,则经过n-1次融合,得到最终的融合结果。
这里采用将局部冲突分配给局部命题,不需要一次性求出所有证据间的全局冲突,以减少融合过程计算复杂程度,确保结果的实时性、合理性和正确性。
本申请实施例中基于预设判决条件确定融合结果为:
若融合结果满足
其中,ε为预设阈值;m(a1)是融合后最大的支持度,a1为最支持的事件,m(a2)是融合后次大的支持度,a2为支持度第二大的事件。
这里的θ为d-s证据理论中假设的一个有限的非空假设集,作为证据理论的识别框架(frameofdiscernment,fod),它由p个互斥的假设组成。fod定义为:θ={h1,h2,...hp},其中p是识别系统中假设的个数,h是识别系统中的每一个假设。系统做出的所有决策方案集合都是识别框架θ的幂集2θ的一个子集。
下面给出n个证据的归一化后的bpa融合的伪代码,具体如下:
input:evidence
output:fr//theresultofdatafusion
procedure:
综上所述,本申请通过引入巴氏距离来确定证据的置信度,进而调整证据的bpa,来解决证据冲突的问题,并在进行数据处理时基于改进d-s组合规则来两两融合证据的bpa,能够提高融合的准确率。
基于同样的发明构思,本申请实施例中还提供了一种数据处理装置。参见图2,图2为本申请实施例中应用于上述技术的一种装置结构示意图。所述装置包括:获取单元201、调整单元202和融合单元203;
获取单元201,用于获取多条待处理数据;
调整单元202,用于根据每个获取单元201获取的所述数据的置信水平调整对应数据的bpa;并将调整后的bpa进行归一化处理;其中,每个所述数据的置信水平根据对应数据与其它数据之间的距离总和确定;
融合单元203,用于按照预设融合规则融合调整单元202调整后的所有数据的归一化后的bpa;并基于预设判决条件确定融合结果。
优选地,
调整单元202,具体用于所述每个所述数据的置信水平根据对应数据与其它数据之间的距离总和确定时,包括:第i个数据的置信αi为:
优选地,
调整单元202,具体用于计算两个数据之间的距离时,采用基于相同域中离散概率分布的巴氏距离计算。
优选地,
融合单元203,具体用于按照预设融合规则融合获取的所有数据的归一化后的bpa时,包括:选择所有数据的归一化后的bpa中的两个bpa进行融合,并记录第一次融合结果为m1;第x次融合时,使用第x-1次融合的结果与未进行融合的一个数据的归一化后的bpa进行融合,并记录融合结果为mx;第x次融合时,使用第x-1次融合的结果与未进行融合的数据的归一化后的bpa进行融合,并记录融合结果为mx;其中,x为大于1且不小于x的整数,x=n-1。
优选地,
两两融合的融合规则为:m(a)=∑b∩c=am”(b)×m”(c)+k×mnew(a);其中,m(a)为当前两两融合后数据对事件a的支持程度,mnew(a)为上一次融合后数据对事件a的支持程度,k为数据冲突因子;m”(b)为当前融合的两条数据中的其中一条数据的m(a),m”(c)为当前融合的两条数据中的另一条数据的m(a)。
优选地,
所述基于预设判决条件确定融合结果为:若融合结果满足
上述实施例的单元可以集成于一体,也可以分离部署;可以合并为一个单元,也可以进一步拆分成多个子单元。
在另一个实施例中,还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述数据处理方法的步骤。
在另一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时可实现所述数据处理方法中的步骤。
图3为本发明实施例提供的电子设备的实体结构示意图。如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(communicationsinterface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器610可以调用存储器330中的逻辑指令,以执行如下方法:
获取多条待融合数据作为多个数据;
根据每个所述数据的置信水平调整对应数据的bpa;并将调整后的bpa进行归一化处理;其中,每个所述数据的置信水平根据对应数据与其它数据之间的距离总和确定;
按照预设融合规则融合所有数据的归一化后的bpa;并基于预设判决条件确定融合结果。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。