社交应用数据的筛选方法和装置与流程

文档序号:12120952阅读:385来源:国知局
社交应用数据的筛选方法和装置与流程

本申请涉及数据筛选领域,具体而言,涉及一种社交应用数据的筛选方法和装置。



背景技术:

在对社交应用的数据(例如微博数据)进行语义分析时,会发现很多不具备语义分析价值的微博,这些微博可能只有几个表情,或者只有简短的几个字,或者只是转发一个链接等等,对于这类微博数据,进行语义分析时一般无法获取到有价值的信息,白白耗费服务器的运算和存储,所以需要在进行语义分析之前将此类信息过滤掉。现有方案一般是根据经验值设定文本最小长度来判断,当微博文本长度小于一定值时则认为该微博不具备语义分析的价值。

上述方案的缺点在于,难以确定一个长度基准值,若基准值设置过大,会造成部分有意义短文本被错误的过滤掉,若基准值过小又难以过滤掉很多无意义微博。即现有技术存在进行社交应用数据的筛选时不准确的问题。

针对上述的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请实施例提供了一种社交应用数据的筛选方法和装置,以至少解决在进行社交应用数据的筛选时不准确的技术问题。

根据本申请实施例的一个方面,提供了一种社交应用数据的筛选方法,包括:获取筛选阈值;根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值;判断所述筛选分值是否小于所述筛选阈值;如果判断出所述筛选分值小于所述筛选阈值,则丢弃所述待筛选数据;以及如果判断出所述筛选分值大于等于所述筛选阈值,则保留所述待筛选数据。

根据本申请实施例的另一方面,还提供了一种社交应用数据的筛选装置,包括:阈值获取单元,用于获取筛选阈值,所述筛选阈值用于筛选数据;分值获取单元,用于获取待筛选数据的筛选分值,其中,所述筛选分值根据所述待筛选数据的有效数据元素和无效数据元素得到;阈值判断单元,用于判断所述筛选分值是否小于所述筛选 阈值;第一丢弃单元,用于在判断出所述筛选分值小于所述筛选阈值时,丢弃所述待筛选数据;以及保留单元,用于在判断出所述筛选分值大于所述筛选阈值时,保留所述待筛选数据。

在本申请实施例中,获取筛选阈值;根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值;判断筛选分值是否小于筛选阈值;如果判断出筛选分值小于筛选阈值,则丢弃待筛选数据;以及如果判断出筛选分值大于等于筛选阈值,则保留待筛选数据。待筛选数据可以包括有效数据元素和无效数据元素,对有效数据元素和无效数据元素进行打分可以兼顾待筛选数据中的有效数据元素和无效数据元素对筛选结果的影响,避免了单一的考虑待筛选数据的长度所造成的误筛选,解决了现有技术中在筛选社交应用数据不准确的问题,达到了准确筛选数据的效果

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的社交应用数据的筛选方法的流程图;

图2是根据本申请实施例的一种可选的社交应用数据的筛选方法的流程图;以及

图3是根据本申请实施例的社交应用数据的筛选装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例,提供了一种社交应用数据的筛选方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的社交应用数据的筛选方法的流程图,如图1所示,该方法包括如下步骤:

步骤S102,获取筛选阈值。

步骤S104,根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值。社交应用的数据可以是微博、空间状态和评论等。在这些社交应用的数据中可能包括表情符号、转发的地址、简单的文字和@好友等内容,而这些表情符号和@好友等内容是不具有语义分析意义的,属于无效数据元素。待筛选数据还包括具有语义分析意义的有效数据元素。有效数据元素可以是一段文字数据。筛选分值可以是一条数据的得分,该得分包括有效数据元素的分值和无效数据元素的分值,通过有效数据元素的分值和无效数据元素的分值决定一条待筛选数据的筛选分值。

步骤S106,判断筛选分值是否小于筛选阈值。

步骤S108,如果判断出筛选分值小于筛选阈值,则丢弃待筛选数据。

步骤S110,如果判断出筛选分值大于筛选阈值,则保留待筛选数据。

通过上述实施例,待筛选数据可以包括有效数据元素和无效数据元素,对有效数据元素和无效数据元素进行打分可以兼顾待筛选数据中的有效数据元素和无效数据元素对筛选结果的影响,避免了单一的考虑待筛选数据的长度所造成的误筛选,解决了现有技术中在筛选社交应用的数据不准确的问题,达到了准确筛选数据的效果。

可选地,待筛选数据包括多种子数据元素,子数据元素为有效数据元素或无效数据元素,根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值包括:获取多种子数据元素中每种子数据元素的个数;获取每种子数据元素的基准值;对每种子数据元素的个数和相应的基准值进行相乘,得到多个乘积;累加多个乘积,得到筛选分值。

例如,每种子数据元素的加(减)分的基准值为:话题标签(##)+2分、提及人(@标签)-2分、URL-10分、表情-1分和有效文本+1等,其中,话题标签、提及人、URL和表情为无效数据元素,文本为有效数据元素。例如,某个待筛选数据具有一个话题标签,一个URL,并@了4个人,有效文本长度为68,则该待筛选数据的筛选分值 为:

(1*2)+(1*(-10))+(4*(-2))+68*1=52

如果筛选阈值为50,则上述待筛选数据大于筛选阈值,保留该待筛选数据。如果在该例子中有效文本长度为8,按照上述计算方法得到的筛选分值-8,那么该待筛选数据应该被丢弃。但是,由于该待筛选数据的无效数据元素较多,数据的总长度会大于15,按照现有的筛选方法可能会保留该待筛选数据,就导致筛选不准确。可见,本实施例的筛选方法能够提高筛选的准确性。

可选地,保留所述待筛选数据包括:获取基准长度;获取待筛选数据的有效数据长度,有效数据长度为有效数据元素的长度;判断有效数据长度是否大于等于基准长度;如果有效数据长度大于等于基准长度,则保留待筛选数据;如果有效数据长度小于基准长度,则丢弃待筛选数据。

为了进一步提高筛选的准确性,在筛选分值大于等于筛选阈值的情况下,判断有效数据的长度是否大于基准长度,同时满足大于筛选阈值和基准长度的待筛选数据才被确定为有语义分析意义的数据,并且保留这些数据以备进行语义分析。同时,基准长度是通过筛选模型计算出来的,与人工设定的长度相比更准确。

可选地,在获取待筛选数据的筛选分值之前,方法还包括:获取待筛选数据的长度和基准长度;判断待筛选数据的长度是否大于等于基准长度;在判断出待筛选数据的长度大于等于基准长度时,则确定继续获取待筛选数据的筛选分值;在判断出待筛选数据的长度小于基准长度时,则丢弃待筛选数据。

例如,待筛选数据的长度为4,基准长度为5,则判断出待筛选的数据长度小于基准长度,该待筛选数据不具有继续筛选的意义,因此,丢弃该待筛选数据。由于采用基准长度先粗略的丢弃一部分不满足基准长度的数据,因此,提高了筛选效率。

可选地,获取筛选阈值包括:获取社交应用的样本数据的筛选模型,其中,筛选模型根据样本数据的数据元素建立;利用筛选模型对样本数据进行分析;输出筛选阈值。

可选地,获取社交应用的样本数据的筛选模型包括:获取样本数据,识别样本数据的数据元素;利用样本数据的数据元素对样本数据进行评分,得到评分结果;分析评分结果并建立筛选模型。

在建立筛选模型时,给定样本数据一个初始值,假定为100分。分别为每个数据元素设定加(减)分的基准值,如话题标签(##)+2分、提及人(@标签)-2分、URL-10 分、表情-1分和有效文本+1等。对每条数据识别出数据中的各种子数据元素,并统计每种子数据元素出现的次数,并用该子数据元素出现的次数乘以这种子数据元素评分的基准值得到此样本数据在该项评分标准上的得分,如某条样本数据含有一个话题标签,一个URL,并@了4个人,有效文本长度为68,则该条样本数据用初始值与各项数据元素的最终得分相加得出该样本数据的最终评分:

100+(1*2)+(1*(-10))+(4*(-2))+68*1=152

对多个样本数据按照上述方法进行评分,并分析多个样本数据的评分结果,建立筛选模型。利用筛选模型对数据元素的基准值进行调整,最终得出基准长度和数据元素的基准值。

以下结合图2对本申请实施例的一种社交应用的数据的筛选方法进行说明。

步骤S201,获取一条微博数据D,其长度为L(D)。

步骤S202,L(D)>=L。L是基准长度,如果微博数据的长度大于筛选模型计算出来的基准长度L,则执行步骤S203,继续筛选;否则,执行步骤S206,确定该微博不具有语义分析价值。

步骤S203,识别出D中的标签、表情、URL等信息,即识别出标签、表情和URL等子数据元素。

步骤S204,根据上述信息和基准值计算该微博的最终得分X。即用每种子数据元素(如标签、表情和URL)的个数以及对应的基准值的乘积进行累加,得到微博的最终得分X。

步骤S205,X>=F且L(D1)>=L?L(D1)为微博中有效数据元素的长度,F为筛选阈值,在微博的最终得分大于等于筛选阈值F,且L(D1)大于等于基准长度时,确定该微博具有语义分析价值,执行步骤S207;否则,执行步骤S206,确定该微博不具有语义分析价值。

步骤S206,确定该微博不具有语义分析价值,即丢弃该微博。

步骤S207,确定该微博具有语义分析价值,即保留该微博。

利用根据样本数据建立的筛选模型得到筛选阈值,由于该筛选模型基于社交应用的样本数据中的样本元素建立的,因而能够准确的反应出数据中的每个样本元素对数据的评分的影响。并且,筛选模型建立所基于的样本数据是没有分析意义的社交应用的数据,利用该筛选模型训练出来的筛选阈值可以全面、准确的反映出无分析意义的 社交应用的数据普遍满足的标准,因此,利用从筛选模型中提取的筛选阈值对待筛选数据进行筛选时,更加准确的筛选出有分析意义的数据和无分析意义的数据,解决了现有技术在筛选社交应用的数据时仅凭经验值判断所导致的筛选不准确的问题。同时,该实施例的筛选模型是根据数据元素建立的,从筛选模型中提取的筛选阈值也是基于数据元素得到的,因此,在筛选时充分考虑到数据元素的存在,而不仅仅是根据数据的长度来判断,进一步提高了筛选数据的准确性。

根据本申请实施例,提供了一种社交应用的数据的筛选装置的装置实施例。该社交应用的数据的筛选装置可以用于执行上述社交应用的数据的筛选方法,上述社交应用的数据的筛选方法也可以通过该社交应用的数据的筛选装置执行。

图3是根据本申请实施例的社交应用的数据的筛选装置的示意图。如图所示,该社交应用的数据的筛选装置包括:

阈值获取单元10用于获取筛选阈值。

分值获取单元20用于根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值。社交应用的数据可以是微博、空间状态和评论等。在这些社交应用的数据中可能包括表情符号、转发的地址、简单的文字和@好友等内容,而这些表情符号和@好友等内容是不具有语义分析意义的,属于无效数据元素。待筛选数据还包括具有语义分析意义的有效数据元素。有效数据元素可以是一段文字数据。筛选分值可以是一条数据的得分,该得分包括有效数据元素的分值和无效数据元素的分值,通过有效数据元素的分值和无效数据元素的分值决定一条待筛选数据的筛选分值。

阈值判断单元30用于判断筛选分值是否小于筛选阈值。

第一丢弃单元40用于在判断出筛选分值小于筛选阈值时,丢弃待筛选数据。

保留单元50用于在判断出筛选分值大于筛选阈值时,保留待筛选数据。

通过上述实施例,待筛选数据可以包括有效数据元素和无效数据元素,对有效数据元素和无效数据元素进行打分可以兼顾待筛选数据中的有效数据元素和无效数据元素对筛选结果的影响,避免了单一的考虑待筛选数据的长度所造成的误筛选,解决了现有技术中在筛选社交应用的数据不准确的问题,达到了准确筛选数据的效果。

可选地,待筛选数据包括多种子数据元素,子数据元素为有效数据元素或无效数据元素,分值获取单元包括:个数获取模块,用于获取多种子数据元素中每种子数据元素的个数;基准值获取模块,用于获取每种子数据元素的基准值;乘积模块,用于分别将每种子数据元素的个数和相应的基准值相乘,得到多个乘积;累加模块,用于 累加多个乘积,得到筛选分值。

例如,每种子数据元素的加(减)分的基准值为:话题标签(##)+2分、提及人(@标签)-2分、URL-10分、表情-1分和有效文本+1等,其中,话题标签、提及人、URL和表情为无效数据元素,文本为有效数据元素。在某个待筛选数据具有一个话题标签,一个URL,并@了4个人,有效文本长度为68,则该待筛选数据的筛选分值为:

(1*2)+(1*(-10))+(4*(-2))+68=52

如果筛选阈值为50,则上述待筛选数据大于筛选阈值,保留该待筛选数据。如果在该例子中有效文本长度为8,按照上述计算方法得到的筛选分值-3,那么该待筛选数据应该被丢弃。但是,由于该待筛选数据的无效数据元素较多,数据的总长度会大于15,按照现有的筛选方法可能会保留该待筛选数据,就导致筛选不准确。可见,本实施例的筛选方法能够提高筛选的准确性。

可选地,保留单元包括:基准长度获取模块,用于在判断出筛选分值小于筛选阈值之后,且丢弃待筛选数据之前,获取基准长度;有效长度获取模块,用于获取待筛选数据的有效数据长度,有效数据长度为有效数据元素的长度;长度判断模块,用于判断有效数据长度是否大于等于基准长度;保留模块,用于在有效数据长度大于等于基准长度时,保留待筛选数据。该装置还包括丢弃模块,用于在有效数据长度小于基准长度时,丢弃待筛选数据。

为了进一步提高筛选的准确性,在筛选分值大于筛选阈值的情况下,判断有效数据的长度是否大于基准长度,同时满足大于筛选阈值和基准长度的待筛选数据才被确定为有语义分析意义的数据,并且保留这些数据以备进行语义分析。同时,基准长度是通过筛选模型计算出来的,与人工设定的长度相比更准确。

可选地,装置还包括:长度获取单元,用于在获取待筛选数据的筛选分值之前,获取待筛选数据的长度和基准长度;长度判断单元,用于判断待筛选数据的长度是否大于等于基准长度;确定单元,用于在判断出待筛选数据的长度大于等于基准长度时,则确定继续获取待筛选数据的筛选分值;第二丢弃单元,用于在判断出待筛选数据的长度小于基准长度时,则丢弃待筛选数据。

例如,待筛选数据的长度为4,基准长度为5,则判断出待筛选的数据长度小于基准长度,该待筛选数据不具有继续筛选的意义,因此,丢弃该待筛选数据。由于采用基准长度先粗略的丢弃一部分不满足基准长度的数据,因此,提高了筛选效率。

可选地,该装置还包括:模型获取模块,用于获取社交应用的样本数据的筛选模型,其中,筛选模型根据样本数据的数据元素建立;分析模块,用于利用筛选模型对 样本数据进行分析;输出模块,用于输出筛选阈值。

可选地,模型获取模块包括:识别子模块,用于获取样本数据,并识别样本数据的数据元素;评分子模块,用于利用样本数据的数据元素对样本数据进行评分,得到评分结果;分析子模块,用于分析评分结果并建立筛选模型。

在建立筛选模型时,给定样本数据一个初始值,假定为100分。分别为每个数据元素设定加(减)分的基准值,如话题标签(##)+2分、提及人(@标签)-2分、URL-10分、表情-1分和有效文本+1等。对每条数据识别出数据中的各种子数据元素,并统计每种子数据元素出现的次数,并用该子数据元素出现的次数乘以这种子数据元素评分的基准值得到此样本数据在该项评分标准上的得分,如某条样本数据含有一个话题标签,一个url,并@了4个人,有效文本长度为68,则该条样本数据用初始值与各项数据元素的最终得分相加得出该样本数据的最终评分:

100+(1*2)+(1*(-5))+(4*(-2))+68=157

对多个样本数据按照上述方法进行评分,并分析多个样本数据的评分结果,建立筛选模型。利用筛选模型对数据元素的基准值进行调整,最终得出基准长度和数据元素的基准值。

利用根据样本数据建立的筛选模型得到筛选阈值,由于该筛选模型基于社交应用的样本数据中的样本元素建立的,因而能够准确的反应出数据中的每个样本元素对数据的评分的影响。并且,筛选模型建立所基于的样本数据是没有分析意义的社交应用的数据,利用该筛选模型训练出来的筛选阈值可以全面、准确的反应出无分析意义的社交应用的数据普遍满足的标准,因此,利用从筛选模型中提取的筛选阈值对待筛选数据进行筛选时,更加准确的筛选出有分析意义的数据和无分析意义的数据,解决了现有技术在筛选社交应用的数据时仅凭经验值判断所导致的筛选不准确的问题。同时,该实施例的筛选模型是根据子数据元素建立的,从筛选模型中提取的筛选阈值也是基于子数据元素得到的,因此,在筛选时充分考虑到子数据元素的存在,而不仅仅是根据数据的长度来判断,进一步提高了筛选数据的准确性。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件 可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1