1.一种用于分析社交网络信息的高质量信息获取方法,其特征在于,包括如下步骤:
s1、预设数据流阀值和单信息重复阀值;
s2、根据数据流阀值和单信息重复阀值,获取社交网络信息数据流;
s3、对所获取的社交网络信息数据流进行特征量提取,并生成特征量集合;
s4、根据特征量集合,计算获取社交网络信息数据流的质量评分、重复规避评分和独立评分;
s5、根据质量评分、重复规避评分和独立评分,计算获取社交网络信息数据流的有效性评分,获取高质量的社交网络信息数据流。
2.如权利要求1所述的一种用于分析社交网络信息的高质量信息获取方法,其特征在于,所述预设数据流阀值和单信息重复阀值,具体为:
设定数据流阀值g,截取超过g值的社交网络信息数据流;
设定单信息重复阀值β,过滤剔除超过β值的单信息重复数据流。
3.如权利要求1或2所述的一种用于分析社交网络信息的高质量信息获取方法,其特征在于,所述根据数据流阀值和单信息重复阀值,获取社交网络信息数据流,具体为:
截取超过g值的社交网络信息数据流,根据所设定单信息重复阀值β,过滤剔除超过β值的重复数据流,留下满足单信息状态的社交网络信息数据流;
其中,g范围为大于或等于800的整数,β范围为0-0.005;
获取g个关于社交网络信息的转发及评论的记录信息,记录为pk;
pk表示第k个社交网络信息的转发及评论的记录信息。
4.如权利要求3所述的一种用于分析社交网络信息的高质量信息获取方法,其特征在于,所述pk包括对第k个社交网络信息进行转发及评论的用户的id、用户所评论的文字内容、用户的关注总人数、用户的粉丝总人数以及用户自发布的社交网络信息总量,分别记录为idk,ctk,prgk,prfk,prwk,记录pk={idk,ctk,prgk,prfk,prwk};
其中,k=1,2,3......g。
5.如权利要求1或4所述的一种用于分析社交网络信息的高质量信息获取方法,其特征在于,所述对所获取的社交网络信息数据流进行特征量提取,并生成特征量集合,具体为:
提取k个记录信息的特征量集合,记录为pfk(l),所述pfk(l)表示第k个转发记录的第l个特征量;
其中,l=1,2,3,4;
所述pfk(l)具体为:
根据获取的g个关于社交网络信息的转发及评论的记录信息,记录g个记录信息的特征量集合,记录为pfp,p=1,2,3......g。
6.如权利要求5所述的一种用于分析社交网络信息的高质量信息获取方法,其特征在于,所述根据特征量集合,计算获取社交网络信息数据流的质量评分,具体为:
根据pfp,对记录信息进行质量判定,得出质量评分,记录为sc(p),其中,p=1,2,3......g;
计算pk的质量得分,记录为sc(k):
7.如权利要求6所述的一种用于分析社交网络信息的高质量信息获取方法,其特征在于,所述根据特征量集合,计算获取社交网络信息数据流的重复规避评分,具体为:
根据pfp,以及用户的id,对g个记录信息进行重复规避判定,分析各记录的重复规避评分,记录为ss(p),其中,p=1,2,3......g;
计算pk的重复规避评分,记录为ss(k):
8.如权利要求7所述的一种用于分析社交网络信息的高质量信息获取方法,其特征在于,所述根据特征量集合,计算获取社交网络信息数据流的独立评分,具体为:
根据pfp,以及用户所评论的文字内容ctk,分析各记录的独立评分,记录为st(p),其中,p=1,2,3......g;
计算pk的独立评分,记录为st(k):
9.如权利要求8所述的一种用于分析社交网络信息的高质量信息获取方法,其特征在于,所述根据质量评分、重复规避评分和独立评分,计算获取社交网络信息数据流的有效性评分,获取高质量的社交网络信息数据流,具体为:
根据获取的g个所有记录信息的质量评分、重复规避评分和独立评分,计算各记录的有效性,记录为s(p),其中,p=1,2,3......g;
所述pk的有效性,记录为s(k):
s(k)=sc(k)*ss(k)*st(k);
将s(k)=0的转发和记录的pk删除,剩余pk即为社交网络信息数据流。
10.一种用于分析社交网络信息的高质量信息获取系统,其特征在于,包括:
阀值预设模块:用于预设数据流阀值和单信息重复阀值;
社交信息数据流获取模块:用于根据阀值预设模块设置的数据流阀值和单信息重复阀值,获取社交网络信息数据流;
特征量集合生成模块:用于对社交信息数据流获取模块所获取的社交网络信息数据流进行特征量提取,并生成特征量集合;
有效性社交网络信息数据流计算分析模块:用于预设算法,根据特征量集合,计算获取社交网络信息数据流的质量评分、重复规避评分和独立评分;以及,根据质量评分、重复规避评分和独立评分,计算获取社交网络信息数据流的有效性评分,获取高质量的社交网络信息数据流。