一种基于分布和真值评定指标的高帧信息获取方法和系统与流程

文档序号:22759909发布日期:2020-10-31 09:58阅读:129来源:国知局
一种基于分布和真值评定指标的高帧信息获取方法和系统与流程

本申请涉及互联化信息处理技术领域,具体而言,涉及一种基于分布和真值评定指标的高帧信息获取方法和系统。



背景技术:

社交网络作为一种重要高效的信息传递平台,参与其中的人员越来越多。政府、事业单位和企业等等在社交网络平台上与外界各人员进行信息交互并吸收建议,接受外界对企业的发展计划或者政策进行效果评定,进而根据外界效果评定而修订计划。

目前,企业对社交信息评定一般还是采用人工分析,基于社交网络信息的海量性,在进行人工评定处理时,会习惯性地略过低转发和低评论的信息。

而基于社交网络上存在大量的转发或评论信息,对企业进行评估认定时,此部分信息具有较大的信息曝光率,即信息高频率出现,称作高帧信息。高帧信息对企业具有巨大的信息价值,对此类高帧信息进行获取并分析,能够有助于企业进行产品研发定位和获取未来市场发展。

此外,大量转发和评论的社交网络信息并非代表曝光率和影响力。

社交网络信息中充斥着大量的虚假信息和低质量信息,采用人工分析,会浪费大量的人力、物力和财力,无法反应真实问题;参与人员过多,信息评定标准没有界限,信息在网上传播并影响现实,海量信息无法有效性理解并抽取,因此无法利用来辅助企业决策。

科学有度的海量信息影响性和曝光率,捕获影响舆论走向的真实的高帧信息,有助于企业集中精力分析企业所需要解决的决策或定位发展问题,扩大企业产品或者服务正面声量、减少并消除负面声量,因此,获取高质量的高帧信心能够为企业等单位在社交运营环境中带来巨大实质性帮助。然而,目前并未发现具备解决上述问题的高帧信息获取方式。



技术实现要素:

本申请的主要目的在于提供一种基于分布和真值评定指标的高帧信息获取方法和系统,以解决目前的问题。

为了实现上述目的,本申请提供了如下技术:

本发明第一方面在于提供一种基于分布和真值评定指标的高帧信息获取方法,包括如下步骤:

s1、预设数据流、单信息重复阀值和数据流提取比例阀值;

s2、根据数据流、单信息重复阀值和数据流提取比例阀值,获取社交网络信息数据流;

s3、对所获取的社交网络信息数据流进行分布评定指标sd(g)和真值评定指标sr(g)提取;

s4、根据提取获得的分布评定指标和真值评定指标,计算社交网络信息数据流的影响系数fl(g),所述fl(g)=max{sr(g),1-0.8*sd(g)};

s5、将影响系数fl(g)由大到小排序,根据数据流提取比例阀值,输出社交网络信息高帧数据。

进一步地,所述预设数据流、单信息重复阀值和数据流提取比例阀值,具体为:

设定数据流阀值s,截取超过s值的社交网络信息数据流;

设定单信息重复阀值β,过滤剔除超过β值的单信息重复数据流;

设定数据流提取阀值α,根据α值输出高帧数据。

进一步地,所述根据数据流、单信息重复阀值和数据流提取比例阀值,获取社交网络信息数据流,具体为:

截取超过s值的社交网络信息数据流,根据所设定单信息重复阀值β,过滤剔除超过β值的重复数据流,留下满足单信息状态的社交网络信息数据流;

记录数据流中第g条数据的完整记录,记为q(g);

记录第g条数据的第k个转发的社交记录,记为pkg

其中,g=1,2,3......s,β范围为0-0.005。

进一步地,所述pkg包括对第g条社交信息的第k个社交网络信息进行转发及评论的用户的id、用户所评论的文字内容、用户的关注总人数、用户的粉丝总人数\用户自发布的社交网络信息总量以及社交信息发布来源,分别记录为idkg,ctkg,prgkg,prfkg,prwkg,cskg,记录pk={idkg,ctkg,prgkg,prfkg,prwkg,cskg};

其中,k=1,2,3......g。

进一步地,所述对所获取的社交网络信息数据流进行分布评定指标,具体为:

对第g条社交信息,根据其社交信息发布来源,从不同发布来源处获取第g条社交信息的转发数量,分别记录为sd1(g)、sd2(g)、sd3(g)和sd4(g),记和为第g条社交信息的转发总数量为sda(g);

根据上述统计,计算各社交信息发布来源的比例系数,分别记录为

进一步地,所述对所获取的社交网络信息数据流进行分布评定指标,还包括:

计算第g条社交信息的分布评定指标,记录为sd(g):

sd(g)=sdp1(g)*0.7974+sdp2(g)*1.3097+sdp3(g)*2.2621+sdp4(g)*4.3031-0.0655。

进一步地,所述对所获取的社交网络信息数据流进行真值评定指标提取,具体为:

对第g条数据的完整记录q(g)提取第k个记录信息的特征量集合,记录为pfkg(l),所述pfkg(l)表示第k个转发记录的第l个特征量;

其中,l=1,2,3,4;

所述pfkg(l)具体为:

根据获取的g个关于社交网络信息的转发及评论的记录信息,记录g个记录信息的特征量集合,记录为pfkg,k=1,2,3......s。

进一步地,所述对所获取的社交网络信息数据流进行真值评定指标提取,还包括:

根据pfkg,对记录信息进行质量判定,得出质量评分,记录为scg(k),其中,k=1,2,3......sda(g);

计算pkg的质量得分,记录为scg(k):

根据pfkg,以及用户的id,对g个记录信息进行重复规避判定,分析各记录的重复规避评分,记录为ssg(p),其中,k=1,2,3......sda(g);

计算pkg的重复规避评分,记录为ssg(k):

根据pfkg,以及用户所评论的文字内容ctkg,分析各记录的独立性评分,记录为stg(p),其中,k=1,2,3......g;

计算pkg的重复规避评分,记录为stg(k):

进一步地,所述对所获取的社交网络信息数据流进行真值评定指标提取,还包括:

根据获取的g个所有记录信息的质量评分、重复规避评分和独立评分,计算各记录pk的有效性,记录为sg(k):

sg(k)=scg(k)*ssg(k)*stg(k),k=1,2,3......sda(g);

根据获取第g条记录信息的有效性sg(k),统计其sg(k)=1的转发总数,记录为srcg;

计算真值评定指标,记录为srg,g=1,2,3......s。

本发明第二方面在于提供一种基于分布和真值评定指标的高帧信息获取系统,包括:

阀值预设模块:预设数据流、单信息重复阀值和数据流提取比例阀值;

社交信息数据流获取模块:用于根据数据流、单信息重复阀值和数据流提取比例阀值,获取社交网络信息数据流;

评定指标sd(g)和sr(g)提取模块:用于对所获取的社交网络信息数据流进行分布评定指标sd(g)和真值评定指标sr(g)提取;

高帧社交网络信息计算获取模块:用于预设算法,根据提取获得的分布评定指标sd(g)和真值评定指标sr(g),计算社交网络信息数据流的影响系数fl(g),所述fl(g)=max{sr(g),1-0.8*sd(g)};

将影响系数fl(g)由大到小排序,根据数据流提取比例阀值,输出社交网络信息高帧数据。

与现有技术相比较,本申请能够带来如下技术效果:

1、本发明基于社交网络信息的内在特子特性,基础一种基于分布评定和真是评定的高帧社交信息的高影响力信息提取方法,在处理过程中,基于用户信息建立了有效的二次特征,并联合规则进行评测;

2、本发明在计算处理时,采用线性复杂度的算法进行分析计算,计算资源需求小,具有交底的时间和空间代价;在联合过程中,采用对比处理,最终得出曝光率高的高帧社交网络信息;

3、本发明有效实现了对社交网络信息的影响性和曝光率的分析,能够过滤低质量的信息数据,保留真实有效的信息而为企业提供有效分析辅助。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是本发明基于分布和真值评定指标的高帧信息获取方法的实施流程示意图;

图2是本发明基于分布和真值评定指标的高帧信息获取系统的组成模块示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。

并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。

另外,术语“多个”的含义应为两个以及两个以上。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例1

本发明基于社交网络信息的内在特子特性,基础一种基于分布评定和真是评定的高帧社交信息的高影响力信息提取方法,在处理过程中,基于用户信息建立了有效的二次特征,并联合规则进行评测本发明在计算处理时,采用线性复杂度的算法进行分析计算,计算资源需求小,具有交底的时间和空间代价;在联合过程中,采用对比处理,最终得出曝光率高的高帧社交网络信息。

本发明有效实现了对社交网络信息的影响性和曝光率的分析,能够过滤低质量的信息数据,保留真实有效的信息而为企业提供有效分析辅助。

如附图1所示,

本发明第一方面在于提供一种基于分布和真值评定指标的高帧信息获取方法,包括如下步骤:

s1、预设数据流、单信息重复阀值和数据流提取比例阀值;

本发明对在社交信息平台上的信息以及转发、评论等记录进行提取,通过算法进行真实性信息提取。

本实施例采用微波信息数据进行实施,需要首先获取某条已发布微博信息的一定数据记录,需要从相关的转发数据和评论数据中筛选出符合高影响力的记录信息。

因此,前期需要设置各个阀值,对提取的信息数量进行限制,避免过多或过少而导致记录数据不准确的发生。

设定数据流阀值就在于保持提取的微博信息数量不低于设定值,本实施例,设定不少于800条微博数据,比如设定800值,获取1000条有关某条微博信息的转发及评论的相关数据,满足设定需求。

设定单信息重复阀值在于根据重复度计算,而剔除社交信息过于重复的信息数据,在社交信息中,较多的信息内容相差不大,因此应当剔除。

设置数据流提取比例阀值在于,在后述经过算法得到分布评定指标和真值评定指标以及影响系数fl(g)后,根据数据流提取比例阀值来获取一定量的高帧信息数量,重新组成数据流。

s2、根据数据流、单信息重复阀值和数据流提取比例阀值,获取社交网络信息数据流;

设定阀值完毕,对社交平台上的数据进行提取,提取的数据储存为数据流。

对每一条微博信息的记录进行提取,包括每一条微博信息的转发和评论记录信息进行提取。

对某一条微博信息,收集对此微博信息进行转发的所有信息,包括转发用户的信息资料以及微博。

s3、对所获取的社交网络信息数据流进行分布评定指标sd(g)和真值评定指标sr(g)提取;

根据每个微博信息,获取转发和评论的记录信息,采集转发用户和评论用户的相关信息;

而每条微博信息,可能存在从其他平台对接现象,比如某条微博信息从微信平台或者网页进行转发,因此,要收集各个来源处的信息量,根基转发记录信息,提取各微博信息的分布评定指标。

根据发布信息量以及用户资料信息,进行汇总处理,最终得出转发重量,根据上述各个信息,提取各个微博信息的真值评定指标。

提取完毕,根据上述数据进行某一条信息的影响力计算,最后囊括所有获取数据流信息进行计算。

s4、根据提取获得的分布评定指标和真值评定指标,计算社交网络信息数据流的影响系数fl(g),所述fl(g)=max{sr(g),1-0.8*sd(g)};

影响系数fl(g)先计算各个微博信息,最后统计所有数据。

s5、将影响系数fl(g)由大到小排序,根据数据流提取比例阀值,输出社交网络信息高帧数据。

得到提出的数据流微博信息的所有影响系数fl(g)后,按照竖直大小进行排序,根据数据流提取比例阀值,输出排序列表中前面的微博信息即可。

从而得到真实度较高的单一不重复微博信息,便于人工分析。

进一步地,所述预设数据流、单信息重复阀值和数据流提取比例阀值,具体为:

设定数据流阀值s,截取超过s值的社交网络信息数据流;

设定单信息重复阀值β,过滤剔除超过β值的单信息重复数据流;

设定数据流提取阀值α,根据α值输出高帧数据。

在发明中,设定数据流阀值s,截取超过s值的社交网络信息数据流;

比如设定数据流阀值s为1500,获取2000条转发信息即可;

设置β值为0.0025,按照重复度计算方式,完全雷同的信息,比如粘贴复制,重复度为1,直接删除,雷同程度在一半以下即可,设定雷同度在0.0025。较佳的获取微博信息转发转发信息。

设定获取微博信息的最小值,作为s值,获取超过s值数量的微博数量即可;

设定单信息重复阀值β,过滤剔除超过β值的单信息重复数据流;

同样,设定重复度提出值,当信息重复度超过β值,则将雷同的信息删除,获取单一信息的数据流。

本发明中,需要设置数据流提取比例阀值,便于在计算得出数据流微博信息的所有影响系数fl(g)后,定量获取影响力较高的在先微博信息。

在后述经过算法得到分布评定指标和真值评定指标以及影响系数fl(g)后,根据数据流提取比例阀值来获取一定量的高帧信息数量,重新组成数据流。

下述算法可以直接根据公式进行计算,当获取满足阀值的社交信息数据流之后,可以根据公式直接得出相关所需数据,因此,为流程性计算步骤。

按照本发明记载的计算步骤,设置计算程序,内置下述响应的算法,即可。本发明设置的算法方法,对于各个公式和提取步骤,皆设定了数据范围和阀值,因此可以具体化获取数据值,因此不再赘述。

进一步地,所述根据数据流、单信息重复阀值和数据流提取比例阀值,获取社交网络信息数据流,具体为:

截取超过s值的社交网络信息数据流,根据所设定单信息重复阀值β,过滤剔除超过β值的重复数据流,留下满足单信息状态的社交网络信息数据流;

记录数据流中第g条数据的完整记录,记为q(g);

记录第g条数据的第k个转发的社交记录,记为pkg

其中,g=1,2,3......s,β范围为0-0.005。

进一步地,所述pkg包括对第g条社交信息的第k个社交网络信息进行转发及评论的用户的id、用户所评论的文字内容、用户的关注总人数、用户的粉丝总人数\用户自发布的社交网络信息总量以及社交信息发布来源,分别记录为idkg,ctkg,prgkg,prfkg,prwkg,cskg,记录pk={idkg,ctkg,prgkg,prfkg,prwkg,cskg};

其中,k=1,2,3......g。

进一步地,所述对所获取的社交网络信息数据流进行分布评定指标,具体为:

对第g条社交信息,根据其社交信息发布来源,从不同发布来源处获取第g条社交信息的转发数量,分别记录为sd1(g)、sd2(g)、sd3(g)和sd4(g),记和为第g条社交信息的转发总数量为sda(g);

本实施例,不同发布来源分别为新浪微博、iphone客户端、安卓客户端和360浏览器,对于这些来源的转发信息进行统计分析。

根据上述统计,计算各社交信息发布来源的比例系数,分别记录为

进一步地,所述对所获取的社交网络信息数据流进行分布评定指标,还包括:

计算第g条社交信息的分布评定指标,记录为sd(g):

sd(g)=sdp1(g)*0.7974+sdp2(g)*1.3097+sdp3(g)*2.2621+sdp4(g)*4.3031-0.0655。

进一步地,所述对所获取的社交网络信息数据流进行真值评定指标提取,具体为:

对第g条数据的完整记录q(g)提取第k个记录信息的特征量集合,记录为pfkg(l),所述pfkg(l)表示第k个转发记录的第l个特征量;

其中,l=1,2,3,4;

所述pfkg(l)具体为:

根据获取的g个关于社交网络信息的转发及评论的记录信息,记录g个记录信息的特征量集合,记录为pfkg,k=1,2,3......s。

进一步地,所述对所获取的社交网络信息数据流进行真值评定指标提取,还包括:

根据pfkg,对记录信息进行质量判定,得出质量评分,记录为scg(k),其中,k=1,2,3......sda(g);

计算pkg的质量得分,记录为scg(k):

根据pfkg,以及用户的id,对g个记录信息进行重复规避判定,分析各记录的重复规避评分,记录为ssg(p),其中,k=1,2,3......sda(g);

计算pkg的重复规避评分,记录为ssg(k):

根据pfkg,以及用户所评论的文字内容ctkg,分析各记录的独立性评分,记录为stg(p),其中,k=1,2,3......g;

计算pkg的重复规避评分,记录为stg(k):

进一步地,所述对所获取的社交网络信息数据流进行真值评定指标提取,还包括:

根据获取的g个所有记录信息的质量评分、重复规避评分和独立评分,计算各记录pk的有效性,记录为sg(k):

sg(k)=scg(k)*ssg(k)*stg(k),k=1,2,3......sda(g);

根据获取第g条记录信息的有效性sg(k),统计其sg(k)=1的转发总数,记录为srcg;

计算真值评定指标,记录为srg,g=1,2,3......s。

如附图2所示,

本发明高帧信息获取系统,采取程序设计,内置编程算法,输入各个数据,即可进行运算。

对于按照本算法进行编程设计的算法,在各个模块对应的输入框架中,输入所计算数据,可以自动运算,采集数据和输出运算结果数据。

本发明第二方面在于提供一种基于分布和真值评定指标的高帧信息获取系统,包括:

阀值预设模块:预设数据流、单信息重复阀值和数据流提取比例阀值;

社交信息数据流获取模块:用于根据数据流、单信息重复阀值和数据流提取比例阀值,获取社交网络信息数据流;

评定指标sd(g)和sr(g)提取模块:用于对所获取的社交网络信息数据流进行分布评定指标sd(g)和真值评定指标sr(g)提取;

高帧社交网络信息计算获取模块:用于预设算法,根据提取获得的分布评定指标sd(g)和真值评定指标sr(g),计算社交网络信息数据流的影响系数fl(g),所述fl(g)=max{sr(g),1-0.8*sd(g)};

将影响系数fl(g)由大到小排序,根据数据流提取比例阀值,输出社交网络信息高帧数据。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1