一种用于分析社交网络信息的高质量信息获取方法和系统与流程

文档序号：22759912发布日期：2020-10-31 09:58阅读：171来源：国知局

本申请涉及互联化信息处理技术领域，尤其涉及一种用于分析社交网络信息的高质量信息获取方法和系统。

背景技术：

随着信息技术的发展，社交网络作为一种重要高效的信息传递平台，参与其中的人员越来越多。通过这个平台，个人可在网络中拓展人脉、获取信息，而企业主要关注点在于找到消费者，并能分析消费者，了解消费者，与消费者达到最简洁快速的沟通。企业通过数据分析找到消费者所在的圈子，倾听这个圈子的声音，并通过意见领袖让企业想传达的信息进一步扩大，辐射整个圈子，最终从而吸纳更多的忠实消费者。

企业进行信息评估时，主要基于社交网络上的各种转发和评论信息，这些对企业的价值是巨大的，对这些数据加以分析，可助于改进现有产品及更好的定位未来的产品走向。然而对社交网络的信息分析存在固有的难题，首先是社交网络中充斥着虚假信息与低质量信息，统一的对所有信息进行观测理解，无法反映真实的问题；其次由于参与的人员众多，导致信息是无界的，信息可以在网络中无限扩展，甚至最后影响到现实，如此海量的原始信息难以完全理解和有效抽取，最终用以辅助决策。如何去找到这些信息点位，用以扩大品牌正面声量、减少并消除负面声量成为企业在社会化营销中制胜的关键，而实际可用的社交网络有效信息的提取方法能给企业带来确实的帮助。

技术实现要素：

本申请的主要目的在于提供一种用于分析社交网络信息的高质量信息获取方法和系统，以实现社交网络信息地有效过滤和提取。

为了实现上述目的，本申请提供了如下技术：

本发明第一方面在于提出一种用于分析社交网络信息的高质量信息获取方法，包括如下步骤：

s1、预设数据流阀值和单信息重复阀值；

s2、根据数据流阀值和单信息重复阀值，获取社交网络信息数据流；

s3、对所获取的社交网络信息数据流进行特征量提取，并生成特征量集合；

s4、根据特征量集合，计算获取社交网络信息数据流的质量评分、重复规避评分和独立评分；

s5、根据质量评分、重复规避评分和独立评分，计算获取社交网络信息数据流的有效性评分，获取高质量的社交网络信息数据流。

进一步地，所述预设数据流阀值和单信息重复阀值，具体为：

设定数据流阀值g，截取超过g值的社交网络信息数据流；

设定单信息重复阀值β，过滤剔除超过β值的单信息重复数据流。

进一步地，所述根据数据流阀值和单信息重复阀值，获取社交网络信息数据流，具体为：

截取超过g值的社交网络信息数据流，根据所设定单信息重复阀值β，过滤剔除超过β值的重复数据流，留下满足单信息状态的社交网络信息数据流；

其中，g范围为大于或等于800的整数，β范围为0-0.005；

获取g个关于社交网络信息的转发及评论的记录信息，记录为pk；

pk表示第k个社交网络信息的转发及评论的记录信息。

进一步地，所述pk包括对第k个社交网络信息进行转发及评论的用户的id、用户所评论的文字内容、用户的关注总人数、用户的粉丝总人数以及用户自发布的社交网络信息总量，分别记录为idk，ctk，prgk，prfk，prwk，记录pk＝{idk，ctk，prgk，prfk，prwk}；

其中，k＝1，2，3......g。

进一步地，所述对所获取的社交网络信息数据流进行特征量提取，并生成特征量集合，具体为：

提取k个记录信息的特征量集合，记录为pfk(l)，所述pfk(l)表示第k个转发记录的第l个特征量；

其中，l＝1，2，3，4；

所述pfk(l)具体为：

根据获取的g个关于社交网络信息的转发及评论的记录信息，记录g个记录信息的特征量集合，记录为pfp，p＝1，2，3......g。

进一步地，所述根据特征量集合，计算获取社交网络信息数据流的质量评分，具体为：

根据pfp，对记录信息进行质量判定，得出质量评分，记录为sc(p)，其中，p＝1，2，3......g；

计算pk的质量得分，记录为sc(k)：

进一步地，所述根据特征量集合，计算获取社交网络信息数据流的重复规避评分，具体为：

根据pfp，以及用户的id，对g个记录信息进行重复规避判定，分析各记录的重复规避评分，记录为ss(p)，其中，p＝1，2，3......g；

计算pk的重复规避评分，记录为ss(k)：

进一步地，所述根据特征量集合，计算获取社交网络信息数据流的独立评分，具体为：

根据pfp，以及用户所评论的文字内容ctk，分析各记录的独立评分，记录为st(p)，其中，p＝1，2，3......g；

计算pk的独立评分，记录为st(k)：

进一步地，所述根据质量评分、重复规避评分和独立评分，计算获取社交网络信息数据流的有效性评分，获取高质量的社交网络信息数据流，具体为：

根据获取的g个所有记录信息的质量评分、重复规避评分和独立评分，计算各记录的有效性，记录为s(p)，其中，p＝1，2，3......g；

所述pk的有效性，记录为s(k)：

s(k)＝sc(k)*ss(k)*st(k)；

将s(k)＝0的转发和记录的pk删除，剩余pk即为社交网络信息数据流。

本发明第二方面在于提出一种用于分析社交网络信息的高质量信息获取系统，包括：

阀值预设模块：用于预设数据流阀值和单信息重复阀值；

社交信息数据流获取模块：用于根据阀值预设模块设置的数据流阀值和单信息重复阀值，获取社交网络信息数据流；

特征量集合生成模块：用于对社交信息数据流获取模块所获取的社交网络信息数据流进行特征量提取，并生成特征量集合；

有效性社交网络信息数据流计算分析模块：用于预设算法，根据特征量集合，计算获取社交网络信息数据流的质量评分、重复规避评分和独立评分；以及，根据质量评分、重复规避评分和独立评分，计算获取社交网络信息数据流的有效性评分，获取高质量的社交网络信息数据流。

与现有技术相比较，本申请能够带来如下技术效果：

1、本发明基于社交网络的内在特性，提出了基于有效性过滤的真实信息提取方法，检测处理中基于用户信息建立了有效的二次特征，并经多层规则评判；

2、计算时都采用线性复杂度的算法进行分析，计算资源需求小，具有较低的时间和空间代价；提取过程采用基于线性的计算方式对数据进行快速计算，计算代价很低，最终转发记录的用有效性得分来度量是否保留此记录，有很强的可说明性；此信息提取方式在现实中更具实用价值；

3、本发明有效实现了对社交网络的海量的评论信息的有效性分析，能够过滤各主题的低质量信息，并保留真实有效的信息以供后续分析使用。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本发明用于分析社交网络信息的高质量信息获取系统的实施流程示意图；

图2是本发明用于分析社交网络信息的高质量信息获取系统的组成模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义；超过和不低于，表示包含本体值以及以上数值范围。

另外，术语“多个”的含义应为两个以及两个以上。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例1

本发明基于社交网络的内在特性，提出了基于有效性过滤的真实信息提取方法，检测处理中基于用户信息建立了有效的二次特征，并经多层规则评判；

计算时都采用线性复杂度的算法进行分析，计算资源需求小，具有较低的时间和空间代价；提取过程采用基于线性的计算方式对数据进行快速计算，计算代价很低，最终转发记录的用有效性得分来度量是否保留此记录，有很强的可说明性；此信息提取方式在现实中更具实用价值。

如附图1所示，

本发明第一方面在于提出一种用于分析社交网络信息的高质量信息获取方法，包括如下步骤：

s1、预设数据流阀值和单信息重复阀值；

本发明对在社交信息平台上的信息以及转发、评论等记录进行提取，通过算法进行真实性信息提取。

本实施例采用微波信息数据进行实施，需要首先获取某条已发布微博信息的一定数据记录，需要从相关的转发数据和评论数据中筛选出符合高影响力的记录信息。

因此，前期需要设置各个阀值，对提取的信息数量进行限制，避免过多或过少而导致记录数据不准确的发生。

设定数据流阀值就在于保持提取的微博信息数量不低于设定值，本实施例，设定不少于800条微博数据，比如设定1000值，获取2500条有关某条微博信息的转发及评论的相关数据，满足设定需求。

设定单信息重复阀值在于根据重复度计算，而剔除社交信息过于重复的信息数据，在社交信息中，较多的信息内容相差不大，因此应当剔除。

s2、根据数据流阀值和单信息重复阀值，获取社交网络信息数据流；

设定阀值完毕，对社交平台上的数据进行提取，提取的数据储存为数据流。

对每一条微博信息的记录进行提取，包括每一条微博信息的转发和评论记录信息进行提取。

对某一条微博信息，收集对此微博信息进行转发的所有信息，包括转发用户的信息资料以及微博注册信息。

用户对此条微博信息进行转发的记录极易进行评论的记录信息，包括用户的id、粉丝情况等信息，随同一并采集。

s3、对所获取的社交网络信息数据流进行特征量提取，并生成特征量集合；

对某一条获取微博信息进行转发和评论的所有用户信息记录，皆进行采集，成为集合，对集合进行特征量提取。

特征量采用下述本发明提出的计算公式进行计算获取即可。

特征量取四个值。

s4、根据特征量集合，计算获取社交网络信息数据流的质量评分、重复规避评分和独立评分；

获取特征量集合集合后，要对获取的记录信心进行质量、重复规避度以及独立性进行分析评判，采取本发明提出的算法公式，对着三者评定指标进行一对一的计算获取。

s5、根据质量评分、重复规避评分和独立评分，计算获取社交网络信息数据流的有效性评分，获取高质量的社交网络信息数据流。

对于质量评分、重复规避评分和独立评分，根据有效性集合处理算法，进行乘法计算。

进一步地，所述预设数据流阀值和单信息重复阀值，具体为：

设定数据流阀值g，截取超过g值的社交网络信息数据流；

设定获取微博信息的最小值，作为g值，获取超过g值数量的微博数量即可；

设定单信息重复阀值β，过滤剔除超过β值的单信息重复数据流；

同样，设定重复度提出值，当信息重复度超过β值，则将雷同的信息删除，获取单一信息的数据流。

下述算法可以直接根据本发明提出的计算公式进行计算，当获取满足阀值的社交信息数据流之后，可以根据公式直接得出相关所需数据，因此，为流程性计算步骤。

按照本发明记载的计算步骤，设置计算程序，内置下述响应的算法，即可。本发明设置的算法方法，对于各个公司和提取步骤，皆设定了数据范围和阀值，因此可以具体化获取数据值，因此不再赘述。