一种基于用户历史网络潜在有害主题引导方法与流程

文档序号:15445790发布日期:2018-09-14 23:20阅读:106来源:国知局

本发明涉及计算机科学中的在线社交网络数据挖掘、信息安全、机器学习等技术,尤其是基于关键词分析法和层次分析法构建的用户历史网络浏览信息危害分级模型以及基于textrank算法的关键词提取技术。



背景技术:

随着网络信息技术的日益发展和人们利益诉求的日趋多元化,使得互联网已经成为各基层利益表达、情感宣泄、思想碰撞的重要舆论渠道,很多不法分子通过网络散步许多虚假及影响公众身心健康甚至危害社会的信息,比如近期俄罗斯一伙不法分子开发的网络游戏--蓝鲸,已经让世界许多正直叛逆期的青少年的身心受到了严重的影响,甚至很多人因此失去了生命,因此,在对这些不法分子采取果断措施的同时,还必须要对这些信息进行干扰,并且要给这些有可能会受到危害的人群及时的推送一些对个人身心健康及社会安全有益的消息,这也间接的净化了互联网环境,综上,对互联网舆情挖掘进行深入研究具有重要意义。



技术实现要素:

本发明主要解决的问题是在互联网环境下存在许多的不法分子,他们无时不刻的不在散布着虚假和危险信息,因此,制定一种算法,一方面能对这些信息进行一定程度的干预以及加强有关部门对这些不法分子的打击准确度和力度,一方面又能够主动及时的为用户推送一些正面且和当前信息所对应的主题相似的信息,这样既能一定程度净化互联网环境,也能使用户的阅读取向变得越来越好。首先通过分析网络信息的传播特点、权衡多种决策方法并结合机器学习的方法进行主题分类和情感态度分析等,实现了基于用户历史网络浏览信息的危害分级模型,然后在对应的级别中将信息进行分类,评估每一条信息对应的级别,标记每个级别,并统计各个级别下包含的所有主题类别信息,按照类别去网络上获取对用户无害的文本信息,并将文本信息进行关键词提取,构成关键词链接推送出去,从而构建基于用户历史网络浏览信息的分级推荐模型,主要技术方案如下:

一种基于用户历史网络潜在有害主题引导方法,其特征在于,包括以下步骤:步骤1:根据用户历史浏览网络信息的传播方式(如评论、转发等)

构建分级评估指标体系,再利用情感倾向性算法,进而构建基于用户历史网络浏览信息的危害分级模型,具体方式是:步骤1.1:根据用户历史网络浏览信息的构成要素(如发布者、信息内容)、传播扩散(如网络地理区域分布、传播渠道)、历史网络浏览信息热度(如信息的点击数、浏览数、转发数等)和历史网络浏览信息活性(前三者因素的变化率)建立四维网络分级评估指标体系,每一个维度都包含三级指标(如构成要素包括发布者和信息内容,而发布者又包括主题署名度、发布时间、作者影响力等因素,信息内容又包括信息的敏感程度和信息的类别和情感倾向性等因素)。

步骤1.2:对用户历史网络浏览信息进行主题分类。

步骤1.3:根据计数、分类数、百分比等方法计算每条历史网络浏览信息三级指标的权重从而实现分级评估体系的数据化。

步骤1.4:在对用户历史网络浏览信息按照评估体系数据化以后,根据步骤1.3中计算的权值完成多级评判,得到每条历史信息对应的级别,任一历史信息的评判计算模型可以表示为:w=∑(ai*∑(bj*∑(ck*w)))其中ai表示一级指标权重,bj为二级指标权重,ck为三级指标权重,w为某三级指标的计算值,多级评判的结果w表现为一个数字,数字越大表示该信息越重要,最后为此信息定级;

步骤2:对获取到的信息进行主题分类,并评估所有信息在分级模型中对应的级别。

步骤3:标记每个级别,并分别统计步骤1中分级模型下的每一个主题类别,并根据对应类别去网络上获取对用户无害的信息,进而构建基于用户历史网络浏览信息的分级推荐模型,将该模型中保存的信息进行关键词的提取,然后以链接的形式推荐给用户,其中,关键词的提取是基于textrank关键词或摘要提取算法,包括以下步骤:

步骤3.1:预处理,首先进行分词和词性标注,将单个word作为结点添加到图中;

步骤3.2:设置语法过滤器,将通过语法过滤器的词汇添加到图中;出现在一个窗口中的词汇之间相互形成一条边;

步骤3.3:基于上述公式,迭代直至收敛;一般迭代20-30次迭代阈值设置为0.0001。textrank算法的迭代公式为:ws(vi)=(1-d)+d*∑vj∈ln(vi)wji∑vk∈out(vj)wjk*ws(vj)节点i的权重取决于节点i的邻居节点中i-j这条边的权重/j的所有出度的边的权重*节点j的权重,将这些邻居节点计算的权重相加,再乘上一定的阻尼系数,就是节点i的权重;阻尼系数d一般取0.85;

步骤3.4:根据顶点的分数降序排列,并输出指定个数的词汇作为可能的关键词;

步骤3.5:后处理,如果两个词汇在文本中前后连接,那么就将这两个词汇连接在一起,作为关键短语。类似于pagerank的思想,将文本中的语法单元视作图中的节点,如果两个语法单元存在一定语法关系(例如共现),则这两个语法单元在图中就会有一条边相互连接,通过一定的迭代次数,最终不同的节点会有不同的权重,权重高的语法单元可以作为关键词。

步骤4:分离出浏览过当前危害信息的所有用户,并对浏览过当前危害信息的所有用户进行设定时间的网络浏览痕迹跟踪,根据用户的浏览记录通过预警(发邮件),或查封ip(封ip并通知有关部门),或推荐用户喜好(根据用户喜好推荐相关信息)三种方式来干预用户,直到用户形成良好的阅读习惯,才能释放该用户,也即不再关注。

附图说明

图1是本发明的整体流程图。

图2是本发明中用户历史网络浏览信息危害级别评估流程图。

图3是本发明中基于textrank算法的关键词提取流程图。

具体实施方式

下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。

本发明算法的整体流程如图1所示,在分级模型构建成功以后,当互联网的用户点击任意一个主题的信息时,系统获取该用户的id号,并对该用户点击的信息进行分级评估,如果该用户点击的信息被后台认定为是比较正面的信息,那下次为该用户推荐的将是第二个分级模型中同一个相关主题的信息,反之也一样。这样做到了不管用户点击的信息是好是坏,最后为该用户推荐的信息都是正面的。

具体包括:

步骤1:根据用户历史网络浏览信息的构成要素(如发布者、信息内容)、传播扩散(如网络地理区域分布、传播渠道)、历史网络浏览信息热度(如信息的点击数、浏览数、转发数等)和历史网络浏览信息活性(前三者因素的变化率)建立四维网络分级评估指标体系,每一个维度都包含三级指标(如构成要素包括发布者和信息内容,而发布者又包括主题署名度、发布时间、作者影响力等因素,信息内容又包括信息的敏感程度和信息的类别和情感倾向性等因素)。

步骤2:对用户历史网络浏览信息进行主题分类。

步骤3:根据计数、分类数、百分比等方法计算每条历史网络浏览信息三级指标的权重从而实现分级评估体系的数据化。

步骤4:在对用户历史网络浏览信息按照评估体系数据化以后,根据步骤3中计算的权值完成多级评判,得到每条历史信息对应的级别,任一历史信息的评判计算模型可以表示为:w=∑(ai*∑(bj*∑(ck*w)))其中ai表示一级指标权重,bj为二级指标权重,ck为三级指标权重,w为某三级指标的计算值,多级评判的结果w表现为一个数字,数字越大表示该信息越重要,最后为此信息定级

其中,

步骤1.1:根据用户历史网络浏览信息的构成要素(如发布者、信息内容)、传播扩散(如网络地理区域分布、传播渠道)、历史网络浏览信息热度(如信息的点击数、浏览数、转发数等)和历史网络浏览信息活性(前三者因素的变化率)建立四维网络分级评估指标体系,每一个维度都包含三级指标(如构成要素包括发布者和信息内容,而发布者又包括主题署名度、发布时间、作者影响力等因素,信息内容又包括信息的敏感程度和信息的类别和情感倾向性等因素)。

步骤1.2:对用户历史网络浏览信息进行主题分类。

步骤1.3:根据计数、分类数、百分比等方法计算每条历史网络浏览信息三级指标的权重从而实现分级评估体系的数据化。

步骤1.4:在对用户历史网络浏览信息按照评估体系数据化以后,根据步骤1.3中计算的权值完成多级评判,得到每条历史信息对应的级别,任一历史信息的评判计算模型可以表示为:w=∑(ai*∑(bj*∑(ck*w)))其中ai表示一级指标权重,bj为二级指标权重,ck为三级指标权重,w为某三级指标的计算值,多级评判的结果w表现为一个数字,数字越大表示该信息越重要,最后为此信息定级;

步骤3中,关键词的提取是一种基于textrank关键词或摘要提取算法,包括以下步骤:

步骤3.1:预处理,首先进行分词和词性标注,将单个word作为结点添加到图中;

步骤3.2:设置语法过滤器,将通过语法过滤器的词汇添加到图中;出现在一个窗口中的词汇之间相互形成一条边;

步骤3.3:基于上述公式,迭代直至收敛;一般迭代20-30次迭代阈值设置为0.0001。textrank算法的迭代公式为:ws(vi)=(1-d)+d*∑vj∈ln(vi)wji∑vk∈out(vj)wjk*ws(vj)节点i的权重取决于节点i的邻居节点中i-j这条边的权重/j的所有出度的边的权重*节点j的权重,将这些邻居节点计算的权重相加,再乘上一定的阻尼系数,就是节点i的权重;阻尼系数d一般取0.85;

步骤3.4:根据顶点的分数降序排列,并输出指定个数的词汇作为可能的关键词;

步骤3.5:后处理,如果两个词汇在文本中前后连接,那么就将这两个词汇连接在一起,作为关键短语。类似于pagerank的思想,将文本中的语法单元视作图中的节点,如果两个语法单元存在一定语法关系(例如共现),则这两个语法单元在图中就会有一条边相互连接,通过一定的迭代次数,最终不同的节点会有不同的权重,权重高的语法单元可以作为关键词。节点的权重不仅依赖于它的入度结点,还依赖于这些入度结点的权重,入度结点越多,入度结点的权重越大,说明这个结点的权重越高;

图2主要是阐述了分级评估体系下三级指标的计算,比如历史浏览信息的热度、活性,传播方式等等。对其每一项指标进行量化计算,得到最终的危害级别

图3是推荐过程主要用到的算法,它是pagetank算法的变种,首先定义一个无向有权图,然后对句子进行分词;依次遍历分词结果,如果某个词i满足过滤条件(词性在词性过滤集合中,并且词的长度大于等于2,并且词不是停用词),然后将这个词之后窗口范围内的词j(这些词也需要满足过滤条件),将它们两两(词i和词j)作为key,出现的次数作为value,添加到共现词典中;然后,依次遍历共现词典,将词典中的每个元素,key=(词i,词j),value=词i和词j出现的次数,其中词i,词j作为一条边起始点和终止点,共现的次数作为边的权重,添加到之前定义的无向有权图中。然后对这个无向有权图进行迭代运算textrank算法,最终经过若干次迭代后,算法收敛,每个词都对应一个指标值;如果设置了权重标志位,则根据指标值值对无向有权图中的词进行降序排序,最后输出topk个词作为关键词。执行textrank算法迭代是在rank函数中完成的。首先对每个结点赋予相同的权重,以及计算出该结点的所有出度的次数之和;然后迭代若干次,以确保得到稳定的结果;在每一次迭代中依次遍历每个结点;对于结点n,首先根据无向有权图得到结点n的所有入度结点(对于无向有权图,入度结点与出度结点是相同的,都是与结点n相连的结点),在前面我们已经计算出这个入度结点的所有出度的次数,而它对于结点n的权值的贡献等于它本身的权值乘以它与结点n的共现次数/这个结点的所有出度的次数,将各个入度结点得到的权值相加,再乘以一定的阻尼系数,即可得到结点n的权值;迭代完成后,对权值进行归一化,并返回各个结点及其对应的权值。

需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的数据方案得出的实施方式,同样属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1