一种基于数据挖掘的智能信息浏览方法与流程

文档序号:16087847发布日期:2018-11-27 22:39阅读:229来源:国知局

本发明涉及计算机技术领域,具体涉及一种基于数据挖掘的智能信息浏览方法。



背景技术:

当前,人们无时无刻都在通过智能终端来获得最新的资讯,但伴随而来的是对流量的更大需求,很多用户在进行浏览体验时,需要去顾及自身流量的使用情况,会关注自身所处网络环境是否具有免费的无线网络,从而极大地影响了用户对信息摄取的时效性以及用户在浏览信息过程中的流畅体验。当用户在没有流量的情况下,现有的浏览系统和方法需要手动调用是否启用无图模式等节约流量的浏览模式,或者通过程序本身对其限流,这样的浏览系统会给用户造成很大的困扰:第一是视频和图片信息也是表达文意的一部分,在无图模式下的浏览信息,虽然对用户流量进行了控制,但却充满着强制性,此时的信息因为图片视频的缺失具有很大的信息量,但是也失去了信息的准确性,这些都会在一定程度上影响用户的浏览体验;第二采用根据兴趣推送的信息,不符合用户兴趣的信息则简单选择删除并不予推送的方式,会遗漏一些突发和偶发信息,造成用户浏览信息的缺失,并不能满足用户对信息的实时性的需求,且这样的信息推送的信息量是逐渐减少的。



技术实现要素:

本发明旨在提供一种基于数据挖掘的智能信息浏览方法,其能够在保持信息的时效性以及准确性的前提下,让信息浏览系统在流量的控制下更加的智能化。

为解决上述问题,本发明是通过以下技术方案实现的:

一种基于数据挖掘的智能信息浏览方法,包括步骤如下:

步骤1、对涌入的信息进行预处理,去除冗余的分类干扰,得到待分类信息中关键词向量;同时,为涌入的信息附上属性标签,其中属性标签包括信息位置、信息时间和信息内容;

步骤2、利用待处理信息的关键词向量进行信息间的相似度计算,并根据信息间的相似度对待处理信息进行信息分类;

步骤3、根据用户偏好对分类好的信息集合进行基础权重赋值,即对于符合用户过往浏览信息记录的信息集合赋予高基础权重值;对于不符合用户过往浏览信息记录的信息集合赋予低基础权重值;

步骤4、根据信息所处的热度等级,对每个信息赋予对应的热度权重值;

步骤5、将信息的热度权重值与信息所处信息集合的基础权重值相乘,得到每个信息的顺序权重值,并根据顺序权重值由高到低的顺序对信息进行排序,以得到信息的推送顺序;

步骤6、根据信息位置的属性标签,得到信息停留LTE网络概率PIN、信息跳出LTE网络概率POUT、信息停留WLAN网络概率PSTAY和信息跳出WLAN网络概率PSTAYOUT;根据信息时间的属性标签,得到信息实时概率PRT和信息非实时概率PNRT;根据信息内容属性标签,得到信息纯文本概率PPT和信息非纯文本概率PNPT;

步骤7、根据贝叶斯概率公式,并利用步骤6所得的概率计算第i个信息在第j个属性标签下选择某一网络的概率矩阵Xij,其中i=1,2,…,m,m为信息的个数,j=1,2,3;

其中:

步骤8、由上述第i个信息在第j个属性标签下选择某一网络的概率矩阵概率矩阵Xij,得到决策概率矩阵Y:

其中:Xi1为第i个信息在信息是否实时的属性标签下接入网络的参数,c1为Xi1的权重,Xi2为第i个信息在信息是否含有视频图片的属性标签下接入网络的参数,c2为Xi2的权重,Xi3为第i个信息的信息位置的属性标签下计入网络的参数;c3为Xi3的权重;

步骤9、通过对决策概率矩阵Y中每一个元素的每一组数据进行遍历,即可确定信息在LTE或WLAN网络环境下送至用户浏览。

上述步骤9中,对于适合当前网络环境下的信息会直接推送使用,而对于不适合当前网络环境下的信息会存放在浏览器存储器中供下次推送使用。

与现有技术相比,本发明具有如下特点:

1.结合了对信息网络环境地判断,更加优化系统推送信息的选择方式;

2.有效改善了现有浏览系统,由其在智能终端上无法顾忌用户流量,造成用户流量过度浪费,提高了浏览的效率;

3.实现了用户浏览的智能化,用户不必在为浏览时去考虑自身流量问题,该智能浏览系统会智能化为用户提供最适合用户当前网络环境的信息浏览方式;

4.解决了一些传统浏览方法仅仅依靠用户兴趣进行信息推送,无法考虑到突发偶发信息的推送的问题。

附图说明

图1为一种基于数据挖掘的智能信息浏览方法的流程图。

图2为信息网络环境判决方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下主要采用当下热门的社交软件微博为例,并参照附图,对本发明进一步详细说明。

一种基于数据挖掘的智能信息浏览方法,如图1所示,其具体包括步骤如下:

步骤1、信息的分类。

在对信息分类时会预先设定一个类特征词集合:

s=(t1,t2,t3,......tk),

其中k为类特征词集合中类特征词的个数。

步骤1.1、当用户智能终端的微博数据库进入大量无序,不规则的信息时,将数据库中待处理信息进行预处理,去除冗余的分类干扰,得到待分类信息中关键词向量。如两个去除干扰项的关键词信息为:

d1={w11,w12,w13,........w1a}

d2={w21,w22,w23,.........w2b}

其中w1i表示信息d1中的第i个关键词,w2j表示信息d2中的第j个关键词。

步骤1.2、判断信息d1与信息d2是否处于一类信息集合,执行如下操作:

步骤1.2.1、判断信息d1与信息d2中的关键词是否在类特征值集合s中,当d1与d2中的关键词在类特征词集合值时,对ρ进行类特征值的权重值的赋值并转入步骤1.2.3,当d1与d2中的关键词不在类特征值词的集合时,转入步骤1.2.2。上述ρ为不同词性关键词赋予的不同的权重。

步骤1.2.2、将d1与d2中的关键词集合,进行词性的划分,若为名词,则将ρ赋值为α,若为动词,则将ρ赋值为β,若为形容词或者副词,则将ρ赋值为γ,跳转至步骤1.2.3;

在信息中名词最能体现语义的主要意思,其次是动词,然后是形容词或者副词,对不同的词性赋予不同的权重值,其中α代表名词在相似度计算中的权重值,β代表动词在相似度计算中的权重值,γ代表形容词或者副词在相似度计算中的权重值,其取值范围为1>α>β>γ>0,α+β+γ=1。

步骤1.2.3、完成词性加权赋值后,对于得到的信息的关键词,根据下式计算信息的相似度,并依据相似度进行分类,其相似度计算公式为:

其中,max(wa,wb)为信息中不同词性关键词之间的最大相似度计算值,min(wa,wb)为信息中不同词性关键词之间的最大相似度计算值,

。delta为调节系数,在信息关键词数量相等时,其取值为零因为进行分类的信息关键词不会完全相等,delta是一个非空的关键词与空格的相似度计算值。ρ为不同词性关键词赋予的不同的权重。

在计算完信息d1与d2中所有词性的相似度后,对其求平均值,该值即为两信息间的相似度,根据两信息间的相似度,并采用K聚类方法进行信息分类,数值越接近,表示两者更接近同一类。

步骤2、信息的兴趣匹配。

当在进入微博数据库内的信息完成上述分类操作后,分类后得到不同的信息集合,会与微博浏览记录中存储器中的用户过往信息浏览记录进行匹配。具体的,在该智能浏览方法下微博浏览记录中不再简单的记录存储用户最近的浏览信息,而是根据最近的浏览记录分类出用户的信息浏览偏好,针对用户过往浏览记录未出现的信息集合赋予低权重值,而不是不给用户进行推送。其目的在于保留用户对信息突发性的了解。

具体作法是在数据库内分类好的信息集合会根据此种用户偏好对不同的信息集合进行基础权重赋值。对于符合过往浏览信息记录的信息集合赋予高基础权重值1。对于不符合过往浏览信息记录的信息集合数据库不会对其执行删除操作,而是赋予低基础权重值0.2。因为针对突发消息,例如地震,海峡等小概率事件,以及奥运会,世界杯等周期较长事件,用户短期内不会特别关注,但是也不排除是用户感兴趣内容,所以赋予低基础权重值。

步骤3、信息的热度排序。

当微博数据库内信息完成分类,并且与微博存储器中的用户过往记录进行匹配以后,为了防止用户在一个时段内,刷出同类别微博信息,从而影响到其他微博信息的时效性。针对不同类别的信息集合,分别计算每一条信息的推送的顺序。

如何判断单条信息的推送顺序,在微博信息进入数据库时,数据库不单单只记录数据库中含有的微博信息数量,同时会记录每一条信息在该时段的热度值。该热度值是由每条信息的点赞数,评论数转载数组成。在数据库内,对于每一条信息的热度值,会根据该热度值所处的热度范围赋予一个热度权重值,其目的在于完成不同分类下的每一条信息的排序工作。具体操作是当一条微博热度值低于100,对该条微博信息赋予热度权重值0,当一条微博的热度值在100与200之间时,对该条微博信息赋予热度权重值0.1,依次类推。权重赋值范围在[0,1]间,当热度值超过1000则对该条信息赋予热度权重值1。现举例说明,例如在军事类中,“I军进入C国领土”这一信息,不在此时用户的兴趣匹配中,则对该集合进行基础权重赋值0.2。由于该信息热度记录值超过超过1000,则会赋予热度权重值1。此时这一消息的进行推送的排位顺序的数值为0.2*1=0.2。又比如在用户感兴趣的娱乐类,“W与M离婚”,此时因为用户感兴趣该信息的基础权值是1,但是因为该事件热度值低于100,则其热度权重值只有0,故此推送消息的顺序数值只能是1*0=0,小于军事类信息“I军进入C国领土”,这样既完成了不同信息集合中信息的推送顺序的排位,同时也完成了对于用户不感兴趣的突发事件在数据库分类时,因为没有得到兴趣匹配而不直接从数据库中删除,最终让用户无法的得到该信息的推送。

上述举例是为了说明如何得到不同信息集合类的每一条信息的排位数值大小。在微博数据库内,不同信息集合内的多条信息是并行处理。

在信息完成分类与匹配后,针对不同信息集合内的每一条信息的顺序判断,浏览器数据库会根据每一条信息的热度值来决定该信息在当前信息集合类的推送顺序,最终决定是否推送要在完成信息是否适应现有推送环境后再决定。

步骤4、信息的推送网络环境判断。

为了解决智能终端上传统信息浏览方法缺少对用户智能终端流量的考虑,在对信息分类,兴趣匹配,排位计算后,根据信息在进入数据库时贴上的属性标签进行信息推送的网络环境的判断,参见图2。

在分类完成以后的信息集合中,每一条信息会被附上3个属性标签。这3个属性标签分别是信息是否实时,信息内容是否含有视频或者文本,信息位置。该属性标签在信息分类时,会根据其他用户发送信息至数据库时自动附上,然后根据3个属性标签计算信息推送值YLTE与YWLAN。当前者大于后者,则在蜂窝环境下推送给用户。当后者大于前者,则在无线网络环境下推送给用户。

进入微博数据库的信息,会在数据库内贴上属性标签,则这些信息的属性标签的集合为:

其中S矩阵的每一行对应每一个信息的3个属性标签,即信息是否实时,信息是否含有视频和文本,信息位置。列数表示信息数目。

设置矩阵A为候选的用户接入网络集合,本实施例考虑两种网络模式,即LTE和WLAN,则候选的网络矩阵为:

A=(A1 A2),

其中A1和A2分别表示接入LTE和WLAN网络。

在融合网络的业务模型中内针对信息属性标签中的位置属性可以分为停留在LTE,停留在LTE外,其参数的概率分别设为PIN和POUT;用户进入和跳出WLAN,其参数的概率分别为PSTAY和PSTAYOUT。针对属性标签中信息是否最新,可以分为实时信息和非实时信息,其概率分别为PRT和PNRT,针对属性标签中信息是否含有视频和图片,可以将信息分为纯文字信息,含视频图片信息。其参数的概率分别为PPT和PNPT。各参数的概率值在该融合网络的业务模型中为一个确定值。

然后根据贝叶斯概率公式可以由第i个信息在第1个属性(信息浏览属性标签)下选择LTE网络和WLAN网络的概率为:

同理,第i个信息在属性标签2(信息是否最新的属性标签)下选择LTE网络和WLAN网络的概率为:

同理,第i个信息在属性标签3(信息是否不含有图片与视频的属性标签)下选择LTE网络和WLAN网络的概率为:

将第i信息在第j个属性标签下选择某一网络的概率矩阵记为:

其中1<i<m,1<j<3,其中P(A1|Sij),P(A2|Sij)分别是第i个信息在第j个属性接入到两个候选网络的概率。

此时,由上述的决策概率值可以得到决策概率矩阵:

其中Xi1为第i个信息在信息是否实时的属性标签下接入网络的参数,Xi2为第i个信息在信息是否含有视频图片的属性标签下接入网络的参数,Xi3为第i个信息的信息位置的属性标签下计入网络的参数。分别给予这个三个参数设置网络选择权重,c1,c2,c3三个权重参数分别点乘矩阵X的每一行元素,作为决策概率矩阵中的每一个元素,其实际为一个两行一列的矩阵,我们在进行运算时先将决策概率矩阵中的每一个2*1的矩阵看做一个整体分别点乘权重值矩阵[c1 c2 c3]T,例如矩阵X中的第一行乘以权重值矩阵,得到

Y1=X11c1+X12c2+X13c3,

同理将决策概率矩阵中的每一行元素与权重矩阵相乘,我们可以得到Y矩阵。此时对Y矩阵进行简化,以Y1为例进行说明,由式

代入到

Y1=X11c1+X12c2+X13c3,

可以得到

将c1,c2,c3分别乘入,再通过相同维数的矩阵可以相加得到

其表示第一个信息可能选择两个网络中的哪一种网络的概率Y1,矩阵Y中的每一个元素都是如Y1的两行一列的矩阵,其表示每条信息选择两种不同网络的概率,通过对矩阵Y中每一个元素的每一组数据进行遍历,若YLTE>YWLAN,即LTE网络概率之和大于WLAN概率之和,则该信息会在LTE网络环境下送至用户浏览,反之则在WLAN环境下送至用户浏览。

判断信息此时在何种网络环境下推送以后,对于不适合当前网络环境下的信息会存放在浏览器存储器中供下次推送使用。

当信息进入到移动终端的浏览器的数据库中,首先将进入浏览器的信息,附上属性标签。对附上属性标签后的信息进行分类,针对数据库中的信息在进行预处理操作以后,通过相似度算法,完成对信息的分类。在完成分类后的信息,会与浏览器缓存中的用户过往浏览信息进行推送的兴趣匹配。例如在浏览器的缓存区中,用户最近两小时内的浏览记录中,得到用户分别浏览了体育类,情感类。则针对这两类,赋予高权重值,对于在浏览器缓存中未出现的信息类集合,赋予低权重值。当分类后的信息集合在于浏览器缓存信息,进行了兴趣匹配之后,在同一信息集合内,根据不同信息的热度值,完成在同一信息集合中每一条信息的排位顺序的计算。在完成信息排位顺序计算后,根据信息在进入浏览器数据库时,被附上的属性标签,按照本发明的特有算法进行信息网络环境推送的判决。对于符合用户智能终端的网络环境下的信息,提取出来之后,根据排位数值的大小,将其推送给用户,在该阶段未被选中推送的信息则存放在浏览器的存储器中,在下一次推送中选择性推送。

本发明首先将涌入数据库中的信息分为不同的信息集合,并对信息附上属性标签,对每一条信息进行热度统计;接着在完成信息分类后,分类后的不同信息集合进入结合数据库内用户过往浏览记录得到兴趣匹配的基础权重值;之后针对不同信息集合中的每一条信息的热度值来计算每一条信息的排位顺序;最后在数据进行兴趣匹配,信息集合赋值的同时,针对信息在进入数据库被贴上的属性标签得到信息在何种网络环境下推送。针对用户兴趣推送信息,对于突发事件和偶发事件推送不力做出了改进,其不仅会根据用户过往浏览记录进行兴趣匹配来推送消息,而且避免了突发偶发信息不在用户兴趣内而未被用户知晓的可能,从而保证了用户浏览信息的完整性。此外,本发明可以自动判断智能终端的网络环境,从而根据智能终端此时的网络状况,来选择推送给用户的浏览信息,用户规划出最节省流量的浏览方式,有效的避免用户在浏览体验中需要对流量的考量以及因为限制自身智能终端流量的原因从而错过信息,而丧失了时效性。

需要说明的是,尽管以上本发明所述的实施例是说明性的,即使用微博作为实例并不代表只适用于微博浏览,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中,即还适用于当前各种在市面上流行的社交软件,例如微信朋友圈,购物网站,QQ空间,以及各种新闻浏览网站等信息交互软件。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1