一种重点博主追踪确认方法及装置的制造方法

文档序号:9687657阅读:279来源:国知局
一种重点博主追踪确认方法及装置的制造方法
【技术领域】
[0001] 本发明设及信息捜索领域,具体设及一种重点博主追踪确认方法及装置。
【背景技术】
[0002] 目前,市场上充斥着各种微博监测系统,可W对微博信息进行抓取W及分析,但是 很多的监测系统对信息的抓取及分析只是停留在表面,对微博博主的信息并不能深入的挖 掘及分析,只是获取了微博的主要信息,微博属性值不足,潜在关系难W发现。因为属性不 足,造成无法判断博主参与一个事件中是否对事件的发展起到作用。此外,微博博主的评分 计算也是五花八口,因为计算方法的不同,设置的权重不同,导致很多不同的结果,其大部 分的结果是不能有效反映微博博主的重要性。

【发明内容】

[0003] 为克服上述缺陷,本发明的目的即在于提供一种重点博主追踪确认方法及装置。
[0004] 本发明的目的是通过W下技术方案来实现的: 本发明的一种重点博主追踪确认方法,包括W下步骤: 选取一个W上的微博舆情事件,根据该一个W上的微博舆情事件相对应的事件关键词 在微博上下载相关微博数据,对相关微博数据内的每一个博主进行事件参与度统计计算出 每一个博主的事件参与度值; 将相关微博数据内的微博数据属性值均作为一个分析因子,根据统计学公式计算出每 一个博主的基础总分值; 对每一个博主的每一个原创微博进行语义分析找出正面关键词及负面关键词,统计正 面关键词数及负面关键词数由正面关键词数及负面关键词数计算出每一个博主的屯、态指 数; 由事件参与度值、基础总分值及屯、态指数计算出每一个博主的博主权重值,将该博主 权重值与预设的权重阔值进行比较来确认重点博主。
[000引进一步,包括W下步骤: 选取N个微博舆情事件,根据该N个微博舆情事件相对应的事件关键词在微博上下载相 关微博数据,对相关微博数据内的每一个博主进行事件参与度统计计算出每一个博主的事 件参与度值G: G=(W1*Q1+ W2*Q化…+Wd*Qd+...+ Wf*Qf )*S/N,其中S为参与事件数,N为舆情事件总 数,d=l、2、一、f,f为相关微博数据内的微博数据属性值的个数,f>3,Wd为每个微博数据属 性值的个数,Qd为每个微博数据属性值的参与度权重,Ql+Q2+-,+Qd+-,+Qf=l,NM ; 将相关微博数据内的微博数据属性值均作为一个分析因子,根据统计学公式计算出每 一个博主的基础总分值To化1: Total=Vl*Tl+V2*T2+...+Vi*Ti+…+ Vf*Tf,其中i=l、2、…、f,f为相关微博数据内的 微博数据属性值的个数,f含3,Vi为每一个分析因子的基础分权重,Vl+V2+-,+Vi+…+ Vf = l,Ti为每一个分析因子的τ分值; 对每一个博主的每一个原创微博进行语义分析找出正面关键词及负面关键词,统计正 面关键词数及负面关键词数由正面关键词数及负面关键词数计算出每一个博主的屯、态指 数Η: Η=化1+h化…+hk+...+hn)/n,其中k=l、2、…、η,η Μ,η为每一个博主发出的原创微博 数,hk=reverse/obverse,化为每一个原创微博的正负关键词比例,reverse为负面关键词 数,obverse为正面关键词数; 由事件参与度值、基础总分值及屯、态指数计算出每一个博主的博主权重值Imp,将该博 主权重值与预设的权重阔值进行比较来确认重点博主: 其中,Imp=Total+G 地。
[0006] 进一步,所述Τ=(标准分满分/2)·Κ标准分制*10/100)*标准分Z,标准分Z=(Xi- X_ bar)/S,其中i=l、2、…、m,m含l,m为博主的个数,Xi为对应每一个分析因子时每一个博主的 样本数值,X_bar为每一个分析因子的样本平均值,S为每一个分析因子的样本标准差。
[0007] 进一步,所述标准分满分为100,所述标准分制为100。
[0008] 进一步,将该博主权重值与预设的权重阔值进行比较,若博主权重值大于预设的 权重阔值,则该博主权重值对应的博主确定为重点博主,若博主权重值小于预设的权重阔 值,则该博主权重值对应的博主确定为非重点博主。
[0009] 进一步,根据该一个W上的微博舆情事件相对应的事件关键词在微博上下载相关 微博数据为:对微博页面进行分析,获得解析模板,由解析模板采用数据模板匹配属性值的 方式根据该一个W上的微博舆情事件相对应的事件关键词在微博上下载微博基本属性数 据,由微博基本属性数据拼接目标url地址,获取其他相关信息微博页面,再对其他相关信 息微博页面进行分析获得解析模板,由解析模板采用数据模板匹配属性值的方式下载解析 超过100个微博数据属性值入库保存。
[0010] 更进一步,所述相关微博数据内的微博数据属性值为Ξ个,分别为原创微博数、转 发微博数及评论微博数。
[0011] -种重点博主追踪确认装置,包括依次连接的: 选取一个W上的微博舆情事件,根据该一个W上的微博舆情事件相对应的事件关键词 在微博上下载相关微博数据的微博数据采集单元; 对相关微博数据内的每一个博主进行事件参与度统计计算出每一个博主事件参与度 值的事件参与度计算单元; 将相关微博数据内的微博数据属性值均作为一个分析因子,根据统计学公式计算出每 一个博主基础总分值的基础总分值计算单元; 对每一个博主的每一个原创微博进行语义分析找出正面关键词及负面关键词,统计正 面关键词数及负面关键词数由正面关键词数及负面关键词数计算出每一个博主屯、态指数 的屯、态指数计算单元; 由事件参与度值、基础总分值及屯、态指数计算出每一个博主的博主权重值,将该博主 权重值与预设的权重阔值进行比较来确认重点博主的重点博主确认单元。
[0012] 进一步,该装置还包括与屯、态指数计算单元连接、为屯、态指数计算单元提供正面 关键词及负面关键词的正负关键词存储单元。
[0013] 本发明提供的一种重点博主追踪确认方法及装置,该方法和装置分别计算出每个 博主的事件参与度值、基础总分值及屯、态指数,再有Ξ者计算出每个博主的博主权重值,通 过阔值比较来确认重点博主;其对博主进行深入分析,依据博主的发帖频率来分析博主从 W往的行为中及预测博主在未来的微博事件中所表现出的影响力,微博影响力可W从微博 的转发量和评论量等方面分析得出、博主屯、态分析W博主发布微博内容的语义来分析,计 算出正负面关键词的相对比例,从而得出博主在舆情事件中是推动舆情发酵还是传播正能 量。从W上几个方面,我们可W将博主分口别类开来,谁有可能是重点博主也就有据可依。 重点博主的筛选结果对每个用户都是可用的,并不是只对一个用户服务,在微博监测中对 重点博主的微博进行监测,运样就更有针对性,重点博主的信息就可W作为重点参考依据。
【附图说明】
[0014] 为了易于说明,本发明由下述的较佳实施例及附图作W详细描述。
[0015] 图1为本发明一种重点博主追踪确认方法的步骤流程图; 图2为本发明一种重点博主追踪确认装置的模块框图。
【具体实施方式】
[0016] 为了使本发明的目的、技术方案及优点更加清楚明白,W下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用W解释本发明,并 不用于限定本发明。
[0017] 请参照图1,本发明的一种重点博主追踪确认方法,包括W下步骤: 100:微博采集,选取一个W上的微博舆情事件,根据该一个W上的微博舆情事件相对 应的事件关键词在微博上下载相关微博数据。
[0018] :数据解析,对微博页面进行分析,获得解析模板,由解析模板采用数据模板匹配 属性值的方式根据该一个W上的微博舆情事件相对应的事件关键词在微博上下载微博基 本属性数据,该微博基本属性数据包括微博内容、转发、评论等基础数据,W及博主的名称、 注册时间、粉丝等数据,并格式
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1