信息处理方法和信息处理装置的制造方法

文档序号:9235455阅读:186来源:国知局
信息处理方法和信息处理装置的制造方法
【技术领域】
[0001]本公开涉及信息处理技术领域,更具体地,涉及一种用于舆情监控的信息处理方法和信息处理装置。
【背景技术】
[0002]当前开放的公众舆论媒体平台主要包括微博、论坛、新闻等,用户可以在这些媒体平台上发表评论。随着社交媒体网络的发展,用于对媒体平台上的公众舆论进行监控的舆情监控技术也得到了快速发展和应用。
[0003]现有的舆情监控预警技术主要是针对不同媒体平台的数量、内容等特征进行监控而没有考虑对跨越不同媒体平台的相同或相似内容进行特征提取。然而,由于相同或相似的内容可能覆盖不同的媒体平台,例如,微博上的热门话题在新闻上可能是冷门,甚至可能是过时的新闻重新人为炒作的结果,因此如果不考虑对跨越不同媒体平台的相同或相似内容进行特征提取,则会影响预警质量。

【发明内容】

[0004]在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
[0005]鉴于以上问题,本公开的目的是提供一种信息处理方法和信息处理装置,其通过跨越多个媒体平台对特定话题进行扩展并且考虑该话题在不同媒体平台之间的差异性,能够提高舆情监控预警的准确度。
[0006]根据本公开的一方面,提供了一种信息处理方法,该方法包括:搜索步骤,根据预设的关键词在多个媒体平台中进行搜索,以得到多个媒体平台中的各个媒体平台中与该关键词有关的媒体条目集合;内容整合步骤,针对每个媒体条目集合,计算媒体条目之间的内容重复度,并根据算出的内容重复度对该媒体条目集合中的媒体条目进行整合,以将内容重复度满足预定条件的媒体条目整合为重复集合;话题确定步骤,从每个重复集合提取关键词,并根据所提取的关键词确定在该重复集合所属的自身媒体平台以及多个媒体平台中除自身媒体平台之外的其它媒体平台中的相似媒体条目,从而根据相似媒体条目确定话题;以及模型构建步骤,利用从话题中提取的表示该话题在多个媒体平台之间的差异性的特定特征和通过对该话题预先进行标注而得到的标注结果,构建用于确定该话题的状态的分类模型。
[0007]根据本公开的优选实施例,该信息处理方法还可包括:数据扩充步骤,从在内容整合步骤中得到的每个重复集合提取关键词,并利用所提取的关键词在多个媒体平台中除该重复集合所属的自身媒体平台之外的其它媒体平台的搜索引擎中进行搜索,并将其它媒体平台中搜索结果排序靠前的预定数量的媒体条目加入该重复集合中以得到扩充的重复集合,其中,在话题确定步骤中,通过从扩充的重复集合中提取关键词来确定话题。
[0008]根据本公开的另一优选实施例,上述特定特征可包括以下中的一个或多个:话题在不同媒体平台中的持续时间、话题在不同媒体平台之间出现的平均时间差和话题在不同媒体平台中的平均讨论热度。
[0009]根据本公开的又一优选实施例,在模型构建步骤中,还可从话题提取表示该话题所涉及的媒体平台的数量的特征以及该话题相关的内容特征来构建分类模型。
[0010]根据本公开的另一方面,还提供了一种信息处理方法,其包括:搜索步骤,根据预设的关键词在多个媒体平台中进行搜索,以得到多个媒体平台中的各个媒体平台中与该关键词有关的媒体条目集合;内容整合步骤,针对每个媒体条目集合,计算媒体条目之间的内容重复度,并根据算出的内容重复度对该媒体条目集合中的媒体条目进行整合,以将内容重复度满足预定条件的媒体条目整合为重复集合;话题确定步骤,从每个重复集合中提取关键词,并根据所提取的关键词确定在该重复集合所属的自身媒体平台以及多个媒体平台中除自身媒体平台之外的其它媒体平台中的相似媒体条目,从而根据相似媒体条目确定话题;以及分类步骤,从话题中提取表示该话题在多个媒体平台之间的差异性的特定特征,并利用所提取的特定特征和上述分类模型对话题进行分类,以确定话题的状态。
[0011]根据本公开的另一方面,还提供了一种信息处理装置,其包括:搜索单元,被配置成根据预设的关键词在多个媒体平台中进行搜索,以得到多个媒体平台中的各个媒体平台中与该关键词有关的媒体条目集合;内容整合单元,被配置成针对每个媒体条目集合,计算媒体条目之间的内容重复度,并根据算出的内容重复度对该媒体条目集合中的媒体条目进行整合,以将内容重复度满足预定条件的媒体条目整合为重复集合;话题确定单元,被配置成从每个重复集合提取关键词,并根据所提取的关键词确定在该重复集合所属的自身媒体平台以及多个媒体平台中除自身媒体平台之外的其它媒体平台中的相似媒体条目,从而根据相似媒体条目确定话题;以及模型构建单元,被配置成利用从话题中提取的表示该话题在多个媒体平台之间的差异性的特定特征和通过对话题预先进行标注而得到的标注结果,构建用于确定话题的状态的分类模型。
[0012]根据本公开的另一方面,还提供了一种信息处理装置,其包括:搜索单元,被配置成根据预设的关键词在多个媒体平台中进行搜索,以得到多个媒体平台中的各个媒体平台中与该关键词有关的媒体条目集合;内容整合单元,被配置成针对每个媒体条目集合,计算媒体条目之间的内容重复度,并根据算出的内容重复度对该媒体条目集合中的媒体条目进行整合,以将内容重复度满足预定条件的媒体条目整合为重复集合;话题确定单元,被配置成从每个重复集合中提取关键词,并根据所提取的关键词确定在该重复集合所属的自身媒体平台以及多个媒体平台中除自身媒体平台之外的其它媒体平台中的相似媒体条目,从而根据相似媒体条目确定话题;以及分类单元,被配置成从话题中提取表示该话题在多个媒体平台之间的差异性的特定特征,并利用所提取的特定特征和上述分类模型对话题进行分类,以确定话题的状态。
[0013]根据本公开的另一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行以下步骤:搜索步骤,根据预设的关键词在多个媒体平台中进行搜索,以得到多个媒体平台中的各个媒体平台中与关键词有关的媒体条目集合;内容整合步骤,针对每个媒体条目集合,计算媒体条目之间的内容重复度,并根据算出的内容重复度对该媒体条目集合中的媒体条目进行整合,以将内容重复度满足预定条件的媒体条目整合为重复集合;话题确定步骤,从每个重复集合提取关键词,并根据所提取的关键词确定在该重复集合所属的自身媒体平台以及多个媒体平台中除自身媒体平台之外的其它媒体平台中的相似媒体条目,从而根据相似媒体条目确定话题;以及模型构建步骤,利用从话题中提取的表示该话题在多个媒体平台之间的差异性的特定特征和通过对该话题预先进行标注而得到的标注结果,构建用于确定该话题的状态的分类模型。
[0014]根据本公开的另一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行以下步骤:搜索步骤,根据预设的关键词在多个媒体平台中进行搜索,以得到多个媒体平台中的各个媒体平台中与关键词有关的媒体条目集合;内容整合步骤,针对每个媒体条目集合,计算媒体条目之间的内容重复度,并根据算出的内容重复度对该媒体条目集合中的媒体条目进行整合,以将内容重复度满足预定条件的媒体条目整合为重复集合;话题确定步骤,从每个重复集合提取关键词,并根据所提取的关键词确定在该重复集合所属的自身媒体平台以及多个媒体平台中除自身媒体平台之外的其它媒体平台中的相似媒体条目,从而根据相似媒体条目确定话题;以及模型构建步骤,利用从话题中提取的表示该话题在多个媒体平台之间的差异性的特定特征和通过对该话题预先进行标注而得到的标注结果,构建用于确定该话题的状态的分类模型。
[0015]根据本公开的另一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行以下步骤:搜索步骤,根据预设的关键词在多个媒体平台中进行搜索,以得到多个媒体平台中的各个媒体平台中与该关键词有关的媒体条目集合;内容整合步骤,针对每个媒体条目集合,计算媒体条目之间的内容重复度,并根据算出的内容重复度对该媒体条目集合中的媒体条目进行整合,以将内容重复度满足预定条件的媒体条目整合为重复集合;话题确定步骤,从每个重复集合中提取关键词,并根据所提取的关键词确定在该重复集合所属的自身媒体平台以及多个媒体平台中除自身媒体平台之外的其它媒体平台中的相似媒体条目,从而根据相似媒体条目确定话题;以及分类步骤,从话题中提取表示该话题在多个媒体平台之间的差异性的特定特征,并利用所提取的特定特征和上述分类模型对话题进行分类,以确定话题的状态。
[0016]根据本公开的另一方面,还提供了一种程序产品,
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1