一种针对千万级规模新闻评论的观点挖掘方法

文档序号：8457308阅读：727来源：国知局

一种针对千万级规模新闻评论的观点挖掘方法
【技术领域】
[0001] 本发明属于数据挖掘领域，涉及一种观点挖掘技术，具体的说是一种针对千万级规模新闻评论的观点挖掘方法。
【背景技术】
[0002] 随着网民规模的不断增大，社会化媒体也得到迅速地发展，以论坛、微博、微信为代表逐渐渗透到全民生活和工作的每一个层面，对人们的行为模式、心理模式产生了极为深远的影响。同时社会化媒体每天都会产生大量的短文本，含有大量的表达事件方面或用户观点的信息。通过分析该信息，人们一方面可以了解某一事件或话题的信息扩散情况，另一方面通过观察其他人对某一事件或话题的看法，了解到其观点偏好和行为特征，这对社会化媒体舆情监控、社会化媒体营销等方面有着重要的作用。如何从大量的社会化媒体短文本中提取出能表达事件方面或用户观点的关键词成为当前的研宄重点。
[0003] 新闻评论是社会各界人士对社会化主流媒体所发布的新闻的看法，这些评论既能反映人们对某一新闻的观点，又能反应人们对某一新闻关注的方面。但是，由于新闻评论具有数量大，长度短，用词口语化，汉语语言的多样性等特点，对新闻评论进行观点挖掘具有一定的难度。

【发明内容】

[0004] 本发明的目的是：在信息爆炸式增长的情况下，针对如何高效地从某一话题的大量新闻评论文本中提取出事件方面或用户观点的问题，提出了一种针对千万级规模新闻评论的观点挖掘方法。
[0005] 该方法具体步骤如下：
[0006] 步骤一：根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量；初始根据新闻标题为新闻评论进行分类，每个新闻标题下的新闻评论为一类；
[0007] 步骤二：将新闻评论数量大于或等于阈值K的各类新闻评论不予处理，将新闻评论数量小于阈值K的新闻评论进入步骤三处理；
[0008] 阈值K计算如下：
[0009] K = maxcount X ^0.05
[0010] 其中，max_count表示所有新闻评论的最大评论数量；
[0011] 步骤三：利用中文分词工具，对数量小于阈值K的每一类新闻标题以及对应的新闻评论进行分词，并进行词性标注；
[0012] 经过分词后，将评论数量小于阈值K的新闻评论以及对应该类的新闻标题分成名词、形容词和动词；
[0013] 步骤四：根据分词结果对评论数量小于阈值K的所有新闻评论聚类，并得到聚类后每类新闻评论的类别标签；
[0014] 步骤五：对评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论进行关键词对提取；
[0015] 步骤501、对每一类新闻评论进行词频统计，选取词频排名前M个词语作为候选的尚频词；
[0016] 其中每一类新闻评论是指步骤二评论数量大于等于阈值K的每一类新闻评论或步骤四聚类处理后含有类别标签每一类新闻评论;M为整数。
[0017] 步骤502、根据候选高频词在新闻评论中出现的位置，选取与候选高频词紧邻的前后词分别构成前后两个词对；
[0018] 步骤503、统计每一个词对在新闻评论中出现的次数，计算每一个词对的权重W :
[0019] W = FgXNc
[0020] FgS核心词权重；N。表示词对共现权重。
[0021] 步骤504、根据权重对词对进行降序排序，选取前N个词对作为该类新闻评论中的关键词对；其中，N为整数。
[0022] 步骤六：根据评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论，统计每一类新闻评论的比例和混杂度；
[0023] 新闻评论的混杂度，针对聚类后的含有类别标签的各类新闻评论，统计各类新闻评论中包含的新闻标题个数；
[0024] 步骤七：根据关键词对，筛选并提取每一类新闻评论中的代表性文本。
[0025] 本发明的优点在于：
[0026] (1)、一种针对千万级规模新闻评论的观点挖掘方法，适用于千万级规模新闻评论的方面分析。
[0027] (2)、一种针对千万级规模新闻评论的观点挖掘方法，具有高效性和易用性，在舆情监控、观点分析和信息传播扩散等领域有重要的应用价值。
[0028] (3)、一种针对千万级规模新闻评论的观点挖掘方法，利用中文分词工具，考虑汉语语言的用法和搭配关系，结合新闻标题的作用，处理千万级规模的新闻评论，具有高效性、鲁棒性和易用性等优点。
【附图说明】
[0029] 图1是为本发明一种针对千万级规模新闻评论的观点挖掘方法流程图。
[0030] 图2为本发明关键词对提取的具体流程流程图。
【具体实施方式】
[0031] 下面将结合附图和实施例对本发明作进一步的详细说明。
[0032] 一种针对千万级规模新闻评论的观点挖掘方法，基于数据挖掘、自然语言处理等技术，利用中文分词、聚类等方法，对千万级规模的新闻评论进行分析，从中获取能表达事件方面或用户观点的重要信息。
[0033] 首先，根据某一事件或话题下新闻标题统计每一个标题下的评论数量，将评论数量超过一定值的新闻评论按标题组成一类；再对剩下的新闻标题和评论内容进行中文分词，根据分词的结果进行聚类；然后对每一类新闻评论提取该类的关键词对，并计算每一类新闻评论的比例和混杂度；最后根据每一类的关键词对，从该类的新闻评论中提取出该类下能代表事件方面或用户观点的文本。
[0034] 具体实施步骤如下：
[0035] 步骤一：根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量；初始根据新闻标题为新闻评论进行分类，每个新闻标题下的新闻评论为一类；
[0036] 新闻标题能简明扼要地概括新闻的内容，根据新闻标题对新闻评论进行分类，每一个新闻标题是一类，从而进一步根据新闻标题对新闻评论进行数量统计，统计每一类新闻标题下的千万级规模新闻评论的数量。
[0037] 比如，关于"APEC"话题下有41067条新闻评论，含有1056个不同的新闻标题，则分别统计1056类标题下的新闻评论的数量。
[0038] 步骤二：将新闻评论数量大于或等于阈值K的各类新闻评论不予处理，将新闻评论数量小于阈值K的新闻评论进入步骤三处理；
[0039] 阈值K计算如下：
[0040] K - max countx>/〇.05
[0041] 其中，max_C〇Unt表示所有新闻评论中，新闻标题含有的最大评论数量。
[0042] 步骤三：利用中文分词工具，对数量小于阈值K的每一类新闻标题以及对应的新闻评论进行分词，并进行词性标注；
[0043] 对步骤二中评论数量小于阈值K的新闻评论以及对应的新闻标题进行分词和词性标注。分词的目的是为了将新闻评论转化成一个个词语。根据汉语语言的特点，能反映

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘春阳;程工;吴俊杰;张旭;王卿;庞琳;李雄;袁石;
技术所有人：国家计算机网络与信息安全管理中心;
我是此专利的发明人

上一篇：一种微博转发树和转发森林构建方法
上一篇：一种搜索引擎 seo 网站数据的优化抓取方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。