一种针对千万级规模新闻评论的观点挖掘方法

文档序号:8457308阅读:727来源:国知局
一种针对千万级规模新闻评论的观点挖掘方法
【技术领域】
[0001] 本发明属于数据挖掘领域,涉及一种观点挖掘技术,具体的说是一种针对千万级 规模新闻评论的观点挖掘方法。
【背景技术】
[0002] 随着网民规模的不断增大,社会化媒体也得到迅速地发展,以论坛、微博、微信为 代表逐渐渗透到全民生活和工作的每一个层面,对人们的行为模式、心理模式产生了极为 深远的影响。同时社会化媒体每天都会产生大量的短文本,含有大量的表达事件方面或用 户观点的信息。通过分析该信息,人们一方面可以了解某一事件或话题的信息扩散情况,另 一方面通过观察其他人对某一事件或话题的看法,了解到其观点偏好和行为特征,这对社 会化媒体舆情监控、社会化媒体营销等方面有着重要的作用。如何从大量的社会化媒体短 文本中提取出能表达事件方面或用户观点的关键词成为当前的研宄重点。
[0003] 新闻评论是社会各界人士对社会化主流媒体所发布的新闻的看法,这些评论既能 反映人们对某一新闻的观点,又能反应人们对某一新闻关注的方面。但是,由于新闻评论具 有数量大,长度短,用词口语化,汉语语言的多样性等特点,对新闻评论进行观点挖掘具有 一定的难度。

【发明内容】

[0004] 本发明的目的是:在信息爆炸式增长的情况下,针对如何高效地从某一话题的大 量新闻评论文本中提取出事件方面或用户观点的问题,提出了一种针对千万级规模新闻评 论的观点挖掘方法。
[0005] 该方法具体步骤如下:
[0006] 步骤一:根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量;初始 根据新闻标题为新闻评论进行分类,每个新闻标题下的新闻评论为一类;
[0007] 步骤二:将新闻评论数量大于或等于阈值K的各类新闻评论不予处理,将新闻评 论数量小于阈值K的新闻评论进入步骤三处理;
[0008] 阈值K计算如下:
[0009] K = maxcount X ^0.05
[0010] 其中,max_count表示所有新闻评论的最大评论数量;
[0011] 步骤三:利用中文分词工具,对数量小于阈值K的每一类新闻标题以及对应的新 闻评论进行分词,并进行词性标注;
[0012] 经过分词后,将评论数量小于阈值K的新闻评论以及对应该类的新闻标题分成名 词、形容词和动词;
[0013] 步骤四:根据分词结果对评论数量小于阈值K的所有新闻评论聚类,并得到聚类 后每类新闻评论的类别标签;
[0014] 步骤五:对评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新 闻评论进行关键词对提取;
[0015] 步骤501、对每一类新闻评论进行词频统计,选取词频排名前M个词语作为候选的 尚频词;
[0016] 其中每一类新闻评论是指步骤二评论数量大于等于阈值K的每一类新闻评论或 步骤四聚类处理后含有类别标签每一类新闻评论;M为整数。
[0017] 步骤502、根据候选高频词在新闻评论中出现的位置,选取与候选高频词紧邻的前 后词分别构成前后两个词对;
[0018] 步骤503、统计每一个词对在新闻评论中出现的次数,计算每一个词对的权重W :
[0019] W = FgXNc
[0020] FgS核心词权重;N。表示词对共现权重。
[0021] 步骤504、根据权重对词对进行降序排序,选取前N个词对作为该类新闻评论中的 关键词对;其中,N为整数。
[0022] 步骤六:根据评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类 新闻评论,统计每一类新闻评论的比例和混杂度;
[0023] 新闻评论的混杂度,针对聚类后的含有类别标签的各类新闻评论,统计各类新闻 评论中包含的新闻标题个数;
[0024] 步骤七:根据关键词对,筛选并提取每一类新闻评论中的代表性文本。
[0025] 本发明的优点在于:
[0026] (1)、一种针对千万级规模新闻评论的观点挖掘方法,适用于千万级规模新闻评论 的方面分析。
[0027] (2)、一种针对千万级规模新闻评论的观点挖掘方法,具有高效性和易用性,在舆 情监控、观点分析和信息传播扩散等领域有重要的应用价值。
[0028] (3)、一种针对千万级规模新闻评论的观点挖掘方法,利用中文分词工具,考虑汉 语语言的用法和搭配关系,结合新闻标题的作用,处理千万级规模的新闻评论,具有高效 性、鲁棒性和易用性等优点。
【附图说明】
[0029] 图1是为本发明一种针对千万级规模新闻评论的观点挖掘方法流程图。
[0030] 图2为本发明关键词对提取的具体流程流程图。
【具体实施方式】
[0031] 下面将结合附图和实施例对本发明作进一步的详细说明。
[0032] 一种针对千万级规模新闻评论的观点挖掘方法,基于数据挖掘、自然语言处理等 技术,利用中文分词、聚类等方法,对千万级规模的新闻评论进行分析,从中获取能表达事 件方面或用户观点的重要信息。
[0033] 首先,根据某一事件或话题下新闻标题统计每一个标题下的评论数量,将评论数 量超过一定值的新闻评论按标题组成一类;再对剩下的新闻标题和评论内容进行中文分 词,根据分词的结果进行聚类;然后对每一类新闻评论提取该类的关键词对,并计算每一类 新闻评论的比例和混杂度;最后根据每一类的关键词对,从该类的新闻评论中提取出该类 下能代表事件方面或用户观点的文本。
[0034] 具体实施步骤如下:
[0035] 步骤一:根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量;初始 根据新闻标题为新闻评论进行分类,每个新闻标题下的新闻评论为一类;
[0036] 新闻标题能简明扼要地概括新闻的内容,根据新闻标题对新闻评论进行分类,每 一个新闻标题是一类,从而进一步根据新闻标题对新闻评论进行数量统计,统计每一类新 闻标题下的千万级规模新闻评论的数量。
[0037] 比如,关于"APEC"话题下有41067条新闻评论,含有1056个不同的新闻标题,则 分别统计1056类标题下的新闻评论的数量。
[0038] 步骤二:将新闻评论数量大于或等于阈值K的各类新闻评论不予处理,将新闻评 论数量小于阈值K的新闻评论进入步骤三处理;
[0039] 阈值K计算如下:
[0040] K - max countx>/〇.05
[0041] 其中,max_C〇Unt表示所有新闻评论中,新闻标题含有的最大评论数量。
[0042] 步骤三:利用中文分词工具,对数量小于阈值K的每一类新闻标题以及对应的新 闻评论进行分词,并进行词性标注;
[0043] 对步骤二中评论数量小于阈值K的新闻评论以及对应的新闻标题进行分词和词 性标注。分词的目的是为了将新闻评论转化成一个个词语。根据汉语语言的特点,能反映
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1