一种面向微博的非分词突发话题检测方法

文档序号:6624320阅读:170来源:国知局
一种面向微博的非分词突发话题检测方法
【专利摘要】本发明涉及利用计算机技术辅助网络信息智能分析或舆情的一种面向微博的非分词突发话题检测方法。本发明包括:语料预处理,构建动态的微博检测窗口;将微博内容切分成单个汉字,并构建字典;计算突发特征字集合;计算由特征字组成的突发话题;生成有意义词或串,形成由词或串表示的突发话题。本发明提出了一种无须中文分词的微博突发话题检测方法,对中文微博消息内容事先不做中文分词,而是将汉字和英文单词、图片、视频、外部链接等作为单个实体。最后对突发特征实体中的中文汉字构词,能够提高检测方法的整体性能,提高对新词、口语化串的召回率?
【专利说明】-种面向微博的非分词突发话题检测方法

【技术领域】
[0001] 本发明涉及利用计算机技术辅助网络信息智能分析或舆情的一种面向微博的非 分词突发话题检测方法。

【背景技术】
[0002] 随着移动互联网的兴起,我国新浪、腾讯等微博快速崛起。新浪微博注册用户数已 突破2亿,腾讯微博注册用户已超过1. 6亿。我国微博网络中每天产生的微博消息数量超 过3亿条,微博平台已经成为人们日常生活、获取新闻资讯的主要渠道之一。由于微博的推 送机制,使得微博消息在网络中快速传播,产生巨大的传播影响力。
[0003] 微博给人们提供资讯的同时,也增加了社会管理的难度。现实社会中的事件在微 博网络中快速扩散,迅速演变成突发事件,产生巨大的社会影响力。突发事件中还包含了大 量的虚假信息、谣言消息等,仅仅靠官方账号发动网民的举报和辟谣,或是当事人在第一时 间出来辟谣,已远远不能满足如今网络信息传播的速度,而虚假的信息往往给政府、企业、 及知名人士带来负面的影响。因此需要通过技术手段实时检测微博网络中的突发事件,为 危机管理、辟摇等提供基础。
[0004] 如何对微博网络中的消息进行有效监测,是国家政府及网络监管部门面临的一大 课题。仅仅靠人工进行搜集和浏览,不仅会消耗大量的人力、物力,并且难以及时、准确、全 面把握微博舆论的敏感内容和传播趋势。使用微博舆情监测预警软件能第一时间发现相关 微博内容,对突发话题及敏感信息进行预警,并能随时掌握舆论关注动向及关注趋势强弱 变化。微博舆情监测软件是各级政府、网络监督部门、品牌企业上市公司掌握微博舆情的好 帮手。因此,伴随着微博监测预警软件的投入使用,对微博内容的健康有序管理起到积极的 推动作用。
[0005] 目前虽然有很多面向微博的舆情监测、预警软件,但大多数软件都是在中文分词 的基础上实现。微博网络中包含大量的社会化、口语化的词语,基于分词的方法很难检测由 新词或串诱导的突发话题。


【发明内容】

[0006] 本发明的目的在于提供一种提高检测方法的整体性能的面向微博的非分词突发 话题检测方法。
[0007] 本发明的目的是这样实现的:
[0008] 步骤1 :语料预处理,构建动态的微博检测窗口;
[0009] 步骤2 :将微博内容切分成单个汉字,并构建字典;
[0010] 步骤3 :计算突发特征字集合;
[0011] 步骤4 :计算由特征字组成的突发话题;
[0012] 步骤5 :生成有意义词或串,形成由词或串表示的突发话题。
[0013] 语料预处理的步骤为:
[0014] 步骤1. 1 :依据微博发布时间序抽取微博消息元素;
[0015] 步骤1. 2 :微博窗口划分,基于小波分析思想将微博消息流动态划分微博窗口。
[0016] 将微博内容切分成单个汉字,并构建字典步骤为:
[0017] 步骤2. 1,直接将每一条微博消息以字为单元进行切分,无需去除停用词;
[0018] 步骤2. 2,按照字典序进行存储,支持高效查找和动态更新。
[0019] 计算突发特征字集合步骤为:
[0020] 步骤3. 1,遍历字典,依据历史特征权值和检测窗口中的突发特征权值判定当前检 测窗口是否发生突发;
[0021] 步骤3. 2,更新历史窗口中字的特征权值,依据生命周期模型中的老化理论,更新 字的特征权值;
[0022] 步骤33,计算当前检测窗口中字的突发特征权值,在考虑用户的粉丝数、消息的转 发数和评论数基础上计算字的影响力,并将字的影响力作为突发特征权值。
[0023] 计算由特征字组成的突发话题步骤为:
[0024] 步骤4. 1,构建突发特征字与消息、用户之间的关系矩阵;
[0025] 步骤4. 2,通过联合聚类算法对关系矩阵进行计算,得到实体、消息、用户的聚类指 示矩阵。
[0026] 生成有意义词或串,形成由词或串表示的突发话题的步骤为:
[0027] 步骤5. 1,对于每一个话题中的汉字以及对应的消息作为样本集合,计算话题中任 意两个字之间的聚合程度;
[0028] 步骤5. 2,计算话题中左右边界字的熵;
[0029] 步骤5. 3,依据聚合程度和左右边界字的熵值判定是否可生产一个有意义词或串。
[0030] 生成字典步骤包括:
[0031] 步骤2.2. 1,字典为空,则根据汉字的字典序插入到字典中;
[0032] 步骤2. 2. 2,若字典不为空并已存在字典中,则直接将该字在当前检测窗口中的关 联信息增加到字典中;
[0033] 步骤2. 2. 3,若字典不为空且不存在字典中,基于字典序实现二分查找,依据查找 返回结果得到字典序号,将该字插入字典,字典当前序号后面的字依次后移。
[0034] 本发明的有益效果在于:
[0035] 1)本发明提出了一种无须中文分词的微博突发话题检测方法,对中文微博消息内 容事先不做中文分词,而是将汉字和英文单词、图片、视频、外部链接等作为单个实体。最后 对突发特征实体中的中文汉字构词,能够提高检测方法的整体性能,提高对新词、口语化串 的召回率。
[0036] 2)从影响力的角度提出突发权值的计算方法,并且引入权值的衰减机制,能够过 滤掉一些垃圾用户、水军等的影响。
[0037] 3)本发明同时对突发特征实体、消息、用户进行联合聚类分析,在检测话题的同 时,识别参与话题的用户。为突发话题提供尽可能多的信息,为微博舆情危机管理提供了可 控、可管的可能。

【专利附图】

【附图说明】
[0038] 图1系统检测框架图。
[0039] 图2突发检测中字典的存储结构。
[0040] 图3生成新词的过程图。

【具体实施方式】
[0041] 现有的基于中文分词的突发话题检测方法都是基于特征词的词频信息进行检测。 对于中文微博来说,首先要进行中文分词,构造特征词的特征轨迹,根据一定的突发检测算 法计算出突发特征词,然后用关联度高的特征词集合来表示突发话题。
[0042] 对于中文微博来说,这种方法有一定的缺陷性。因为微博用户的多样性,致使微博 用语具有灵活、不规范的特点,例如屌丝、薄谷开来、舌尖上的中国、唐山地震等词或串。微 博中出现大量的由新词或串诱导的突发话题,而根据中文分词词典则无法划分出这些新词 或有意义串,从而无法准确发现微博中的突发话题。
[0043] 正是基于目前微博突发话题检测方法存在的不足,本专利提出一种基于特征字的 突发话题检测方法。该方法无需中文分词。将文本消息流分成一个一个独立的汉字,直接 检测当前时间窗口的突发字集合,然后计算这些字之间的相关度形成突发话题,采用一定 的新词发现方法把突发特征字组合成有意义的特征词或串,从而表示突发话题。整体检测 流程如图1所示,具体分为五个步骤。
[0044] 步骤A :语料预处理;
[0045] 步骤B:生成字典;
[0046] 步骤C :计算突发特征字;
[0047] 步骤D :计算由特征字组成的突发话题;
[0048] 步骤E :生成有意义词或串,表示突发话题。
[0049] 所述步骤A包括些下列步骤:
[0050] 步骤A1,依据微博发布时间序抽取微博消息元素;
[0051] 步骤A2,微博窗口划分,基于小波分析思想将微博消息流动态划分微博窗口。
[0052] 所述步骤B包括些下列步骤:
[0053] 步骤B1,直接将每一条微博消息以字为单元进行切分,无需去除停用词等;
[0054] 步骤B2,按照字典序进行存储,支持高效查找和动态更新。
[0055] 所述步骤C包括些下列步骤:
[0056] 步骤C1,遍历字典,依据历史特征权值和检测窗口中的突发特征权值判定当前检 测窗口是否发生突发;
[0057] 步骤C2,更新历史窗口中字的特征权值,依据生命周期模型中的老化理论,更新字 的特征权值;
[0058] 步骤C3,计算当前检测窗口中字的突发特征权值,在考虑用户的粉丝数、消息的转 发数和评论数基础上计算字的影响力,并将字的影响力作为突发特征权值。
[0059] 所述步骤D包括些下列步骤:
[0060] 步骤D1,构建突发特征字与消息、用户之间的关系矩阵;
[0061] 步骤D2,通过联合聚类算法对关系矩阵进行计算,得到实体、消息、用户的聚类指 示矩阵。
[0062] 所述步骤E包括些下列步骤:
[0063] 步骤E1,对于每一个话题中的汉字以及对应的消息作为样本集合,计算话题中任 意两个字之间的聚合程度;
[0064] 步骤E2,计算话题中左右边界字的熵;
[0065] 步骤E3,依据聚合程度和左右边界字的熵值判定是否可生产一个有意义词或串。
[0066] 所述步骤B2包括些下列步骤:
[0067] 步骤B21,字典为空,则根据汉字的字典序插入到字典中;
[0068] 步骤B22,若字典不为空并已存在字典中,则直接将该字在当前检测窗口中的关联 信息增加到字典中;
[0069] 步骤B23,若字典不为空且不存在字典中,基于字典序实现二分查找,依据查找返 回结果得到字典序号,将该字插入字典,字典当前序号后面的字依次后移。
[0070] 为了完成本发明,针对微博消息流的非分词突发话题检测进行如下实施,并给出 具体的实施方案。
[0071] (一)在步骤A中,按照微博发布时间重构微博消息流,针对每一条微博消息ffli进 行元素抽取,包括用户信息(粉丝数、关注数、发布微博消息总数)和消息属性信息(消息 发布时间、转发数、评论数)。借鉴小波变换的多分辨率分析的思想,提出了动态窗口选择算 法,如算法1所示。算法中的微博窗口和滑动窗口阈值参数α、β可调整,I · I为对应的 消息数目。算法中第1步可根据实际微博流量大小通过参数α调整微博窗口大小,第4步 动态调整滑动窗口大小。因此,在微博消息流量较大时,对应的时间间隔则较小,而在晚上 微博数较少时,则扩大对应的时间间隔。
[0072] 算法1 :动态窗口选择算法.
[0073] 输入:ms :微博消息流;α :微博窗口调整系数;β :滑动窗口调整系数
[0074] 输出:sw:滑动窗口。
[0075] ① for each 1? e ms do
[0076] ②按照时间t划分到时间片St中;

【权利要求】
1. 一种面向微博的非分词突发话题检测方法,其特征在于:包括以下步骤: 步骤1 :语料预处理,构建动态的微博检测窗口; 步骤2 :将微博内容切分成单个汉字,并构建字典; 步骤3:计算突发特征字集合; 步骤4 :计算由特征字组成的突发话题; 步骤5:生成有意义词或串,形成由词或串表示的突发话题。
2. 根据权利要求1所述的一种面向微博的非分词突发话题检测方法,其特征是:所述 语料预处理的步骤为: 步骤1. 1 :依据微博发布时间序抽取微博消息元素; 步骤1. 2 :微博窗口划分,基于小波分析思想将微博消息流动态划分微博窗口。
3. 根据权利要求1所述的一种面向微博的非分词突发话题检测方法,其特征是:所述 将微博内容切分成单个汉字,并构建字典步骤为: 步骤2. 1,直接将每一条微博消息以字为单元进行切分,无需去除停用词; 步骤2. 2,按照字典序进行存储,支持高效查找和动态更新。
4. 根据权利要求1所述的一种面向微博的非分词突发话题检测方法,其特征是:所述 计算突发特征字集合步骤为: 步骤3. 1,遍历字典,依据历史特征权值和检测窗口中的突发特征权值判定当前检测窗 口是否发生突发; 步骤3. 2,更新历史窗口中字的特征权值,依据生命周期模型中的老化理论,更新字的 特征权值; 步骤33,计算当前检测窗口中字的突发特征权值,在考虑用户的粉丝数、消息的转发数 和评论数基础上计算字的影响力,并将字的影响力作为突发特征权值。
5. 根据权利要求1所述的一种面向微博的非分词突发话题检测方法,其特征是:所述 计算由特征字组成的突发话题步骤为: 步骤4. 1,构建突发特征字与消息、用户之间的关系矩阵; 步骤4. 2,通过联合聚类算法对关系矩阵进行计算,得到实体、消息、用户的聚类指示矩 阵。
6. 根据权利要求1所述的一种面向微博的非分词突发话题检测方法,其特征是:所述 生成有意义词或串,形成由词或串表示的突发话题的步骤为: 步骤5. 1,对于每一个话题中的汉字以及对应的消息作为样本集合,计算话题中任意两 个字之间的聚合程度; 步骤5. 2,计算话题中左右边界字的熵; 步骤5. 3,依据聚合程度和左右边界字的熵值判定是否可生产一个有意义词或串。
7. 根据权利要求1或4所述的一种面向微博的非分词突发话题检测方法,其特征是: 所述生成字典步骤包括: 步骤2. 2. 1,字典为空,则根据汉字的字典序插入到字典中; 步骤2. 2. 2,若字典不为空并已存在字典中,则直接将该字在当前检测窗口中的关联信 息增加到字典中; 步骤2. 2. 3,若字典不为空且不存在字典中,基于字典序实现二分查找,依据查找返回 结果得到字典序号,将该字插入字典,字典当前序号后面的字依次后移。
【文档编号】G06F17/30GK104216964SQ201410416127
【公开日】2014年12月17日 申请日期:2014年8月22日 优先权日:2014年8月22日
【发明者】杨武, 伸国伟, 王巍, 苘大鹏, 宣世昌 申请人:哈尔滨工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1