一种面向微博的非分词突发话题检测方法

文档序号：6624320阅读：170来源：国知局

一种面向微博的非分词突发话题检测方法
【专利摘要】本发明涉及利用计算机技术辅助网络信息智能分析或舆情的一种面向微博的非分词突发话题检测方法。本发明包括：语料预处理，构建动态的微博检测窗口；将微博内容切分成单个汉字，并构建字典；计算突发特征字集合；计算由特征字组成的突发话题；生成有意义词或串，形成由词或串表示的突发话题。本发明提出了一种无须中文分词的微博突发话题检测方法，对中文微博消息内容事先不做中文分词，而是将汉字和英文单词、图片、视频、外部链接等作为单个实体。最后对突发特征实体中的中文汉字构词，能够提高检测方法的整体性能，提高对新词、口语化串的召回率?
【专利说明】-种面向微博的非分词突发话题检测方法

【技术领域】
[0001] 本发明涉及利用计算机技术辅助网络信息智能分析或舆情的一种面向微博的非分词突发话题检测方法。

【背景技术】
[0002] 随着移动互联网的兴起，我国新浪、腾讯等微博快速崛起。新浪微博注册用户数已突破2亿，腾讯微博注册用户已超过1. 6亿。我国微博网络中每天产生的微博消息数量超过3亿条，微博平台已经成为人们日常生活、获取新闻资讯的主要渠道之一。由于微博的推送机制，使得微博消息在网络中快速传播，产生巨大的传播影响力。
[0003] 微博给人们提供资讯的同时，也增加了社会管理的难度。现实社会中的事件在微博网络中快速扩散，迅速演变成突发事件，产生巨大的社会影响力。突发事件中还包含了大量的虚假信息、谣言消息等，仅仅靠官方账号发动网民的举报和辟谣，或是当事人在第一时间出来辟谣，已远远不能满足如今网络信息传播的速度，而虚假的信息往往给政府、企业、及知名人士带来负面的影响。因此需要通过技术手段实时检测微博网络中的突发事件，为危机管理、辟摇等提供基础。
[0004] 如何对微博网络中的消息进行有效监测，是国家政府及网络监管部门面临的一大课题。仅仅靠人工进行搜集和浏览，不仅会消耗大量的人力、物力，并且难以及时、准确、全面把握微博舆论的敏感内容和传播趋势。使用微博舆情监测预警软件能第一时间发现相关微博内容，对突发话题及敏感信息进行预警，并能随时掌握舆论关注动向及关注趋势强弱变化。微博舆情监测软件是各级政府、网络监督部门、品牌企业上市公司掌握微博舆情的好帮手。因此，伴随着微博监测预警软件的投入使用，对微博内容的健康有序管理起到积极的推动作用。
[0005] 目前虽然有很多面向微博的舆情监测、预警软件，但大多数软件都是在中文分词的基础上实现。微博网络中包含大量的社会化、口语化的词语，基于分词的方法很难检测由新词或串诱导的突发话题。

【发明内容】

[0006] 本发明的目的在于提供一种提高检测方法的整体性能的面向微博的非分词突发话题检测方法。
[0007] 本发明的目的是这样实现的：
[0008] 步骤1 :语料预处理，构建动态的微博检测窗口；
[0009] 步骤2 :将微博内容切分成单个汉字，并构建字典；
[0010] 步骤3 :计算突发特征字集合；
[0011] 步骤4 :计算由特征字组成的突发话题；
[0012] 步骤5 :生成有意义词或串，形成由词或串表示的突发话题。
[0013] 语料预处理的步骤为：
[0014] 步骤1. 1 :依据微博发布时间序抽取微博消息元素；
[0015] 步骤1. 2 :微博窗口划分，基于小波分析思想将微博消息流动态划分微博窗口。
[0016] 将微博内容切分成单个汉字，并构建字典步骤为：
[0017] 步骤2. 1，直接将每一条微博消息以字为单元进行切分，无需去除停用词；
[0018] 步骤2. 2,按照字典序进行存储，支持高效查找和动态更新。
[0019] 计算突发特征字集合步骤为：
[0020] 步骤3. 1，遍历字典，依据历史特征权值和检测窗口中的突发特征权值判定当前检测窗口是否发生突发；
[0021] 步骤3. 2,更新历史窗口中字的特征权值，依据生命周期模型中的老化理论，更新字的特征权值；
[0022] 步骤33,计算当前检测窗口中字的突发特征权值，在考虑用户的粉丝数、消息的转发数和评论数基础上计算字的影响力，并将字的影响力作为突发特征权值。
[0023] 计算由特征字组成的突发话题步骤为：
[0024] 步骤4. 1，构建突发特征字与消息、用户之间的关系矩阵；
[0025] 步骤4. 2,通过联合聚类算法对关系矩阵进行计算，得到实体、消息、用户的聚类指示矩阵。
[0026] 生成有意义词或串，形成由词或串表示的突发话题的步骤为：
[0027] 步骤5. 1，对于每一个话题中的汉字以及对应的消息作为样本集合，计算话题中任意两个字之间的聚合程度；
[0028] 步骤5. 2,计算话题中左右边界字的熵；
[0029] 步骤5. 3,依据聚合程度和左右边界字的熵值判定是否可生产一个有意义词或串。
[0030] 生成字典步骤包括：
[0031] 步骤2.2. 1，字典为空，则根据汉字的字典序插入到字典中；
[0032] 步骤2. 2. 2,若字典不为空并已存在字典中，则直接将该字在当前检测窗口中的关联信息增加到字典中；
[0033] 步骤2. 2. 3,若字典不为空且不存在字典中，基于字典序实现二分查找，依据查找返回结果得到字典序号，将该字插入字典，字典当前序号后面的字依次后移。
[0034] 本发明的有益效果在于：
[0035] 1)本发明提出了一种无须中文分词的微博突发话题检测方法，对中文微博消息内容事先不做中文分词，而是将汉字和英文单词、图片、视频、外部链接等作为单个实体。最后对突发特征实体中的中文汉字构词，能够提高检测方法的整体性能，提高对新词、口语化串的召回率。
[0036] 2)从影响力的角度提出突发权值的计算方法，并且引入权值的衰减机制，能够过滤掉一些垃圾用户、水军等的影响。
[0037] 3)本发明同时对突发特征实体、消息、用户进行联合聚类分析，在检测话题的同时，识别参与话题的用户。为突发话题提供尽可能多的信息，为微博舆情危机管理提供了可控、可管的可能。

【专利附图】

【附图说明】
[0038] 图1系统检测框架图。
[0039] 图2突发检测中字典的存储结构。
[0040] 图3生成新词的过程图。

【具体实施方式】
[0041] 现有的基于中文分词的突发话题检测方法都是基于特征词的词频信息进行检测。对于中文微博来说，首先要进行中文分词，构造特征词的特征轨迹，根据一定的突发检测算法计算出突发特征词，然后用关联度高的特征词集合来表示突发话题。
[0042] 对于中文微博来说，这种方法有一定的缺陷性。因为微博用户的多样性，致使微博用语具有灵活、不规范的特点，例如屌丝、薄谷开来、舌尖上的中国、唐山地震等词或串。微博中出现大量的由新词或串诱导的突发话题，而根据中文分词词典则无法划分出这些新词或有意义串，从而无法准确发现微博中的突发话题。
[0043] 正是基于目前微博突发话题检测方法存在的不足，本专利提出一种基于特征字的突发话题检测方法。该方法无需中文分词。将文本消息流分成一个一个独立的汉字，直接检测当前时间窗口的突发字集合，然后计算这些字之间的相关度形成突发话题，采用一定的新词发现方法把突发特征字组合成有意义的特征词或串，从而表示突发话题。整体检测流程如图1所示，具体分为五个步骤。
[0044] 步骤A :语料预处理；
[0045] 步骤B:生成字典；
[0046] 步骤C :计算突发特征字；
[0047] 步骤D :计算由特征字组成的突发话题；
[0048] 步骤E :生成有意义词或串，表示突发话题。
[0049] 所述步骤A包括些下列步骤：
[0050] 步骤A1，依据微博发布时间序抽取微博消息元素；
[0051] 步骤A2,微博窗口划分，基于小波分析思想将微博消息流动态划分微博窗口。
[0052] 所述步骤B包括些下列步骤：
[0053] 步骤B1，直接将每一条微博消息以字为单元进行切分，无需去除停用词等；
[0054] 步骤B2,按照字典序进行存储，支持高效查找和动态更新。
[0055] 所述步骤C包括些下列步骤：
[0056] 步骤C1，遍历字典，依据历史特征权值和检测窗口中的突发特征权值判定当前检测窗口是否发生突发；
[0057] 步骤C2,更新历史窗口中字的特征权值，依据生命周期模型中的老化理论，更新字的特征权值；
[0058] 步骤C3,计算当前检测窗口中字的突发特征权值，在考虑用户的粉丝数、消息的转发数和评论数基础上计算字的影响力，并将字的影响力作为突发特征权值。
[0059] 所述步骤D包括些下列步骤：
[0060] 步骤D1，构建突发特征字与消息、用户之间的关系矩阵；
[0061] 步骤D2,通过联合聚类算法对关系矩阵进行计算，得到实体、消息、用户的聚类指示矩阵。
[0062] 所述步骤E包括些下列步骤：
[0063] 步骤E1，对于每一个话题中的汉字以及对应的消息作为样本集合，计算话题中任意两个字之间的聚合程度；
[0064] 步骤E2,计算话题中左右边界字的熵；
[0065] 步骤E3,依据聚合程度和左右边界字的熵值判定是否可生产一个有意义词或串。
[0066] 所述步骤B2包括些下列步骤：
[0067] 步骤B21，字典为空，则根据汉字的字典序插入到字典中；
[0068] 步骤B22,若字典不为空并已存在字典中，则直接将该字在当前检测窗口中的关联信息增加到字典中；
[0069] 步骤B23,若字典不为空且不存在字典中，基于字典序实现二分查找，依据查找返回结果得到字典序号，将该字插入字典，字典当前序号后面的字依次后移。
[0070] 为了完成本发明，针对微博消息流的非分词突发话题检测进行如下实施，并给出具体的实施方案。
[0071] (一）在步骤A中，按照微博发布时间重构微博消息流，针对每一条微博消息ffli进行元素抽取，包括用户信息（粉丝数、关注数、发布微博消息总数）和消息属性信息（消息发布时间、转发数、评论数）。借鉴小波变换的多分辨率分析的思想，提出了动态窗口选择算法，如算法1所示。算法中的微博窗口和滑动窗口阈值参数α、β可调整，I · I为对应的消息数目。算法中第1步可根据实际微博流量大小通过参数α调整微博窗口大小，第4步动态调整滑动窗口大小。因此，在微博消息流量较大时，对应的时间间隔则较小，而在晚上微博数较少时，则扩大对应的时间间隔。
[0072] 算法1 :动态窗口选择算法.
[0073] 输入：ms :微博消息流；α :微博窗口调整系数；β :滑动窗口调整系数
[0074] 输出：sw:滑动窗口。
[0075] ① for each 1? e ms do
[0076] ②按照时间t划分到时间片St中；

【权利要求】
1. 一种面向微博的非分词突发话题检测方法，其特征在于：包括以下步骤：步骤1 :语料预处理，构建动态的微博检测窗口；步骤2 :将微博内容切分成单个汉字，并构建字典；步骤3:计算突发特征字集合；步骤4 :计算由特征字组成的突发话题；步骤5:生成有意义词或串，形成由词或串表示的突发话题。
2. 根据权利要求1所述的一种面向微博的非分词突发话题检测方法，其特征是：所述语料预处理的步骤为：步骤1. 1 :依据微博发布时间序抽取微博消息元素；步骤1. 2 :微博窗口划分，基于小波分析思想将微博消息流动态划分微博窗口。
3. 根据权利要求1所述的一种面向微博的非分词突发话题检测方法，其特征是：所述将微博内容切分成单个汉字，并构建字典步骤为：步骤2. 1，直接将每一条微博消息以字为单元进行切分，无需去除停用词；步骤2. 2,按照字典序进行存储，支持高效查找和动态更新。
4. 根据权利要求1所述的一种面向微博的非分词突发话题检测方法，其特征是：所述计算突发特征字集合步骤为：步骤3. 1，遍历字典，依据历史特征权值和检测窗口中的突发特征权值判定当前检测窗口是否发生突发；步骤3. 2,更新历史窗口中字的特征权值，依据生命周期模型中的老化理论，更新字的特征权值；步骤33,计算当前检测窗口中字的突发特征权值，在考虑用户的粉丝数、消息的转发数和评论数基础上计算字的影响力，并将字的影响力作为突发特征权值。
5. 根据权利要求1所述的一种面向微博的非分词突发话题检测方法，其特征是：所述计算由特征字组成的突发话题步骤为：步骤4. 1，构建突发特征字与消息、用户之间的关系矩阵；步骤4. 2,通过联合聚类算法对关系矩阵进行计算，得到实体、消息、用户的聚类指示矩阵。
6. 根据权利要求1所述的一种面向微博的非分词突发话题检测方法，其特征是：所述生成有意义词或串，形成由词或串表示的突发话题的步骤为：步骤5. 1，对于每一个话题中的汉字以及对应的消息作为样本集合，计算话题中任意两个字之间的聚合程度；步骤5. 2,计算话题中左右边界字的熵；步骤5. 3,依据聚合程度和左右边界字的熵值判定是否可生产一个有意义词或串。
7. 根据权利要求1或4所述的一种面向微博的非分词突发话题检测方法，其特征是：所述生成字典步骤包括：步骤2. 2. 1，字典为空，则根据汉字的字典序插入到字典中；步骤2. 2. 2,若字典不为空并已存在字典中，则直接将该字在当前检测窗口中的关联信息增加到字典中；步骤2. 2. 3,若字典不为空且不存在字典中，基于字典序实现二分查找，依据查找返回结果得到字典序号，将该字插入字典，字典当前序号后面的字依次后移。
【文档编号】G06F17/30GK104216964SQ201410416127
【公开日】2014年12月17日申请日期:2014年8月22日优先权日:2014年8月22日
【发明者】杨武, 伸国伟, 王巍, 苘大鹏, 宣世昌申请人:哈尔滨工程大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨武;伸国伟;王巍;苘大鹏;宣世昌
技术所有人：哈尔滨工程大学
我是此专利的发明人

上一篇：基于姿势的数据查询和数据可视化的方法和可视化装置制造方法
上一篇：订单匹配方法及装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。