一种基于卷积神经网络和关键词聚类的热点事件检测方法与流程

文档序号：18740164发布日期：2019-09-21 01:40阅读：来源：国知局

技术特征：

1.一种基于卷积神经网络和关键词聚类的热点事件检测方法，其特征在于：包括以下步骤：

设已知事件类型的训练集Ttrain＝{ttrain_1 ,ttrain_2 ,… ,ttrain_N ；ytrain_1 ,ytrain_2 ,… ytrain_N} ，其中ttrain_i表示一条网络文本以及retweet、hashtag、用户等网络相关信息， ytrain_i表示网络所属的事件类型且ytrain_i∈{0 ,1 ,2 ,3}，时间段t内采集的网络测试集Ttest＝{ttest_1 ,ttest_2 ,… ,ttest_N}；

步骤1：获取网络中当前时间段内的网络文本数据；

步骤2：建立初滤的关键字集合；

步骤3：对测试集中的网络文本进行初滤；

步骤4：对步骤3初滤后的测试集中的网络文本进行拼写纠正规范化处理以及分词、词性标注去停用词、提取表情符号、词干化预处理，统计分词得到的各个词在所述网络文本数据中的出现次数；

步骤5：获取网络中历史时间段内所述各个词在历史网络文本数据中的出现次数；所述历史时间段和所述当前时间段的时间长度相等；

步骤6：对所述各个词在所述网络文本数据中的出现次数和在历史网络文本数据中的出现次数进行比较，确定所述网络文本数据中的热词；

步骤7：获取所述网络文本数据中包括所述热词的网络文本；

步骤8：对于训练集Ttrain，训练卷积神经网络，得到事件分类模型；

步骤9：利用步骤8得到的事件分类模型对经过步骤3预处理后的测试集网络文本进行分类，并将类型为其他的网络文本滤除；

步骤10：对包括所述热词的网络文本进行聚类，利用K-means算法将测试集中同一类型的网络文本聚类成多个事件实例簇，确定所述网络文本数据中的热点事件。

2.根据权利要求1所述的一种基于卷积神经网络和关键词聚类的热点事件检测方法，其特征在于：所述步骤2具体包含以下步骤：

步骤2.1：对于每个待检测的特定事件类型名称，分别利用基于维基百科训练的词向量得到该特定事件类型名称的相关词列表；

步骤2.2：对于每个类型，分别利用TextRank算法提取其初始集合中关键词的维基百科词条的关键词，扩充其关键词集合；

步骤2.3：对于每个类型，分别利用基于Twitter文本训练的词向量得到其关键词集合中所有关键词的相关词列表，扩充其关键词集合；

步骤2.4：将三个关键字集合合并得到关键字集合。

3.根据权利要求1所述的一种基于卷积神经网络和关键词聚类的热点事件检测方法，其特征在于：所述步骤3具体包含以下步骤；

步骤3.1：若网络文本中包含hashtag，且hashtag中包含关键字集合中的关键字，则判定该网络文本与特定事件相关；

步骤3.2：若上述条件不符合，则计算网络文本与关键字集合间的Jaccard相似度，若该相似度高于预设阈值，则判定该网络文本与事件相关。

4.根据权利要求 1 所述的一种基于卷积神经网络和关键词聚类的热点事件检测方法，其特征在于：步骤6所述对所述各个词在所述网络文本数据中的出现次数和在历史网络文本数据中的出现次数进行比较，确定所述网络文本数据中的热词，包括：

计算所述各个词在所述网络文本数据中的出现次数与在历史网络文本数据中的出现次数的比值；

将所述比值大于第一阈值的相应词确定为所述网络文本数据中的热词。

5.根据权利要求4所述的一种基于卷积神经网络和关键词聚类的热点事件检测方法，其特征在于：所述对所述各个词在所述网络文本数据中的出现次数和在历史网络文本数据中的出现次数进行比较，确定所述网络文本数据中的热词，还包括：

计算所述各个词在所述网络文本数据中的出现次数与在历史网络文本数据中的出现次数的差值；

所述将所述比值大于第一阈值相应词确定为所述网络文本数据中的热词，包括：

将所述比值大于第一阈值，且所述差值大于第二阈值的相应词确定为所述网络文本数据中的热词。

6.根据权利要求1所述的一种基于卷积神经网络和关键词聚类的热点事件检测方法，其特征在于：所述步骤8具体包含以下步骤；

步骤8.1：将Ttrain中的每条网络文本由词向量的串联表示，采用200维基于GloVe在网络文本数据集上训练的词向量，通过TF-IDF对词向量进行加权并将hashtag中的词权重加倍；

步骤8.2：将上述网络文本向量及标签作为输入，卷积神经网络采用Xavier方法进行初始化，偏置项均初始化为0，采用l2正则化以及dropout策略，通过随机梯度下降法更新输入特征向量以及网络参数，得到事件分类模型。

7.根据权利要求1所述的一种基于卷积神经网络和关键词聚类的热点事件检测方法，其特征在于：所述步骤10具体包含以下步骤：

步骤10.1：将网络文本采用卷积神经网络全连接层中的200维向量表示，并利用余弦相似度计算文本相似度；

步骤10.2：利用命名实体识别算法抽取网络文本的命名实体，并利用余弦相似度计算命名实体相似度；

步骤10.3：根据预处理中词性标注的结果滤除介词、冠词等，滤除命名实体，之后通过基于hashtag加权的TF-IDF算法获得网络文本的关键词，取排名前10的关键词计算关键词相似度；

步骤10.4：根据公式计算两条网络文本的相似度。

8.根据权利要求 1 所述的一种基于卷积神经网络和关键词聚类的热点事件检测方法，其特征在于：步骤10所述对包括所述热词的网络文本进行聚类，确定所述网络文本数据中的热点事件，包括：

对包括所述热词的网络文本进行canopy聚类，确定初始类的数目和中心点；

根据所述初始类的数目和中心点对包括所述热词的网络文本进行 k-means聚类，确定所述网络文本数据中的热点事件。

9.根据权利要求8所述的一种基于卷积神经网络和关键词聚类的热点事件检测方法，其特征在于：所述对包括所述热词的网络文本进行canopy聚类，确定初始类的数目和中心点之前，还包括：

查询预设的词表，确定所述热词在所述词表中的序号；

根据所述热词在所述词表中的序号和所述热词在所述网络文本数据中的出现次数，确定包括所述热词的网络文本对应的网络文本向量；

所述对包括所述热词的网络文本进行canopy聚类，确定初始类的数目和中心点，包括：

对所述网络文本向量进行canopy聚类，确定初始类的数目和中心点。

完整全部详细技术资料下载

当前第2页1 2 3