基于短文本数据的区域事件检测方法和设备的制作方法

文档序号:6633765阅读:157来源:国知局
基于短文本数据的区域事件检测方法和设备的制作方法
【专利摘要】本发明提供一种基于短文本数据的区域事件检测方法和设备,该方法包括:获取待处理的短文本数据,所述短文本数据中包括位置信息;根据所述位置信息从所述短文本数据中选取与预设的位置对应的样本文本数据;分别对选取的样本文本数据进行分词处理,计算所述样本文本数据中各词的权重;根据所述样本文本数据中各词的权重构建所述样本文本数据对应的样本文本—词矩阵;对所述样本文本—词矩阵进行矩阵分解,根据分解得到的样本文本—事件矩阵确定所述各样本文本所属的事件。从而克服了现有技术中无法对短文本数据信息进行有效的处理以进行归纳和分类的问题。
【专利说明】基于短文本数据的区域事件检测方法和设备

【技术领域】
[0001] 本发明属于数据挖掘【技术领域】,尤其是涉及一种基于短文本数据的区域事件检测 方法和设备。

【背景技术】
[0002] 随着互联网技术的蓬勃发展,越来越多的用户通过比如论坛、微博等社交网络平 台来发布各种新闻或者发表个人对一些社会现象的意见。微博由于其独特的通信服务,女口 便捷性、即时性和易用,允许用户快速响应和无限制的传播信息内容,得到了越来越广泛的 应用。数亿用户利在微博上通过短文本数据进行信息的传送和评论,爆炸式的数据信息带 来前所未有的价值的同时,也给互联网安全检测和分析带来了巨大的挑战,对海量的数据 信息进行有效的事件挖掘成为各搜索引擎主要研究的问题。
[0003] 目前,对事件进行发现和挖掘比较有效的方法是聚类方法。聚类方法首先对数据 进行聚类,然后通过一个相似度阔值约束,将得到的主题结果进行分类,分类结果中一类是 历史事件的演变,另一类是新发现的事件,然而该方法并不能对数据进行静态的分析,将当 前数据信息按事件进行归纳和分类,且聚类方法也不适用于对短文本数据信息的分析。


【发明内容】

[0004] 本发明提供一种基于短文本数据的区域事件检测方法和设备,用W克服现有技术 中无法对短文本数据信息进行有效的处理W进行归纳和分类的问题。
[0005] 本发明提供了一种基于短文本数据的区域事件检测方法,包括:
[0006] 获取待处理的短文本数据,所述短文本数据中包括位置信息;
[0007] 根据所述位置信息从所述短文本数据中选取与预设的位置对应的样本文本数 据;
[0008] 分别对选取的样本文本数据进行分词处理,计算所述样本文本数据中各词的权 重;
[0009] 根据所述样本文本数据中各词的权重构建所述样本文本数据对应的词一样本文 本矩阵;
[0010] 对所述词一样本文本矩阵进行矩阵分解,根据分解得到的样本文本一事件矩阵确 定所述各样本文本所属的事件。
[0011] 本发明提供了一种基于短文本数据的区域事件检测设备,包括:
[0012] 获取模块,用于获取待处理的短文本数据,所述短文本数据中包括位置信息;
[0013] 选取模块,用于根据所述位置信息从所述短文本数据中选取与预设的位置对应的 样本文本数据;
[0014] 运算模块,用于分别对选取的样本文本数据进行分词处理,计算所述样本文本数 据中各词的权重;
[0015] 构建模块,用于根据所述样本文本数据中各词的权重构建所述样本文本数据对应 的样本文本一词矩阵;
[0016] 所述运算模块,还用于对所述样本文本一词矩阵进行矩阵分解,根据分解得到的 样本文本一事件矩阵确定所述各样本文本所属的事件。
[0017] 本发明提供的基于短文本数据的区域事件检测方法和设备,通过获取待处理的短 文本数据,所述短文本数据中包括位置信息;根据所述位置信息从所述短文本数据中选取 与预设的位置对应的样本文本数据;分别对选取的样本文本数据进行分词处理,计算所述 样本文本数据中各词的权重;根据所述样本文本数据中各词的权重构建所述样本文本数据 对应的样本文本一词矩阵;对所述样本文本一词矩阵进行矩阵分解,根据分解得到的样本 文本一事件矩阵确定所述各样本文本所属的事件。从而克服了现有技术中无法对短文本数 据信息进行有效的处理W进行归纳和分类的问题。

【专利附图】

【附图说明】
[0018] 图1为本发明提供的基于短文本数据的区域事件检测方法实施例一的流程示意 图;
[0019] 图2A为本发明提供的基于短文本数据的区域事件检测方法实施例二对应S120的 流程意图;
[0020] 图2B为本发明提供的基于短文本数据的区域事件检测方法实施例二对应S140的 流程意图;
[0021] 图3为本发明提供的基于短文本数据的区域事件检测设备实施例一的结构示意 图。

【具体实施方式】
[0022] 图1为本发明提供的基于短文本数据的区域事件检测方法实施例一的流程示意 图。如图1所示,该方法包括:
[0023] S100,获取待处理的短文本数据,所述短文本数据中包括位置信息。
[0024] 本实施例提供的方法可W适用于对互联网上的各种应用所产生的短文本信息中 的海量数据进行区域事件分类处理,尤其适用于诸如微博等社交网络,该方法可W由一短 文本数据的处理设备来执行,该处理设备例如可W为某中应用的管理平台。
[0025] W微博为例,每天都会有大量的各种各样的数据信息在微博上进行传播,为了便 于广大普遍用户能够在海量的微博数据中快速有效地搜索到自身需要的信息,或者为了使 普通用户、政府机构等用户能够及时获知社会热点,需要对海量的微博数据进行事件分类。 值得说明的是,本实施例中主要是针对短文本类型的数据信息进行处理,称之为短文本数 据。而且,本实施例中所述的事件,并非一般意义上的某件完整的事情或新闻,而是指用一 些关键词表征的词语集合,一个事件中包含的关键词往往具有一定的关联,比如该些关键 词同时在很多条数据文本中都同时出现过,因此,该些关键词也一定程度上反映了当前微 博中的关注热点。
[0026] S110,根据所述位置信息从所述短文本数据中选取与预设的位置对应的样本文本 数据。
[0027] 具体来说,微博数据中包含城市级别地理位置信息,具体的,微博中的位置信息为 城市信息,本发明各实施例中W位置信息为城市为例进行说明。若短文本数据的处理设备 要对城市"北京"的微博数据进行分类处理,则在获得了比如某一天的微博数据即待处理的 短文本数据后,从待处理的短文本数据中选取出与"北京"对应的短文本数据作为样本文本 数据。
[0028] S120,分别对选取的样本文本数据进行分词处理,计算所述样本文本数据中各词 的权重。
[0029] 短文本数据处理设备选出样本数据后,对每个样本文本数据进行分词处理,比如 采用现有的NLPIR汉语分词系统对每个数据文件进行分词处理,从而将每个短文本数据按 照词语为单位进行划分,得到每个数据文本中包含的各个词语。通过对待处理数据中的每 个数据文本都进行分词处理,从而能够得到待处理数据中包含的所有词语,并计算各样本 文本数据中各词在该样本文本中的权重。
[0030] S130,根据所述样本文本数据中各词的权重构建所述样本文本数据对应的样本文 本一词矩阵。
[0031] 具体的,本实施例中的样本文本一词矩阵中,各列向量为各个样本文本中的各个 词的权重值,各行向量为处理设备选取的各个样本文本数据。
[0032] S140,对所述样本文本一词矩阵进行矩阵分解,根据分解得到的样本文本一事件 矩阵确定所述各样本文本所属的事件。
[0033] 进而,对该样本文本一词矩阵进行矩阵分解,其中,矩阵分解是现有技术中的现有 矩阵分解方法,此处不做费述。矩阵分解可W得到两个矩阵,分别为样本文本一事件矩阵和 事件一词矩阵。矩阵分解得到的两个矩阵的乘积是该样本文本一词矩阵的近似表达,分解 的结果保证了在同一位置上的元素,在分解前后的误差值为正数,从而使分解后的元素具 有与分解前该元素基本等同的表达。样本文本一事件矩阵中各元素表明各样本文本中的词 与各事件的相关度,相关度最大的即表明该样本文本与该事件最相关,即该样本文本属于 该事件。
[0034] 本发明提供的基于短文本数据的区域事件检测方法,基于短文本数据的区域事件 检测设备首先根据获取到的待处理的短文本数据中包括的位置信息,选取出需要处理的样 本文本数据,之后对各样本文本数据分别进行分词处理,并计算各词在各样本文本中的权 重,从而得到样本文本一词的矩阵,进而再对该矩阵进行矩阵分解,根据分解得到的样本文 本一事件矩阵即可确定各样本文本数据所属的事件。首先根据文本数据中包括的位置信息 选取样本文本数据,再确定选取的样本文本中各词的权重,之后再构建样本文本一词矩阵, 并对该矩阵进行矩阵分解即可得到样本文本一事件矩阵,根据最终得到的矩阵即可确定各 样本文本所属的事件,该种处理方法不仅考虑了短文本数据的特点,且根据词的权重构建 样本文本一词矩阵,使得最终得到的样本文本一事件矩阵中样本文本与事件的相关度更加 准确,进而可更加准确的实现对各短文本数据进行区域事件分类的处理。
[00巧]图2A为本发明提供的基于短文本数据的区域事件检测方法实施例二对应S120的 流程示意图,如图2A所示,若样本文本数据j中包括词i,则上述S120包括:
[0036] S121,根据所述词i在所述样本文本数据j中出现的次数Wu及在所有待处理的短 文本数据中出现的次数Wi,确定所述词i的分布频率AWF。= Wy/Wi。
[0037] S122,根据所述词i的Wy及所述样本文本数据中的所有词的次数Wj.,确定所述词 i 的词频 OWFu = Wy/Wj。
[0038] S123,根据所述待处理的短文本数据中包括的不同位置信息个数N及所述待处理 的短文本数据中包括所述词i的不同位置信息个数Mi,确定所述词i的逆向城市频率ICFu =N/Mi。
[0039] S124,根据所述AWFu、OWFu及ICFu确定所述词i在所述样本文本数据j中的权 重。
[0040] 具体的,本实施例中,考虑如果一个词在某一个城市中出现的次数很小,而在其他 城市出现次数比较多,对于该城市来说,该个词的贡献就不是很大。基于短文本数据的区域 事件检测设备考虑单个词在所有城市中的分布,也考虑单个词在所在微博中的分布情况。 主要考虑H个方面,第一单个词的词频:一个词出现的次数尽可能多;第二反向城市频率: 出现该词的城市尽可能少;第H考虑词自身在所有城市分布的词频;一个词出现在该城市 的次数要比其出现在其他城市的次数要多。
[00川具体的,把一个词自身的分布频率定义为AWF,AWF。= W^/Wi,Wi是词i在所有城 市中出现的次数。在所有出现词i的城市中,哪个城市出现的次数多,其AWF就越大。同样 的,一个词在所有样本文本数据中出现的次数越多,其OWF就越小,待处理的短文本数据中 包括的城市的个数越多,或者包括词i的城市的个数越小,其逆向城市频率就越小。在确定 词的分布频率、词频及逆向城市频率后,即可根据下式确定该词在样本文本数据中的权重 OIA :
[0042]

【权利要求】
1. 一种基于短文本数据的区域事件检测方法,其特征在于,包括: 获取待处理的短文本数据,所述短文本数据中包括位置信息; 根据所述位置信息从所述短文本数据中选取与预设的位置对应的样本文本数据; 分别对选取的样本文本数据进行分词处理,计算所述样本文本数据中各词的权重; 根据所述样本文本数据中各词的权重构建所述样本文本数据对应的样本文本一词矩 阵; 对所述样本文本一词矩阵进行矩阵分解,根据分解得到的样本文本一事件矩阵确定所 述各样本文本所属的事件。
2. 根据权利要求1所述的方法,其特征在于,所述样本文本数据j中包括词i,所述计 算所述样本文本数据中各词的权重,包括: 根据所述词i在所述样本文本数据j中出现的次数及在所有待处理的短文本数据 中出现的次数I,确定所述词i的分布频率AWFij = Wij/Wi ; 根据所述词i的及所述样本文本数据中的所有词的次数确定所述词i的词频 OWFij = ffij/ffj ; 根据所述待处理的短文本数据中包括的不同位置信息个数N及所述待处理的短文本 数据中包括所述词i的不同位置信息个数确定所述词i的逆向城市频率ICFU = N/X ; 根据所述AWFp 0WFu及ICFU确定所述词i在所述样本文本数据j中的权重。
3. 根据权利要求1所述的方法,其特征在于,所述样本文本数据中包括N个样本数据, 所述N个样本数据中包括M个词,所述样本文本一词矩阵A为MXN维矩阵,所述N为大于 或等于1的整数; 所述对所述样本文本一词矩阵进行矩阵分解,根据分解得到的样本文本一事件矩阵确 定所述各样本文本所属的事件,包括: 对所述矩阵A进行矩阵分解,得到样本文本一事件矩阵UMXK,和事件一词矩阵VKXN,所 述K为所述样本文本数据中包含的事件个数; 分别计算所述矩阵UMXK中的第i个行向量Ui ?与VKXN中的第j个列向量v \的乘积 与矩阵A中的元素的偏差值%_,其中,i为不大于M的正整数,j为不大于N的正整数; 判断所述M*N个偏差值\的平方和E是否小于预设的值; 若否,则分别根据所述对所述矩阵UMXK及所述矩阵VKXN中的各元素进行修正,直至 所述E小于预设的值; 根据最终得到的样本文本一事件矩阵确定所述各样本文本所属的事件。
4. 根据权利要求3所述的方法,其特征在于,所述分别根据所述对所述矩阵UMXK及 所述矩阵VKXN中的各元素进行修正,包括: 令所述矩阵UMXK中的元素u ' ik = Uij^a+ei/KVkj,所述矩阵VKXN中的元素v ' kj = Vkj+Za^ei/iniik,所述a为预设的步长。
5. 根据权利要求3或4所述的方法,其特征在于,所述预设的值中包括至少2个不相等 的数值。
6. -种基于短文本数据的区域事件检测设备,其特征在于,包括: 获取模块,用于获取待处理的短文本数据,所述短文本数据中包括位置信息; 选取模块,用于根据所述位置信息从所述短文本数据中选取与预设的位置对应的样本 文本数据; 运算模块,用于分别对选取的样本文本数据进行分词处理,计算所述样本文本数据中 各词的权重; 构建模块,用于根据所述样本文本数据中各词的权重构建所述样本文本数据对应的样 本文本一词矩阵; 所述运算模块,还用于对所述样本文本一词矩阵进行矩阵分解,根据分解得到的样本 文本一事件矩阵确定所述各样本文本所属的事件。
7. 根据权利要求6所述的设备,其特征在于,所述样本文本数据j中包括词i,所述运 算模块,具体用于: 根据所述词i在所述样本文本数据j中出现的次数及在所有待处理的短文本数据 中出现的次数I,确定所述词i的分布频率AWFij = Wij/Wi ; 根据所述词i的及所述样本文本数据中的所有词的次数确定所述词i的词频 OWFij = ffij/ffj ; 根据所述待处理的短文本数据中包括的不同位置信息个数N及所述待处理的短文本 数据中包括所述词i的不同位置信息个数确定所述词i的逆向城市频率ICFU = N/X ; 根据所述AWFp 0WFu及ICFU确定所述词i在所述样本文本数据j中的权重。
8. 根据权利要求6所述的设备,其特征在于,所述样本文本数据中包括N个样本数据, 所述N个样本数据中包括M个词,所述样本文本一词矩阵A为MXN维矩阵,所述N为大于 或等于1的整数; 所述运算模块,具体用于: 对所述矩阵A进行矩阵分解,得到样本文本一事件矩阵UMXK,和事件一词矩阵VKXN,所 述K为所述样本文本数据中包含的事件个数; 分别计算所述矩阵UMXK中的第i个行向量Ui ?与VKXN中的第j个列向量v \的乘积 与矩阵A中的元素的偏差值%_,其中,i为不大于M的正整数,j为不大于N的正整数; 判断所述M*N个偏差值\的平方和E是否小于预设的值; 若否,则分别根据所述对所述矩阵UMXK及所述矩阵VKXN中的各元素进行修正,直至 所述E小于预设的值; 根据最终得到的样本文本一事件矩阵确定所述各样本文本所属的事件。
9. 根据权利要求8所述的设备,其特征在于,所述运算模块,具体用于所述分别根据所 述eij对所述矩阵UMXK及所述矩阵VKXN中的各元素进行修正,包括 : 令所述矩阵UMXK中的元素u ' ik = Uij^a+ei/KVkj,所述矩阵VKXN中的元素v ' kj = Vkj+Za^ei/iniik,所述a为预设的步长。
10. 根据权利要求8或9所述的设备,其特征在于,所述预设的值中包括至少2个不相 等的数值。
【文档编号】G06F17/30GK104331483SQ201410635944
【公开日】2015年2月4日 申请日期:2014年11月5日 优先权日:2014年11月5日
【发明者】胡春明, 文章乐, 沃天宇, 随培培 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1