面向事件检测的社交网络短文本数据过滤方法与流程

文档序号:16390718发布日期:2018-12-22 11:31阅读:334来源:国知局
面向事件检测的社交网络短文本数据过滤方法与流程

本发明属于自然语言处理技术领域,具体涉及一种面向事件检测的社交网络短文本数据过滤方法。

背景技术

随着web2.0、社交网络和移动互联网等技术的发展,信息的爆炸式增长的趋势越来越明显,传统的信息交流方式受到了极大的冲击。对于目前主流的社交媒体平台,如twitter、facebook等,用户可以通过上述的平台,随时随地的讨论感兴趣的话题,分享实时新闻等。由于社交媒体用户数巨大,发布信息的方式简单,信息传播速度快,使得社交网络中蕴含着丰富的信息。然而,社交网络在带来丰富信息的同时,爆炸式的信息也使得对社交网络数据进行有效的分析带来了很大的困难。因此,如何对社交网络数据进行有效挖掘成为了学术界研究的热点问题。

基于社交网络的事件检测是对社交网络数据进行挖掘的重要研究内容之一,其基本思路是给定关键词或用户账号集合,通过调用社交网络平台的api接口获得实时文本数据,然后对数据进行聚类,从而发现数据中的热点讨论话题,并将这些话题进行特征分析,最终建立话题与现实事件的映射关系,发现现实生活中真实发生的事件。但现有的基于社交网络的事件检测方法中很少详尽的考虑对于社交网络短文本数据中噪声数据的过滤,因此事件检测的输入中存在大量噪声,导致事件检测结果中存在很多虚警事件,影响事件检测的效率和准确率。对于这个问题,可以通过文本分类技术,将事件检测输入数据中噪声数据进行过滤,保留输入中潜在有用的价值数据,从而提高事件检测的有效性。

文本分类问题,是自然语言处理领域的一个很经典的问题。其研究可以追溯到上世纪50年代,当时是通过专家规则(pattern)进行分类,逐渐发展为利用一系列的知识工程建立专家系统,从而实现分类,但因为其知识的构建比较复杂,费时费力,并且覆盖范围和准确率都很有限。后来,随着统计学习方法在自然语言处理中的应用,特别是社交媒体的发展,逐渐形成了特征工程与分类算法结合的分类模型。在特征工程中,通常是文本分类技术的关键,主要分为文本预处理、特征提取、文本表示三个方面,最终实现把文本转换为计算机可理解的格式,并封装足够用于分类的信息,即具有很强的特征表述能力。分类算法,通常是统计分类方法,很多常用的机器学习分类算法在文本分类领域都有广泛的应用,比如:朴素贝叶斯分类算法,支持向量机(svm),最大熵等。

基于社交网络的事件检测能够帮助人们在第一时间掌握全球最新资讯,是当前学术界和工业界共同关注的问题。但是社交网络数据中包含有大量噪声,因此对社交网络文本进行过滤,能够为事件检测提供有效输入。社交网络短文本数据相比于传统的长文本数据具有数据量大、噪声多、信噪比低、表述不规范、文本长度短等特点,故依赖于文本词频信息的传统词袋模型不适用,并且会产生特征稀疏以及维度灾难的问题。现有社交网络短文本数据的分类为了上述问题,主要集中在基于语义特征和基于结构特征的分类研究中,但前者需要依赖于大语料,而后者的特征选择方法简单、单一,所选特征可扩展性、移植性差,均没有取得很好的效果。并且二类方法均没有考虑到短文本数据所处的社交网络环境这一点,没有考虑文本发布者的背景特征,文本统计句法特征以及文本在社交网络的后续影响信息对于短文本数据分类的有利影响。



技术实现要素:

本发明的发明目的是:为了解决现有技术中存在的以上问题,本发明提出了一种面向事件检测的社交网络短文本数据过滤方法,从海量的社交网络数据中过滤无用的数据,保留潜在有用的价值数据,为事件检测提供有效的、有针对性的输入数据。

本发明的技术方案是:一种面向事件检测的社交网络短文本数据过滤方法,包括以下步骤:

a、获取社交网络短文本数据,并对社交网络短文本数据进行预处理;

b、对步骤a处理后的社交网络短文本数据分别抽取用户背景特征、文本句法特征及文本影响特征;

c、训练gbdt分类器,根据步骤b抽取得到的特征对社交网络短文本数据进行分类。

进一步地,所述步骤a中,对社交网络短文本数据进行预处理具体为:首先对社交网络短文本数据进行分词操作,然后对分词后的社交网络短文本数据进行词性标注和命名实体识别操作,最后对分词标注的结果进行标签的融合。

进一步地,所述步骤b中,用户背景特征具体包括:用户是否认证、用户是否开启物理定位、用户是否处于受保护状态、用户被关注数、用户关注数、用户存在于公共列表中的数量、用户发布文本数量。

进一步地,所述步骤b中,文本句法特征具体包括:动词个数、命名实体个数、介词个数、名词个数、代词个数、形容词个数、实意词个数、名词与介词的搭配个数、动词与介词的搭配个数。

进一步地,文本影响特征具体包括:点赞数、转发数、评论数、回复数。

进一步地,所述步骤c中,训练gbdt分类器,具体包括以下分步骤:

c1、设定训练数据集合m={(x1,y1),(x2,y2),…(xm,ym)},其中m为训练数据个数,(xi,yi)为第i个训练数据,xi为第i个训练数据的特征向量,yi为第i个训练数据的分类标签;

c2、初始化弱学习器其中l为损失函数,c为初始化弱学习器的区域输出值;

c3、迭代构建cart回归树,对m个训练数据,计算负梯度rti,表示为

其中,t=1,2,…t,t为迭代次数;

c4、利用(xi,rti)拟合一颗cart回归树,得到第t棵回归树,表示为

其中,rti为第t轮迭代中第i个训练样本的残差,j为回归树划分的区域数,ctj为第t棵决策回归树的第j个区域的最佳拟合值,i=1,2,…,m,i(x∈rtj)为指示函数;

c5、构建强学习器,表示为

本发明的有益效果是:本发明从社交网络短文本数据与普通短文本数据所存在依赖的社交网络环境出发考虑,分别从用户背景特征,文本句法特征以及文本影响特征三个方面进行分析,进而抽取了20维分类特征,最后利用gbdt算法对短文本数据进行分类,对于分类为无用信息的数据进行过滤,保留潜在有用的价值信息数据,从而达到为事件检测提供有效的数据输入的目的。

附图说明

图1是本发明的面向事件检测的社交网络短文本数据过滤方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1所示,为本发明的面向事件检测的社交网络短文本数据过滤方法的流程示意图。一种面向事件检测的社交网络短文本数据过滤方法,包括以下步骤:

a、获取社交网络短文本数据,并对社交网络短文本数据进行预处理;

b、对步骤a处理后的社交网络短文本数据分别抽取用户背景特征、文本句法特征及文本影响特征;

c、训练gbdt分类器,根据步骤b抽取得到的特征对社交网络短文本数据进行分类。

为了给事件检测提供有效的数据输入,本发明将社交网络短文本数据中具有讨论热度的、有影响力的、有突发性的事件描述作为潜在的价值信息,这些数据对于事件检测输入而言是有用信息,如政治、经济、军事、自然灾害、恐怖袭击等信息;而将讨论热度低、影响力小的、不具有突发性的其他类别的事件描述作为无用信息,这些数据对于事件检测输入而言是干扰信息,如广告、色情、语言暴力、个人状态与观点等信息。

在本发明的一个可选实施例中,上述步骤a对社交网络短文本数据进行预处理具体为:首先对社交网络短文本数据进行分词操作,然后对分词后的社交网络短文本数据进行词性标注和命名实体识别操作,最后对分词标注的结果进行标签的融合。

在本发明的一个可选实施例中,上述步骤b从社交网络短文本与普通短文本数据所处的社交网络环境的不同,从用户背景特征、文本句法特征以及文本影响特征三个方面来抽取特征,这些特征对判定用户发布的短文本数据是否是潜在价值信息数据提供了有效信息。

对于社交网络用户背景特征,主要是指不同的用户使用社交网络的目的不同,从而在社交网络中发布的信息的偏向性也就不同。有些用户使用社交网络是为了与朋友们更加方便的交流,所以主要发布的是对于日常生活中发生的事情的描述;有些用户使用社交网络是为了利用自己的影响力从而发布一些有影响力的言论,这些用户主要发布的是对于突发热点问题的看法及讨论;有些用户是新闻媒体机构或新闻机构的记者,这些用户主要是利用社交网络平台发布最新的新闻事件及其后续的报导;有些用户是为了推广和宣传公司产品,这些用户发布的文本多关于商品详情以及一些用户的体验和想法。

本发明中用户背景特征具体包括:用户是否认证、用户是否开启物理定位、用户是否处于受保护状态、用户被关注数、用户关注数、用户存在于公共列表中的数量、用户发布文本数量。通过分析短文本发布者的用户背景特征,根据用户是否认证、是否开启物理定位及是否处于受保护状态获取用户是否可信的信息,根据用户的被关注数及该用户存在于公共列表中的数目获取用户的影响力和可信度的信息,根据用户的关注数以及用户的发布文本数获取用户的活跃度的度量,从而判定可信度高,影响力大,活跃度高的用户发布的文本数据大概率为潜在有用的价值信息数据。

对于社交网络短文本句法特征,主要是指社交网络短文本数据的使用时具有的统计句法结构特性。对于社交网络短文本而言,因为词数有限制,所以发布的文本数据大多是短小精悍,简明扼要,所以文本的主干信息比较容易定位。一般而言,对于社交网络短文本而言,用动词来表示事件发生中的动作、活动或状态,用名词来表示事件的主体或客体,用代词来指代前面出现过的人或物,用介词来与动词搭配,构成短语动词或与事件实体、地点或时间等表述连用表示事件发生的状态。

本发明中文本句法特征具体包括:动词个数、命名实体个数、介词个数、名词个数、代词个数、形容词个数、实意词个数、名词与介词的搭配个数、动词与介词的搭配个数。通过句子主干的分析发现,可以利用动词、命名实体及名词来作为句子的主干词,用来判断句子主干的存在情况;通过词性词频统计发现,在无用的文本数据中代词的出现频率较高,尤其是第一人称,如果第一人称出现的话,很大概率描述的是个人的观点或者发生在个人身边的小事,不是我们关注的热点事件,相反在突发事件的描述中很少出现代词,但在突发事件的描述中很大比例会出现命名实体,因为对于事件的描述而言,一般是通过时间、地点、人物及动作来进行表述,而时间、地点和人物可以通过命名实体识别得到,故命名实体识别出现的情况下,很大概率是我们所关注的热点突发事件;通过对句法结构搭配统计发现,在潜在有用的文本数据中,介词出现的频率更高,主要是通过与动词、名词及地名的搭配出现,例如#israelreadytogointosyriatoprotectdruzevillageaftercarbombkilled9&injured23there…在这句话中出现四个介词,第一个介词是短语搭配readyto,第二个介词into后跟地名,表示到某地方,第三个介词to后跟protect,表示发生事件的行为状态,第四个介词后跟名词car,主要表示了事件发生的时间状态。

对于社交网络短文本影响特征,主要是指社交网络短文本数据发布之后在社交网络中后续讨论热度、传播力度及后续影响情况。对于一个突发性的事件而言,一般是具有讨论热度高,关注度高,传播范围广的特性,这些事件是允许更多的用户参与到事件的讨论之中,而对于一个日常生活的小事而言,一般不会有很高的关注度,不会引起社会的广泛讨论,影响范围比较小。

本发明中文本影响特征具体包括:点赞数、转发数、评论数、回复数。通过分析社交网络短文本数据的后续影响情况,发现短文本数据的点赞数提供了文本的关注度信息,一般点赞数越高说明短文本数据的关注度也越高,短文本数据的转发数提供了文本的传播力度的信息,转发数越高说明文本的传播力度较大,短文本数据的回复数和评论数提供了文本的热点性的信息,一般而言,回复数和评论数越高,说明文本的讨论度越高,具有热点性。

如表1所示,为本发明实施例中抽取特征集合表。

表1、抽取特征集合表

本发明通过分析社交网络短文本数据与普通文本数据所处的社交网络环境的不同,从用户背景特征角度抽取了可以提供有关文本发布者可信度、影响力以及活跃度信息的7维特征;从文本句法特征角度抽取了可以提供文本主干信息以及依判定是否有用的据统计句法搭配信息的9维特征;从文本影响特征角度抽取了可以提供文本在社交网络中的影响度、热度及传播力度等信息的4维特征。

本发明中可以快速而有效的抽取特征,通过调用社交网络所提供了api接口,可以得到用户背景特征,文本数据,以及文本影响特征情况,然后对文本数据进行分词,词性标注,命名实体识别可以得到句法特征,这种特征抽取方式,避免了传统特征选择方法(如基于词的权重、信息增益、互信息等)中繁琐的词频统计和代数运算工作,计算简单,有利于高效、并行的处理社交网络中海量的数据。

在本发明的一个可选实施例中,上述步骤c采用集成分类算法中的gbdt算法来作为分类算法,首先利用训练数据训练gbdt分类器,然后将训练好的gbdt分类器用于真实数据的分类。

gbdt算法是一种以cart决策树为基分类器的集成分类算法,具有很强的健壮性和鲁棒性。本发明从用户背景特征、文本句法特征以及文本影响特征三个维度抽取了20维类别不同,归一化较为困难的特征,而决策树模型对于混合类型特征的处理有天然的优势,且在分类中不要求特征归一化以及一些复杂的特征变换操作,即可达到比较好的分类效果,但普通的决策树模型存在很大的问题,在于容易过拟合,泛化能力差,这个问题通过集成学习方法可以得到解决。gbdt是以cart为基分类器的boosting框架下的集成分类方法,可以通过不断回归拟合前一模型的残差的负梯度表示,来达到减少偏差的目的,而rf是以决策树为基分类器的bagging框架下的集成分类方法,可以通过随机采样及属性随机选择,来避免数据的扰动,达到减少方差的目的。在本发明中,因为采用的训练样本数量少,而rf适用于大样本的训练,在小样本训练中,rf训练精度低于gbdt的训练精度,故本发明采用gbdt来作为本发明中的分类方法。

本发明训练gbdt分类器,具体包括以下分步骤:

c1、设定训练数据集合m={(x1,y1),(x2,y2),…(xm,ym)},其中m为训练数据个数,(xi,yi)为第i个训练数据,xi为第i个训练数据的特征向量,yi为第i个训练数据的分类标签,xi维度为20维;

c2、初始化弱学习器其中l为损失函数,l(y,f(x))=log(1+exp(-2yf(x))),c为初始化弱学习器的区域输出值,即第一个cart回归树中的区域输出值;

c3、迭代构建cart回归树,对m个训练数据,计算负梯度rti,表示为

其中,t=1,2,…t,t为迭代次数;

c4、利用(xi,rti)拟合一颗cart回归树,得到第t棵回归树,表示为

其中,rti为第t轮迭代中第i个训练样本的残差,利用(xi,rti)来作为下一次迭代,即训练下一棵cart回归树的训练数据,j为回归树划分的区域数,ctj为第t棵决策回归树的第j个区域的最佳拟合值,i(x∈rtj)为指示函数,表示x属于第t棵回归树中第j个区域rtj时值为1,x不属于第t棵回归树中第j个区域rtj时值为0;

c5、构建强学习器,表示为

本发明中依据提取特征及训练数据的情况,采用了适合的gbdt算法对数据进行分类,该算法适合于小样本的混合数据类型的特征的处理,有很好健壮性和鲁棒性,可以实现较好的分类效果。

由于社交网络短文本数据与普通文本数据很大的不同在于其所处的社交网络环境背景,本发明从用户背景特征角度抽取了能够提供用户的可信度、影响力和活跃度信息的7维特征,从文本句法特征角度抽取了能够提供文本主干信息及句法搭配信息的9维特征,从文本影响特征角度抽取了能够提供短文本数据在社交网络中的讨论热度、传播程度以及影响程度信息的4维特征,抽取的20维特征能够全面、具体的提供短文本数据在社交网络中产生、传播及影响的先验知识,这些信息对于社交网络短文本数据的分类有很重要的作用,对社交网络短文本数据的无用信息或有用信息的判断有较好的区分性。基于抽取的20维特征的情况,以及我们采用的小样本训练的情况,我们选用了集成分类方法中的gbdt算法实现分类,达到了比较好的分类效果,能够为事件检测提供有效的输入数据。

本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1