一种舆情事件挖掘方法和系统与流程

文档序号:13421979阅读:355来源:国知局
一种舆情事件挖掘方法和系统与流程

本发明自然语言处理领域,尤其涉及一种舆情事件挖掘方法和系统。



背景技术:

当今互联网的使用范围越来越广泛、影响愈来愈巨大,各类信息呈几何数增长,网上舆情已经越来越复杂,对现实生活的影响与日俱增,一些重大的网络舆情事件往往对社会产生较大的影响力。对政府部门、公众媒体和大型企业来说,如何加强对网络舆情事件的及时监测,以及时采取措施进行有效应对,成为网络舆情管理的一大难点。

事件挖掘是信息抽取领域的重要研究,目的是从非结构化的文本中挖掘事件信息。对文本进行舆情事件挖掘,有助于用户及时获取其所关心的舆情事件,为决策提供强有力的数据支撑。

当前的事件挖掘主要采用基于统计机器学习的方法,如最大熵算法,感知机算法。但是基于统计机器学习的方法需要大量的人工标注事件,如果用户需要挖掘一种新类型的事件,就需要对该类事件进行大量标注。并且事件标注语料本身同样面临着正反例不平衡以及数据稀疏的问题。另外,传统的事件挖掘是在自动分词的基础上进行的,分词的错误会直接影响下一步的结果。



技术实现要素:

为解决上述技术问题,本发明提供了一种舆情事件挖掘方法和系统。

第一方面,本发明实施例提供了一种舆情事件挖掘方法,包括以下步骤:

步骤1,构建至少一个预设事件类别中每个预设事件类别对应的事件本体;

步骤2,对每个事件本体进行解析,生成每个事件本体对应的规则表示;

步骤3,获取待挖掘文本,根据所述每个事件本体对应的规则表示对所述待挖掘文本进行挖掘,获取所述待挖掘文本包含的至少一个目标预设事件类别。

上述方案的有益效果在于:本发明提供的舆情事件挖掘方法避免了海量数据的标注,并且避免了分词对事件挖掘的影响,防止自动分词错误的传播;同时用户可以根据需要对事件本体进行维护,从而提高了本发明舆情事件挖掘方法的适用性、挖掘效率和挖掘准确率。

进一步的,所述步骤1具体包括以下步骤:

s101,设定至少一个备选概念,并对至少一个备选概念中每个备选概念建立对应的词表集合;

s102,获取预设事件类别对应的至少一个备选概念,并设定所述至少一个备选概念中每个备选概念之间的至少一个逻辑关系,形成所述预设事件类别对应的至少一个模板;

s103,建立所述预设事件类别对应的事件本体,所述事件本体包括所述预设事件类别对应的至少一个模板以及所述至少一个模板中每个模板包括的备选概念;

s104,重复步骤s102~s103,直至为每个预设事件类别建立对应的事件本体。

进一步,步骤1中,所述备选概念包括用于所有模板中的公共概念和用于特定事件类别的类别概念;所述备选概念为至少一个子概念的集合。

进一步,所述步骤2具体为:对每个事件本体的模板进行解析,形成模板中每个备选概念对应的正则表达式,所述正则表达式包括所述备选概念对应的词表集合;并根据所述模板对应的逻辑关系形成每个事件本体对应的规则表示。

进一步,所述步骤3具体为:

s301,获取待挖掘文本,将所述待挖掘文本与所述正则表达式中词表集合的词表进行匹配,获取所述待挖掘文本中包含的目标概念;

s302,获取与所述目标概念相匹配的目标规则表示,并根据所述目标规则表示生成对应的目标模板;

s303,根据所述目标模板生成所述待挖掘文本包含的目标预设事件类别,并获取所述目标预设事件类别在所述待挖掘文本中的位置。

第二方面,本发明提供了一种舆情事件挖掘系统,包括构建模块、解析模块和挖掘模块,

所述构建模块用于构建至少一个预设事件类别中每个预设事件类别对应的事件本体;

所述解析模块用于对每个事件本体进行解析,生成每个事件本体对应的规则表示;

所述挖掘模块用于获取待挖掘文本,根据所述每个事件本体对应的规则表示对所述待挖掘文本进行挖掘,获取所述待挖掘文本包含的至少一个目标预设事件类别。

上述方案的有益技术效果在于:本发明提供的舆情事件挖掘系统避免了海量数据的标注,并且避免了分词对事件挖掘的影响,防止自动分词错误的传播;同时用户可以根据需要对事件本体进行维护,从而提高了本发明舆情事件挖掘系统的适用性、挖掘效率和挖掘准确率。

进一步,所述构建模块具体包括:

第一建立单元,用于设定至少一个备选概念,并对至少一个备选概念中每个备选概念建立对应的词表集合;

第二建立单元,用于获取预设事件类别对应的至少一个备选概念,并设定所述至少一个备选概念中每个备选概念之间的至少一个逻辑关系,形成所述预设事件类别对应的至少一个模板;

第三建立单元,用于建立所述预设事件类别对应的事件本体,所述事件本体包括所述预设事件类别对应的至少一个模板以及所述至少一个模板中每个模板包括的备选概念。

进一步,所述备选概念包括用于所有模板中的公共概念和用于特定事件类别的类别概念;所述备选概念为至少一个子概念的集合。

进一步,所述解析模块具体用于对每个事件本体的模板进行解析,形成模板中每个备选概念对应的正则表达式,所述正则表达式包括所述备选概念对应的词表集合;以及根据所述模板对应的逻辑关系形成每个事件本体对应的规则表示。

进一步,所述挖掘模块具体包括:

第一匹配单元,用于获取待挖掘文本,将所述待挖掘文本与所述正则表达式中词表集合的词表进行匹配,获取所述待挖掘文本中包含的目标概念;

第二匹配单元,用于获取与所述目标概念相匹配的目标规则表示,并根据所述目标规则表示生成对应的目标模板;

生成单元,用于根据所述目标模板生成所述待挖掘文本包含的目标预设事件类别,并获取所述目标预设事件类别在所述待挖掘文本中的位置。

本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。

附图说明

图1为本发明实施例1提供的一种舆情事件挖掘方法的示意性流程图;

图2为本发明实施例2提供的一种舆情事件挖掘方法中类别概念的实例图;

图3为本发明实施例3提供的一种舆情事件挖掘系统的结构示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定装置结构、接口、技术之类的具体细节,以便透切理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。

如图1给出了本发明实施例1提供的一种舆情事件挖掘方法的示意性流程图。如图1所示,方法的执行主体可以是服务器,该方法包括以下步骤:

步骤1,构建至少一个预设事件类别中每个预设事件类别对应的事件本体;

步骤2,对每个事件本体进行解析,生成每个事件本体对应的规则表示;

步骤3,获取待挖掘文本,根据所述每个事件本体对应的规则表示对所述待挖掘文本进行挖掘,获取所述待挖掘文本包含的至少一个目标预设事件类别。

本实施例提供的舆情事件挖掘方法避免了海量数据的标注,并且避免了分词对事件挖掘的影响,防止自动分词错误的传播;同时用户可以根据需要对事件本体进行维护,从而提高了本发明舆情事件挖掘方法的适用性、挖掘效率和挖掘准确率。以下通过其他具体实施例对上述方法的每个步骤进行描述。

在一个优选实施例中,所述步骤1具体包括以下步骤:

s101,设定至少一个备选概念,并对至少一个备选概念中每个备选概念建立对应的词表集合;

s102,获取预设事件类别对应的至少一个备选概念,并设定所述至少一个备选概念中每个备选概念之间的至少一个逻辑关系,形成所述预设事件类别对应的至少一个模板;所述逻辑关系包括备选概念的先后顺序或者备选概念之间的距离等等;

s103,建立所述预设事件类别对应的事件本体,所述事件本体包括所述预设事件类别对应的至少一个模板以及所述至少一个模板中每个模板包括的备选概念;

s104,重复步骤s102~s103,直至为每个预设事件类别建立对应的事件本体。

上述优选实施例中,对每个预设事件类别构建了对应的事件本体,事件本体包括概念和模板,并且每类事件可以包括至少一个模板,从而可以在事件本体的基础上对文本进行事件挖掘,准确、高效的得到文本所包含的舆情事件。同时,当事件挖掘效果达不到预期时或者出现新的事件类别时,只需对对应事件类别的事件本体,比如对应概念和模板进行修正或者对新的事件类别构建对应的事件本体即可,方法简单且有针对性,提高了本发明舆情事件挖掘方法的挖掘效果。

一个具体实施例中包括40个预设事件类别,其中一个预设事件类别为“国土资源事件”,该事件类别的一个模板为“土地负面活动+土地对象”,其中“土地负面活动”和“土地对象”为该事件的两个概念,均由一系列词表构成;“+”表示两个概念之间的顺序连接。该事件类别的另一个模板为“国土对象(土地负面)”,其中“()”表示不考虑先后顺序的连接。该事件类别的第三个模板为“土地负面活动{5}土地对象”,其中“{}”用于定义两个概念间的距离。对于每类事件,都可以定义一系列模板,模板定义的越多,对所述预设事件类别表达得越完整,挖掘准确性也越高。

优选实施例2中,所述备选概念包括用于所有模板中的公共概念和用于特定事件类别的类别概念,如图2所示,即为一个类别概念,该类别概念对应的事件类别为“国土资源”,包括“土地单负面、土地对象和土地负面”等备选概念,每个备选概念又包括一系列的词表。另一优选实施例中,概念同样有层级结构,可以包括下属的子概念,即概念为下属子概念的集合,比如“国土对象”包括土地活动、机构、土地对象、地款、资源机构等子概念,通过对事件类别设置具有层级的概念模型,进一步提高了后续对待挖掘文本进行匹配的效率和成功率。

另一优选实施例中,所述步骤2具体为:对每个事件本体的模板进行解析,形成模板中每个备选概念对应的正则表达式,所述正则表达式包括所述备选概念对应的词表集合;并根据所述模板对应的逻辑关系形成每个事件本体对应的规则表示,即模板中每个备选概念之间的逻辑关系表达式。例如国土资源事件的一条模板为“土地负面活动+土地对象”,概念“土地负面活动”由“抢占强占强买侵占强[征推][私擅乱滥超盗][采挖占]炸山毁[山林]”一系列词构成,可以解析成正则表达式“抢占|强占|强买|侵占|强[征推]|[私擅乱滥超盗][采挖占]|炸山|毁[山林]”。概念“土地对象”解析成正则表达式“耕地|宅基地|土地|农用地|地块|责任田|农田”,模板“土地负面活动+土地对象”中“+”表示两个概念顺序出现,并不超过默认距离。

优选实施例中,所述步骤3具体为:

s301,获取待挖掘文本,将所述待挖掘文本与所述正则表达式中词表集合的词表进行匹配,获取所述待挖掘文本中包含的目标概念;

s302,获取与所述目标概念相匹配的目标规则表示,并根据所述目标规则表示生成对应的目标模板,即判断匹配到的目标概念是否符合模板所定义的逻辑关系,如果符合,则认为能够匹配该模板;

s303,根据所述目标模板生成所述待挖掘文本包含的目标预设事件类别,并获取所述目标预设事件类别在所述待挖掘文本中的位置。

例如对于待挖掘文本“非法侵占集体土地”,“侵占”对应概念“土地负面活动”,“土地”对应概念“土地对象”,可以匹配到模板“土地负面活动+土地对象”,从而挖掘出事件“侵占集体土地”,对应的目标预设事件类别为“国土资源”。

图3为本发明实施例3提供的一种舆情事件挖掘系统的结构示意图,如图3所示,所述舆情事件挖掘系统包括构建模块、解析模块和挖掘模块,

所述构建模块用于构建至少一个预设事件类别中每个预设事件类别对应的事件本体;

所述解析模块用于对每个事件本体进行解析,生成每个事件本体对应的规则表示;

所述挖掘模块用于获取待挖掘文本,根据所述每个事件本体对应的规则表示对所述待挖掘文本进行挖掘,获取所述待挖掘文本包含的至少一个目标预设事件类别。

上述实施例提供的舆情事件挖掘系统避免了海量数据的标注,并且避免了分词对事件挖掘的影响,防止自动分词错误的传播;同时用户可以根据需要对事件本体进行维护,从而提高了本发明舆情事件挖掘系统的适用性、挖掘效率和挖掘准确率。

另一优选实施例中,所述构建模块具体包括:

第一建立单元,用于设定至少一个备选概念,并对至少一个备选概念中每个备选概念建立对应的词表集合;

第二建立单元,用于获取预设事件类别对应的至少一个备选概念,并设定所述至少一个备选概念中每个备选概念之间的至少一个逻辑关系,形成所述预设事件类别对应的至少一个模板;

第三建立单元,用于建立所述预设事件类别对应的事件本体,所述事件本体包括所述预设事件类别对应的至少一个模板以及所述至少一个模板中每个模板包括的备选概念。

上述优选实施例中,对每个预设事件类别构建了对应的事件本体,事件本体包括概念和模板,并且每类事件可以包括至少一个模板,从而可以在事件本体的基础上对文本进行事件挖掘,准确、高效的得到文本所包含的舆情事件。同时,当事件挖掘效果达不到预期时或者出现新的事件类别时,只需对对应事件类别的事件本体,比如对应概念和模板进行修正或者对新的事件类别构建对应的事件本体即可,方法简单且有针对性,提高了本发明舆情事件挖掘方法的挖掘效果。

具体实施例中,所述备选概念包括用于所有模板中的公共概念和用于特定事件类别的类别概念;所述备选概念为至少一个子概念的集合。通过对事件类别设置具有层级的概念模型,进一步提高了后续对待挖掘文本进行匹配的效率和成功率。

另一优选实施例中,所述解析模块具体用于对每个事件本体的模板进行解析,形成模板中每个备选概念对应的正则表达式,所述正则表达式包括所述备选概念对应的词表集合;以及根据所述模板对应的逻辑关系形成每个事件本体对应的规则表示。

另一优选实施例中,所述挖掘模块具体包括:

第一匹配单元,用于获取待挖掘文本,将所述待挖掘文本与所述正则表达式中词表集合的词表进行匹配,获取所述待挖掘文本中包含的目标概念;

第二匹配单元,用于获取与所述目标概念相匹配的目标规则表示,并根据所述目标规则表示生成对应的目标模板;

生成单元,用于根据所述目标模板生成所述待挖掘文本包含的目标预设事件类别,并获取所述目标预设事件类别在所述待挖掘文本中的位置。

上述优选实施例中,通过正则表达式表示备选概念对应的词表集合,通过规则表示,即逻辑关系表达式表示模板中备选概念之间的逻辑关系,从而方便对待挖掘文本进行匹配,得到待挖掘文本包括的目标概念以及目标规则表示,进一步提高了本发明的舆情事件挖掘效率和准确率。

读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1