一种地震应急的主题词的探测方法及装置与流程

文档序号:15615779发布日期:2018-10-09 21:20阅读:220来源:国知局

本发明涉及数据处理技术领域,特别涉及一种地震应急的主题词的探测方法及装置。



背景技术:

随着网络通讯技术的发展以及社交媒体的发展,公众参与发布的地震信息越来越多。这类信息过于繁杂,很难从中准确、快速地获得对地震应急有用的信息。为了能够从繁杂的网络数据中获取对地震应急有用的信息,一般来说,首先,探测出地震应急的主题词,然后,基于地震应急的主题词来筛选出有用的信息。

现有技术中,对地震应急的主题词的探测主要是通过人工经验来实现。具体地,相关工作人员根据经验总结出一些词作为主题词。但是,现有技术中仅仅依靠人工经验得到主题词,主题词的数量有限,不够全面。



技术实现要素:

本发明实施例提供了一种地震应急的主题词的探测方法及装置,能够得到更加全面的地震应急的主题词。

一方面,本发明实施例提供了一种地震应急的主题词的探测方法,包括:

预先设置主题词分类规则;

s1:从网络中获取多条地震应急信息;

s2:对所述多条地震应急信息进行分词,获得多个特征词;

s3:按照所述主题词分类规则,对所述多个特征词进行分类;

s4:根据所述多个特征词的类别,对所述多个特征词进行向上聚合处理,生成多个地震应急的主题词。

进一步地,

所述主题词分类规则中包括:至少两个粗粒度类别,其中,每个所述粗粒度类别中包括至少一个细粒度类别;

所述s3,包括:

确定每个所述特征词所属的粗粒度类别以及位于所属的粗粒度类别中的细粒度类别;

所述s4,包括:

针对每个所述粗粒度类别下的每个细粒度类别,执行:

a1:判断当前细粒度类别中是否存在至少一对没有进行向上聚合处理的特征词,如果是,则执行a2,否则,确定所述当前细粒度类别中的特征词为所述地震应急的主题词;

a2:判断是否存在αx=βy=kα-β,如果是,将α和β从当前细粒度类别中删除,将kα-β作为当前细粒度类别中的特征词,返回a1,否则,直接返回a1;

其中,α和β为当前细粒度类别下的一对没有进行向上聚合处理的特征词,αx为α的第x个分词单元,βy为β的第y个分词单元。

进一步地,

所述主题词分类规则中包括:至少两个粗粒度类别,其中,每个所述粗粒度类别中包括至少一个细粒度类别;

所述s3,包括:

确定每个所述特征词所属的粗粒度类别以及位于所属的粗粒度类别中的细粒度类别;

所述s4,包括:

针对每个所述粗粒度类别下的每个细粒度类别,执行:对当前细粒度类别中的特征词进行向上聚合处理,根据聚合结果更新所述当前细粒度类别中的特征词;

针对每个所述粗粒度类别,执行:对当前粗粒度类别中的至少两个细粒度类别中的特征词进行细粒度类别之间的向上聚合处理,根据聚合结果更新所述当前粗粒度类别中的特征词;

对至少两个粗粒度类别中的特征词进行粗粒度类别之间的向上聚合处理,根据聚合结果更新所述至少两个粗粒度类别中的特征词;

将每个所述粗粒度类别中的特征词作为所述地震应急的主题词。

进一步地,

所述针对每个所述粗粒度类别,执行:对当前粗粒度类别中的至少两个细粒度类别中的特征词进行细粒度类别之间的向上聚合处理,根据聚合结果更新所述当前粗粒度类别中的特征词,包括:

针对每个所述粗粒度类别,执行b1-b6:

b1:初始化i=1;

b2:j=i+1;

b3:判断当前粗粒度类别中的第i个细粒度类别中是否存在未与当前粗粒度类别中的第j个细粒度类别中的特征词进行向上聚合处理的待处理的特征词,如果是,执行b4,否则,执行b5;

b4:针对第j个细粒度类别中每个特征词,执行e1-e2:

e1:判断是否存在如果是,执行e2;

e2:判断ω是否是任一细粒度类别中向上聚合处理得到的特征词,如果是,则将ω作为a中的特征词,将ω作为b中的特征词,从a中删除θa,从b中删除θb

其中,a为第i个细粒度类别,b为第j个细粒度类别,θa为第i个细粒度类别的任意一个待处理的特征词,θb为第j个细粒度类别中的当前特征词,为θa的第p个分词单元,为θb第q个分词单元;

b5:判断j是否等于z,如果是,则执行b6,否则,j=j+1,返回b3;

b6:判断i是否等于z-1,如果是,则将当前粗粒度类别下每个细粒度类别中的特征词作为当前粗粒度类别的特征词,否则,i=i+1,返回b2;其中,z为当前粗粒度类别中细粒度类别的数量。

进一步地,

所述对至少两个粗粒度类别中的特征词进行粗粒度类别之间的向上聚合处理,根据聚合结果更新所述至少两个粗粒度类别中的特征词,包括:

c1:初始化e=1;

c2:f=e+1;

c3:判断第e个粗粒度类别中是否存在未与第f个粗粒度类别中的特征词进行向上聚合处理的待处理的特征词,如果是,执行c4,否则,执行c5;

c4:针对第f个粗粒度类别中每个特征词,执行:

判断是否存在如果是,从c中删除θc,从d中删除θd

其中,c为第e个粗粒度类别,d为第f个粗粒度类别,θc为第e个粗粒度类别的任意一个待处理的特征词,θd为第f个粗粒度类别中的当前特征词,为θc的第u个分词单元,为θd第w个分词单元;

c5:判断f是否等于t,如果是,则执行c6,否则,f=f+1,返回c3;

c6:判断e是否等于t-1,如果是,则执行所述将每个所述粗粒度类别中的特征词作为所述地震应急的主题词,否则,e=e+1,返回c2;其中,t为粗粒度类别的数量。

进一步地,

进一步包括:预先设置第一模糊分类特征词集合,预先设置第一词频阈值,预先设置第一细粒度主题词库和第一粗粒度主题词库;

在e2中,进一步包括:当判断出ω不是任一细粒度类别中向上聚合处理得到的特征词时,将ω作为所述第一模糊分类特征词集合中的特征词;

进一步包括:

针对所述第一模糊分类特征词集合中的每个特征词,执行:

h1:确定是否存在当前特征词所符合的类别,如果是,将所述当前特征词作为所符合的类别中的特征词,否则,确定聚合成所述当前特征词的两个特征词的词频,执行h2;

h2:判断聚合成所述当前特征词的两个特征词的词频之和是否大于等于所述第一词频阈值,如果是,则将所述当前特征词作为所述第一粗粒度主题词库的主题词,否则,将所述当前特征词作为所述第一细粒度主题词库的主题词。

进一步地,

进一步包括:预先设置第二模糊分类特征词集合,预先设置第二词频阈值,预先设置第二细粒度主题词库和第二粗粒度主题词库;

在c4中,进一步包括:当判断出存在时,将σ作为所述第二模糊分类特征词集合中的特征词;

进一步包括:

针对所述第二模糊分类特征词集合中的每个特征词,执行:

g1:确定是否存在当前特征词所符合的类别,如果是,将所述当前特征词作为所符合的类别中的特征词,否则,确定聚合成所述当前特征词的两个特征词的词频,执行g2;

g2:判断聚合成所述当前特征词的两个特征词的词频之和是否大于等于所述第二词频阈值,如果是,则将所述当前特征词作为所述第二粗粒度主题词库的主题词,否则,将所述当前特征词作为所述第二细粒度主题词库的主题词。

另一方面,本发明实施例提供了一种地震应急的主题词的探测装置,包括:

第一设置单元,用于设置主题词分类规则;

获取单元,用于从网络中获取多条地震应急信息,对所述多条地震应急信息进行分词,获得多个特征词;

分类单元,用于按照所述主题词分类规则,对所述多个特征词进行分类;

聚合单元,用于根据所述多个特征词的类别,对所述多个特征词进行向上聚合处理,生成多个地震应急的主题词。

进一步地,

所述主题词分类规则中包括:设置有至少两个粗粒度类别,其中,每个所述粗粒度类别中包括至少一个细粒度类别;

进一步包括:

第二设置单元,用于设置细粒度主题词库;

所述分类单元,用于确定每个所述特征词所属的粗粒度类别以及位于所属的粗粒度类别中的细粒度类别;

所述聚合单元,用于:

针对每个所述粗粒度类别下的每个细粒度类别,执行:

a1:判断当前细粒度类别中是否存在至少一对没有进行向上聚合处理的特征词,如果是,则执行a2,否则,确定所述当前细粒度类别中的特征词为所述地震应急的主题词;

a2:判断是否存在αx=βy=kα-β,如果是,将α和β从当前细粒度类别中删除,将kα-β作为当前细粒度类别中的特征词,返回a1,否则,直接返回a1;

其中,α和β为当前细粒度类别下的一对没有进行向上聚合处理的特征词,αx为α的第x个分词单元,βy为β的第y个分词单元。

进一步地,

所述主题词分类规则中包括:至少两个粗粒度类别,其中,每个所述粗粒度类别中包括至少一个细粒度类别;

所述分类单元,用于确定每个所述特征词所属的粗粒度类别以及位于所属的粗粒度类别中的细粒度类别;

所述聚合单元,用于:

针对每个所述粗粒度类别下的每个细粒度类别,执行:对当前细粒度类别中的特征词进行向上聚合处理,根据聚合结果更新所述当前细粒度类别中的特征词;

针对每个所述粗粒度类别,执行:对当前粗粒度类别中的至少两个细粒度类别中的特征词进行细粒度类别之间的向上聚合处理,根据聚合结果更新所述当前粗粒度类别中的特征词;

对至少两个粗粒度类别中的特征词进行粗粒度类别之间的向上聚合处理,根据聚合结果更新所述至少两个粗粒度类别中的特征词;

将每个所述粗粒度类别中的特征词作为所述地震应急的主题词。

在本发明实施例中,从网络中获取多条地震应急信息,对这些地震应急信息进行分词,获得多个特征词,对这些特征词进行分类,并进行向上聚合处理,得到多个地震应急的主题词,这些主题词是基于多条地震应急信息而得到的,这些多条地震应急信息可以包括各个方面的地震应急信息,得到的主题词也能涵盖地震应急的各个方面,进而通过本发明实施例能够得到更加全面的地震应急的主题词。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种地震应急的主题词的探测方法的流程图;

图2是本发明一实施例提供的另一种地震应急的主题词的探测方法的流程图;

图3是本发明一实施例提供的一种地震应急的主题词的探测装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明实施例提供了一种地震应急的主题词的探测方法,该方法可以包括以下步骤:

s0:预先设置主题词分类规则;

s1:从网络中获取多条地震应急信息;

s2:对所述多条地震应急信息进行分词,获得多个特征词;

s3:按照所述主题词分类规则,对所述多个特征词进行分类;

s4:根据所述多个特征词的类别,对所述多个特征词进行向上聚合处理,生成多个地震应急的主题词。

在本发明实施例中,从网络中获取多条地震应急信息,对这些地震应急信息进行分词,获得多个特征词,对这些特征词进行分类,并进行向上聚合处理,得到多个地震应急的主题词,这些主题词是基于多条地震应急信息而得到的,这些多条地震应急信息可以包括各个方面的地震应急信息,得到的主题词也能涵盖地震应急的各个方面,进而通过本发明实施例能够得到更加全面的地震应急的主题词。

在本发明一实施例中,所述主题词分类规则中包括:至少两个粗粒度类别,其中,每个所述粗粒度类别中包括至少一个细粒度类别;

所述s3,包括:

确定每个所述特征词所属的粗粒度类别以及位于所属的粗粒度类别中的细粒度类别;

所述s4,包括:

针对每个所述粗粒度类别下的每个细粒度类别,执行:

a1:判断当前细粒度类别中是否存在至少一对没有进行向上聚合处理的特征词,如果是,则执行a2,否则,确定所述当前细粒度类别中的特征词为所述地震应急的主题词;

a2:判断是否存在αx=βy=kα-β,如果是,将α和β从当前细粒度类别中删除,将kα-β作为当前细粒度类别中的特征词,返回a1,否则,直接返回a1;

其中,α和β为当前细粒度类别下的一对没有进行向上聚合处理的特征词,αx为α的第x个分词单元,βy为β的第y个分词单元。

在本发明实施例中,在对特征词进行分类时,可以将特征词的类别分成至少两个级别,一个级别是粗粒度类别,另一个级别是细粒度类别。这样便于对这些特征词进行管理,也便于这些特征词的使用。当需要某种特征词时,可以按照粗粒度类别和细粒度类别逐层去查找需要的特征词。

这里的分词单元可以是字也可以是词。具体地,可以通过对特征词进行分词来确定。例如:α为“有信号”,对α进行分词得到“有”“信号”两个分词单元,那么,α1为“有”,α2为“信号”。

在本发明实施例中,αx=βy=kα-β是指α和β存在相同的分词单元kα-β,也就是有相同的部分kα-β,那么,将α和β向上聚合为kα-β。例如:α为“轻伤”,β为“重伤”,二者有相同的分词单元“伤”,这时,可以将α和β向上聚合为“伤”。又例如:α为“有信号”,β为“没信号”。二者有相同的分词单元“信号”,这时,可以将α和β向上聚合为“信号”。

在s3中,针对每个特征词,执行:确定出当前特征词所属的粗粒度类别,并且,确定出当前特征词所属的位于该粗粒度类别中的细粒度类别。例如:确定出特征词a属于粗粒度类别a,进一步地,确定出特征词a属于粗粒度类别a中的细粒度类别c。

举例来说,当前细粒度类别中包括a、b、c、d三个特征词,其中,先对a和b这两个特征词进行向上聚合处理,在执行a2时,如果判断出不存在αx=βy=kα-β,那么,a和b仍然保留在当前细粒度类别中,a和b是一对进行向上聚合处理的特征词,进行下一次向上聚合处理时,判断出a和c、a和d、b和c、b和d、c和d,一共5对没有进行向上聚合处理的特征词,可以挑选其中的任意一对进行向上聚合处理。如果判断出存在αx=βy=kα-β,那么,a和b从当前细粒度类别删除,当前细粒度类别剩下c、d、kα-β,进行下一次向上聚合处理时,判断出c和d、c和kα-β、d和kα-β,一共3对没有进行向上聚合处理的特征词。

另外,可以预先设置细粒度主题词库。在a1中,当判断出当前细粒度类别中不存在至少一对没有进行向上聚合处理的特征词(也就是说,当前细粒度类别中的所有可能的两个特征词的组合都进行了向上聚合处理)时,将当前细粒度类别中的特征词作为细粒度主题词库中的主题词。这些主题词主要是在细粒度类别内部进行的向上聚合处理,更加具体、更加详细。

在本发明实施例中,在a1之前,进一步包括:确定当前细粒度类别中每个特征词的词频,判断当前细粒度类别中是否存在词频大于等于预设值的特征词,如果存在,则不对这些特征词进行向上聚合处理,直接将这些特征词作为地震应急的主题词。在执行判断当前细粒度类别中是否存在至少一对没有进行向上聚合处理的特征词时,不将这些特征词考虑在内。

在本发明一实施例中,所述主题词分类规则中包括:至少两个粗粒度类别,其中,每个所述粗粒度类别中包括至少一个细粒度类别;

所述s3,包括:

确定每个所述特征词所属的粗粒度类别以及位于所属的粗粒度类别中的细粒度类别;

所述s4,包括:

针对每个所述粗粒度类别下的每个细粒度类别,执行:对当前细粒度类别中的特征词进行向上聚合处理,根据聚合结果更新所述当前细粒度类别中的特征词;

针对每个所述粗粒度类别,执行:对当前粗粒度类别中的至少两个细粒度类别中的特征词进行细粒度类别之间的向上聚合处理,根据聚合结果更新所述当前粗粒度类别中的特征词;

对至少两个粗粒度类别中的特征词进行粗粒度类别之间的向上聚合处理,根据聚合结果更新所述至少两个粗粒度类别中的特征词;

将每个所述粗粒度类别中的特征词作为所述地震应急的主题词。

在本发明实施例中,在细粒度类别内部进行向上聚合处理之后,在各个粗粒度类别中,在细粒度类别之间进行向上聚合处理,然后,在各个粗粒度类别之间进行向上聚合处理。可见,本发明实施例中进行了多次的向上聚合处理,得到的主题词更加概括。举例来说,有粗粒度类别a1、a2和a3,粗粒度类别a1中包括b1、b2、b3。首先,针对a1来说,分别在b1、b2、b3内部进行向上聚合处理,然后,针对a1来说,分别在b1和b2之间,在b1和b3之间,在b2和b3之间进行向上聚合处理。然后,分别在a1和a2之间,在a1和a3之间,在a2和a3之间进行向上聚合处理。

另外,可以预先设置粗粒度主题词库。在执行对至少两个粗粒度类别中的特征词进行粗粒度类别之间的向上聚合处理,根据聚合结果更新所述至少两个粗粒度类别中的特征词之后,将每个粗粒度类别中的特征词作为粗粒度主题词库中的主题词。

在本发明实施例中,针对每个所述粗粒度类别下的每个细粒度类别,执行:对当前细粒度类别中的特征词进行向上聚合处理,根据聚合结果更新所述当前细粒度类别中的特征词,可以通过针对每个细粒度类别执行a1-a2两个步骤来实现。

在本发明一实施例中,所述针对每个所述粗粒度类别,执行:对当前粗粒度类别中的至少两个细粒度类别中的特征词进行细粒度类别之间的向上聚合处理,根据聚合结果更新所述当前粗粒度类别中的特征词,包括:

针对每个所述粗粒度类别,执行b1-b6:

b1:初始化i=1;

b2:j=i+1;

b3:判断当前粗粒度类别中的第i个细粒度类别中是否存在未与当前粗粒度类别中的第j个细粒度类别中的特征词进行向上聚合处理的待处理的特征词,如果是,执行b4,否则,执行b5;

b4:针对第j个细粒度类别中每个特征词,执行e1-e2:

e1:判断是否存在如果是,执行e2;

e2:判断ω是否是任一细粒度类别中向上聚合处理得到的特征词,如果是,则将ω作为a中的特征词,将ω作为b中的特征词,从a中删除θa,从b中删除θb

其中,a为第i个细粒度类别,b为第j个细粒度类别,θa为第i个细粒度类别的任意一个待处理的特征词,θb为第j个细粒度类别中的当前特征词,为θa的第p个分词单元,为θb第q个分词单元;

b5:判断j是否等于z,如果是,则执行b6,否则,j=j+1,返回b3;

b6:判断i是否等于z-1,如果是,则将当前粗粒度类别下每个细粒度类别中的特征词作为当前粗粒度类别的特征词,否则,i=i+1,返回b2;其中,z为当前粗粒度类别中细粒度类别的数量。

在本发明实施例中,是指θa和θb存在相同的部分ω,那么,将θa和θb向上聚合为ω。

ω是否是任一细粒度类别中向上聚合处理得到的特征词是指,ω是否为一个kα-β。

在本发明一实施例中,该方法进一步包括:预先设置第一模糊分类特征词集合,预先设置第一词频阈值,预先设置第一细粒度主题词库和第一粗粒度主题词库;

在e2中,进一步包括:当判断出ω不是任一细粒度类别中向上聚合处理得到的特征词时,将ω作为所述第一模糊分类特征词集合中的特征词;

进一步包括:

针对所述第一模糊分类特征词集合中的每个特征词,执行:

h1:确定是否存在当前特征词所符合的类别,如果是,将所述当前特征词作为所符合的类别中的特征词,否则,确定聚合成所述当前特征词的两个特征词的词频,执行h2;

h2:判断聚合成所述当前特征词的两个特征词的词频之和是否大于等于所述第一词频阈值,如果是,则将所述当前特征词作为所述第一粗粒度主题词库的主题词,否则,将所述当前特征词作为所述第一细粒度主题词库的主题词。

在本发明实施例中,在确定是否存在当前特征词所符合的类别时,具体执行判断第一模糊分类特征词集合中的特征词是否具有十分明显的分类偏向,若有十分明显的分类偏向则将其划分入所偏向的类别,否则,继续保留在第一模糊分类特征词集合中。

针对确定聚合成所述当前特征词的两个特征词的词频这个步骤,举例来说,由于第一模糊分类特征词集合中特征词都是由θa和θb向上聚合得到的,那么,在该步骤中,确定θa的词频以及θb的词频,另外,如果θa也是一个向上聚合处理得到的特征词,那么,将向上聚合为θa的两个特征词的词频之和作为θa的词频,依此类推。

在本发明一实施例中,所述对至少两个粗粒度类别中的特征词进行粗粒度类别之间的向上聚合处理,根据聚合结果更新所述至少两个粗粒度类别中的特征词,包括:

c1:初始化e=1;

c2:f=e+1;

c3:判断第e个粗粒度类别中是否存在未与第f个粗粒度类别中的特征词进行向上聚合处理的待处理的特征词,如果是,执行c4,否则,执行c5;

c4:针对第f个粗粒度类别中每个特征词,执行:

判断是否存在如果是,从c中删除θc,从d中删除θd

其中,c为第e个粗粒度类别,d为第f个粗粒度类别,θc为第e个粗粒度类别的任意一个待处理的特征词,θd为第f个粗粒度类别中的当前特征词,为θc的第u个分词单元,为θd第w个分词单元;

c5:判断f是否等于t,如果是,则执行c6,否则,f=f+1,返回c3;

c6:判断e是否等于t-1,如果是,则执行所述将每个所述粗粒度类别中的特征词作为所述地震应急的主题词,否则,e=e+1,返回c2;其中,t为粗粒度类别的数量。

在本发明实施例中,是指θc和θd存在相同的部分σ,那么,将θc和θd向上聚合为σ。

在本发明一实施例中,该方法进一步包括:预先设置第二模糊分类特征词集合,预先设置第二词频阈值,预先设置第二细粒度主题词库和第二粗粒度主题词库;

在c4中,进一步包括:当判断出存在时,将σ作为所述第二模糊分类特征词集合中的特征词;

进一步包括:

针对所述第二模糊分类特征词集合中的每个特征词,执行:

g1:确定是否存在当前特征词所符合的类别,如果是,将所述当前特征词作为所符合的类别中的特征词,否则,确定聚合成所述当前特征词的两个特征词的词频,执行g2;

g2:判断聚合成所述当前特征词的两个特征词的词频之和是否大于等于所述第二词频阈值,如果是,则将所述当前特征词作为所述第二粗粒度主题词库的主题词,否则,将所述当前特征词作为所述第二细粒度主题词库的主题词。

在本发明实施例中,在确定是否存在当前特征词所符合的类别时,具体执行判断第二模糊分类特征词集合中的特征词是否具有十分明显的分类偏向,若有十分明显的分类偏向则将其划分入所偏向的类别,否则,继续保留在第二模糊分类特征词集合中。

针对确定聚合成所述当前特征词的两个特征词的词频这个步骤,举例来说,由于第二模糊分类特征词集合中特征词都是由θc和θd向上聚合得到的,那么,在该步骤中,确定θc的词频以及θd的词频,另外,如果θc也是一个向上聚合处理得到的特征词,那么,将向上聚合为θc的两个特征词的词频之和作为θc的词频,依此类推。

在本发明一实施例中,至少两个粗粒度类别包括:时间信息、社会舆情、抢险救援、应急保障等。其中,应急保障中的细粒度类别可以包括:衣服、棉被、交通情况、电、通讯等。

在本发明一实施例中,多条地震应急信息可以来自社交网络。这些多条地震应急信息可以来自历史的地震应急信息,也可以是实时获取的地震应急信息。

另外,基于不断的获取新的地震应急信息,可以不断对地震应急的主题词进行更新,使得地震应急的主题词更加全面、更加准确、更有时效性。

在本发明一实施例中,在s1之后,在s2之前,进一步包括:

对多条地震应急信息进行去重处理,对去重处理后的地震应急信息进行初步筛选,去除与地震应急无关的信息,去除剩余的地震应急信息中的符号(非文字、标点和阿拉伯数字等),按照预设的主题词提起规范对地震应急信息进行处理,生成符合主题词提取规范的最终的多条地震应急信息。

另外,为了便于后续处理,可以对最终的多条地震应急信息进行统一编码。

在本发明一实施例中,所述s2,包括:

对所述多条地震应急信息进行特征标记(具体地,标记出名词、动词和短语等),过滤掉无实义的词,标记出具有实际含义的所述多个特征词。

在本发明一实施例中,在所述s3之后,在所述s4之前,进一步包括:

对每个类别中的特征词进行词频统计;

在每个类别中,按照词频对特征词进行排序;

针对每个类别,去除词频小于等于预设词频的特征词;

对每个类别中的特征词进行去重处理。

另外,对于拆分不完全、含有形容词、程度副词、量词、叹词等词语冗杂的特征词进行过滤,并重新提取有效的特征词,在此基础上筛查出重复特征词进行去重处理,剩余的特征词进行s3、s4等后续处理。

还有,在确定出地震应急的主题词之后,可以针对这些主题词再次执行s3和s4,并检验各个类别中的特征词是否能够表达主题含义,得到最终的主题词。

在本发明实施例中,通过向上聚合处理后,得到的主题词更加精简、凝练。

在本发明实施例中,在对获取的多条地震应急信息进行处理之前,各个类别中可能已经存在之前确定出的各个主题词,那么,在对获取的多条地震应急信息进行处理后,可以对已有的主题词进行补充和完善。

在本发明一实施例中,该方法进一步包括:

周期性地获取新出现的地震应急信息;

将新出现的地震应急信息添加到未分类数据集合中;

实时判断所述未分类数据集合中地震应急信息的数量与已有的主题词的数量之比是否大于等于预设比例,如果是,则将所述未分类数据集合中的所述地震应急信息作为s1中的多条地震应急信息,依次执行s2,s3和s4。

在本发明一实施例中,可以预先设置停用词表。在s2中,对分词后得到的多个词根据停用词表进行过滤,去除其中的停用词,得到多个特征词。

另外,该停用词表可以在探测的过程中进行更新,将满足停用词要求的词更新到停用词表中。

通过此方法,针对社交网络中地震信息时效性强、分布广而数量多等特点,地震发生后受灾地应急需求信息无法快速准确获得等问题,通过主题词的探测,能够快速锁定公众关注度较高的词语;从未确定类别的数据样本中挖掘出新主题词来完善现有主题词集合的思路,以提高信息采集的广度和分类准度。

如图2所示,本发明实施例提供了一种地震应急的主题词的探测方法,该方法可以包括以下步骤:

步骤201:预先设置至少两个粗粒度类别,其中,每个粗粒度类别中包括至少一个细粒度类别。

步骤202:从网络中获取多条地震应急信息。

具体地,可以从社交网络中获取多条地震应急信息。

步骤203:对多条地震应急信息进行分词,获得多个特征词。

步骤204:确定每个特征词所属的粗粒度类别以及位于所属的粗粒度类别中的细粒度类别。

步骤205:针对每个粗粒度类别下的每个细粒度类别,执行:对当前细粒度类别中的特征词进行向上聚合处理,根据聚合结果更新所述当前细粒度类别中的特征词。

具体地,针对每个粗粒度类别下的每个细粒度类别,执行a1-a2。a1中确定出的地震应急的主题词作为细粒度主题词库的主题词。

步骤206:针对每个粗粒度类别,执行:对当前粗粒度类别中的至少两个细粒度类别中的特征词进行细粒度类别之间的向上聚合处理,根据聚合结果更新当前粗粒度类别中的特征词。

具体地,针对每个粗粒度类别,执行b1-b6。

步骤207:对至少两个粗粒度类别中的特征词进行粗粒度类别之间的向上聚合处理,根据聚合结果更新至少两个粗粒度类别中的特征词。

具体地,执行c1-c6。

步骤208:将每个粗粒度类别中的特征词作为地震应急的主题词。

具体地,该步骤中确定出地震应急的主题词作为粗粒度主题词库的主题词。

在本发明实施例中,基于获取的网络中的多条地震应急信息来生成主题词,由于网络中的地震应急信息较多,可以从各个方面来反映地震应急情况,进而得到的主题词更加全面,更加准确,可以实时获取网络中的地震应急信息,利用实时获取的网络中的地震应急信息来更新主题词,进而能够使得主题词具有较好的时效性。

如图3,本发明实施例提供了一种地震应急的主题词的探测装置,包括:

第一设置单元301,用于设置主题词分类规则;

获取单元302,用于从网络中获取多条地震应急信息,对所述多条地震应急信息进行分词,获得多个特征词;

分类单元303,用于按照所述主题词分类规则,对所述多个特征词进行分类;

聚合单元304,用于根据所述多个特征词的类别,对所述多个特征词进行向上聚合处理,生成多个地震应急的主题词。

在本发明一实施例中,所述主题词分类规则中包括:设置有至少两个粗粒度类别,其中,每个所述粗粒度类别中包括至少一个细粒度类别;

进一步包括:

第二设置单元,用于设置细粒度主题词库;

所述分类单元,用于确定每个所述特征词所属的粗粒度类别以及位于所属的粗粒度类别中的细粒度类别;

所述聚合单元,用于:

针对每个所述粗粒度类别下的每个细粒度类别,执行:

a1:判断当前细粒度类别中是否存在至少一对没有进行向上聚合处理的特征词,如果是,则执行a2,否则,确定所述当前细粒度类别中的特征词为所述地震应急的主题词;

a2:判断是否存在αx=βy=kα-β,如果是,将α和β从当前细粒度类别中删除,将kα-β作为当前细粒度类别中的特征词,返回a1,否则,直接返回a1;

其中,α和β为当前细粒度类别下的一对没有进行向上聚合处理的特征词,αx为α的第x个分词单元,βy为β的第y个分词单元。

在本发明一实施例中,所述主题词分类规则中包括:至少两个粗粒度类别,其中,每个所述粗粒度类别中包括至少一个细粒度类别;

所述分类单元,用于确定每个所述特征词所属的粗粒度类别以及位于所属的粗粒度类别中的细粒度类别;

所述聚合单元,用于:

针对每个所述粗粒度类别下的每个细粒度类别,执行:对当前细粒度类别中的特征词进行向上聚合处理,根据聚合结果更新所述当前细粒度类别中的特征词;

针对每个所述粗粒度类别,执行:对当前粗粒度类别中的至少两个细粒度类别中的特征词进行细粒度类别之间的向上聚合处理,根据聚合结果更新所述当前粗粒度类别中的特征词;

对至少两个粗粒度类别中的特征词进行粗粒度类别之间的向上聚合处理,根据聚合结果更新所述至少两个粗粒度类别中的特征词;

将每个所述粗粒度类别中的特征词作为所述地震应急的主题词。

在本发明一实施例中,所述聚合单元,在执行所述针对每个所述粗粒度类别,执行:对当前粗粒度类别中的至少两个细粒度类别中的特征词进行细粒度类别之间的向上聚合处理,根据聚合结果更新所述当前粗粒度类别中的特征词时,具体用于:

针对每个所述粗粒度类别,执行b1-b6:

b1:初始化i=1;

b2:j=i+1;

b3:判断当前粗粒度类别中的第i个细粒度类别中是否存在未与当前粗粒度类别中的第j个细粒度类别中的特征词进行向上聚合处理的待处理的特征词,如果是,执行b4,否则,执行b5;

b4:针对第j个细粒度类别中每个特征词,执行e1-e2:

e1:判断是否存在如果是,执行e2;

e2:判断ω是否是任一细粒度类别中向上聚合处理得到的特征词,如果是,则将ω作为a中的特征词,将ω作为b中的特征词,从a中删除θa,从b中删除θb

其中,a为第i个细粒度类别,b为第j个细粒度类别,θa为第i个细粒度类别的任意一个待处理的特征词,θb为第j个细粒度类别中的当前特征词,为θa的第p个分词单元,为θb第q个分词单元;

b5:判断j是否等于z,如果是,则执行b6,否则,j=j+1,返回b3;

b6:判断i是否等于z-1,如果是,则将当前粗粒度类别下每个细粒度类别中的特征词作为当前粗粒度类别的特征词,否则,i=i+1,返回b2;其中,z为当前粗粒度类别中细粒度类别的数量。

在本发明一实施例中,所述聚合单元,在执行所述对至少两个粗粒度类别中的特征词进行粗粒度类别之间的向上聚合处理,根据聚合结果更新所述至少两个粗粒度类别中的特征词时,具体用于:

c1:初始化e=1;

c2:f=e+1;

c3:判断第e个粗粒度类别中是否存在未与第f个粗粒度类别中的特征词进行向上聚合处理的待处理的特征词,如果是,执行c4,否则,执行c5;

c4:针对第f个粗粒度类别中每个特征词,执行:

判断是否存在如果是,从c中删除θc,从d中删除θd

其中,c为第e个粗粒度类别,d为第f个粗粒度类别,θc为第e个粗粒度类别的任意一个待处理的特征词,θd为第f个粗粒度类别中的当前特征词,为θc的第u个分词单元,为θd第w个分词单元;

c5:判断f是否等于t,如果是,则执行c6,否则,f=f+1,返回c3;

c6:判断e是否等于t-1,如果是,则执行所述将每个所述粗粒度类别中的特征词作为所述地震应急的主题词,否则,e=e+1,返回c2;其中,t为粗粒度类别的数量。

在本发明一实施例中,该装置进一步包括:第三设置单元,用于设置第一模糊分类特征词集合,设置第一词频阈值,设置第一细粒度主题词库和第一粗粒度主题词库;

所述聚合单元,进一步用于:在e2中,当判断出ω不是任一细粒度类别中向上聚合处理得到的特征词时,将ω作为所述第一模糊分类特征词集合中的特征词;

所述聚合单元,进一步用于:

针对所述第一模糊分类特征词集合中的每个特征词,执行:

h1:确定是否存在当前特征词所符合的类别,如果是,将所述当前特征词作为所符合的类别中的特征词,否则,确定聚合成所述当前特征词的两个特征词的词频,执行h2;

h2:判断聚合成所述当前特征词的两个特征词的词频之和是否大于等于所述第一词频阈值,如果是,则将所述当前特征词作为所述第一粗粒度主题词库的主题词,否则,将所述当前特征词作为所述第一细粒度主题词库的主题词。

在本发明一实施例中,该装置进一步包括:

第四设置单元,用于设置第二模糊分类特征词集合,设置第二词频阈值,设置第二细粒度主题词库和第二粗粒度主题词库;

所述聚合单元,进一步用于:在c4中,当判断出存在时,将σ作为所述第二模糊分类特征词集合中的特征词;

所述聚合单元,进一步用于:

针对所述第二模糊分类特征词集合中的每个特征词,执行:

g1:确定是否存在当前特征词所符合的类别,如果是,将所述当前特征词作为所符合的类别中的特征词,否则,确定聚合成所述当前特征词的两个特征词的词频,执行g2;

g2:判断聚合成所述当前特征词的两个特征词的词频之和是否大于等于所述第二词频阈值,如果是,则将所述当前特征词作为所述第二粗粒度主题词库的主题词,否则,将所述当前特征词作为所述第二细粒度主题词库的主题词。

上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。

本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行本发明实施例提供的任意一种地震应急的主题词的探测方法。

本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;

所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行本发明实施例提供的任意一种地震应急的主题词的探测方法。

本发明各个实施例至少具有如下有益效果:

1、在本发明实施例中,从网络中获取多条地震应急信息,对这些地震应急信息进行分词,获得多个特征词,对这些特征词进行分类,并进行向上聚合处理,得到多个地震应急的主题词,这些主题词是基于多条地震应急信息而得到的,这些多条地震应急信息可以包括各个方面的地震应急信息,得到的主题词也能涵盖地震应急的各个方面,进而通过本发明实施例能够得到更加全面的地震应急的主题词。

2、在本发明实施例中,基于获取的网络中的多条地震应急信息来生成主题词,由于网络中的地震应急信息较多,可以从各个方面来反映地震应急情况,进而得到的主题词更加全面,更加准确,可以实时获取网络中的地震应急信息,利用实时获取的网络中的地震应急信息来更新主题词,进而能够使得主题词具有较好的时效性。

需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1