一种事件特征的获取方法和设备的制造方法

文档序号:8258778阅读:159来源:国知局
一种事件特征的获取方法和设备的制造方法
【技术领域】
[0001]本发明涉及计算机技术领域,尤其涉及一种事件特征的获取方法和设备。
【背景技术】
[0002]在互联网技术快速发展的今天,用户在应用互联网时产生大量的数据。面对互联网上产生的海量数据,人们希望从海量数据中获取自己感兴趣的事件。
[0003]然而,每一个事件都具备个性化信息,可以通过事件的个性化信息来区分不同的事件。事件的个性化信息一般包括事件的属性和事件的属性对应的具体内容。
[0004]在对海量数据进行处理时,通过人工识别方式,确定用于描述事件的抽取模板,在利用确定的抽取模板对海量数据进行匹配,得到感兴趣的事件的个性化信息。
[0005]其中,抽取模板是指能够抽取描述事件的属性和该属性对应的具体内容的抽取规则。
[0006]但是,由于目前所使用的抽取模板是通过人工方式确定的,随着事件的发展,对于事件出现的新特征,无法及时确定该新特征对应的抽取模板,导致在对海量数据进行处理时,得到感兴趣的事件的个性化信息不够精确,影响了人们对该事件的判断。

【发明内容】

[0007]有鉴于此,本发明实施例提供了一种事件特征的获取方法和设备,用于解决在对海量数据进行处理时,得到感兴趣的事件的个性化信息不够精确的问题。
[0008]第一方面,提供了一种事件特征的获取方法,包括:
[0009]获取用于描述目标事件的特征词集合,其中,所述特征词集合中包含多个特征词;
[0010]从获取的所述特征词集合中,确定用于描述所述目标事件的属性的至少一个特征词;
[0011]针对确定的每一个特征词,从所述特征词集合中除用于描述所述目标事件的属性的特征词之外的剩余特征词中,抽取出该特征词所标识的属性的具体内容的至少一个特征词,并建立确定的该特征词与抽取的至少一个特征词之间的对应关系;
[0012]根据得到至少一组对应关系,得到所述目标事件的特征。
[0013]结合第一方面,在第一种可能的实现方式中,所述方法还包括:
[0014]建立所述目标事件的特征与得到的至少一组对应关系之间的映射关系。
[0015]结合第一方面,或者结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,从获取的所述多个特征词中,确定用于描述所述目标事件的属性的至少一个特征词,包括:
[0016]针对获取的所述特征词集合,执行以下操作,直至确定出所述特征词集合中全部用于描述所述目标事件的属性的特征词:
[0017]选择任意一个特征词;
[0018]确定选择的该特征词在原始文档中的上下文内容;并根据所述上下文内容,判断该特征词是否为用于描述所述目标事件的属性的特征词;
[0019]若判断结果是选择的该特征词是用于描述所述目标事件的属性的特征词,则将该特征词标记为用于描述所述目标事件的属性的特征词,并选择下一个特征词,继续执行上述操作;
[0020]若判断结果是选择的该特征词不是用于描述所述目标事件的属性的特征词,则选择下一个特征词,继续执行上述操作。
[0021]结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,根据所述上下文内容,判断该特征词是否为用于描述所述目标事件的属性的特征词,包括:
[0022]根据所述上下文内容,通过语法分析和句法分析,确定该特征词是否为所述上下文内容的中心词;
[0023]若确定该特征词为所述上下文内容的中心词,则确定该特征词为用于描述所述目标事件的属性的特征词;
[0024]若确定该特征词不为所述上下文内容的中心词,则确定该特征词不为用于描述所述目标事件的属性的特征词。
[0025]结合第一方面的第二种可能的实现方式,或者结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,在确定出所述特征词集合中全部用于描述所述目标事件的属性的特征词之后,所述方法还包括:
[0026]判断确定出所述特征词集合中全部用于描述所述目标事件的属性的特征词中是否存在同义词;
[0027]在判断结果存在同义词时,从满足同义词条件的多个用于描述所述目标事件的属性的特征词中选择一个特征词,作为满足同义词条件的多个特征词所描述的所述目标事件的属性的特征词。
[0028]结合第一方面,或者结合第一方面的第一种可能的实现方式,或者结合第一方面的第二种可能的实现方式,或者结合第一方面的第三种可能的实现方式,或者结合第一方面的第四种可能的实现方式,在第五种可能的实现方式中,从所述特征词集合中除用于描述所述目标事件的属性的特征词之外的剩余特征词中,抽取出该特征词所标识的属性的具体内容的至少一个特征词,包括:
[0029]从所述特征词集合中除用于描述所述目标事件的属性的特征词之外的剩余特征词中,选择一个特征词;
[0030]针对确定的一个用于描述所述目标事件的属性的特征词,根据语义规则,判断选择的该特征词是否为该确定的特征词的下位词;
[0031]若为下位词,则确定选择的该特征词为该确定的特征词所描述的所述目标事件的属性的具体内容。
[0032]结合第一方面,或者结合第一方面的第一种可能的实现方式,或者结合第一方面的第二种可能的实现方式,或者结合第一方面的第三种可能的实现方式,或者结合第一方面的第四种可能的实现方式,或者结合第一方面的第五种可能的实现方式,在第六种可能的实现方式中,获取用于描述目标事件的特征词集合,包括:
[0033]在对海量数据进行处理时,通过聚类分析方式从海量数据中获取用于描述目标事件的多个特征词;
[0034]将得到的多个特征词组合得到用于描述目标事件的特征词集合。
[0035]结合第一方面,或者结合第一方面的第一种可能的实现方式,或者结合第一方面的第二种可能的实现方式,或者结合第一方面的第三种可能的实现方式,或者结合第一方面的第四种可能的实现方式,或者结合第一方面的第五种可能的实现方式,或者结合第一方面的第六种可能的实现方式,在第七种可能的实现方式中,在根据得到至少一组对应关系得到所述目标事件的特征之后,所述方法还包括:
[0036]比较得到的所述目标事件的特征与预设的所述目标事件的特征;
[0037]根据比较结果,确定出在得到的所述目标事件的特征中包含的用于描述目标事件的属性中,与预设的所述目标事件的特征中包含的用于描述目标事件的属性不相同的属性;
[0038]将确定出的不相同的属性作为所述目标事件的新增属性。
[0039]第二方面,提供了一种事件特征的获取设备,包括:
[0040]获取模块,用于获取用于描述目标事件的特征词集合,其中,所述特征词集合中包含多个特征词;
[0041]确定模块,用于从获取的所述特征词集合中,确定用于描述所述目标事件的属性的至少一个特征词;
[0042]抽取模块,用于针对确定的每一个特征词,从所述特征词集合中除用于描述所述目标事件的属性的特征词之外的剩余特征词中,抽取出该特征词所标识的属性的具体内容的至少一个特征词,并建立确定的该特征词与抽取的至少一个特征词之间的对应关系;根据得到至少一组对应关系,得到所述目标事件的特征。
[0043]结合第二方面,在第一种可能的实现方式中,所述获取设备还包括:
[0044]建立模块,用于建立所述目标事件的特征与得到的至少一组对应关系之间的映射关系O
[0045]结合第二方面,或者结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述确定模块,具体用于针对获取的所述特征词集合,执行以下操作,直至确定出所述特征词集合中全部用于描述所述目标事件的属性的特征词:
[0046]选择任意一个特征词;
[0047]确定选择的该特征词在原始文档中的上下文内容;并根据所述上下文内容,判断该特征词是否为用于描述所述目标事件的属性的特征词;
[0048]若判断结果是选择的该特征词是用于描述所述目标事件的属性的特征词,则将该特征词标记为用于描述所述目标事件的属性的特征词,并选择下一个特征词,继续执行上述操作;
[0049]若判断结果是选择的该特征词不是用于描述所述目标事件的属性的特征词,则选择下一个特征词,继续执行上述操作。
[0050]结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述确定模块,具体用于根据所述上下文内容,通过语法分析和句法分析,确定该特征词是否为所述上下文内容的中心词;
[0051]若确定该特征词为所述上下文内容的中心词,则确定该特征词为用于描述所述目标事件的属性的特征词;
[0052]若确定该特征词不为所述上下文内容的中心词,则确定该特征词不为用于描述所述目标事件的属性的特征词。
[0053]结合第二方面的第二种可能的实现方式,或者结合第二方面的第三种可能的实现方式,在第四种可能的实现方式中,所述获取设备还包括:判断模块,其中:
[0054]所述判断模块,用于在确定出所述特征词集合中全部用于描述所述目标事件的属性的特征词之后,判断确定出所
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1