处理短语数据的方法以及装置的制作方法

文档序号:6604603阅读:158来源:国知局
专利名称:处理短语数据的方法以及装置的制作方法
技术领域
本发明涉及数据领域,特别是指一种处理短语数据的方法以及装置。
背景技术
短语间的相似度计算技术是规范数据格式、去除冗余数据的一个重要技术手段之一,相似度计算技术还有许多其它的重要应用,如文本聚类、自动问答等。以电子地图中POI (Point Of Interest,兴趣点)为例,POI是指可查找、可定位的包含衣食住行等附属社会信息的地理位置。POI数据具有文本简短和内容丰富的特点,由于 POI数据生产厂商获取的POI源数据途径多、来源广,而且由于自然语言表达方式的丰富多样,造成实质上同一个POI有多种不同的表达形式。因此,规范数据格式、去除冗余数据显得尤为重要,这样,既能节约存储空间,提高运行效率,又能改善用户体验。短语间的相似度是指两个短语的相似程度,即在某一领域背景下可以相互替换使用,而不改变文本的句法、语义以及结构的程度。通常,相似度用0到1之间的实数表示,越相似,相似度值就越大,0表示完全不同,1表示完全相同。现有技术中,计算短语间的相似度通常为先计算短语间的距离,再转化为相似度值,距离越小,相似度越高;距离越大,相似度越低。目前计算短语间距离的方法有很多,例如欧氏距离、夹角余弦距离、最长公共子串以及编辑距离方法等,然后通过转换函数,将短语距离转化为短语间相似度。基于通用的计算方法,这种短语间相似度计算方法比较笼统, 容易造成相似度值聚集,使得短语间区分不明显,为后期的数据处理带来不利影响。

发明内容
本发明要解决的技术问题是提供一种处理短语数据的方法和装置,能够提高短语间的区分度。为解决上述技术问题,本发明的实施例提供技术方案如下一方面,提供一种处理短语数据的方法,包括步骤1,获取第一短语和第二短语,以及所述第一短语和所述第二短语的语义类型,所述第一短语的语义类型和所述第二短语的语义类型相同;步骤2,根据所述语义类型,查找所述语义类型对应的拆分模板,所述拆分模板包含至少两个字段类型以及所述字段类型的顺序关系;步骤3,根据所述拆分模板,分别将所述第一短语和第二短语拆分成字段,并根据所述顺序关系,标识拆分后的所述字段对应的字段类型;步骤4,分别获取所述第一短语的字段与所述第二短语的字段之间的字段间相似度,所述第一短语的字段的字段类型与所述第二短语的字段的字段类型相同;步骤5,根据所述字段间相似度,计算所述第一短语和所述第二短语之间的语义相似度;步骤6,根据所述语义相似度,对所述第一短语和所述第二短语进行处理。
所述步骤5之前,还包括分别获取所述字段类型的权重;所述步骤5具体为根据所述字段间相似度以及所述字段类型的权重,计算所述第一短语和所述第二短语之间的语义相似度。所述根据所述字段间相似度以及所述字段类型的权重,计算所述第一短语和所述第二短语之间的语义相似度的步骤具体为
mSim(S15S2)=Xwi^Sim(Sll5S2j),其中,S1 为所述第一短语,S2 为所述第二短语,Sli 为
i=l
所述第一短语的第i个字段,S2i为所述第二短语的第i个字段,SinKS1, S2)为所述第一短语和所述第二短语之间的语义相似度,Wi是第i个字段类型的权重,SinKSli, S2i)是所述第一短语的第i个字段与第二短语的第i个字段之间的字段间相似度,m为所述拆分模板的字段类型的数量,1 < i ^m0所述分别获取所述字段类型的权重的步骤之前,还包括通过训练算法,生成所述字段类型的权重。所述步骤4具体为判断预先设置的语义关系数据库中,是否保存有所述第一短语的字段与所述第二短语的字段对应的语义关系;如果有,则获取所述语义关系;并根据所述语义关系,获取所述第一短语的字段与所述第二短语的字段之间的字段间相似度;如果没有,则计算所述第一短语的字段和所述第二短语的字段之间的字段间相似度。所述根据所述语义关系获取第一短语的字段与第二短语的字段之间的字段间相似度的步骤具体为当所述第一短语的字段与所述第二短语的字段对应的语义关系为省略语关系时, 字段间相似度为1 ;当所述第一短语的字段与所述第二短语的字段对应的语义关系为同义词时,字段间相似度为1 ;当所述第一短语的字段与所述第二短语的字段对应的语义关系为近义词时,字段间相似度为0. 8-0. 95之间的值;当所述第一短语的字段与所述第二短语的字段对应的语义关系为相关词时,字段间相似度为0. 7-08之间的值。另一方面,提供一种处理短语数据的装置,其特征在于,包括短语获取单元,用于获取第一短语和第二短语,以及所述第一短语和所述第二短语的语义类型,所述第一短语的语义类型和所述第二短语的语义类型相同;查找单元,用于根据所述语义类型,查找所述语义类型对应的拆分模板,所述拆分模板包含至少两个字段类型以及所述字段类型的顺序关系;拆分单元,用于根据所述拆分模板,分别将所述第一短语和第二短语拆分成字段, 并根据所述顺序关系,标识拆分后的所述字段对应的字段类型;字段相似度获取单元,用于分别获取第一短语的字段与第二短语的字段之间的字段间相似度,所述第一短语的字段的字段类型与所述第二短语的字段的字段类型相同;
计算单元,用于根据所述字段间相似度,计算所述第一短语和所述第二短语之间的语义相似度;处理单元,根据所述语义相似度,对所述第一短语和所述第二短语进行处理。所述的处理短语数据的装置,还包括权重获取单元,用于分别获取所述字段类型的权重;所述计算单元具体为根据所述字段间相似度以及所述字段类型的权重,计算所述第一短语和所述第二短语之间的语义相似度。所述的处理短语数据的装置,还包括权重生成单元,用于通过训练算法,生成所述字段类型的权重。所述字段间相似度获取单元包括判断子单元,用于判断预先设置的语义关系数据库中,是否保存有第一短语的字段与第二短语的字段对应的语义关系,生成判断结果;语义关系获取子单元,用于当所述判断结果为有时,获取所述语义关系;字段间相似度获取子单元,用于根据所述语义关系获取第一短语的字段与第二短语的字段之间的字段间相似度。计算子单元,用于当所述判断结果为否时,计算第一短语的字段和第二短语的字段之间的字段间相似度。本发明的实施例具有以下有益效果上述方案中,分别将所述第一短语和第二短语拆分成字段,然后,分别获取字段类型相同的所述第一短语的字段与所述第二短语的字段之间的字段间相似度;根据所述字段间相似度,计算所述第一短语和所述第二短语之间的语义相似度。将整条短语之间的相似度比较转化为粒度更小的各切分字段的相似度比较,考虑了各短语内部的字段之间的不同,增加了各短语之间比较的区分度。


图1为本发明所述的处理短语数据的方法的流程示意图;图2为本发明所述的处理短语数据的方法实施例的流程示意图;图3为本发明所述的处理短语数据的方法应用场景的示意图;图4为本发明所述的处理短语数据的装置的结构示意图;图5为图4所述的处理短语数据的装置中字段间相似度获取单元的结构示意图。
具体实施例方式为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。图1为本发明所述的一种处理短语数据的方法,包括步骤11,获取属于同一语义类型的第一短语和第二短语,以及所述第一短语和所述第二短语的语义类型;语义类型例如可以为导航领域中表述地址的短语,也可以为导航领域中表述公司名称的短语,每个语义类型有不同的表达习惯,因此,可以对应不同的拆分模板。
步骤12,根据所述语义类型,查找所述语义类型对应的拆分模板,所述拆分模板包含至少两个字段类型以及所述字段类型的顺序关系;拆分模板是根据各个不同领域中表述不同语义的表达习惯以及语法规则等预先设置的,例如导航领域中表述地址的模板,或者导航领域中表述公司名称的模板。步骤13,根据所述拆分模板,分别将所述第一短语和第二短语拆分成字段,并根据所述顺序关系,标识拆分后的所述字段对应的字段类型。步骤14,分别获取字段类型相同的所述第一短语的字段与所述第二短语的字段之间的字段间相似度。步骤15,根据所述字段间相似度,计算所述第一短语和所述第二短语之间的语义
1 1
相似度。具体为jimdSOzZSin^S^SJ,其中,Sim(Si,S2)为所述第一短语和所述第二
i=l
短语之间的语义相似度,Sim(SliA2i)是所述第一短语的第i个字段与第二短语的第i个字段之间的字段间相似度,m为所述拆分模板的字段类型的数量。 步骤16,根据所述语义相似度,对所述第一短语和所述第二短语进行处理。所述处理包括规范数据格式、去除冗余数据、文本聚类、自动问答等。上述方案中,分别将所述第一短语和第二短语拆分成字段,然后,分别获取字段类型相同的所述第一短语的字段与所述第二短语的字段之间的字段间相似度;根据所述字段间相似度,计算所述第一短语和所述第二短语之间的语义相似度。将整条短语之间的相似度比较转化为粒度更小的各切分字段的相似度比较,考虑了各短语内部的字段之间的不同,增加了各短语之间比较的区分度。图2为本发明所述的一种处理短语数据的方法,包括步骤21,获取属于同一语义类型的第一短语和第二短语,以及所述第一短语和所述第二短语的语义类型。步骤22,根据所述语义类型,查找所述语义类型对应的拆分模板,所述拆分模板包含至少两个字段类型以及所述字段类型的顺序关系。步骤23,根据所述拆分模板,分别将所述第一短语和第二短语拆分成字段,并根据所述顺序关系,标识拆分后的所述字段对应的字段类型。步骤M,判断预先设置的语义关系数据库中,是否保存有字段类型相同的第一短语的字段与第二短语的字段对应的语义关系;如果有,则转向步骤25 ;否则,转向步骤27。步骤25,获取所述语义关系。步骤沈,根据所述语义关系,获取第一短语的字段与第二短语的字段之间的字段间相似度,具体为当所述第一短语的字段与所述第二短语的字段对应的语义关系为省略语关系时,字段间相似度为1 ;当所述第一短语的字段与所述第二短语的字段对应的语义关系为同义词时,字段间相似度为1 ;当所述第一短语的字段与所述第二短语的字段对应的语义关系为近义词时,字段间相似度为0. 8-0. 95之间的值;当所述第一短语的字段与所述第二短语的字段对应的语义关系为相关词时,字段间相似度为0. 7-08之间的值。然后, 转向步骤观。步骤27,计算字段类型相同的第一短语的字段和第二短语的字段之间的字段间相似度,然后转向步骤观。
步骤观,通过训练算法,生成所述字段类型的权重。步骤四,分别获取所述字段类型的权重。步骤210,根据所述字段间相似度以及所述字段类型的权重,计算所述第一短语和
m
所述第二短语之间的语义相似度。具体为Sim(S,,S2)=Zw,*Sim(S,,,S2,)^*,Sim(Sl,S2)
i=l
为所述第一短语和所述第二短语之间的语义相似度,Wi是第i个字段类型的权重,Sim(Sli, S2i)是所述第一短语的第i个字段与第二短语的第i个字段之间的字段间相似度,m为所述拆分模板的字段类型的数量。图3中,给定两个短语数据,分别为第一短语数据S1和第二短语数据&。第一短语数据S1拆成字段Sn、S12. . . Slm等m个字段;类似地,第二短语数据&拆成字段Si、 S22... Sail等m个字段。假设拆分后的各字段类型的权值分别为W= (WpWyW3M-MWmK 第一短语数据S1与第二短语数据&中相应的拆分字段一一对应地计算字段间的语义相似度,生成Sim(Sli, S2i) (1彡i彡m),SinKSli, S2i)是序号为i的字段类型的字段Sli与S2i之间的字段间相似度。将各拆分字段的语义相似度进行加权求和,作为短语间的语义相似度,
m
Sin^W^Xw^SimdSJ。步骤211,根据所述语义相似度,对所述第一短语和所述第二短语进行处理。所述处理包括规范数据格式、去除冗余数据、文本聚类、自动问答等。以下描述本发明所述的处理短语数据的方法的应用场景,以导航领域的POI为例。包括以下步骤步骤31,获取第一短语“中国人民财产保险股份有限公司增城支公司朱村营销服务部”和第二短语“人财保险有限公司增城分公司朱村营销部”,第一短语和第二短语都为名称语义类型。步骤32,查找名称语义类型对应的名称拆分模板。拆分模板是根据技术领域特点、行业规则、各个行业领域的短语数据的语义结构特征、短语数据的统计特征以及人工处理经验,在保持拆分字段语义完整的前提下确定的, 拆分模板的每个字段表示完整的语义。制定拆分模板时,由于待处理数据的领域特点、行业规则有差异,因此,语义字段的结构特征及语义字段数目也有所不同,尽量使得模板适应性强,力求覆盖行业领域的全部数据,并且尽量使拆分结果唯一。下面以导航领域POI数据的名称数据拆分模板的制定为例,说明模板制定的具体方法。表一为名称拆分模板字段表,是根据导航领域中名称通用的表达习惯而制定的。 考虑到POI名称数据的复杂性,可能有些名称中包含多级区域、关键词、行业特点、功能特征词。表一
权利要求
1.一种处理短语数据的方法,其特征在于,包括步骤1,获取第一短语和第二短语,以及所述第一短语和所述第二短语的语义类型,所述第一短语的语义类型和所述第二短语的语义类型相同;步骤2,根据所述语义类型,查找所述语义类型对应的拆分模板,所述拆分模板包含 至少两个字段类型以及所述字段类型的顺序关系;步骤3,根据所述拆分模板,分别将所述第一短语和第二短语拆分成字段,并根据所述顺序关系,标识拆分后的所述字段对应的字段类型;步骤4,分别获取所述第一短语的字段与所述第二短语的字段之间的字段间相似度,所述第一短语的字段的字段类型与所述第二短语的字段的字段类型相同;步骤5,根据所述字段间相似度,计算所述第一短语和所述第二短语之间的语义相似度;步骤6,根据所述语义相似度,对所述第一短语和所述第二短语进行处理。
2.根据权利要求1所述的处理短语数据的方法,其特征在于,所述步骤5之前,还包括 分别获取所述字段类型的权重;所述步骤5具体为根据所述字段间相似度以及所述字段类型的权重,计算所述第一短语和所述第二短语之间的语义相似度。
3.根据权利要求2所述的处理短语数据的方法,其特征在于,所述根据所述字段间相似度以及所述字段类型的权重,计算所述第一短语和所述第二短语之间的语义相似度的步骤具体为
4.根据权利要求2所述的处理短语数据的方法,其特征在于,所述分别获取所述字段类型的权重的步骤之前,还包括通过训练算法,生成所述字段类型的权重。
5.根据权利要求1所述的处理短语数据的方法,其特征在于,所述步骤4具体为判断预先设置的语义关系数据库中,是否保存有所述第一短语的字段与所述第二短语的字段对应的语义关系;如果有,则获取所述语义关系;并根据所述语义关系,获取所述第一短语的字段与所述第二短语的字段之间的字段间相似度;如果没有,则计算所述第一短语的字段和所述第二短语的字段之间的字段间相似度。
6.根据权利要求5所述的处理短语数据的方法,其特征在于,所述根据所述语义关系获取第一短语的字段与第二短语的字段之间的字段间相似度的步骤具体为当所述第一短语的字段与所述第二短语的字段对应的语义关系为省略语关系时,字段间相似度为1 ;当所述第一短语的字段与所述第二短语的字段对应的语义关系为同义词时,字段间相似度为1 ;当所述第一短语的字段与所述第二短语的字段对应的语义关系为近义词时,字段间相似度为0. 8-0. 95之间的值;当所述第一短语的字段与所述第二短语的字段对应的语义关系为相关词时,字段间相似度为0. 7-08之间的值。
7.—种处理短语数据的装置,其特征在于,包括短语获取单元,用于获取第一短语和第二短语,以及所述第一短语和所述第二短语的语义类型,所述第一短语的语义类型和所述第二短语的语义类型相同;查找单元,用于根据所述语义类型,查找所述语义类型对应的拆分模板,所述拆分模板包含至少两个字段类型以及所述字段类型的顺序关系;拆分单元,用于根据所述拆分模板,分别将所述第一短语和第二短语拆分成字段,并根据所述顺序关系,标识拆分后的所述字段对应的字段类型;字段相似度获取单元,用于分别获取第一短语的字段与第二短语的字段之间的字段间相似度,所述第一短语的字段的字段类型与所述第二短语的字段的字段类型相同;计算单元,用于根据所述字段间相似度,计算所述第一短语和所述第二短语之间的语义相似度;处理单元,根据所述语义相似度,对所述第一短语和所述第二短语进行处理。
8.根据权利要求7所述的处理短语数据的装置,其特征在于,还包括 权重获取单元,用于分别获取所述字段类型的权重;所述计算单元具体为根据所述字段间相似度以及所述字段类型的权重,计算所述第一短语和所述第二短语之间的语义相似度。
9.根据权利要求7所述的处理短语数据的装置,其特征在于,还包括 权重生成单元,用于通过训练算法,生成所述字段类型的权重。
10.根据权利要求7所述的处理短语数据的装置,其特征在于,所述字段间相似度获取单元包括判断子单元,用于判断预先设置的语义关系数据库中,是否保存有第一短语的字段与第二短语的字段对应的语义关系,生成判断结果;语义关系获取子单元,用于当所述判断结果为有时,获取所述语义关系; 字段间相似度获取子单元,用于根据所述语义关系获取第一短语的字段与第二短语的字段之间的字段间相似度。计算子单元,用于当所述判断结果为否时,计算第一短语的字段和第二短语的字段之间的字段间相似度。
全文摘要
本发明提供一种处理短语数据的方法以及装置,涉及数据领域,为解决现有技术中短语之间相似度算法区分度不高的技术问题而发明。所述处理短语数据的方法,包括获取属于同一语义类型的第一短语和第二短语,以及第一短语和所述第二短语的语义类型;根据所述语义类型,查找所述语义类型对应的拆分模板;根据拆分模板,分别将第一短语和第二短语拆分成字段,并根据所述顺序关系,标识拆分后的字段对应的字段类型;分别获取字段类型相同的所述第一短语的字段与所述第二短语的字段之间的字段间相似度;根据所述字段间相似度,计算所述第一短语和所述第二短语之间的语义相似度。本发明能够应用于导航领域名称、地址数据的相似度计算,用于去除冗余数据。
文档编号G06F17/27GK102279843SQ20101020788
公开日2011年12月14日 申请日期2010年6月13日 优先权日2010年6月13日
发明者杜宇程, 申排伟, 陈小宾, 马晋元 申请人:北京四维图新科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1