一种数据驱动的中文词语义相似度计算方法

文档序号:6536701阅读:326来源:国知局
一种数据驱动的中文词语义相似度计算方法
【专利摘要】本发明公开了一种数据驱动的中文词语义相似度计算方法,包括以下步骤:文本故事集合的初始化;建立相关性关系图模型;通过tf-idf可分性值对所述相关性关系图模型进行修剪;将修剪后的相关性关系图模型作为Simrank算法输入,通过Simrank的迭代计算词语对之间的语义相似度;以所述语义相似度为核心定义柔性语义相似度度量模型;基于所述柔性语义相似度度量模型对中文新闻文本进行协同分割。本方法能更好的区分出属于同一主题的词语和不属于同一主题的词语,同时还能度量词字与其组成的词语之间的语义相似度。在标准数据集上的实验显示,相对于现有方法,新闻故事协同分割的结果的F1-measure绝对值增长了11%。
【专利说明】一种数据驱动的中文词语义相似度计算方法
【技术领域】
[0001]本发明涉及计算机与媒体计算领域,特别涉及一种数据驱动的中文词语义相似度计算方法。
【背景技术】
[0002]故事协同分割旨在多个文本之间提取出属于同一主题的故事,在实践中,故事协同分割对于高层次的语义总结和行为分析等是一个很重要的预处理操作。
[0003]在特定的条件下,诸如:已知主题模型和预先主题标定的情况下,主题检测与跟踪方法(TDT) [1]能够被用于故事协同分割。相比之下,Feng et al.于2012年提出了一个基于概率图模型的[2],更加通用和无监督的方法用以自动地检测语义相似的文本故事对。此方法纯粹以数据为导向并且全部依赖于主题间和主题内的语义相似性的依赖与约束。因此,如何正确地度量语义相似度得以极大程度地影响故事分割的准确性。根据“词袋”模型,词语出现的频率分布可以用来表示词语流的语义,也就是说,两个相同的词语间的相似度为1,否则为O。此方式有助于简化模型,但是,将词与词之间潜在的相似性关系考虑进来将会更有意义。
[0004]度量词语的语义相似度在自然语言处理(NLP)领域中是一个很重要的课题,同时也是其他多种应用的重要基础,例如,2002年Pantel and Lin提出的词义排歧[3];1998年Lin提出了一种信息论定义的词语相似性MM,此相似性度量是语料库为本的并来源于一系列的关于相似性的假设。对于英文来说,2004年Pedersen et al.提出的WordNet:: Similarity?是一种能够度量任意两个英文单词间相似度的度量方法,它基于预先主题标定的语料库,根据单 词的含义,将名词、动词、副词和形容词编组入一个继承关系的层次结构,达到对单词分类和关联的目的。2008年Kolb提出了一个DISCO方法[7],用以检索多种语言之间给定任意两个词的语义相似度。但是WordNet:: Similarity和DISCO都不能处理中文的语义相似度。同时,此类基于先验知识的语义相似度度量方法不如只依赖语料数据驱动的方法受欢迎,因为后者能够产生更相关的度量来更好的产生协同分割结果O

【发明内容】

[0005]本发明提供了一种数据驱动的中文词语义相似度计算方法,本发明实现了对中文的语义相似度的处理,且取得了较高的相似度精度,详见下文描述:
[0006]一种数据驱动的中文词语义相似度计算方法,所述方法包括以下步骤:
[0007]( I)文本故事集合的初始化;
[0008](2)建立相关性关系图申旲型;
[0009](3)通过tf-1df可分性值对所述相关性关系图模型进行修剪;
[0010](4)将修剪后的相关性关系图模型作为Simrank算法输入,通过Simrank的迭代计算词语对之间的语义相似度;[0011](5)以所述语义相似度为核心定义柔性语义相似度度量模型;
[0012](6)基于所述柔性语义相似度度量模型对中文新闻文本进行协同分割。
[0013]所述文本故事集合的初始化的步骤具体为:
[0014]I)输入带有故事边界和故事主题标定的文本集合C = {Til,,每个主题?; = {5;};;, I
由m个故事组成,5;表示第i个主题的第j个故事,η为主题的数量;
[0015]2)提取出文本集合C中所有出现的词,去掉重复组成有顺序的词语集合VWOTd,提取文本集合C中所有的字组成字集合Vdm,词语集合VWOTd与字集合Vcto取并集生成词典V ;
[0016]3)以词语集合VWOTd中的元素为向量的基,对文本集合C中的每个故事建立词频向量模型。
[0017]所述词频向量模型的步骤具体为:
[0018]将不同长度不同内容的故事表现为维度相同的词频向量,词频向量的每个元素表示词语集合vWOTd中的词语在故事中出现的频率。
[0019]所述建立相关性关系图模型的步骤具体为:
[0020]I)建立词对上下文连接图模型:
[0021]2)建立词语局部连接图模型;
[0022]3)通过所述词对上下文连接图模型和所述词语局部连接图模型建立相关性关系图模型;
[0023]所述相关性关系图模型具体为:G=〈V,E,W>
[0024]节点集合V=VWOTd U Vchar,边集合E=Ec U Ep,边权重集合W=Wc U WP,其中,Ec为词对上下文连接图的边集合;EP为词语局部连接图的边集合;WC为词对上下文连接图的边权重集合;WP为词语局部连接图的边权重集合。
[0025]所述通过tf-1df可分性值对所述相关性关系图模型进行修剪的步骤具体为:
[0026]
【权利要求】
1.一种数据驱动的中文词语义相似度计算方法,其特征在于,所述方法包括以下步骤: (1)文本故事集合的初始化; (2)建立相关性关系图模型; (3)通过tf-1df可分性值对所述相关性关系图模型进行修剪; (4)将修剪后的相关性关系图模型作为Simrank算法输入,通过Simrank的迭代计算词语对之间的语义相似度; (5)以所述语义相似度为核心定义柔性语义相似度度量模型; (6)基于所述柔性语义相似度度量模型对中文新闻文本进行协同分割。
2.根据权利要求1所述的一种数据驱动的中文词语义相似度计算方法,其特征在于,所述文本故事集合的初始化的步骤具体为: 1)输入带有故事边界和故事主题标定的文本集合C=仄广,每个主题7: = {SjYU由m个故事组成,A表示第i个主题的第j个故事,η为主题的数量; 2)提取出文本集合C中所有出现的词,去掉重复组成有顺序的词语集合VWOTd,提取文本集合C中所有的字组成字集合Vdm,词语集合VWOTd与字集合Vcto取并集生成词典V ; 3)以词语集合VWOTd中的元素为向量的基,对文本集合C中的每个故事建立词频向量模型。
3.根据权利要求2所述的一种数据驱动的中文词语义相似度计算方法,其特征在于,所述词频向量模型的步骤具体为: 将不同长度不同内容的故事表现为维度相同的词频向量,词频向量的每个元素表示词语集合VWOTd中的词语在故事中出现的频率。
4.根据权利要求2所述的一种数据驱动的中文词语义相似度计算方法,其特征在于,所述建立相关性关系图模型的步骤具体为: 1)建立词对上下文连接图模型: 2)建立词语局部连接图模型; 3)通过所述词对上下文连接图模型和所述词语局部连接图模型建立相关性关系图模型; 所述相关性关系图模型具体为:G=〈V,E,W> 节点集合V=VWOTd U Vdm,边集合E=Ec U EP,边权重集合W=Wc U WP,其中,Ec为词对上下文连接图的边集合;EP为词语局部连接图的边集合;WC为词对上下文连接图的边权重集合;Wp为词语局部连接图的边权重集合。
5.根据权利要求1所述的一种数据驱动的中文词语义相似度计算方法,其特征在于,所述通过tf-1df可分性值对所述相关性关系图模型进行修剪的步骤具体为:
Disc(Wa) = rnean{tf — idf^iyer) 其中,
Cf - = W — idf: tf — idf; > mean {if — Uifa tf-1df表示词频-逆向文件频率,tf-1dfa表示词语wa对于文本集中所有主题计算出的tf-1df值的集合,以mean{tf-1dfa}为阈值,对集合tf_idfa中大于阈值的数值再求一次平均即得到词语Wa的可分性值Disc (Wa),通过对可分性值低于设定阈值d的词语节点以及与该节点连接的边进行清除,同时将清除词语后产生的孤立的汉字节点也进行清除。
6.根据权利要求1所述的一种数据驱动的中文词语义相似度计算方法,其特征在于,所述将修剪后的相关性关系图模型作为Simrank算法输入,通过Simrank的迭代计算词语对之间的语义相似度的步骤具体为: 获取语义相似度矩阵为
7.根据权利要求6所述的一种数据驱动的中文词语义相似度计算方法,其特征在于,所述以所述语义相似度为核心定义柔性语义相似度度量模型的步骤具体为:
【文档编号】G06F17/27GK103761225SQ201410033339
【公开日】2014年4月30日 申请日期:2014年1月23日 优先权日:2014年1月23日
【发明者】冯伟, 聂学成, 杨昂, 党建武 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1