一种基于柔性语义相似性度量的中文新闻故事分割方法

文档序号:6536357阅读:302来源:国知局
一种基于柔性语义相似性度量的中文新闻故事分割方法
【专利摘要】本发明公开了一种基于柔性语义相似性度量的中文新闻故事分割方法,所述方法包括以下步骤:输入目标文集,对文集中的每个新闻故事脚本Ti进行分词;建立上下文关系图;通过所述上下文关系图和快速排序算法对词语之间的上下文相关性进行迭代传播获取柔性语义相关性矩阵;通过所述柔性语义相关性矩阵对句子间的柔性语义相似性进行定义;使用所述柔性语义相似性对中文新闻故事进行分割。本发明提出的柔性度量方法能够更加合理的表示词语之间以及词语集合之间的语义相似性。实验结果表明,在中文新闻故事分割技术中,基于相同的分割准则,与传统的相似性度量方法相比,使用该柔性语义相似性度量方法能够将分割精度提高到3%-10%。
【专利说明】一种基于柔性语义相似性度量的中文新闻故事分割方法
【技术领域】
[0001]本发明涉及中文新闻故事分割领域,特别涉及一种基于柔性语义相似性度量的中文新闻故事分割方法。
【背景技术】
[0002]随着网络的普及和发展,例如:广播新闻、会议记录、网上公开课之类的多媒体内容正在急速增加,现在急需一种有效的方法将这类多媒体数据进行自动的组织,以用于基于主题的文本检索和分析。一个多媒体的文档,例如一小时的广播新闻节目,通常由多个故事(Story)组成,为了进行高效率的语义检索,指导使用者去找到他们感兴趣主题的开始和结束是很重要的,同时,一个分割好的多媒体文档是进行主题跟踪[1]、分类和总结[2]等高层次的语义浏览的重要前提条件。新闻故事分割技术的目的就在于将新闻故事脚本分割成主题一致的故事。从技术上讲,新闻故事分割技术的效率与两个因素相关:一是词语之间的相似性以及此语句集合之间的相似性的度量方法;二是分割新闻故事脚本的准则。
[0003]之前的许多工作都着眼于设计合理的分割准则,例如:TextTilingMM最小归一化分割准则(Minimum NCuts)[5] [6]、最大词汇连接准则m等。与广泛研究的分割准则相比,现阶段的大多数工作都使用简单的基于重复的硬性相似性度量方式,即相同词语之间的相似性为1,不同词语之间的相似性为O。很明显这种基于重复的硬性相似性度量方法忽略了不同词语之间潜在的语义相关性,使得语义关系度量不准确,得到的中文新闻故事分割结果不准确。因此需要 提出一种更加合理的语义相似性度量方式以助于提高分割的效率和精度。

【发明内容】

[0004]本发明提供了一种基于柔性语义相似性度量的中文新闻故事分割方法,本发明能够合理的表示词语之间的语义相似性,并且可以显著提高中文新闻故事分割技术的精度,详见下文描述:
[0005]一种基于柔性语义相似性度量的中文新闻故事分割方法,所述方法包括以下步骤:
[0006]( I)输入目标文集C1 = {T: };!,,对文集中的每个新闻故事脚本Ti进行分词;
[0007]( 2 )建立上下文关系图;
[0008]( 3)通过所述上下文关系图和快速排序算法对词语之间的上下文相关性进行迭代传播获取柔性语义相关性矩阵;
[0009](4)通过所述柔性语义相关性矩阵对句子间的柔性语义相似性进行定义;
[0010](5)使用所述柔性语义相似性对中文新闻故事进行分割。
[0011 ] 所述建立上下文关系图的步骤具体为:
[0012]I)依次读入每个新闻故事脚本,对所包含的词语进行词频统计;
[0013]2)根据定义好的词频阈值,将高频词语和低频词语删除;[0014]3)将保留下的词语作为上下文关系图中的结点,其集合即为V ;
[0015]4)判断集合中的任意两个词语是否同时出现在某一新闻故事脚本中,且这两个词语之间的距离小于或等于距离阈值,如果是则在这两个词语之间建立边,边的集合即为E ;如果否重新判断其他任意两个词语,直至整个集合中的词语都被遍历;
[0016]5)边的权值Sc由词语之间的权值simja, b)、词语本身的权值simja, a)表示;
[0017]6)所述上下文关系图表示为G=V,E, Sc。
[0018]所述词语之间的权值Simc (a,b)具体为:
[0019]
【权利要求】
1.一种基于柔性语义相似性度量的中文新闻故事分割方法,其特征在于,所述方法包括以下步骤: (1)输入目标文集,对文集中的每个新闻故事脚本Ti进行分词; (2)建立上下文关系图; (3)通过所述上下文关系图和快速排序算法对词语之间的上下文相关性进行迭代传播获取柔性语义相关性矩阵; (4)通过所述柔性语义相关性矩阵对句子间的柔性语义相似性进行定义; (5)使用所述柔性语义相似性对中文新闻故事进行分割。
2.根据权利要求1所述的一种基于柔性语义相似性度量的中文新闻故事分割方法,其特征在于,所述建立上下文关系图的步骤具体为: 1)依次读入每个新闻故事脚本,对所包含的词语进行词频统计; 2)根据定义好的词频阈值,将高频词语和低频词语删除; 3)将保留下的词语作为上下文关系图中的结点,其集合即为V; 4)判断集合中的任意两个词语是否同时出现在某一新闻故事脚本中,且这两个词语之间的距离小于或等于距离阈值,如果是则在这两个词语之间建立边,边的集合即为E ;如果否重新判断其他任意两个词语,直至整个集合中的词语都被遍历; 5)边的权值S。由词语之间的权值sim。(a,b)、词语本身的权值simja, a)表示; 6)所述上下文关系图表示为G=V,E, Sc。
3.根据权利要求2所述的一种基于柔性语义相似性度量的中文新闻故事分割方法,其特征在于,所述词语之间的权值simja,b)具体为:
4.根据权利要求2所述的一种基于柔性语义相似性度量的中文新闻故事分割方法,其特征在于,所述词语本身的权值simja, a)=l。
5.根据权利要求2所述的一种基于柔性语义相似性度量的中文新闻故事分割方法,其特征在于,所述通过所述上下文关系图和快速排序算法对词语之间的上下文相关性进行迭代传播获取柔性语义相关性矩阵的步骤具体为: 1)定义上下文关系图中词语之间的语义相似性为sims(a,b),满足以下三条准则: 词语与它本身的相似性为I,即sims (a, a) =1 ;sims (a, b)与simc(a, b)正相关;sims(a, b)与他们邻居之间的相似性成正比; 2)定义语义相似性的迭代传播过程:
6.根据权利要求2所述的一种基于柔性语义相似性度量的中文新闻故事分割方法,其特征在于,所述通过所述柔性语义相关性矩阵对句子间的柔性语义相似性进行定义的步骤具体为:
【文档编号】G06F17/30GK103793491SQ201410027012
【公开日】2014年5月14日 申请日期:2014年1月20日 优先权日:2014年1月20日
【发明者】冯伟, 万亮, 聂学成, 高晓妮, 党建武 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1