一种基于概率图模型的中文新闻主题协同分割方法

文档序号:6583793阅读:164来源:国知局
专利名称:一种基于概率图模型的中文新闻主题协同分割方法
技术领域
本发明涉及文本分割和主题提取领域,特别涉及一种面向中文新闻的主题协同分割(story co-segmentation)的新技术。
背景技术
本发明中涉及到的背景技术有:(I)中文新闻故事分割(Story Segmentation):对于中文新闻故事的分割,之前的技术主要集中于主题模型的建立和主题边界线索的选择上。主题模型常见例如隐马尔可夫模型、指数模型、最大熵模型等。常用的主题边界线索有视频线索、音频线索和文本线索。其中,场景或主持人的切换可以作为视频线索,明显的停顿或者说话人的改变可以作为音频线索。但是,视频线索和音频线索都在某种程度上依赖于新闻制作和编辑的规则。在不同的媒体文件里,这些制作规则可能变化很大。因此,作为和语义直接相关的文本线索一直以来都受到了研究者的重视。基于文本线索的故事分割技术大都基于一个基本的观点,即:不同的新闻主题倾向于使用不同的词语集合。因此,词语使用的改变就意味着新闻主题的改变。本发明所基于的是非确定性的中文新闻文本,指的是通过语音识别等方式直接或者间接获取包含识别错误的新闻故事的文字脚本。例如现在已经具备的两个通过语音识别获取的较为完整的新闻故事数据库:TDT2数据库和CCTV数据库。这两个具有一般性的非可靠文本类新闻故事数据库给实验测试和分析提供了足够的条件。近年来,概率图方法(graph-theoretic methods)被逐渐应用到自然语言数据的处理和新闻故事分割中。引入图的概念之后,新闻故事中的词语或者句子被映射为图中的节点,词语间或者句子间的关系则被表示为图中的边。于是,新闻故事的分割就可以转变为一个图切分(graph cuts)的问题,进而利用最小归一化切分(normalizedcuts, NCuts)等方法来求得对新闻故事的最优(或近似最优)分割。(2)协同分割(co-segmentation):协同分割是一种有效且实用的图切分技术,在图像和计算机视觉领域已经有了一些较为成熟的应用。它可以将多张图片中相同或者相似的前景部分提取出来,精度较高、速度较快。使用这种方法对自然语言进行处理将是一种较为先进的应用,有利于进一步提高对海量非可靠文本类中文新闻故事分割的可靠性和自动化程度,从而便于对中文新闻故事主题的自动分析和处理。

发明内容
为克服现有技术的不足 ,本发明提出一种基于概率图模型的中文新闻主题协同分割方法,对于非可靠类中文新闻故事的协同分割方法,通过构建输入文档的图模型,基于图模型进行前景、背景主题模型的初始化和修正处理,得到最终的主题分割结果。本发明提出了一种基于概率图模型的中文新闻主题协同分割方法,其特征在于,该方法包括以下步骤::
步骤一,构建图模型和进行前景、背景主题模型的初始化,构建图模型具体包括步骤:首先,将输入的两个及以上中文新闻故事脚本文档分别按照固定长度分成一系列的伪句子,将这些伪句子映射成为图中的节点;其次,分两部分组成图模型中的边,即一部分边由同一输入文档中相邻节点连接而成,另一部分边则是由不同输入文档的所有节点对连接而成;进行前景、背景主题模型的初始化具体包括步骤:基于构建的所述图模型,将所述输入文档中属于共同主题的句子集合当作前景故事标记为1,而其他的句子集合则将被当作背景故事标记为0 ;将所述输入文档中的所有节点,以聚类的方式分成K类,通过最小化下面的差异值来选出最可能的类作为前景主题的初始化模型,差异值公式为:
权利要求
1.一种基于概率图模型的中文新闻主题协同分割方法,其特征在于,该方法包括以下步骤: 步骤一,构建图模型和进行前景、背景主题模型初始化,构建图模型具体包括步骤:首先,将输入的两个及以上中文新闻故事脚本文档分别按照固定长度分成一系列的伪句子,将这些伪句子映射成为图中的节点;其次,分两部分组成图模型中的边,即一部分边由同一输入文档中相邻节点连接而成,另一部分边则是由不同输入文档的所有节点对连接而成;进行前景、背景主题模型的初始化具体包括步骤:基于构建的所述图模型,将所述输入文档中属于共同主题的句子集合当作前景故事标记为1,而其他的句子集合则将被当作背景故事标记为O ;将所述输入文档中的所有节点,以聚类的方式分成K类,通过最小化下面的差异值来选出最可能的类作为前景主题的初始化模型,差异值公式为:
2.如权利要求1所述的基于概率图模型的中文新闻主题协同分割方法,其特征在于,该方法还包括以下步骤:对于单一文档内的任意两个节点,当且仅当它们之间的距离小于某一阈值时才会建立边的连接。
3.如权利要求1所述的基于概率图模型的中文新闻主题协同分割方法,其特征在于,所述输入文档是指非可靠中文新闻文本,即通过语音识别等方式直接或者间接获取包含识别错误的新闻故事的文字脚本。`
全文摘要
本发明公开了一种基于概率图模型的中文新闻主题协同分割方法,该方法包括以下步骤步骤一,对所输入的非可靠中文新闻文本文档构建图模型和进行前景、背景主题模型的初始化;步骤二,前景和背景主题模型的修正;步骤三,构建能量方程;步骤四,能量方程的优化求解,得到协同分割结果。本发明直接利用数据间的关联性就可以做到语义级的分割效果,对于弥补底层特征和高层语义之间的鸿沟有较大的帮助;同时,有助于提高对海量非可靠文本类中文新闻故事主题提取和分割的可靠性和处理能力。本发明能够提高对海量非可靠文本类中文新闻故事分割的精度和通用性,从而便于对中文新闻故事主题的自动分析和处理。
文档编号G06F17/27GK103106191SQ20131002204
公开日2013年5月15日 申请日期2013年1月21日 优先权日2013年1月21日
发明者冯伟, 万亮, 聂学成 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1