一种基于概念语义基元的文摘自动生成方法

文档序号:9564569阅读:754来源:国知局
一种基于概念语义基元的文摘自动生成方法
【技术领域】
[0001] 本发明涉及自然语言文本智能分析领域,特别涉及一种基于概念语义基元的文摘 自动生成方法。
【背景技术】
[0002] 信息技术的飞速发展,互联网进入人们的日常生活。信息传输的瓶颈已经打破,人 们可以方便地接触到海量的信息内容。如何从中快速了解信息内容,已经成为当前智能信 息处理发展的方向和技术研究的热点。特别是随着互联网上文档信息的急剧膨胀,用户面 对大量的文档信息,迫切需要能够有效处理这些文档信息的工具。自动文本摘要,是以自然 语言处理技术为基础,通过对文档内容进行分析处理,自动生成文档摘要内容的智能文本 处理应用技术。自动文本摘要可以为用户提供文档内容的概要性描述,对文档文字进行浓 缩,便于用户在有限的时间内了解更多的文档信息。特别是随着移动互联网的普及,经过文 摘浓缩的文字内容更适合在诸如手机、平板电脑等移动设备上呈现和展示,方便用户随时 随地了解信息。
[0003] 计算机自动文摘处理一般采用摘录的方式生成文本摘要。这一处理方式将文档看 作是其组成句子的集合,对原文档中的所有句子按一定的方式计算重要程度的权值,然后 按照权值的高低降序排列,选择权值高的若干句子作为文摘句。尽管这种方式自动形成的 摘要常常会缺乏连贯性,但这一结果对用户了解该文档主要内容,判断是否有进一步阅读 价值有帮助,因此已为用户所接受。摘录式自动文摘更注重于摘录语句的内容是否有代表 性,而较少考虑生成摘要的连贯性,语句的简洁等其他方面的因素。
[0004] 摘录式自动文摘从方法上可以分为有监督的处理方法和无监督的处理方法。有监 督的方法基于大量人工制作的摘录文摘,利用机器学习算法,对于文摘句的特征进行学习 训练,利用获得的参数进行文摘句的选择。因此,这种方法对于与训练文摘相似的文档,往 往能够取得较好的效果,但对于其他文档则不一定能产生令人满意的结果。另外,当用户改 变文摘的目的或文档的特性时,需要重新构建训练数据或重新训练模型。无监督的方法则 不需要提供参考的文摘作为训练数据,它直接通过一定的准则计算句子的重要度权重来对 句子进行排序并选择文摘句。在这类方法中主要采用基于词频信息计算语句权重的处理模 型。有研究表明,词语出现的频度对于文档主要内容有重要的影响,文档中非常用词的相对 频率可以较为准确的反映该词在文档内容中的重要程度,进而可以根据这些词语计算语句 的权重。然而,基于词频信息的自动文摘在表示内容重要性时存在缺陷,由于缺乏考虑词语 之间的关系,词语只是作为孤立的计算单元,因此对于深层的语义信息反映不够充分,不能 很好的区分词汇之间的重要性。
[0005] 为了改进处理方法,研究者进行了深入的研究。近年来在文本语义处理方面面向 语言数据的浅层语义分析发展很快。这一处理技术以统计分布为基础,通过构造词语与主 体之间的关系,描述文档主题的分布,形成了以词语概率权重表示的主题描述语义模型,建 立了利用语言数据研究语义内容的新模式。这也为获取和表示文档语义内容提供了新手 段,为摘录式自动文摘提供了新出处理思路一一按照主题计算语句的重要程度:首先划分 文档的主题,然后选择重要主题下重要的句子组成文摘。按照主题方式选择语句,一方面可 以使文摘中的句子具有较少的冗余度,另一方面可以突显词语之间在主题分布上的关系, 更好反映文档的内容。其中潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型 在研究中得到广泛应用,取得较好的效果。这种处理方法已经应用在处理文档集合的多文 档自动摘要中。需要指出的是,这类方法是以统计分析作为处理基础的,需要有比较充分的 数据,才能反映出文档主题的分布规律来,而对于单个文档的摘要处理,往往会由于数据稀 疏而难以达到预期的效果。
[0006] 另一方面,随着自然语言理解技术研究的深入,已经形成了丰富的语义资源,特别 是概念层次网络(Hierarchical Network of Concepts,简称HNC)给出了层次化、网络化和 概念化的语义表述体系,并形成了以这一语义表述体系为基础的汉语词语语义知识库,为 进行深层语义计算提供了基础。因此本发明将以此为基础建立新的文摘处理模式,进而形 成结合深层语义表示和浅层语义处理的文摘自动生成方法,这一方法的要点在于对语义知 识的利用。

【发明内容】

[0007] 本发明的目的在于,为解决【背景技术】中所说明的基于词频计算语句权重值不能很 好反映文档深层语义内容的问题,同时改善以词语为统计处理单元的主题分析方法应用于 单个文档而数据稀疏的问题,进而形成单篇文档的文摘内容。本发明提供一种利用概念语 义基元的文摘自动生成方法。
[0008] 为了实现上述目的,本发明提供了一种基于概念语义基元的文摘自动生成方法, 所述方法包含:
[0009] 步骤101)利用文档中语句的语义信息对文档主题进行LDA建模,获得语义主题模 型;
[0010] 步骤102)根据获得的语义主题模型,即LDA模型,进一步计算文档的语义重心,所 述文档的语义重心指文档的"语句一主题分布"和"主题一概念语义基元分布";
[0011] 步骤103)根据语义重心的表述,选择若干语句作为文摘句进行输出。
[0012] 可选的,上述步骤101)进一步包含:
[0013] 步骤101-1)抽取输入文档的正文内容和标题;
[0014] 步骤101-2)根据文档中的标点符号将抽取的正文内容划分为若干语句,且将标 题作为一个独立的语句,进而得到文档的语句集合;
[0015] 步骤101-3)为语句集合中的各语句增加序号信息和段标识信息,进而得到文档 语句集合,其中,所述序号信息用于表示各语句属于文档的第几个句子;所述段标识信息用 于表示各语句在一个段落中处于段首、段中还是段尾;
[0016] 步骤101-4)对文档语句集合中的语句进行词语切分和概念语义基元映射,将各 个语句中的词语与一个或若干个概念语义基元符号相对应,再对得到的概念语义基元进行 层次分解,进而得到不同层次的概念语义基元的频次,最后将得到各个概念语义基元的频 次特征输入潜在狄利克雷分配模型;
[0017] 步骤101-5)通过潜在狄利克雷分配模型对输入信息的处理,进而得到语义主题 模型。
[0018] 可选的,上述步骤101-1)进一步包含:
[0019] 步骤101-1-1)去除电子文档格式保存的文档中的结构化信息和版式信息,再提 取文档的正文内容,保留文档内容中的自然段信息标记;
[0020] 步骤101-1-2)去掉文档内容中的非连续语句内容,所述非连续语句内容包括:表 格或注释;
[0021] 步骤101-1-3)将文档按照标点符号分割为若干语句,得到的所有语句组成了正 文内容。
[0022] 可选的,上述步骤101-4)包括:
[0023] 步骤101-4-1)对文档语句集合中的语句进行词语切分和概念语义基元映射,进 而将各个语句与一个或若干个概念语义基元相对应;并过滤词语切分后得到的连词、介词, 进而保留实词;
[0024] 步骤104-1-2)从保留的实词中提取词语对应的、以概念层次网络符号表示的词 语语义,计算概念语义基元符号的频次;
[0025] 步骤101-4-2)根据概念语义基元符号的层次关系,得到词语对应的概念语义基 元符号的父节点和祖先节点,自底向上将底层节点的频次信息添加到上层节点上;
[0026] 步骤101-4-3)记录所有概念语义基元符号的频次信息,其中概念语义基元符号 包括语句中词语对应的概念语义基元符号以及这些概念语义基元符号的祖先节点符号。
[0027] 可选的,与主题模型相应的主题数目为K,所述的主题数目K的计算公式为:
[0029] 上述K表示预设的主题个数,E (X)表示取X的整数部分;Na,Nd,Ns,Np分别表示摘 要的字数,文档的字数,以及语句个数和段落个数。
[0030] 可选的,上述步骤102)采用Gibbs算法求解获得文档的语句主题分布,该步骤进 一步包含:
[0031] 步骤102-1)利用Gibbs抽样算法进行参数估计,得到文档的语句集合中各语句在 主题上的分布
根据各语句在主题上的分布值获得各个主题在文档中的概率权重,再 根据概率权重对主题重要度进行排序;
[0032] 步骤102-2)根据步骤102-1)得到的主题权重顺序,对每个主题依次选择1~2个 语句组成候选依据集合,且选择语句的原则为:依据计算得到的语句在主题上的分布
选择每个主题下混合概率最高的前2个句子。
[0033] 可选的,上述步骤102-2)在选择句子时还包含如下步骤:
[0034] 步骤102-2-1)如果两个句子在对应主题下的权重相对差值超过30%,即对应主 题下第一候选句子的权值比第二候选高30%,则对应主题下只保留第一候选的句子;否则 保留两个候选语句;
[0035] 步骤102-2-2)如果根据权重选择得到的属于当前主题的句子已经在前面的主题 中被选中,则按权重由大到小的顺序将下一个句子作为当前主题的候选语句。
[0036] 可选的,上述各个主题在文档中的概率权重的计算公式如下:
[0038] 其中,
直接使用求得的
N表示文档的语句集合中语句的总个数,T表示进 行分析时的主题个数,j表示遍历的变量它的取值包括所有主题,Z1表示一个特定主题。
[0039] 可选的,上述步骤103)进
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1