一种隐式篇章关系的分析方法及系统的制作方法

文档序号:6622379阅读:165来源:国知局
一种隐式篇章关系的分析方法及系统的制作方法
【专利摘要】本申请公开了一种隐式篇章关系的分析方法及系统,其中方法包括:接收输入的包括前置论元和后置论元的待测隐式论元实例,在语料库中筛选与其具有语义平行性且包含预设连接线索词的显式论元实例,计算每个显式论元实例与待测隐式论元实例的语义平行度,按照第一预设规则筛选出若干个显式论元实例,确定为平行显式论元实例集合,计算每个平行显式论元实例的篇章关系的置信度,至少利用每个平行显式论元实例的语义平行度、篇章关系置信度及第二预设规则,计算平行显式论元实例集合中每一类篇章关系与待测隐式论元实例的篇章关系的平行概率,将平行概率最大的一类篇章关系确定为待测隐式论元实例的篇章关系。实现了对于隐式篇章关系的识别的目的。
【专利说明】一种隐式篇章关系的分析方法及系统

【技术领域】
[0001] 本申请涉及自然语言处理【技术领域】,更具体地说,涉及一种隐式篇章关系的分析 方法及系统。

【背景技术】
[0002] 在篇章研究领域,篇章是论元经过语义关联和结构化组织形成的自然语言文体。 篇章关系是同一篇章内部,相邻论元或跨度在一定范围内的论元间的语义关联性质,如对 比关系、扩展关系等。其中,论元是篇章中具有独立语义的文字片段,是形成篇章关系的基 本表现单元。篇章关系分析是解释论元间的语义关系。
[0003] 根据论元间是否存在显式连接词(如"所以"等),篇章关系可以划分为显式关系 和隐式关系两类。显式关系因具有连接词等指向特定篇章关系的直观线索而易于检测。但 是,隐式篇章关系由于缺乏连接词,其检测难度非常大,目前还没有一种有效的方案,能够 针对隐式篇章关系进行分析。


【发明内容】

[0004] 有鉴于此,本申请提供了一种隐式篇章关系的分析方法及系统,用于解决现有技 术缺乏对隐式篇章关系进行分析的有效方案。
[0005] 为了实现上述目的,现提出的方案如下:
[0006] -种隐式篇章关系的分析方法,包括:
[0007] 接收用户输入的包括前置论元和后置论元的待测隐式论元实例;
[0008] 在语料库中筛选与所述待测隐式论元实例具有语义平行性且包含预设连接线索 词的显式论元实例;
[0009] 计算每个所述显式论元实例与所述待测隐式论元实例的语义平行度;
[0010] 按照第一预设规则,筛选出若干个所述显式论元实例并确定为平行显式论元实例 集合;
[0011] 计算每一个平行显式论元实例的篇章关系的置信度;
[0012] 至少利用每一个平行显式论元实例的语义平行度、篇章关系置信度及第二预设规 贝1J,计算平行显式论元实例集合中每一类篇章关系与待测隐式论元实例的篇章关系的平行 概率;
[0013] 将平行概率最大的一类篇章关系确定为所述待测隐式论元实例的篇章关系。
[0014] 优选地,所述在语料库中筛选出与所述待测隐式论元实例具有语义平行性且包含 预设连接线索词的显式论元实例为:
[0015] 分别抽取所述待测隐式论元实例的前置论元、后置论元的二元文法,得到若干个 前置文法和若干个后置文法;
[0016] 将每一个所述前置文法分别与各个所述后置文法进行组合,并将每一个组合确定 为一个查询条件;
[0017] 利用每一个所述查询条件在所述语料库中查找包含预设连接线索词的显式论元 实例。
[0018] 优选地,所述计算每个所述显式论元实例与所述待测隐式论元实例的语义平行度 为:
[0019] 利用Jaccard算法,计算每个所述显式论元实例的前置论元与所述待测隐式论元 实例的前置论元的平行度,确定为第一平行度;
[0020] 利用Jaccard算法,计算每个所述显式论元实例的后置论元与所述待测隐式论元 实例的后置论元的平行度,确定为第二平行度;
[0021] 求取所述第一平行度与所述第二平行度的平均值,并确定为所述待测隐式论元实 例的语义平行度。
[0022] 优选地,所述第一预设规则为:
[0023] 选取顺序排列的若干个显式论元实例中预设比例的前η个显式论元实例,确定为 平行显式论元实例集合;或者,
[0024] 选取满足预设语义平行度参考值的显式论元实例,确定为平行显式论元实例集 合。
[0025] 优选地,所述计算每一个平行显式论元实例的篇章关系的置信度为:

【权利要求】
1. 一种隐式篇章关系的分析方法,其特征在于,包括: 接收用户输入的包括前置论元和后置论元的待测隐式论元实例; 在语料库中筛选与所述待测隐式论元实例具有语义平行性且包含预设连接线索词的 显式论元实例; 计算每个所述显式论元实例与所述待测隐式论元实例的语义平行度; 按照第一预设规则,筛选出若干个所述显式论元实例并确定为平行显式论元实例集 合; 计算每一个平行显式论元实例的篇章关系的置信度; 至少利用每一个平行显式论元实例的语义平行度、篇章关系置信度及第二预设规则, 计算平行显式论元实例集合中每一类篇章关系与待测隐式论元实例的篇章关系的平行概 率; 将平行概率最大的一类篇章关系确定为所述待测隐式论元实例的篇章关系。
2. 根据权利要求1所述的分析方法,其特征在于,所述在语料库中筛选出与所述待测 隐式论元实例具有语义平行性且包含预设连接线索词的显式论元实例为: 分别抽取所述待测隐式论元实例的前置论元、后置论元的二元文法,得到若干个前置 文法和若干个后置文法; 将每一个所述前置文法分别与各个所述后置文法进行组合,并将每一个组合确定为一 个查询条件; 利用每一个所述查询条件在所述语料库中查找包含预设连接线索词的显式论元实例。
3. 根据权利要求2所述的分析方法,其特征在于,所述计算每个所述显式论元实例与 所述待测隐式论元实例的语义平行度为: 利用Jaccard算法,计算每个所述显式论元实例的前置论元与所述待测隐式论元实例 的前置论元的平行度,确定为第一平行度; 利用Jaccard算法,计算每个所述显式论元实例的后置论元与所述待测隐式论元实例 的后置论元的平行度,确定为第二平行度; 求取所述第一平行度与所述第二平行度的平均值,并确定为所述待测隐式论元实例的 语义平行度。
4. 根据权利要求3所述的分析方法,其特征在于,所述第一预设规则为: 选取顺序排列的若干个显式论元实例中预设比例的前η个显式论元实例,确定为平行 显式论元实例集合;或者, 选取满足预设语义平行度参考值的显式论元实例,确定为平行显式论元实例集合。
5. 根据权利要求4所述的分析方法,其特征在于,所述计算每一个平行显式论元实例 的篇章关系的置信度为: ? G丨.logiG) j fences Gj = I gj_gn〇rm(j) I 其中,j代表篇章关系,gj表示篇章关系j在平行显式论元实例集合中的概率分布, gn_(j)表示篇章关系J在所述语料库中的概率分布,G」表示篇章关系J的分布概率差异, j G sences,sences为篇章关系集合。
6. 根据权利要求5所述的分析方法,其特征在于,所述至少利用每一个平行显式论元 实例的语义平行度、篇章关系置信度及第二预设规则,计算平行显式论元实例集合中每一 类篇章关系与待测隐式论元实例的篇章关系的平行概率为: 将每一个所述平行显式论元实例的语义平行度与篇章关系置信度相乘,相乘结果确定 为平行概率P。:
其中,u为具有篇章关系c的所有平行显式论元实例的集合,simi为第i个平行显式论 元实例与待测隐式论元实例的语义平行度,氏为第i个平行显式论元实例的篇章关系的置 信度。
7. 根据权利要求5所述的分析方法,其特征在于,在所述计算每一个平行显式论元实 例的篇章关系的置信度之后,还包括: 计算每一个平行显式论元实例与待测隐式论元实例的同指焦点一致性概率,过程如 下: 利用下述公式分别计算待测隐式论元实例中的每个论元特征作为论元焦点的概率,以 及计算各个平行显式论元实例中的每个论元特征作为论元焦点的概率:
其中,P(f| t)表示当前论元实例t中的论元特征f作为论元焦点的概率,wi为论元特 征,h表示当前论元实例所属的篇章中TFIDF权重最高的nk个关键词中的第j个,当前论 元实例t为待测隐式论元实例或者任意一个平行显式论元实例; 其中,rel (Wi, kj)表示论元特征&与篇章中某个关键词kj的相关性,PMI (Wi, kj)表示 Wi与&的互信息,P (Key |kj表示关键词&在篇章中的关键程度,由关键词&在篇章中的 分散分布频率除以关键词频率计算得出; 在以论元特征为X轴,论元特征作为论元焦点的概率为y轴的二维坐标系中,将表征待 测隐式论元实例中各个论元特征作为论元焦点的概率的点进行拟合,得到待测隐式论元实 例的焦点概率曲线,将表征每个平行显式论元实例中各个论元特征作为论元焦点的概率点 进行拟合,得到每一个平行显式论元实例的焦点概率曲线; 计算每一个平行显式论元实例与待测隐式论元实例的同指焦点一致性概率Di ;
其中,h为平行显示论元实例和待测隐式论元实例中所有不同的论元特征的个数, fi(x)和A(X)分别表示待测隐式论元实例和平行显式论元实例的焦点概率曲线。
8. 根据权利要求7所述的分析方法,其特征在于,所述至少利用每一个平行显式论元 实例的语义平行度、篇章关系置信度及第二预设规则,计算平行显式论元实例集合中每一 类篇章关系与待测隐式论元实例的篇章关系的平行概率为: 将每一个所述平行显式论元实例的语义平行度、篇章关系置信度和同指焦点一致性概 率相乘,相乘结果确定为平行概率P。:
其中,U为具有篇章关系C的所有平行显式论元实例的集合,sinii为第i个平行显式论 元实例与待测隐式论元实例的语义平行度,Hi为第i个平行显式论元实例的篇章关系的置 信度,Di为第i个平行显式论元实例与待测隐式论元实例的同指焦点一致性概率。
9. 一种隐式篇章关系的分析系统,其特征在于,包括: 数据接收单元,用于接收用户输入的包括前置论元和后置论元的待测隐式论元实例; 第一筛选单元,用于在语料库中筛选与所述待测隐式论元实例具有语义平行性且包含 预设连接线索词的显式论元实例; 第一计算单元,用于计算每个所述显式论元实例与所述待测隐式论元实例的语义平行 度; 第二筛选单元,用于按照第一预设规则,筛选出若干个所述显式论元实例并确定为平 行显式论元实例集合; 第二计算单元,用于计算每一个平行显式论元实例的篇章关系的置信度; 第三计算单元,用于至少利用每一个平行显式论元实例的语义平行度、篇章关系置信 度及第二预设规则,计算平行显式论元实例集合中每一类篇章关系与待测隐式论元实例的 篇章关系的平行概率; 关系确定单元,用于将平行概率最大的一类篇章关系确定为所述待测隐式论元实例的 篇章关系。
10. 根据权利要求9所述的分析系统,其特征在于,所述第一筛选单元包括: 抽取单元,用于分别抽取所述待测隐式论元实例的前置论元、后置论元的二元文法,得 到若干个前置文法和若干个后置文法; 组合单元,用于将每一个所述前置文法分别与各个所述后置文法进行组合,并将每一 个组合确定为一个查询条件; 查询单元,用于利用每一个所述查询条件在所述语料库中查找包含预设连接线索词的 显式论元实例。
【文档编号】G06F17/30GK104090868SQ201410379412
【公开日】2014年10月8日 申请日期:2014年8月4日 优先权日:2014年8月4日
【发明者】洪宇, 车婷婷, 姚建民 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1