一种基于层次深度语义的隐式篇章关系分析方法与流程

文档序号：12597380阅读：来源：国知局

技术特征：

1.一种基于层次深度语义的隐式篇章关系分析方法，其特征在于：

技术思想是：首先结合已标注语料和未标注语料，扩充训练语料的规模，以避免训练语料规模过小所带来的欠学习问题；然后基于一定规则初始化训练语料的词向量及句向量，并通过信息增益值的大小筛选出有助于分类的词对，将其作为后续步骤的特征选取依据；最后设计一种打分函数，将待分类篇章关系论元对的有用词对向量、句向量及隐式篇章关系分布向量等多层次的深度语义信息相结合，利用神经网络训练模型参数并拟合隐式篇章关系类别标签，找到使性能达到最优的模型完成隐式篇章关系的分析。

2.如权利要求1所述的一种基于层次深度语义的隐式篇章关系分析方法，其特征还在于，包括以下步骤：

步骤一、语料预处理；

步骤二、多层次语义向量初始化；

步骤三、生成有用词对表并扩充有用词对表；

步骤四、隐式篇章关系模型训练和类别打分；

至此，从步骤一到步骤四，完成了一种基于层次深度语义的隐式篇章关系分析方法。

3.如权利要求2所述的一种基于层次深度语义的隐式篇章关系分析方法，其特征还在于：

步骤一，具体为：

步骤1.1将已有的隐式篇章关系标注语料，分割为训练语料和测试语料，

步骤1.2利用篇章连接词匹配的方法，从大规模未标注语料中匹配显式篇章连接词；

步骤1.3基于步骤1.2的结果，以篇章连接词和标点为边界划分论元范围，提取出相应的显式篇章关系；

步骤1.4将步骤1.3输出的篇章连接词去除，作为伪隐式篇章关系扩充步骤1.1所得的训练语料。

4.如权利要求3所述的一种基于层次深度语义的隐式篇章关系分析方法，其特征还在于：

步骤1.1中，分割的比例为：标注语料共有0-22Section，其中2-20Section作为训练语料，21-22Section作为测试语料。

5.如权利要求2所述的一种基于层次深度语义的隐式篇章关系分析方法，其特征还在于：

步骤二，具体为：

步骤2.1利用Paragraph Vector方法，采用词向量训练模型训练词向量，并将隐式篇章关系论元对所对应的句向量，添加到当前待训练词的上下文中，和词向量一同训练；

步骤2.2将步骤2.1所得结果，以及隐式篇章关系各类别的先验概率，作为步骤三及步骤四所使用的各个层次的隐式篇章关系深度语义向量的初始值；

其中，各个层次即多层次。

6.如权利要求5所述的一种基于层次深度语义的隐式篇章关系分析方法，其特征还在于：

步骤2.1中，所述的词向量训练模型，可以采用word2vec；

其中，所述的隐式篇章关系为步骤1.4所得训练语料中的隐式篇章关系。

7.如权利要求2所述的一种基于层次深度语义的隐式篇章关系分析方法，其特征还在于：

步骤三，具体为：

步骤3.1将步骤1.4所获取的训练语料作为提取对象，针对每一个隐式篇章关系，从上下两个论元中分别抽取一个词语构成词对，将词对作为研究对象，统计训练语料中所有词对在各篇章关系类别中的信息增益值大小，选取高于阈值的词对构建有用词对表；

步骤3.2在步骤3.1基础上，利用词向量的相似度计量，扩充步骤3.1所得的有用词对表。

8.如权利要求7所述的一种基于层次深度语义的隐式篇章关系分析方法，其特征还在于：

步骤3.2中，扩充有用词对表的规则为：每个有用词对表中的词对，选取至多六个COSINE相似度最高的词对。

9.如权利要求2所述的一种基于层次深度语义的隐式篇章关系分析方法，其特征还在于：

步骤四，具体为：

步骤4.1针对步骤一所得的训练语料和测试语料中的隐式篇章关系，提取其中包含的有用词对，将词对转换为词向量的拼接形式，同隐式篇章关系论元对向量、隐式篇章关系分布向量相拼接，构成隐式篇章关系的层次深度语义的表征；

步骤4.2把步骤4.1中拼接得到的训练语料隐式篇章关系层次深度语义向量，加入到神经网络训练模型中，训练模型参数；

步骤4.3把步骤4.1中拼接得到的测试语料隐式篇章关系层次深度语义向量，加入到步骤4.2所得的神经网络训练模型中，拟合隐式篇章关系类别标签给出的相应分数，输出待分类隐式篇章关系的识别结果。

完整全部详细技术资料下载

当前第2页1 2 3