一种人称识别方法与流程

文档序号：12464669阅读：239来源：国知局

本发明涉及自然语言处理技术领域，具体涉及一种人称识别方法。

背景技术：

目前，随着互联网技术的快速发展，每时每刻都会有无数的信息进行传播和存储，我们获得的信息越来越多，如果从海量的信息中寻找到自己需要的信息，同时将差别各异的信息进行提取，得到我们能理解的信息成为人们共同关注的问题。

语句是信息的基础组成部分，理解语句是分析处理信息的重要步骤之一，对于语句的理解主要从三个方面进行，包括语义分析、语句人称分析和句法分析。语义分析是根据语句结构和语句中词语的词义，推导出句子的实际语义；语句人称分析是找出语句中谓语的相应语义人称成份；句法分析是根据语句的语法，推导出语句的语法结构，确定语句的组成成分。

语句的分析被应用到各个领域中，例如网站关键词搜索、网络聊天内容整合分析等，但是现如今对于语句的分析都比较粗糙，精确性不够。

技术实现要素：

针对现有技术中的缺陷，本发明公开了一种人称识别方法，能快速识别出语句中施动者和受动者对应的人称，快速理解语义，从而判断施动者或受动者的喜好和习惯。

本发明的技术方案如下：

一种人称识别方法，包括以下步骤：

S1：建立用于将语句切分成独立词语的分词系统；

S2：获取语句，利用所述分词系统对所述语句进行分词；

S3：通过预设字符模块识别语句中的预设词语，若识别到预设词语，则将预设词语删除；

S4：通过句法分析模块识别语句中的第一预定义词语，若识别到第一预定义词语，则将第一预定义词语删除；

S5：通过词性分析模块识别语句中的第二预定义词语，若识别到第二预定义词语，则将第二预定义词语删除；

S6：重复步骤S2到S4，得到人称识别模型的训练语料；

S7：对所述训练语料进行人称标注，并将标注后的训练语料输入到人称识别模型中进行训练，多次重复训练，直至人称识别模型识别稳定；

S8：获取语句，并将语句输入训练后的人称识别模型中进行识别，得到施动者和受动者对应的人称。

进一步地，上述人称识别方法中，所述人称识别模型的训练方法为最大熵模型人称训练法。

进一步地，上述人称识别方法中，所述人称识别模型的训练方法为深度学习法。

进一步地，上述人称识别方法中，所述分词系统包括分词模型，所述分词系统的分词步骤如下：

通过所述分词模型对语句进行初步分词；

根据预设分词规则对初步分词后的词语进行整合；

根据第三方词典内容对分词规则整合后的词语进行语义合并。

进一步地，上述人称识别方法中，所述分词模型为HMM分词模型。

进一步地，上述人称识别方法中，所述分词模型为CRF分词模型。

进一步地，上述人称识别方法中，所述人称包括第一人称、第二人称和第三人称。

本发明的显著效果：本发明公开的一种人称识别方法，通过建立分词系统，用分词系统对语句进行分词，利用预设字符模块、句法分析模块、词性分析模块将语句中预设的词语和预定义的词语进行删除，能快速识别出语句中施动者和受动者对应的人称，并进行标注，可以更快更好地理解语句语义，准确地进行问题匹配，实现基于语义的智能问答。

附图说明

图1为本发明人称识别方法实施例中的控制流程图；

图2为本发明人称识别方法实施例中深度学习结构示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

实施例：

参照图1，为本发明人称识别方法实施例中的控制流程图，

具体步骤如下：

S1：建立用于将语句切分成独立词语的分词系统；其中，所述分词系统包括分词模型，所述分词系统的分词步骤如下：

通过所述分词模型对语句进行初步分词；

根据预设分词规则对初步分词后的词语进行整合；

根据第三方词典内容对分词规则整合后的词语进行语义合并。

所述分词模型为HMM分词模型；所述分词模型为CRF分词模型；所述人称识别模型的训练方法为最大熵模型人称训练法。

S2：获取语句，利用所述分词系统对所述语句进行分词。

S3：通过预设字符模块识别语句中的预设词语，若识别到预设词语，则将预设词语删除；此处的预设词语为“我觉得”、“我认为”、“我感觉”等字符串，预设词语由语言学家提供。

S4：通过句法分析模块识别语句中的第一预定义词语，若识别到第一预定义词语，则将第一预定义词语删除；

S5：通过词性分析模块识别语句中的第二预定义词语，若识别到第二预定义词语，则将第二预定义词语删除；

S6：重复步骤S2到S4，得到人称识别模型的训练语料；

S7：对所述训练语料进行人称标注，并将标注后的训练语料输入到人称识别模型中进行训练，多次重复训练，直至人称识别模型识别稳定；

S8：获取语句，并将语句输入训练后的人称识别模型中进行识别，得到施动者和受动者对应的人称，人称包括第一人称、第二人称、第三人称以及其他。

参照图2，为本发明人称识别方法实施例中深度学习结构示意图，人称识别模型的训练方法为深度学习法，图2中的“词嵌入”即指“word embedding”，是机器深度学习语言前的一个步骤；“CNN”为深度机器学习方法中的一个学习模型，为卷积神经网络“Convolutional neural network”；“GRU”指“Gated Recurrent Unit”门控循环单元；深度学习的过程如下：输入语句，经过分词系统进行分词后，做词嵌入，经两层CNN卷积神经网络分析后将结果导入双向的GRU门控循环单元，依次将双向的GRU输出的结果进行合并Merge和全连接层Dense后输出分类文本。

以下以一个例子具体展现本发明的人称识别方法：

语句1：我觉得你是一个很热情的人。

利用分词系统对语句进行分词；

通过预设字符模块识别语句中的预设词语，若识别到预设词语，则将预设词语删除；删除语句中的“我觉得”，剩余内容的分词结果中包含人称代词“你”和动词“是”；

通过句法分析模块识别语句中的第一预定义词语，若识别到第一预定义词语，则将第一预定义词语删除；在句法分析结果中，热情是定语，删除不影响人称的定语，得到句子“你是一个很的人”；

通过词性分析模块识别语句中的第二预定义词语，若识别到第二预定义词语，则将第二预定义词语删除；根据原始句子“我觉得你是一个很热情的人”中各分词的词性，删除副词“很”，得到句子“你是一个人”；

重复步骤S2到S4，得到人称识别模型的训练语料；对所述训练语料进行人称标注，给出语句中的施动者和受动者人称，施动人称为第二人称，无受动人称；在问题匹配中，通过关键词“热情”和“人”，从知识库中得到两个问答对，其中一个问答对所对应的问题是“你是热情的人”，另一个问答对所对应的问题是“他是一个热情的人”，则通过以上方法得到句子“你是热情的人”的施动人称为第二人称，无受动人称；句子“他是一个热情的人”的施动人称为第三人称，无受动人称。则在问题匹配中，认为“你是热情的人”与原问题“我觉得你是一个很热情的人”人称一致，因此更匹配。

使用最大熵模型训练人称模型过程中，有如下特征：

二元特征，包括语句中前后两个字符形成的特征序列；

例如，句首的两个字符，句尾的两个字符，句首的三个字符，句尾的三个字符，句子中的第2个和第3个字符、句子中的倒数第2个和倒数第3个字符，句子中是否包含了字符“被”，句子中是否包含了字符“把”，句子中是否包含了字符“跟”、“和”、“与”、“同”，词语“你”或“你们”是否在句首，词语“我”、“我们”、“自己”、“我家”、“我们家”是否在句首，词语“他”、“她”、“他们”、“她们”、“谁”是否在句首，句子的分词序列，句子的分词及其词性序列。

本发明公开的一种人称识别方法，通过建立分词系统，用分词系统对语句进行分词，利用预设字符模块、句法分析模块、词性分析模块将语句中预设的词语和预定义的词语进行删除，得到人称识别模型训练语料，并训练出稳定的人称识别模型；通过该人称识别模型，我们可以快速识别出语句中施动者和受动者对应的人称，并进行标注，从而更快更好地理解语句语义，对于语句分析有重要的促进作用，同时根据判断的语句，我们可以推导出施动者或受动者在日常生活中的一些个人喜好和个人习惯，对自然语言研究具有促进意义。

本发明的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：简仁贤;叶茂;杨亮
技术所有人：竹间智能科技（上海）有限公司
我是此专利的发明人

上一篇：一种词库生成方法及装置与流程
上一篇：一种基于变频干涉原理的飞秒激光测长装置及方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。