一种人称标注方法与流程

文档序号:12464665阅读:315来源:国知局
一种人称标注方法与流程

本发明涉及自然语言处理技术领域,具体涉及一种人称标注方法。



背景技术:

目前,随着互联网技术的快速发展,每时每刻都会有无数的信息进行传播和存储,我们获得的信息越来越多,如果从海量的信息中寻找到自己需要的信息,同时将差别各异的信息进行提取,得到我们能理解的信息成为人们共同关注的问题。

语句是信息的基础组成部分,理解语句是分析处理信息的重要步骤之一,对于语句的理解主要从三个方面进行,包括语义分析、语句人称分析和句法分析。语义分析是根据语句结构和语句中词语的词义,推导出句子的实际语义;语句人称分析是找出语句中谓语的相应语义人称成份;句法分析是根据语句的语法,推导出语句的语法结构,确定语句的组成成分。

语句的分析被应用到各个领域中,例如网站关键词搜索、网络聊天内容整合分析等,但是现如今对于语句的分析都比较粗糙,精确性不够。



技术实现要素:

针对现有技术中的缺陷,本发明公开了一种人称标注方法,通过本发明的方法对语句进行分析,能更好地了解语句的语义,支持语义的相关应用,比如根据语义判定喜好、习惯等。

本发明的技术方案如下:

一种人称标注方法,包括以下步骤:

S1:建立用于将语句切分成独立词语的分词系统;

S2:获取语句,利用所述分词系统对所述语句进行分词,并通过标柱模块对分词后语句中的词语进行语义标注和词性标注;根据所述词语标注的语义和词性确定所述语句中的人称代词;

S3:通过命名识别模块识别所述语句中的命名实体,并对所述人称代词和所述命名实体进行人称标注;

S4:根据词语分析模块对所述语句进行语法分析,确定所述语句中的定语;根据所述定语确定所述语句的核心词语及核心词语对应的人称标注。

进一步地,上述的人称标注方法中,所述分词系统包括分词模型,所述分词系统的分词步骤如下:

通过所述分词模型对语句进行初步分词;

根据预设分词规则对初步分词后的词语进行整合;

根据第三方词典内容对分词规则整合后的词语进行语义合并。

进一步地,上述的人称标注方法中,所述分词模型为HMM分词模型。

进一步地,上述的人称标注方法中,所述分词模型为CRF分词模型。

进一步地,上述的人称标注方法中,所述标柱模块用于对词语进行语义标注和词性标注,所述标柱模块采用HMM标注模型和CRF标注模型。

进一步地,上述的人称标注方法中,所述命名识别模块采用CRF识别模型。

进一步地,上述的人称标注方法中,所述命名识别模块用于识别词典中未记录的词语;所述命名实体包括人名、地名、机构名、产品名、商标名、简称和省略语。

进一步地,上述的人称标注方法中,所述词语分析模块为PCFG生成式句法分析模型。

进一步地,上述的人称标注方法中,所述词语分析模块为CRF句法分析模型。

进一步地,上述的人称标注方法中,所述人称标注包括第一人称标注、第 二人称标注和第三人称标注。

本发明的显著效果:本发明公开的一种人称标注方法,通过对语句进行语义分析、语句人称分析和句法分析,能快速确定语句中的命名实体和核心词语,头同时确定命名实体和核心词语的人称标注,从而确定语句的语义,可以根据语义判断人们的喜好、习惯等。

附图说明

图1为本发明人称标注方法实施例中的控制流程图;

图2为本发明人称标注方法实施例中的句法分析树状图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。

实施例:

参照图1,为本发明人称标注方法实施例中的控制流程图,具体步骤如下:

S1:建立用于将语句切分成独立词语的分词系统;其中,所述分词系统包括分词模型,所述分词系统的分词步骤如下:

通过所述分词模型对语句进行初步分词;

根据预设分词规则对初步分词后的词语进行整合;

根据第三方词典内容对分词规则整合后的词语进行语义合并。

所述分词模型为HMM分词模型;所述分词模型为CRF分词模型。

S2:获取语句,利用所述分词系统对所述语句进行分词,并通过标柱模块对分词后语句中的词语进行语义标注和词性标注;根据所述词语标注的语义和词性确定所述语句中的人称代词;所述标柱模块采用HMM标注模型和CRF标注模型。

S3:通过命名识别模块识别所述语句中的命名实体,并对所述人称代词和 所述命名实体进行人称标注;所述命名识别模块采用CRF识别模型;所述命名识别模块用于识别词典中未记录的词语;所述命名实体包括人名、地名、机构名、产品名、商标名、简称和省略语。

S4:根据词语分析模块对所述语句进行语法分析,确定所述语句中的定语;根据所述定语确定所述语句的核心词语及核心词语对应的人称标注;所述词语分析模块为PCFG生成式句法分析模型;所述词语分析模块为CRF句法分析模型;所述人称标注包括第一人称标注、第二人称标注和第三人称标注。

参照图2,为本发明人称标注方法实施例中的句法分析树状图。

以下以三个例子具体展现本发明的人称标注方法:

语句1:五十分钟前我女朋友的爸爸去听许巍此时此刻演唱会。

利用所述分词系统对所述语句1进行分词,得到初步分词结果“五、十、分、钟、前、我、女、朋、友、的、爸、爸、去、听、许、巍、此、时、此、刻、演、唱、会”。

根据预设分词规则对初步分词后的词语进行整合,整合结果为“五十、分钟、前、我、女、朋友、的、爸爸、去、听、许巍、此时、此刻、演唱会”。

根据第三方词典内容对分词规则整合后的词语进行语义合并,和并后的结果为“五十、分钟、前、我、女朋友、的、爸爸、去、听、许巍、此时此刻、演唱会”。

通过标柱模块对分词后语句中的词语进行语义标注和词性标注;根据所述词语标注的语义和词性确定所述语句中的人称代词,标注模块标注后为“五十/m、分钟/qt、前/f、我/rr、女朋友/n、的/ude1、爸爸/n、去/vf、听/v、许巍/n、此时此刻/n、演唱会/n”,可以确定词性rr的人称代词为“我”。

通过命名识别模块识别所述语句中的命名实体,并对所述人称代词和所述命名实体进行人称标注;命名结果为“五十分钟前我女朋友的爸爸去听<START:PER>许巍<END>此时此刻演唱会”,得到的人称命名实体为“许巍”。

根据词语分析模块对所述语句进行语法分析,确定所述语句中的定语;根 据所述定语确定所述语句的核心词语及核心词语对应的人称标注;根据图2的句法分析树状图,得到如下结果:“我女朋友的”是“爸爸”的定语,许巍没有定语,因此人称词为“我女朋友的爸爸”和“许巍”;核心词为“爸爸”和“许巍”;标注“我女朋友的爸爸”为第三人称,“许巍”为第三人称,得到人称标注结果“五十分钟前<START:第三人称>我女朋友的爸爸<END>去听<START:第三人称>许巍<END>此时此刻演唱会”。

语句2:我喜欢姚明。

通过分词和词性标注,得到人称代词“我”;通过命名实体识别技术,得到命名实体“姚明”;确定核心词分别为“我”和“姚明”,人称分别为“第一人称”和“第三人称”;标注“我”为第一人称,“姚明”为第三人称,得到人称标注结果:<START:第一人称>我<END>喜欢<START:第三人称>姚明<END>。

语句3:我喜欢帅气的刘德华。

通过分词和词性标注,得到人称代词“我”;通过命名实体识别技术,得到命名实体“刘德华”;通过句法分析,得到帅气是刘德华的定语;确定核心词分别为“我”和“刘德华”,人称分别为“第一人称”和“第三人称”;标注“我”为第一人称,“帅气的刘德华”为第三人称,得到人称标注结果:<START:第一人称>我<END>喜欢<START:第三人称>帅气的刘德华<END>。

本发明公开了一种人称标注方法,通过对输入语句进行语法分析,识别人称和核心词并进行标注,能快速确定语句的语义,可以根据语义判断输入者的个人喜好,个人习惯以及此时的心情等;此处的输入者可以是网络聊天中的聊天者。

本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人 员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1