本发明涉及藏语分析领域,具体涉及藏语依存句法分析方法与系统。
背景技术:
藏语句法体系复杂,语序为主宾谓,动词形态丰富,格助词接续规范较多且复杂,其用法受语法、语义语用等多种因素的制约。作为藏文信息处理的一项基础性工作和自然语言处理的一项关键技术,藏语句法分析问题的解决直接对信息检索、信息抽取、语义分析机机器翻译等藏文自然语言处理应用产生推动作用。
在句法分析的研究中,依存语法以其简洁、易于标注,便于应用等优点,受到了研究人员的重视。
技术实现要素:
本发明的目的在于提供一种藏语依存句法分析方法与系统,可以实现藏语依存句法的自动分析,准确率达91.3%左右。
为实现上述目的,本发明采取的技术方案为:
藏语依存句法分析方法,包括如下步骤:
s1、构建藏语依存句句型特征库和藏语依存句法分析特征库;
s2、基于藏语依存句句型特征库训练构建藏语依存句句型识别算法;
s3、基于藏语依存句法分析特征库训练构建藏语依存句法分析模型,所述藏语依存句法分析模型采用由神经网络构建的transition-based贪心模型;
s4、基于藏语依存句句型识别算法实现待分析藏语依存句的句型的识别;
s5、根据藏语依存句的句型识别结果调用对应的藏语依存句法分析模型实现藏语依存句法的分析。
进一步地,所述步骤s1中,基于网络爬虫模块实现藏语依存句句型特征库的构建。
进一步地,所述步骤s1中,基于藏语依存树库实现藏语依存句法分析特征库的构建,每一种依存关系配置一种独立的特征格式。
进一步地,所述步骤s1中,首先基于藏语依存树库实现藏语依存句法分析特征库的构建,然后根据不同的藏语依存句句型实现藏语依存句法分析特征库扩充,扩充时,根据不同的藏语依存句句型实现对应藏语依存句法分析特征格式的微调。
进一步地,所述藏语依存句句型识别算法采用k-means多层次聚类算法。
进一步地,不同的藏语依存句句型组对应不同的藏语依存句法分析特征库。
进一步地,还包括:
汇总识别异常的藏语依存句,进行人工句法分析,并实现藏语依存句法分析特征库更新的步骤。
本发明还提供了一种藏语依存句法分析系统,采用上述的方法实现藏语依存句法的分析。
本发明具有以下有益效果:
可以实现藏语依存句法的自动分析,准确率达91.3%左右。
附图说明
图1为本发明实施例1藏语依存句法分析方法的流程图。
图2为本发明实施例2藏语依存句法分析方法的流程图。
图3为本发明实施例3藏语依存句法分析系统的系统框图。
具体实施方式
为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,藏语依存句法分析方法,包括如下步骤:
s1、构建藏语依存句句型特征库和藏语依存句法分析特征库;
s2、基于藏语依存句句型特征库训练构建藏语依存句句型识别算法;
s3、基于藏语依存句法分析特征库训练构建藏语依存句法分析模型,所述藏语依存句法分析模型采用由神经网络构建的transition-based贪心模型;
s4、基于藏语依存句句型识别算法实现待分析藏语依存句的句型的识别;
s5、根据藏语依存句的句型识别结果调用对应的藏语依存句法分析模型实现藏语依存句法的分析。
本实施例中,所述步骤s1中,基于网络爬虫模块实现藏语依存句句型特征库的构建。
本实施例中,所述步骤s1中,基于藏语依存树库实现藏语依存句法分析特征库的构建,每一种依存关系配置一种独立的特征格式,所述藏语依存树库内载33类藏语句法依存关系。
本实施例中,所述步骤s1中,首先基于藏语依存树库实现藏语依存句法分析特征库的构建,然后根据不同的藏语依存句句型实现藏语依存句法分析特征库扩充,扩充时,根据不同的藏语依存句句型实现对应藏语依存句法分析特征格式的微调。
本实施例中,所述藏语依存句句型识别算法采用k-means多层次聚类算法。
本实施例中,不同的藏语依存句句型组对应不同的藏语依存句法分析特征库。
实施例2
如图2所示,藏语依存句法分析方法,包括如下步骤:
s1、构建藏语依存句句型特征库和藏语依存句法分析特征库;
s2、基于藏语依存句句型特征库训练构建藏语依存句句型识别算法;
s3、基于藏语依存句法分析特征库训练构建藏语依存句法分析模型,所述藏语依存句法分析模型采用由神经网络构建的transition-based贪心模型;
s4、基于藏语依存句句型识别算法实现待分析藏语依存句的句型的识别;
s5、根据藏语依存句的句型识别结果调用对应的藏语依存句法分析模型实现藏语依存句法的分析;
s6、汇总识别异常的藏语依存句,进行人工句法分析,并实现藏语依存句法分析特征库更新。
本实施例中,所述步骤s1中,基于网络爬虫模块实现藏语依存句句型特征库的构建。
本实施例中,所述步骤s1中,基于藏语依存树库实现藏语依存句法分析特征库的构建,每一种依存关系配置一种独立的特征格式,所述藏语依存树库内载33类藏语句法依存关系。
本实施例中,所述步骤s1中,首先基于藏语依存树库实现藏语依存句法分析特征库的构建,然后根据不同的藏语依存句句型实现藏语依存句法分析特征库扩充,扩充时,根据不同的藏语依存句句型实现对应藏语依存句法分析特征格式的微调。
本实施例中,所述藏语依存句句型识别算法采用k-means多层次聚类算法。
本实施例中,不同的藏语依存句句型组对应不同的藏语依存句法分析特征库。
实施例3
如图3所示,藏语依存句法分析系统,包括:
特征库构建模块,用于构建藏语依存句句型特征库和藏语依存句法分析特征库;
句型识别算法构建模块,用于基于藏语依存句句型特征库训练构建藏语依存句句型识别算法;
句法分析模型构建模块,用于基于藏语依存句法分析特征库训练构建藏语依存句法分析模型,所述藏语依存句法分析模型采用由神经网络构建的transition-based贪心模型;
句型识别模块,用于基于藏语依存句句型识别算法实现待分析藏语依存句的句型的识别;
依存句法分析模块,用于根据藏语依存句的句型识别结果调用对应的藏语依存句法分析模型实现藏语依存句法的分析;
人工句法分析模块,用于汇总识别异常的藏语依存句,进行人工句法分析,并实现藏语依存句法分析特征库更新;
中央处理模块,用于协调上述模块工作。
本实施例中,所述特征库构建模块基于网络爬虫模块实现藏语依存句句型特征库的构建。
本实施例中,基于藏语依存树库实现藏语依存句法分析特征库的构建,每一种依存关系配置一种独立的特征格式,所述藏语依存树库内载33类藏语句法依存关系。
本实施例中,特征库构建模块首先基于藏语依存树库实现藏语依存句法分析特征库的构建,然后根据不同的藏语依存句句型实现藏语依存句法分析特征库扩充,扩充时,根据不同的藏语依存句句型实现对应藏语依存句法分析特征格式的微调。
本实施例中,所述藏语依存句句型识别算法采用k-means多层次聚类算法。
本实施例中,不同的藏语依存句句型组对应不同的藏语依存句法分析特征库。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。