一种基于规则的自动汉语句法分析方法

文档序号：9564571阅读：460来源：国知局

一种基于规则的自动汉语句法分析方法
【技术领域】
[0001] 本发明属于汉语自动处理技术领域，涉及一种基于规则的自动汉语句法分析方法。
【背景技术】
[0002] 自动句法分析是一种由语法体系和分析控制机制构成的自然语言自动处理技术。从语法体系的角度考察，基于二分法建立起来的印欧语法体系在英语句法自动分析中取得了可喜的成就，特别是基于语料库的英语分析技术，已经成为很多分析系统效仿的模范。然而，按照二分原则建立起来的汉语句法体系却遭遇到词性与句法功能多对多、句法结构与短语结构相互重叠、子句边界判断困难等问题而难以应用于汉语句法自动分析之中。

【发明内容】

[0003] 本发明的目的是提供一种基于规则的自动汉语句法分析方法，解决了现有汉语句法分析中词性与句法功能多对多、句子结构与短语结构相互重叠、子句边界判断困难的问题。
[0004] 本发明所采用的技术方案是，一种基于规则的自动汉语句法分析方法，具体按以下步骤实施：
[0005] 步骤1，设计控制器，建立数据库，设置句法分析的层次属性：
[0006] 控制器包括词性控制器、短语结构控制器、搭配控制器、句子结构控制器四种类型，用来分析短语和句子的结构、控制句法分析的流程以及调用各种词典；
[0007] 词性控制器，负责定义词性标注的标准；
[0008] 短语结构控制器，负责定义短语结构、分析短语成分；
[0009] 句子结构控制器，负责定义句子结构、确定子句范围、配置子句成分；
[0010] 搭配控制器，负责处理双核和三核短语，并进行搭配识别；
[0011] 数据库包括标准词典、分类词典、搭配词典、末端词典以及感知词典；
[0012] 句法分析的层次属性包括语序、原文、词性、短语层、短语功能、搭配层、子句层、子句功能、修饰语层、处理状态、源词性；
[0013] 步骤2,标注词性：
[0014] 计算机读入句子，以经过分词系统加工过的分词文件为源文件，按照词性控制器设定的词性标注标准，访问标准词典和分类词典，判断并标记句中词汇的词性；
[0015] 步骤3,句末短语识别和句末句法功能分析：
[0016] 短语控制器访问搭配词典和末端词典，按照短语控制器设定的处理规则，识别短语；随后按照句子结构控制器设定的步骤，判断句末成分zhi及其范围并确定下一步处理的起点；
[0017] 步骤4,句中短语识别和句中句法功能分析：
[0018] 从步骤3设定的起点开始，按照短语控制器设定的处理规则，继续处理句中短语，再次访问搭配词典、末端词典和感知词典，并通过短语控制器和搭配控制器相配合，完成句中短语分析任务；伴随每一次短语识别操作，同时配置句中成分vmid，并把句中成分vmid 的修饰语记录在短语功能属性中；按照流程继续处理，最后一个被识别的vmid就是句首处理的起点，而句中成分的范围就是首个vmid跟最后一个vmid之间的跨距；
[0019] 步骤5,句首短语识别和句首句法功能分析：
[0020] 从步骤4设定的起点开始，判断句首句法功能和范围，然后按照句首短语结构和处理流程，完成句首成分sj的识别；
[0021] 步骤6,系统数据结构调整，并输出文本：
[0022] 根据用户对于所需分析句子内容的需求，输出相对应的数据文本。
[0023] 本发明的特点还在于，
[0024] 词性控制器中词性分为六个大类，分别为：体词、动词、形容词、语气词、介词、连词，还包括特殊类，词性标注的具体标准如下表：
[0026] 短语结构控制器主要设定了四种短语结构，分别为单核短语SP、双核短语DP、三核短语TP和特殊短语，具体结构形式描写如下：
[0027] A.单核短语SP :SP -前置部分head+核心词+后置部分xsuf ;
[0028] xsuf中的"X"指不同词性的后置词或短语，" + "指相邻关系；
[0029] 处理单核短语的关键点是识别核心词，处理的基本原则是：围绕核心词，先根据右侧词性判断，再根据左侧词性判断，具体处理方法如下：
[0030] a.核心词右侧：
[0031] ①访问搭配词典，把查找到的两个词wl和w2分别在短语词标记为跟其词性相同的核心词；如果wl和w2右侧的词符合xsuf的条件，把该词在短语层记录为xsuf ;
[0032] ②设两个连续的词wl和w2,如果w2符合xsuf的条件，那么，把wl在短语层记录为跟其词性相同的核心词、w2在短语层记录为xsuf ;
[0033] 以上①和②所指的符合xsuf的条件是：跟末端词典匹配的词、跟xsuf词性匹配的后置词、跟方位词词性匹配的词；
[0034] ③设定具体规则识别核心词和xsuf，具体规则有：v/a+得+xsuf、v/a+不+a、动词重叠式以及语法书中载有的宾补短语或中补短语规则；
[0035] b.核心词左侧：
[0036] 设三个连续项目，词wl、w2和参照点xend，如果wl是w2的head，而w2不可能是xend的head，那么，把w2在短语层记录为跟其词性相同的核心词、wl在短语层记录为 head ;参照点xend是标点符号、特殊词类、连词、介词、代词、前一个处理流程的终点；对于体词性短语而言，head类型词有数量词、指示词、形容词、"的"字；对于动词和形容词而言， head类型词有句末语气词、情态类词、否定词、"地"字短语；
[0037] B.双核短语 DP :DP 一 SP+SP :
[0038] 双核结构中的第一个SP为动词、介词，第二个SP为体词，或者动词、形容词；
[0039] C.三核短语 TP :TP - SP+SP+SP :
[0040] 三核短语的主要类别有：① vc+n+v ;②vc+nr+nc ;③have+n+v ;
[0041] D.特殊短语，主要包括以下几种类型：
[0042] a.的字短语DelP :DelP - w+del，其中w表示词，处理方式为：
[0043] ①以"del+是"为条件，把del认定为DeIP的核心词；
[0044] ②以"del+情态类词vh"为条件，把del认定为DelP的核心词；
[0045] b.地字短语De2P :De2P - w+de2,其中w表示词，处理方式为：
[0046] ①以"de2+v/a/顿号"为起点，如果其左侧出现的词性为adv/a/v，那么，把从起点开始到逆序不符合条件的词性为止，在短语层标记为isyu，在短语功能层标记为修饰语；
[0047] ②以"标点/n+adv/bu"为起点，顺序查找，如果出现"de2+动词短语"为终点，并且从起点到终点的跨距小于5,且词均为单字词，把起点至de2的连续体在短语层标记为 isyu，在短语功能层标记为修饰语；；
[0048] c.仿四字语短语IP :IP - v/a+n+v/a+n，处理方式为：以标点符号、"的"字、"地" 字、"是"字、介词、情态类词为起点，逆序查找符合规则条件的连续单字词，把符合四字语规则条件的序列在短语层标记为IP。
[0049] 句子结构控制器中对于句子结构的定义为：
[0050] -个完整的汉语句子S按照自然语言的语序依次由句首界域sj、句中过程vmid和句末认知结果zhi三部分构成，即句首成分、句中成分和句末成分，句子结构分析的总体流程为：
[0051] zhi识别一vmid识别一sj识别。
[0052] 搭配控制器是一种按照特定条件启动的双核心词查找器；首次使用时，以标点符号为启动条件，此后在处理过程中随具体流程使用，具体处理方式如下：
[0053] 设startp为句中的一个特定点，wl和w2为两个核心词，程序从startp开始逆序查找距离最近的wl，再找到距离wl最近的w2,把wl和w2认定为一个搭配项目并在搭配层、短语层给予记录；查找过程不能跨越zhi和标点符号逗号；当wl为体词时，w2必须是动词或者介词；当wl为动词时，w2必须是情态类词；
[0054] startp指词性为shi、vj、prep、del、adv/bu、vh的词以及逆序处理zhi完成后处理状态层第一个为空的词项。
[0055] 步骤3具体为：
[0056] 3. 1句末短语识别：
[0057] 依照短语控制器设定的单核短语处理规则，进行单核短语识别；依照搭配控制器设定的方式，进行双核短语识别；
[0058] 3. 2句末句法功能分析：
[0059] 句子末端成分的判断及其范围确定，具体流程如下：
[0060] 3. 2. I zhi 处理
[0061 ] 流程1 :以标点符号为起点逆序查找：
[0062] 参与处理的标点符号为句号、问号、感叹号、分号、冒号、逗号，以及句末语气词，具体处理方法为：
[0063] 把紧邻上述符号或语气词的动词短语、形容词短语在子句层标记为zhi ;
[0064] 流程2 :自然句子中间的zhi :
[0065] 按照逆序原则依次将以下项目在子句层标记为zhi :
[0066] 1)句中的"是"类词，词性标记为shi ;
[0067] 2)句中序列 "n+de3+v/a" 中的"v/a" ；
[0068] 流程3 :以时间词为起点逆序识别：
[0069] 把紧邻时间词的动/形短语在子句层给予标记；
[0070] 流程4 :以"的"字为起点逆序识别：
[0071] 把"动词短语/形容词短语+的+非标点"在修饰语层给予标记；
[0072] 3. 2. 2双核短语v+n结构作为zhi处理
[0073] 此步骤主要针对步骤3. 2. 1的流程1-4中未能处理的以v+n结构结束的句子，这些句子以句号、问号、感叹号、分号、冒号、逗号以及句末语气词结束：
[0074] 流程5 :句末为v+n结构
[0075] 以逆序中紧邻以上标点符号或语气词的第一个体词为起点，通过查找搭配词典，把匹配项目在搭配层、子句层给予标记；
[0076] 流程6 :按照词性识别v+n结构
[0077] 按照搭配控制器设定的方法查找搭配项目并在搭配层、短语层标记，在子句层标记为zhi ;
[0078] 流程7 :以流程6的处理结果为起点，如果起点词为介词而紧邻的词为动词，把该动词识别为v+n结构中的V，并在搭配层、子句层给予标记；
[0079] 流程8 :当流程5-7处理失败时，以逆序中紧邻以上标点符号或语气词的第一个体词为起点，逆序寻找出现的第一个词性为adv或者词性为vh的词，并把体词与该词自动判断为v+n结构，然后在搭配层、子句层给予标记；
[0080] 3. 2. 3 :zhi的修饰语处理
[0081] 以步骤3. 2. 1和3. 2. 2处理的结果为起点，逆序处理zhi的各种修饰语；
[0082] 流程9 :按照词性识别
[0083] 把词性为bu、adv的词和短语层为isyu的词识别为修饰语，并在子句层、修饰语层、短语功能属性中给予标记；
[0084] 流程10 :按照情态词识别
[0085] 把存在的情态词短语识别为修饰语，并在子句层、子句功能、短语功能属性中标记；
[0086] 3. 2. 4 :混合处理，以步骤3. 2. 3的处理结果为起点，继续逆序处理与zhi相关的介词短语和使动词短语：
[0087] 流程11 :识别句子的过程vmid :
[0088] 以步骤3. 2. 3的处理结果为

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：闻永毅;
技术所有人：陕西中医药大学;闻永毅;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。