本发明涉及自然语言处理领域,尤其涉及一种基于语义文法和容错解析器的中医医案建模方法。
背景技术:
1、在中医医学领域中,中医医案承载着丰富的中医临床经验,是医学方面的重要信息来源,这些医案对于中医诊断、临床判断、经验总结以及个体化治疗方案的制定等方面具有极高的价值。中医医案文本具有其独特的专业性和特殊性。这些医案承载着中医领域的珍贵临床经验和知识,是中医医学的重要信息来源。然而,与通用自然语言文本不同,中医医案的语言具有复杂的术语和特定的语法结构,这增加了信息抽取和建模的复杂性。在中医医案中,医生使用特定的中医术语来描述患者症状、诊断和治疗方案,这些术语在通用语境下不具备相同的含义,因此需要专门的方法来处理这一领域的文本。
2、尽管信息抽取技术在通用自然语言处理领域取得了显著进展,但这些方法通常无法适应中医医案的特殊性。目前可用的信息抽取方法主要集中在英文文本上,构建了完善的语义知识库,如wordnet等。然而,对于中文文本,特别是特定专业领域的中文文本,现有技术的应用仍相对较少,且不够成熟。国内主要的语义知识库,如hownet,主要适用于通用知识信息的抽取,但无法满足中医医案中特定领域的专业术语和语法结构的要求。
3、语义文法的核心是语义文法产生式。领域知识的获取在很大程度上取决于语义文法产生式的数量和质量。如果某些产生式在语义文法中缺失,可能导致无法解析某些句子,从而使得部分领域知识无法获取。因此,提高知识获取的质量关键在于不断完善语义文法。
4、使用现有技术在中医医案建模中可能存在以下不足:
5、1.专业名词和术语的准确性:现有方法难以识别和处理中医医案中的专业名词和术语,这可能导致信息抽取的不准确性。
6、2.语法结构的特殊性:中医医案文本具有特定的语法结构,包括分段描述和特定诊断标准,这需要针对性的语法分析方法。
7、3.多义性处理:中医术语可能存在多重含义,现有方法无法正确解释上下文中的特定含义。
技术实现思路
1、针对现有技术中的不足,本发明提供了一种基于语义文法和容错解析器的中医医案建模方法,以解决现有技术中信息抽取不准确、无法适应特殊语法结构、无法理解上下文中的特定含义的技术问题。
2、本发明提供了一种基于语义文法和容错解析器的中医医案建模方法,包括如下步骤:
3、步骤1:对中医医案文本进行自然语言处理方法进行预处理;
4、步骤2:根据中医医案的文本结构、语言规范,通过fstd方法构建中医医案的语义文法,并从中筛选出待匹配解析的语义文法子集;
5、步骤3:通过优化后的earley解析器对待匹配解析的语义文法子集进行容错式解析,形成目标语义解析树;
6、步骤4:根据目标语义解析树获取候选词条的词类及文法产生式,并对词类及文法产生式进行过滤以及语义纠正,将过滤及纠正后的结果进行筛选添加到fstd的语义文法库中;
7、步骤5:在fstd的语义文法库中按照对应文法的抽取器对目标语义解析树中的内容进行结构化提取,得到结构化的中医医案;
8、步骤6:将结构化的中医医案分为事实集与判断集,并对包含多个含义的事实集、判断集分解成多个只具有单一含义的事实集、判断集;
9、步骤7:通过只具有单一含义的事实集与判断集构建中医医案模型,完成中医医案模型构建过程。
10、进一步地,所述步骤3中,对earley解析器的优化方法包括:
11、在进行容错解析的过程之中设置一个占位符,并对每个词类添加一个文法产生式,规定替换和删除操作只能用于设置的占位符。
12、进一步地,所述步骤3中,对earley解析器的优化方法包括:
13、当待匹配子句为对象在属性上的值时,不对格式为[u,a→α·tβ,i]、[j,a→α·tβ,v]的状态进行容错操作的推导。
14、进一步地,所述步骤3中,对earley解析器的优化方法包括:
15、在fstd方法构建中医医案的语义文法过程中,对部分对象增加特定符号,在earley解析器中对具有特定符号的对象不进行删除和/或替换操作。
16、进一步地,所述步骤3中,对earley解析器的优化方法包括:
17、在earley解析器的算法中加入ll预测方法,对下一步状态转移的解析过程进行预测。
18、进一步地,所述步骤4中,对词类及文法产生式进行过滤以及语义纠正,具体为:
19、对词类及文法产生式通过相似度算法和启发式规则进行过滤以及语义纠正。
20、与现有技术相比,本发明的优点在于:
21、1)综合解决中医医案的多重复杂性问题:本发明成功应对了中医医案文本的复杂性、信息的隐性、多样性,以及医案结构的多样性,以及中医领域专业知识的融合等技术问题。通过采用语义文法和容错解析器,我们能够有效地对中医医案的语法结构和领域专业知识进行建模。利用语义分类与描述框架的知识库,我们对中医医案的事件语义进行精确分类,并借助earley解析算法进行推导,获得了中医医案的结构化信息。
22、2)高效率的解析器优化:本发明设计了基于earley算法的解析器,并综合运用多类策略,显著提高了解析效率,降低了解析时间,减少了解析器状态数量以及解析树的复杂性。这一创新性优化使得大规模中医医案的数据挖掘变得更为高效和可行。
23、3)高度专业的中医医案建模:本发明构建了专门的语义文法和领域词条解析词典,并通过容错解析器实现了领域语义文法的自动学习。这使得本发明在捕捉中医领域特有的语义和知识方面表现出色,与通用领域的信息抽取模型有显著区别。这一创新性的方法提高了解析器的解析质量,为中医医案提供了更专业和准确的建模。
1.一种基于语义文法和容错解析器的中医医案建模方法,其特征在于,包括如下步骤:
2.如权利要求1所述的基于语义文法和容错解析器的中医医案建模方法,其特征在于,所述步骤3中,对earley解析器的优化方法包括:
3.如权利要求1所述的基于语义文法和容错解析器的中医医案建模方法,其特征在于,所述步骤3中,对earley解析器的优化方法包括:
4.如权利要求1所述的基于语义文法和容错解析器的中医医案建模方法,其特征在于,所述步骤3中,对earley解析器的优化方法包括:
5.如权利要求1所述的基于语义文法和容错解析器的中医医案建模方法,其特征在于,所述步骤3中,对earley解析器的优化方法包括:
6.如权利要求1所述的基于语义文法和容错解析器的中医医案建模方法,其特征在于,所述步骤4中,对词类及文法产生式进行过滤以及语义纠正,具体为: