一种基于词义加权TF-IDF疾病表征词提取方法

文档序号：28082865发布日期：2021-12-18 01:35阅读：来源：国知局

技术特征：
1.一种基于词义加权tf
‑
idf疾病表征词提取方法，其特征在于，包括以下步骤：(1)数据预处理。去除文本中的标点符号等特殊字符；使用分词工具对文本数据进行分词处理，并获取分词结果中词对应的词性；去除数据中非动词、名词、形容词和副词词性的其他词。(2)结合电子病历提取任务的特点，构建本地任务词库。其中，本地词库分为任务相关词库和非任务相关词库。(3)计算文本词义特征加权权重值。词义加权权重值计算分三种情形：a、词在任务相关词库中，词义加权权重值pho的计算公式为：pho＝c1；b、词在非任务相关词库中，词义加权权重值计算公式为：pho＝c2；c、词不在本地词库中，对于未收录在本地词库中的词，从文档的语义相关性推算词义加权权重值。(4)统计词频，计算逆文档频率，形成tf
‑
idf计算模型，并将词义权重引入模型，形成mw
‑
tf
‑
idf模型。引入词义加权的tf
‑
idf模型计算公式为：mw
‑
tf
‑
idf＝pho*tf
‑
idf；其中，mw
‑
tf
‑
idf为引入词义加权的tf
‑
idf模型。(5)模型运行，获取疾病表征词。2.根据权利要求1所述的一种基于词义加权tf
‑
idf疾病表征词提取方法，其特征在于，所述步骤(2)中本地任务词库包括两类：a、任务相关词库，该词库主要包括电子病历中与疾病相关的词；b、非任务相关词库，该词库主要包括电子病历中可能出现的与疾病无关的词。3.根据权利要求1所述的一种基于词义加权tf
‑
idf疾病表征词提取方法，其特征在于，所述步骤(3)中c情况：语义相关性，即在同一文本中出现的词共同揭示了同一主题，具有较高的语义相似性；语义相关性的特点形成的非词库中词的词义加权权重值加权计算公式为：pho＝(n1c1+n2c2)/(n1+n2)；其中，n1,n2分别为在任务相关词库和非任务相关词库的词的个数，c1与c2需根据提取任务的特点进行取值，一般有c1:c2>3。4.根据权利要求3所述的一种基于词义加权tf
‑
idf疾病表征词提取方法，其特征在于，所述取值分别为c1＝1.8、c2＝0.2，则词义特征加权计算公式如下：

技术总结
本发明公开了一种基于词义加权TF

技术研发人员：余肖生沈胜张合欢
受保护的技术使用者：三峡大学
技术研发日：2021.08.10
技术公布日：2021/12/17

完整全部详细技术资料下载

当前第2页1 2