非结构化医疗文本无监督症状自动识别方法、系统、装置与流程

文档序号：20205206发布日期：2020-03-27 22:35阅读：来源：国知局

技术总结
本发明属于文本挖掘领域，具体涉及了一种非结构化医疗文本无监督症状自动识别方法、系统、装置，旨在解决现有医疗文本疾病症状自动识别方法计算复杂度高、具有很高的不可解释性的问题。本发明包括：自动获取症状实体，基于其字/词的位置信息，建立位置识别模型；从症状实体集合中学习字/词的嵌入表示，计算词嵌入空间中字/词的交互分值；提取待识别非结构化医疗文本的字/词序列，结合其在症状实体中的位置标注和交互分值，自动识别文本的症状实体。本发明利用自动获取的症状词典，充分挖掘症状实体的构词规律，有效实现医学症状实体的无监督自动抽取，模型计算复杂度低、精度高，同时减轻人工标注数据的代价，降低成本、错误率，提高效率。

技术研发人员：孙正雅;谷轩;张文生
受保护的技术使用者：中国科学院自动化研究所
技术研发日：2019.12.05
技术公布日：2020.03.27