技术总结
本发明属于文本挖掘领域,具体涉及了一种非结构化医疗文本无监督症状自动识别方法、系统、装置,旨在解决现有医疗文本疾病症状自动识别方法计算复杂度高、具有很高的不可解释性的问题。本发明包括:自动获取症状实体,基于其字/词的位置信息,建立位置识别模型;从症状实体集合中学习字/词的嵌入表示,计算词嵌入空间中字/词的交互分值;提取待识别非结构化医疗文本的字/词序列,结合其在症状实体中的位置标注和交互分值,自动识别文本的症状实体。本发明利用自动获取的症状词典,充分挖掘症状实体的构词规律,有效实现医学症状实体的无监督自动抽取,模型计算复杂度低、精度高,同时减轻人工标注数据的代价,降低成本、错误率,提高效率。
技术研发人员:孙正雅;谷轩;张文生
受保护的技术使用者:中国科学院自动化研究所
技术研发日:2019.12.05
技术公布日:2020.03.27