基于人工智能的疾病诊断数据处理方法及系统与流程

文档序号：34916995发布日期：2023-07-28 00:19阅读：34来源：国知局

导航： X技术> 最新专利>医药医疗技术的改进;医疗器械制造及应用技术

本发明涉及数据处理，更具体涉及基于人工智能的疾病诊断数据处理方法及系统。

背景技术：

1、患者的疾病诊断信息，如病历都是人为编写或者手写的，其内容并没有严格的标准化格式，因此内容因人而异；尤其是一些历史病历可能是手写的，或者打印出来的，进一步加剧了病历文件中内容的差别。总而言之，也就是说病历是一个非标文件。

2、在基于病历信息进行数据统计分析，以及跨单位学术交流时可能需要筛选出相同类型的病历。在筛选时一般是根据不同的标签进行筛选，这就要求预先与各个病历进行标签化，但是病历文件大多都是非标文件，如何对病历文件进行标签化是亟待解决的技术问题。

技术实现思路

1、本发明所要解决的技术问题在于提供了基于人工智能的疾病诊断数据处理方法及系统，可以对病历文件进行标签化。

2、本发明是通过以下技术方案解决上述技术问题的：

3、本发明提供了基于人工智能的疾病诊断数据处理方法，所述方法包括：

4、识别出当前待处理病历中的文字；针对所述文字，利用关键词识别算法对当前待处理病历中的数据进行关键词提取，得到待处理关键词词组；

5、计算待处理关键词词组与现有的关键词词组之间的相似度结果，判断所述相似度结果是否大于第一预设阈值；

6、若是，将待处理关键词词组作为当前待处理病历的标签，并将当前待处理病历存入病历库中；

7、若否，将待处理关键词词组进行拆分得到若干个第一关键词，针对每一个第一关键词，将第一关键词与预设关键词词库进行匹配，若预设关键词词库中不存在与第一关键词相同的关键词，将第一关键词加入到预设关键词词库中，然后待处理关键词作为当前待处理病历的标签。

8、可选的，所述识别出当前待处理病历中的文字，包括：

9、获取当前待处理病历的格式信息，根据所述格式信息判断所述当前待处理病历属于图片格式还是文本格式；

10、若属于图片格式，利用ocr识别算法识别出当前待处理病历中包含的文字信息；

11、若属于文本格式，直接提取出当前待处理病历中的文字信息；

12、将所有文字信息作为当前待处理病历中的文字。

13、可选的，所述识别出当前待处理病历中的文字，包括：

14、获取当前待处理病历的格式信息，在当前待处理病历的格式信息属于预设格式时，解析当前待处理病历对应的文档，得到解析结果，并判断解析结果中是否存在图片数据；

15、若是，将当前待处理病历中的图片数据抽取出来得到图片部分；将文字部分抽取出来得到文字部分；

16、针对图片部分，利用ocr识别算法识别出当前待处理病历中包含的文字信息；

17、将文字信息插入到文字部分中对应位置，得到当前待处理病历中的文字。

18、可选的，所述计算待处理关键词词组与现有的关键词词组之间的相似度结果，包括：

19、针对待处理关键词词组中的每一个第一关键词，计算所述待处理关键词词组与现有的关键词词组中各个关键词之间的分词相似度；根据所述分词相似度与对应的第一权重之积，计算出第一关键词到现有的关键词词组的分词距离；

20、根据各个分词距离与对应的第二权重之积，计算出待处理关键词词组与现有的关键词词组之间的相似度结果。

21、可选的，所述根据所述分词相似度与对应的第一权重之积，计算出第一关键词到现有的关键词词组的分词距离，包括：

22、利用公式，计算出第一关键词到现有的关键词词组的分词距离，

23、lj为第一关键词到现有的关键词词组的分词距离；n为现有的关键词词组中各个关键词的总数量；wi为现有的关键词词组中各个关键词分别对应的权重；i为现有的关键词词组中各个关键词的编号；li为第一关键词到现有的关键词词组中每一个关键词的语义相似度。

24、可选的，所述根据各个分词距离与对应的第二权重之积，计算出待处理关键词词组与现有的关键词词组之间的相似度结果，包括：

25、根据各个分词距离的与对应的第二权重之积，计算出待处理关键词词组与现有的关键词词组之间的相似度结果，其中，

26、t为待处理关键词词组到现有的关键词词组之间的相似度结果；m为待处理关键词词组的数量；j为待处理关键词词组的序号；wj为现有的关键词词组对应的第二权重。

27、可选的，所述若预设关键词词库中不存在与第一关键词相同的关键词，将第一关键词加入到预设关键词词库中，然后待处理关键词作为当前待处理病历的标签，包括：

28、获取第一预设数量个其他待处理病历，获取其他待处理病历中包含的第二关键词，获取与第一关键词相同的第二关键词的词频；

29、在所述词频大于第二预设阈值时，将第一关键词加入到预设关键词词库中，然后待处理关键词作为当前待处理病历的标签。

30、可选的，所述第一预设数量的计算过程包括：

31、计算第一关键词相对于预设关键词词库中各个预设关键词的语义相似度；

32、将所述语义相似度按照从大到小的顺序排序，得到语义相似度序列；

33、筛选出计算语义相似度大于第三预设阈值的第二预设数量个顺序次序的目标语义相似度；

34、计算目标语义相似度的方差，根据所述方差，利用公式，k＝s/δ，计算第一预设数量，其中，

35、k为第一预设数量；s为；δ为目标语义相似度的方差。

36、可选的，所述获取与第一关键词相同的第二关键词的词频，包括：

37、识别出与第一关键词相同的第二关键词的命中数量，并获取其他待处理病历中包含的第二关键词总数量的平均值；

38、将所述命中数量相对于所述平均值的比值作为与第一关键词相同的第二关键词的词频。

39、本发明还提供了基于人工智能的疾病诊断数据处理系统，所述系统包括：

40、识别模块，用于识别出当前待处理病历中的文字；针对所述文字，利用关键词识别算法对当前待处理病历中的数据进行关键词提取，得到待处理关键词词组；

41、计算模块，用于计算待处理关键词词组与现有的关键词词组之间的相似度结果，判断所述相似度结果是否大于第一预设阈值；

42、第一存储模块，用于在所述计算模块的输出结果为是的情况下，将待处理关键词词组作为当前待处理病历的标签，并将当前待处理病历存入病历库中；

43、第二存储模块，用于在所述计算模块的输出结果为否的情况下，将待处理关键词词组进行拆分得到若干个第一关键词，针对每一个第一关键词，将第一关键词与预设关键词词库进行匹配，若预设关键词词库中不存在与第一关键词相同的关键词，将第一关键词加入到预设关键词词库中，然后待处理关键词作为当前待处理病历的标签。

44、本发明相比现有技术具有以下优点：

45、本发明通过自动化提取关键词形成待处理关键词词组，在待处理关键词词组与现有的关键词词组语义相似度较高的情况下，说明待处理关键词词组比较可靠，可以直接作为当前待处理病历的标签。如果待处理关键词词组与现有的关键词词组语义相似度较低，说明待处理关键词词组中存在新的关键词，因此，将待处理关键词词组中的新关键词加入到预设关键词词库中，再从根据预设关键词词库中的关键词生成当前待处理病历的标签，因此，本发明实施例可以自动为当前待处理病历进行标签化处理。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹群程亚慧应文晶彭拓柯锦渊
技术所有人：杭州心景科技有限公司
我是此专利的发明人

上一篇：一种应用于连续推送拉伸机上的压轮结构的制作方法
上一篇：一种数控光机主轴系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。