一种利用二进制提取、识别、归类文件的系统的制作方法

文档序号:30243084发布日期:2022-06-02 00:13阅读:89来源:国知局
一种利用二进制提取、识别、归类文件的系统的制作方法

1.本发明涉及医疗文件数据处理技术领域,具体为一种利用二进制提取、识别、归类文件的系统。


背景技术:

2.文件归类是信息学和计算机科学中的一个技术路线。其任务是将一个文件分配到一个或者多个类别中。可以是通过人工分类完成,也可以是通过计算机算法实现。通过归类,可以统一数据结构,实现标准化的输出。
3.当前有大量医院所使用的医疗信息系统老旧,接口无法得到正常维护,并且有的医院由于更换厂商,会使病例、检查检验等数据的数据结构存在不规范的现象,导致数据显示不统一,会影响数据获取的效果。


技术实现要素:

4.为实现以上利用二进制提取、识别、归类文件的系统目的,本发明通过以下技术方案予以实现:一种利用二进制提取、识别、归类文件的系统,包括数据获取模块、识别模块、提取模块、归类模块和新数据库;
5.所述数据获取模块用于获取医疗系统内部医疗数据库的二进制数据包;
6.所述识别模块用于识别所述获取模块获取二进制数据包的数据信息;
7.所述提取模块用于提取所述识别模块识别的二进制数据包的数据信息;
8.所述归类模块用于对所述提取模块提取的数据信息进行归类;
9.所述新数据库用于存储经新数据结构处理之后的数据信息。
10.一种利用二进制提取、识别、归类文件的方法,具体包括以下步骤:
11.s1、利用数据获取模块获取医疗系统内部医疗数据库的二进制数据包;
12.s2、利用识别模块和提取模块对获取的所述二进制数据包进行识别,并提取所述二进制数据包中的数据信息;
13.s3、利用归类模块对提取的所述数据信息进行归类处理;
14.s4、将归类的数据包按照统一数据结构进行储存,建立新数据库。
15.进一步的,所述s1中获取所述二进制数据包时,同步获取所述二进制数据包在医疗系统中所属的类目,并生成数据标签。
16.进一步的,所述s2中所述数据信息的提取具体为:根据识别的所述二进制数据包,提取所述二进制数据包中的数据信息,并根据所述数据信息中出现的数据词频,提取多个关键词。
17.进一步的,所述s3中所述数据信息归类的具体步骤包括:
18.s301、利用sharksearch算法对s2中提取的所述数据信息与所述数据标签进行相关度分析;
19.s302、判断所述数据标签与s2中提取的所述数据信息之间的相关程度是否达到设
定的相关率;
20.s3021、若所述数据标签与s2中提取的所述数据信息之间的相关程度达到设定的相关率,以所述数据标签建立新的归类分类标签;
21.s3022、若所述数据标签与s2中提取的所述数据信息之间的相关程度未达到设定的相关率,重新设定所述数据信息的归类分类标签。
22.进一步的,所述s3022中所述数据信息的归类分类标签的重新设定包括:
23.s3031、利用sharksearch算法对s2中提取的所述数据信息与所述关键词进行相关度分析;
24.s3032、以每个所述关键词的相关率作为关键词在所述数据信息中的权重;
25.s3033、根据每个所述关键词在所述数据信心中的权重和在所述数据信息中出现的词频,计算每个所述关键词的相符值;
26.s3033、通过每个所述关键词的相符值之间的对比,以最高的相符值对应的所述关键词建立新的归类分类标签。
27.进一步的,所述s4中新数据库的建立具体包括:
28.s401、预定数据结构模板;
29.s402、将归类之后的数据包按照s401中的所述数据结构模板进行统一处理;
30.s403、将处理之后的数据包按照归类分类标签进行存储,从而建立新数据库。
31.与现有技术相比,本发明具有以下有益效果:
32.1、该利用二进制提取、识别、归类文件的系统,可以通过获取医疗系统中医疗数据库的二进制数据包,识别、提取和归类医疗文件信息数据,同时可以按照预定的数据结构,对归类的数据信息进行同一数据结构处理,并存储到数据库中,以实现数据信息的统一样式的前端输出,无需通过接口对接,可减少医院数据维护成本。
33.2、该利用二进制提取、识别、归类文件的系统,通过对医疗文件信息数据的识别和提取,可对医疗文件数据进行类别判断修正处理,从而提高文件数据与归类类别的相符度,有利于提高医疗文件信息数据内容获取的精准度。
附图说明
34.图1为本发明医疗系统数据归类和获取的流程图。
具体实施方式
35.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
36.该利用二进制提取、识别、归类文件的系统的实施例如下:
37.一种利用二进制提取、识别、归类文件的系统,包括数据获取模块、识别模块、提取模块、归类模块和新数据库;
38.所述数据获取模块用于获取医疗系统内部医疗数据库的二进制数据包;
39.所述识别模块用于识别所述获取模块获取二进制数据包的数据信息;
40.所述提取模块用于提取所述识别模块识别的二进制数据包的数据信息;
41.所述归类模块用于对所述提取模块提取的数据信息进行归类;
42.请参阅图1,一种利用二进制提取、识别、归类文件的系统,包括以下步骤:
43.s1、利用数据获取模块获取医疗系统内部医疗数据库的二进制数据包,在获取所述二进制数据包时,同步获取所述二进制数据包在医疗系统中所属的类目,并生成数据标签;
44.s2、利用识别模块和提取模块对获取的所述二进制数据包进行识别,并提取所述二进制数据包中的数据信息,所述数据信息的提取具体为:根据识别的所述二进制数据包,提取所述二进制数据包中的数据信息,并根据所述数据信息中出现的数据词频,提取多个关键词;
45.s3、利用归类模块对提取的所述数据信息进行归类处理;
46.s301、利用sharksearch算法对s2中提取的所述数据信息与所述数据标签进行相关度分析;
47.s302、判断所述数据标签与s2中提取的所述数据信息之间的相关程度是否达到设定的相关率;
48.s3021、若所述数据标签与s2中提取的所述数据信息之间的相关程度达到设定的相关率,以所述数据标签建立新的归类分类标签;
49.s3022、若所述数据标签与s2中提取的所述数据信息之间的相关程度未达到设定的相关率,重新设定所述数据信息的归类分类标签。
50.s3031、利用sharksearch算法对s2中提取的所述数据信息与所述关键词进行相关度分析;
51.s3032、以每个所述关键词的相关率作为关键词在所述数据信息中的权重;
52.s3033、根据每个所述关键词在所述数据信心中的权重和在所述数据信息中出现的词频,计算每个所述关键词的相符值;
53.s3033、通过每个所述关键词的相符值之间的对比,以最高的相符值对应的所述关键词建立新的归类分类标签。
54.s4、将归类的数据包按照统一数据结构进行储存,建立新数据库:
55.s401、预定数据结构模板;
56.s402、将归类之后的数据包按照s401中的所述数据结构模板进行统一处理;
57.s403、将处理之后的数据包按照归类分类标签进行存储,从而建立新数据库。
58.在医院内部医疗系统软件电脑上安装该系统,或将系统安装在服务器上,首先用户通过用户端发出获取数据的请求,并通过医疗系统软件的前台程序向医疗系统中的医疗数据库发出获取数据的请求,医疗数据库接收到获取数据的请求后,开始回复数据,在回复数据时,利用数据获取模块获取医疗数据库回复的二进制数据包。
59.在获取所述二进制数据包时,同步获取所述二进制数据包在医疗系统中所属的类目,并生成数据标签,然后利用识别模块和提取模块对获取的所述二进制数据包进行识别,并提取所述二进制数据包中的数据信息,并根据所述数据信息中出现的数据词频,提取多个关键词。
60.利用归类模块对提取的所述数据信息进行归类处理,利用sharksearch算法对提
取的所述数据信息与所述数据标签进行相关度分析,判断所述数据标签与提取的所述数据信息之间的相关程度是否达到设定的相关率,若所述数据标签与提取的所述数据信息之间的相关程度达到设定的相关率,以所述数据标签建立新的归类分类标签。
61.若所述数据标签与提取的所述数据信息之间的相关程度未达到设定的相关率,重新设定所述数据信息的归类分类标签,利用sharksearch算法对提取的所述数据信息与所述关键词进行相关度分析,以每个所述关键词的相关率作为关键词在所述数据信息中的权重,根据每个所述关键词在所述数据信心中的权重和在所述数据信息中出现的词频,计算每个所述关键词的相符值,通过每个所述关键词的相符值之间的对比,以最高的相符值对应的所述关键词建立新的归类分类标签。
62.归类分类标签建立之后,可将数据包通过医疗系统软件的前端输出,以数据显示的方式发送给用户,或者预定数据结构模板,将归类之后的数据包按照所述数据结构模板进行统一处理,将处理之后的数据包按照归类分类标签进行存储,从而建立新数据库,通过新数据库,按照新数据结构将回复数据包发送给用户。
63.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1