本发明提出了基于园区感知数据的自动语义标注方法和系统,属于语义标注。
背景技术:
1、园区各种各样设备的应用,从而产生了海量的物联网感知数据。这些来源各异的感知数据,具有不同的数据格式和含义,无法实现园区系统之间的语义互操作。实现物联网各实体之间信息交互,需要对异构数据的语义含义进行统一描述。语义标注技术可以实现对数据的统一描述和物联网各实体之间的数据融合。但是,当前研究已有的手动和半自动标注方法仍然需要大量的专家知识和经验,并且存在标注能力不足和效率低下的问题。
技术实现思路
1、本发明提供了基于园区感知数据的自动语义标注方法和系统,用以解决现有技术中标注能力不足和效率低下的问题,所采取的技术方案如下:
2、基于园区感知数据的自动语义标注方法,所述基于园区感知数据的自动语义标注方法包括:
3、收集来自不同园区的感知设备和传感器的数据信息,形成数据信息集合;
4、对所述数据信息集合中的各个数据进行数据预处理,获得预处理后的数据信息集合;
5、对所述数据信息集合进行聚类分析,利用聚类结果和园区感知数据的本体进行自动标注和数据共享。
6、进一步地,收集来自不同园区的感知设备和传感器的数据信息,形成数据信息集合,包括:
7、控制不同园区的感知设备和传感器实时采集不同园区对应的设备所处环境温度信息;
8、控制不同园区的感知设备和传感器实时采集不同园区对应的设备所处环境湿度信息;
9、控制不同园区的感知设备和传感器实时采集不同园区对应的设备运行时长信息;
10、控制不同园区的感知设备和传感器实时采集不同园区对应的人流信息;
11、针对不同园区对应的设备所处环境温度信息构建第一数据信息集合;
12、针对不同园区对应的设备所处环境湿度信息构建第二数据信息集合;
13、针对不同园区对应的设备运行时长信息构建第三数据信息集合;
14、针对不同园区对应的人流量信息构建第四数据信息集合;
15、其中,所述设备所处环境温度信息、设备所处环境湿度信息、设备运行时长信息和人流量信息即为所述数据信息包括。
16、进一步地,对所述数据信息集合中的各个数据进行数据预处理,包括:
17、对所述数据信息集合中的各个数据进行去噪声处理,获得去噪声处理后的数据集合;
18、对所述去噪声处理后的数据集合进行异常值剔除处理。
19、进一步地,对所述去噪声处理后的数据集合进行异常值剔除处理,包括:
20、将所述去噪声处理后的数据集合中的每个数据与其对应的理论数据进行比较,获得比较结果;
21、当比较结果现实所述去噪声处理后的数据集合中的数据与其对应的理论数据之间的差异值超过预设的差异阈值时,则判定当前所述去噪声处理后的数据集合中的数据与其对应的理论数据之间的差异值超过预设的差异阈值所对应的数据集合中的数据为异常值;
22、提取所述去噪声处理后的数据集合中的异常值;
23、提取所述异常值对应数据的理论数据;
24、通过所述异常值及其对应数据的理论数据获取补充数据值;其中,所述补充数据值通过如下公式获取:
25、x=[1+ln(1+(xy-xl)/min(xy,xl))]×xl
26、其中,x表示补充数据值;xy表示异常值;xl表示所述异常值对应数据的理论数据;
27、将所述异常值进行剔除,并利用补充数据值对被剔除的所述异常值进行数据填补。
28、进一步地,对所述数据信息集合进行聚类分析,利用聚类结果和园区感知数据的本体进行自动标注和数据共享,包括:
29、对所述数据信息集合进行聚类分析,将相似的数据点分组到不同的簇中,获得聚类分析结果;其中,所述聚类结果即为包含有相似的数据点的不同的簇;
30、建立园区感知数据的本体,根据预先定义的规则将数据映射到园区感知数据的本体中;
31、利用聚类分析结果、本体和预先定义的规则对感知数据进行自动标注;其中,所述自动标注包括数据的类型、单位和含义;
32、将带有标注的感知数据共享至园区的设备监控终端。
33、基于园区感知数据的自动语义标注系统,所述基于园区感知数据的自动语义标注系统包括:
34、数据信息集合形成模块,用于收集来自不同园区的感知设备和传感器的数据信息,形成数据信息集合;
35、数据预处理模块,用于对所述数据信息集合中的各个数据进行数据预处理,获得预处理后的数据信息集合;
36、自动标注和数据共享模块,用于对所述数据信息集合进行聚类分析,利用聚类结果和园区感知数据的本体进行自动标注和数据共享。
37、进一步地,所述数据信息集合形成模块包括:
38、第一数据信息采集模块,用于控制不同园区的感知设备和传感器实时采集不同园区对应的设备所处环境温度信息;
39、第二数据信息采集模块,用于控制不同园区的感知设备和传感器实时采集不同园区对应的设备所处环境湿度信息;
40、第三数据信息采集模块,用于控制不同园区的感知设备和传感器实时采集不同园区对应的设备运行时长信息;
41、第四数据信息采集模块,用于控制不同园区的感知设备和传感器实时采集不同园区对应的人流信息;
42、第一数据信息集合构建模块,用于针对不同园区对应的设备所处环境温度信息构建第一数据信息集合;
43、第二数据信息集合构建模块,用于针对不同园区对应的设备所处环境湿度信息构建第二数据信息集合;
44、第三数据信息集合构建模块,用于针对不同园区对应的设备运行时长信息构建第三数据信息集合;
45、第四数据信息集合构建模块,用于针对不同园区对应的人流量信息构建第四数据信息集合;
46、其中,所述设备所处环境温度信息、设备所处环境湿度信息、设备运行时长信息和人流量信息即为所述数据信息包括。
47、进一步地,所述数据预处理模块包括:
48、去噪声处理模块,用于对所述数据信息集合中的各个数据进行去噪声处理,获得去噪声处理后的数据集合;
49、异常值剔除处理模块,用于对所述去噪声处理后的数据集合进行异常值剔除处理。
50、进一步地,所述异常值剔除处理模块,包括:
51、比较执行模块,用于将所述去噪声处理后的数据集合中的每个数据与其对应的理论数据进行比较,获得比较结果;
52、异常值获取模块,用于当比较结果现实所述去噪声处理后的数据集合中的数据与其对应的理论数据之间的差异值超过预设的差异阈值时,则判定当前所述去噪声处理后的数据集合中的数据与其对应的理论数据之间的差异值超过预设的差异阈值所对应的数据集合中的数据为异常值;
53、异常值提取模块,用于提取所述去噪声处理后的数据集合中的异常值;
54、理论数据提取模块,用于提取所述异常值对应数据的理论数据;
55、补充数据值获取模块,用于通过所述异常值及其对应数据的理论数据获取补充数据值;其中,所述补充数据值通过如下公式获取:
56、x=[1+ln(1+(xy-xl)/min(xy,xl))]×xl
57、其中,x表示补充数据值;xy表示异常值;xl表示所述异常值对应数据的理论数据;
58、数据剔除及填补模块,用于将所述异常值进行剔除,并利用补充数据值对被剔除的所述异常值进行数据填补。
59、进一步地,所述自动标注和数据共享模块,包括:
60、聚类分析模块,用于对所述数据信息集合进行聚类分析,将相似的数据点分组到不同的簇中,获得聚类分析结果;其中,所述聚类结果即为包含有相似的数据点的不同的簇;
61、本体构建模块,用于建立园区感知数据的本体(ontology),根据预先定义的规则将数据映射到园区感知数据的本体中;
62、自动标注执行模块,用于利用聚类分析结果、本体和预先定义的规则对感知数据进行自动标注;其中,所述自动标注包括数据的类型、单位和含义;
63、数据共享执行模块,用于将带有标注的感知数据共享至园区的设备监控终端。
64、本发明有益效果:
65、本发明提出的基于园区感知数据的自动语义标注方法和系统将聚类分析技术和语义网中的本体开发及规则推理技术,引入到物联网感知数据的自动语义标注方法。使用自动语义标注方法为物联网感知数据标注语义信息,给数据提供统一的标注标准和语义描述,既可以解决物联网系统中各种异构设备和通信协议生成的数据格式问题,实现从数据资源中获取知识的自动化,提升底层传感器网络和设备之间的数据共享效率。同时又可以减少人力和资源投入,提高标注效率和数据利用率。