本发明涉及企业数据管理,尤其涉及一种基于数字孪生的电子沙盘系统构建方法、装置、电子设备及计算机可读存储介质。
背景技术:
1、数字孪生是充分利用物理模型、传感器更新、运行历史等数据,集成多学科、多物理量、多尺度、多概率的仿真过程,在虚拟空间中完成映射,从而反映相对应的实体装备的全生命周期过程。企业角度的数字孪生,最主要是将企业数据通过某关联技术实现对企业数据的实时同步、监督和查阅功能。
2、电子沙盘系统指通过计算机模拟企业运营的一种可视化系统,一般情况下电子沙盘系统需要结合企业数据实现数据的可视化功能。
3、目前基于企业的数字孪生电子沙盘系统构建方法,主要是获取企业的企业数据,通过可视化手段可视化出企业数据供企业用户宏观了解,虽然实现了企业的电子沙盘构建目的,但未结合企业的企业活动,导致电子沙盘系统所展示的企业内容相对单一且匮乏。
技术实现思路
1、本发明提供一种基于数字孪生的电子沙盘系统构建方法、装置及计算机可读存储介质,其主要目的在于解决企业的电子沙盘系统所展示的企业内容相对单一且匮乏的问题。
2、为实现上述目的,本发明提供的一种基于数字孪生的电子沙盘系统构建方法,包括:
3、接收目标企业的电子沙盘系统构建指令,根据所述电子沙盘系统构建指令访问企业的存储数据库;
4、从所述存储数据库中采集企业数据,以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集;
5、压缩所述目标网页集的dom树,得到压缩dom集;
6、计算所述压缩dom集中每个节点的文本链接密度及噪声链接密度,根据所述噪声链接密度清洗所述目标网页集,得到清洗网页集,利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本;
7、将所述目标文本与所述企业数据执行对应操作,得到企业数据-企业文本对应集;
8、基于预构建的网页可视化方法,可视化所述企业数据-企业文本对应集,生成所述目标企业的电子沙盘系统。
9、可选地,所述以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集,包括:
10、获取所述目标企业的企业名称、企业董事会成员名称、企业产品名称,其中所述企业名称包括企业简称、企业产品名称包括产品简称;
11、将所述企业名称、企业董事会成员名称、企业产品名称作为所述搜索关键字;
12、启动所述搜索引擎搜索得到与搜索关键字相关的原始网页集;
13、剔除所述原始网页集中存在访问风险的网页,得到所述目标网页集。
14、可选地,所述剔除所述原始网页集中存在访问风险的网页,得到所述目标网页集,包括:
15、提取每个原始网页的dom树,依次校验每个dom树的标签是否有异常标签,其中异常标签包括非法访问链接;
16、剔除包括异常标签的dom树所对应的原始网页,得到所述目标网页集。
17、可选地,所述压缩所述目标网页集的dom树,得到压缩dom集,包括:
18、对每个目标网页所对应的dom树均执行元素类别划分,得到3种不同类别的元素集,其中所述3种不同类别包括用户交互类别、样式类别及容器类别,即元素集包括用户交互类别元素集、样式类别元素集及容器类别元素集;
19、剔除包括所述户交互类别元素集及样式类别元素集的节点,得到仅包括容器类别元素集的节点的dom树集;
20、将仅包括容器类别元素集的节点的dom树集执行层次遍历以剔除空节点,得到所述压缩dom集。
21、可选地,所述计算所述压缩dom集中每个节点的文本链接密度及噪声链接密度,包括:
22、从所述压缩dom集中提取所有的容器类别元素;
23、将所有的容器类别元素分为文本字符类元素集和超链接类字符集;
24、根据所述文本字符类元素集和超链接类字符集计算得到所述文本链接密度;
25、计算每个压缩dom的结构相似度,根据所述结构相似度和所述超链接类字符集,计算得到所述噪声链接密度。
26、可选地,所述根据所述文本字符类元素集和超链接类字符集计算得到所述文本链接密度,包括:
27、采用如下计算公式,计算得到所述文本链接密度:
28、
29、其中,dn为容器类别元素所在节点n及节点n的所有子节点的集合,ci为节点i所包含的文本字符,为节点i所包含的超链接类字符,h为超链接类字符的标识符,thdn为节点n的文本链接密度。
30、可选地,所述计算每个压缩dom的结构相似度,包括:
31、采用如下计算公式,计算得到每个压缩dom的结构相似度:
32、
33、其中,hs表示第s个压缩dom与其他网页的dom树的结构相似度,p(i)表示是节点i路径出现的概率,li为节点i内部的子节点集合,lb表示以2为底的对数符号,其中节点i路径出现的概率表示基于节点i及其子节点的结构关系在已有dom树集合中出现的概率值。
34、可选地,所述根据所述结构相似度和所述超链接类字符集,计算得到所述噪声链接密度,包括:
35、根据如下公式计算得到所述噪声链接密度:
36、
37、其中,hhds表示第s个压缩dom对应的所述噪声链接密度,dsn为第s个压缩dom的容器类别元素所在节点n及节点n的所有子节点的集合,表示节点i所包含的超链接类字符的字符长度,hs表示第s个压缩dom与其他网页的dom树的结构相似度。
38、可选地,所述利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本,包括:
39、提取文本链接密度大于指定文本阈值的容器类别元素,得到文本类别元素集;
40、获取所述文本类别元素集中每个文本类别元素的文本字段;
41、将每个文本字段按照对应的文本类别元素在dom树的结构,组建得到所述所述目标企业相关的目标文本。
42、为了解决上述问题,本发明还提供一种基于数字孪生的电子沙盘系统构建装置,所述装置包括:
43、电子沙盘系统构建启动模块,用于接收目标企业的电子沙盘系统构建指令,根据所述电子沙盘系统构建指令访问企业的存储数据库;
44、企业数据获取模块,用于从所述存储数据库中采集企业数据,以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集;
45、dom树压缩模块,用于压缩所述目标网页集的dom树,得到压缩dom集;
46、目标文本收集模块,用于计算所述压缩dom集中每个节点的文本链接密度及噪声链接密度,根据所述噪声链接密度清洗所述目标网页集,得到清洗网页集,利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本;
47、电子沙盘系统生成模块,用于将所述目标文本与所述企业数据执行对应操作,得到企业数据-企业文本对应集,基于预构建的网页可视化方法,可视化所述企业数据-企业文本对应集,生成所述目标企业的电子沙盘系统。
48、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
49、存储器,存储至少一个指令;及
50、处理器,执行所述存储器中存储的指令以实现上述所述的基于数字孪生的电子沙盘系统构建方法。
51、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于数字孪生的电子沙盘系统构建方法。
52、本发明实施例为解决背景技术所述问题,接收目标企业的电子沙盘系统构建指令,根据所述电子沙盘系统构建指令访问企业的存储数据库,从所述存储数据库中采集企业数据,由于企业数据是数字孪生下的电子沙盘系统构建的基础,因此本发明实施例先获取企业数据,进一步地,以所述目标企业为搜索关键字,通过搜索引擎搜索得到与所述目标企业相关的目标网页集,目标网页集的收集是为了获取企业的企业活动,从而将企业活动也集成至电子沙盘系统中以提高电子沙盘系统的展示内容丰富度,但由于部分网页存在异常、不安全、垃圾网页的可能性,故压缩所述目标网页集的dom树,得到压缩dom集,并计算所述压缩dom集中每个节点的文本链接密度及噪声链接密度,根据所述噪声链接密度清洗所述目标网页集,得到清洗网页集,利用所述文本链接密度从所述清洗网页集中识别与所述目标企业相关的目标文本,最后将所述目标文本与所述企业数据执行对应操作,得到企业数据-企业文本对应集,并基于预构建的网页可视化方法,可视化所述企业数据-企业文本对应集,生成所述目标企业的电子沙盘系统。因此本发明提出的基于数字孪生的电子沙盘系统构建方法、装置、电子设备及计算机可读存储介质,可以解决企业的电子沙盘系统所展示的企业内容相对单一且匮乏的问题。