网页登录实体识别方法、装置、电子设备及存储介质与流程

文档序号:30306860发布日期:2022-06-05 06:42阅读:89来源:国知局
网页登录实体识别方法、装置、电子设备及存储介质与流程

1.本发明涉及数据识别领域,特别涉及一种网页登录实体识别方法、装置、电子设备及存储介质。


背景技术:

2.传统的基于网页数据登录实体识别方法主要有基于规则的方法和基于传统机器学习的方法,它们都需要对渲染后的网页数据,针对不同的登录实体的特点,相对独立的从特定类型的网页标签及包含特定关键词的网页标签中,提取登录实体识别中依赖的多处关键位置信息,然后根据不同的登录实体设计各种规则、特征,最后判断某种登录实体的关键特征是否存在于信息中,并最终返回识别的结果。
3.因此,随着现在登录方式不断更新以及新型登录类型不断增加,传统网站识别缺点日渐突出。一方面,对于基于规则的方法,登录实体识别规则难以维护,需要随着网页登录方式的变动不断更新,极其浪费人力资源成本,而且还可能存在遗漏、错写规则等问题,识别效果日渐衰退。另一方面,传统建模方法缺乏对登录入口整体信息的认识,无法充分利用网页结构信息来关联多个登录实体的识别,随着网络安全意识的提升,登录实体的有效特征越来越少,识别难度越来越大,使得基于传统方法的登录实体识别的效果越来越差。


技术实现要素:

4.基于此,本技术实施例提供了一种网页登录实体识别方法、装置、电子设备及存储介质,相比于现有技术提高了登录实体识别的识别效果。
5.第一方面,提供了一种网页登录实体识别方法,该方法包括:
6.通过正则匹配法获取候选登录网页数据,所述候选登录网页数据为可能包含登录功能的网页数据;
7.将所述候选登录网页数据通过正则匹配法抽取出候选网页标签,并根据所述候选网页标签之间的优先级和候选网页标签属性确定候选网页标签的实体边界;
8.基于候选网页标签的关键词及候选网页标签之间的距离构建图数据,其中,候选网页标签之间的距离通过各个候选网页标签的实体边界确定;
9.将构建得到的图数据输入至训练完成的网页登录实体识别模型中得到网页登录实体识别类型列表。
10.可选地,在将构建得到的图数据输入至训练完成的网页登录实体识别模型之前,所述方法还包括:
11.将不同类型的登录网页数据进行数据预处理转换为网页标签图数据,输入至图神经网络模型进行模型训练并进行函数调优、参数调优,直至训练完成得到网页登录实体识别模型。
12.可选地,所述基于候选网页标签的关键词及候选网页标签之间的距离构建图数据,包括:
13.使用tf-idf方法选择候选网页标签的关键词,使用关键词词频量化候选网页标签节点特征;
14.基于网页dom tree计算候选网页标签之间的距离,计算得到网页标签节点之间的边权重;
15.基于候选网页标签节点特征和网页标签节点之间的边权重构建网页标签图数据。
16.可选地,所述基于网页dom tree计算候选网页标签之间的距离,计算得到网页标签节点之间的边权重,包括通过第一公式进行计算,所述第一公式具体包括:
17.similarity=(1-distance)/max(path length 1,path length 2)其中,similarity表示网页标签节点之间的边权重,distance表示候选网页标签之间的距离,pathlength1和pathlength2分别为两个候选网页标签在domtree中深度。
18.可选地,将所述候选登录网页数据通过正则匹配法抽取出候选网页标签,包括:
19.通过正则匹配法抽取出对预设类型的网页标签和包含登录关键词的网页标签进行抽取。
20.可选地,所述预设类型的网页标签至少包括:input标签和button标签。
21.第二方面,提供了一种网页登录实体识别装置,该装置包括:
22.获取模块,用于通过正则匹配法获取候选登录网页数据,所述候选登录网页数据为可能包含登录功能的网页数据;
23.抽取模块,用于将所述候选登录网页数据通过正则匹配法抽取出候选网页标签,并根据所述候选网页标签之间的优先级和候选网页标签属性确定候选网页标签的实体边界;
24.构建模块,用于基于候选网页标签的关键词及候选网页标签之间的距离构建图数据,其中,候选网页标签之间的距离通过各个候选网页标签的实体边界确定;
25.输出模块,用于将构建得到的图数据输入至训练完成的网页登录实体识别模型中得到网页登录实体识别类型列表。
26.可选地,所述装置还包括。
27.训练模块,用于将不同类型的登录网页数据进行数据预处理转换为网页标签图数据,输入至图神经网络模型进行模型训练并进行函数调优、参数调优,直至训练完成得到网页登录实体识别模型。
28.第三方面,提供了一种电子设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面任一所述的网页登录实体识别方法。
29.第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面任一所述的网页登录实体识别方法。
30.本技术实施例提供的技术方案中,首先通过正则匹配法获取候选登录网页数据;将候选登录网页数据通过正则匹配法抽取出候选网页标签,并根据候选网页标签之间的优先级和候选网页标签属性确定候选网页标签的实体边界;基于候选网页标签的关键词及候选网页标签之间的距离构建图数据;将构建得到的图数据输入至训练完成的网页登录实体识别模型中得到网页登录实体识别类型列表。本技术实施例提供的技术方案带来的有益效果至少包括:
31.1、无需进行大量规则匹配,检测效率高;
frequency)是一种用于信息检索与数据挖掘的常用加权技术。tf是词频(term frequency),idf是逆文本频率指数(inverse document frequency)。tf-idf用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
51.其次,基于网页dom tree计算候选网页标签之间的距离,dom是文档对象化模型(document object model)的简称。dom tree是指通过dom将html页面进行解析,并生成的html tree树状结构和对应访问方法,计算得到网页标签节点之间的边权重,包括通过第一公式进行计算,第一公式具体包括:
52.similarity=(1-distance)/max(path length 1,path length 2)
ꢀꢀ
(1)
53.其中,similarity表示网页标签节点之间的边权重,distance表示候选网页标签之间的距离,pathlength1和pathlength2分别为两个候选网页标签在domtree中深度。
54.步骤104,将构建得到的图数据输入至训练完成的网页登录实体识别模型中得到网页登录实体识别类型列表。
55.在本技术实施例中,在步骤104之前还包括了将不同类型的登录网页数据利用第二部以及第三步的数据预处理方法转换为网页标签图数据,输入至gcn(图卷积神经网络)模型,进行模型的训练并进行函数调优、参数调优,直至训练出效果最佳的网页登录实体识别模型。该模型可以输入处理后的网页标签图数据,输出登录实体列表。
56.将候选网页数据经过步骤101至步骤103获取并处理,将处理后的网页标签图数据输入至网页登录实体识别模型,输出网页登录实体识别类型列表。
57.如图2,给出了利用本技术的另一种可选实施例,包括了:
58.1.利用爬虫以及正则表达式技术获取候选登录网页数据;
59.2.使用正则表达式技术提取候选网页标签,并根据网页标签优先级级对实体边界进行确定;
60.3.使用tf-idf方法选择特征词,使用词频方法量化特征;
61.4.基于dom tree计算网页标签之间的距离构建网页标签图;
62.5.构建gcn图神经网络学习模型,对网页标签进行实体识别;
63.6.将模型输出转化为对应的实体类型,输出实登录体分类。
64.综上可以看出,本方法完全脱离了基于规则匹配的传统登录网页实体识别方法,也不同于传统建模登录入口识别的方法,它对每个节点表征时不仅参考自身节点信息同时考虑了邻居节点信息,更加充分利用网页结构信息来决策不同网页标签所属的登录实体类别,无需对大量规则一一校验,具有检测速度快,精度高,成本低等特点
65.请参考图3,其示出了本技术实施例提供的一种网页登录实体识别装置200的框图。如图3所示,该装置200可以包括:获取模块201、抽取模块202、构建模块203以及输出模块204。
66.获取模块201,用于通过正则匹配法获取候选登录网页数据,候选登录网页数据为可能包含登录功能的网页数据;
67.抽取模块202,用于将候选登录网页数据通过正则匹配法抽取出候选网页标签,并根据候选网页标签之间的优先级和候选网页标签属性确定候选网页标签的实体边界;
68.构建模块203,用于基于候选网页标签的关键词及候选网页标签之间的距离构建
图数据,其中,候选网页标签之间的距离通过各个候选网页标签的实体边界确定;
69.输出模块204,用于将构建得到的图数据输入至训练完成的网页登录实体识别模型中得到网页登录实体识别类型列表。
70.在本技术一个可选的实施例中,该装置还包括训练模块205:
71.训练模块205,用于将不同类型的登录网页数据进行数据预处理转换为网页标签图数据,输入至图神经网络模型进行模型训练并进行函数调优、参数调优,直至训练完成得到网页登录实体识别模型。
72.关于网页登录实体识别装置的具体限定可以参见上文中对于网页登录实体识别方法的限定,在此不再赘述。上述网页登录实体识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
73.在一个实施例中,提供了一种电子设备,该电子设备可以是计算机,其内部结构图可以如图4所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该设备的处理器用于提供计算和控制能力。该设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于网页登录实体识别数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网页登录实体识别方法。
74.本领域技术人员可以理解,如图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
75.在本技术的一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述网页登录实体识别方法的步骤。
76.本实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
77.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以m种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(symchlimk)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
78.以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
79.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1