基于关联性信息的社交网络用户对齐方法、装置、介质与流程

文档序号:31796257发布日期:2022-10-14 17:33阅读:53来源:国知局
基于关联性信息的社交网络用户对齐方法、装置、介质与流程

1.本发明社交媒体数据挖掘领域,尤其涉及基于关联性信息的社交网络用户对齐方法、装置、介质。


背景技术:

2.随着移动互联的蓬勃发展及人们对移动互联网使用需求的日趋丰富,各类互联网应用应运而生,形成以社交为主的、各类型应用协同满足不同使用者需求的数字化生活形态。同一用户出于不同的使用需求,选择在多个不同的社交网络应用注册账号,而不同的社交网络应用之间往往彼此独立、缺乏共享机制,导致用户数据呈现碎片化特征。这一特征不利于社交网络应用对新加入的用户进行有效的个性化推荐,进而造成社交网络应用用户体验不佳。因此,准确发现同一用户在多个社交网络应用中的虚拟账号,以高效融合多源的用户信息,将为商业应用、推荐系统优化等提供有力支持。
3.目前,主流的社交网络用户对齐核心思路为利用不同应用账号虚拟信息(含静态属性信息及动态社交信息)间相似性,实现社交网络应用账号匹配目标。
4.然而,上述应用账号虚拟信息往往存在以下特征:
5.相似性。既表现为社交网络中存在大量具有相似或相同属性信息(如:昵称相似或相同、头像相似或相同)但并不关联同一用户的账号,又表现为社交网络中存在大量因兴趣圈相似或相同使得关注/粉丝关系结构相似但并不关联同一用户的账号;
6.稀疏性。出于用户友好角度考虑,多数社交网络应用除小部分必要属性外,多允许用户选填其他属性信息,这就导致应用账号虚拟信息稀疏,跨应用间共有属性更是寥寥无几;
7.虚假性。社交网络使用者出于隐私保护原因或恶意仿冒等不良意图,在填写属性信息时往往填写虚假的、随意的属性值,使得应用账号虚拟信息呈现虚假且不一致特征,数据可用价值低。
8.以上应用账号虚拟信息特征使得现有方法匹配准确率较低、匹配结果不易验证。此外,现有技术多需预先指定待匹配虚拟账号的应用来源,即仅面向预先指定的社交网络应用,实现彼此间虚拟账号的匹配与对齐,在实际应用中不具备良好的扩展性与可移植性。


技术实现要素:

9.针对上述技术问题,本发明针提供了基于关联性信息的社交网络用户对齐方法、装置、介质。
10.本发明解决上述技术问题的技术方案如下:
11.一种基于关联性信息的社交网络用户对齐方法,包括以下步骤:
12.步骤1.从公开信息源中获取用户身份的关联性信息;
13.步骤2.在社交网络中基于所述用户身份的关联信息进行检索,并对检索到的网页快照进行保存;
14.步骤3.对所述网页快照进行筛选,获取疑似包含社交网络应用账号信息的目标网站;
15.步骤4.采集疑似包含社交网络应用账号信息的目标网站所对应的的网页信息,并对采集结果进行验证,获取用户在社交网络中的账号信息;
16.步骤5.将同一关联信息所对应的社交网络账号信息视为同属同一用户,实现社交网络用户对齐。
17.进一步地,所述步骤1中,所述用户身份的关联信息是指与社交网络账号持有者身份具有关联、对应关系的信息。
18.进一步地,所述步骤3中,构建网页解析神经网络模型,通过训练好的网页解析神经网络模型对所述网页快照进行筛选,获取疑似含有社交网络账号信息的目标网站。
19.进一步地,所述步骤3中,构建网页解析神经网络模型之前还包括:
20.确定网页快照中的文本内容区域坐标、图片内容区域坐标;
21.重构网页快照的文本内容及图片内容布局结构,即为网页快照构建尺寸相同、像素点以零值填充的图像;
22.根据文本内容区域坐标、图片内容区域坐标,在零值填充后的图像中标注各网页快照的文本内容区域与图片内容区域,并获得各网页快照文本及图片内容布局图像矩阵。
23.进一步地,所述步骤3中,网页解析神经网络模型输入层输入各网页快照文本及图片内容布局图像矩阵,输出层采用softmax进行二分类。
24.进一步地,所述步骤3中,获得训练好的网页解析神经网络模型包括:采用有监督的训练方式训练网页解析神经网络模型。
25.进一步地,检测获取结果的各个属性字段中是否包含用户关联性信息,若包含,则得到用户在社交网络中的账号信息。
26.进一步地,所述步骤5中包括:经验证后的社交网络账号信息与当前检索的用户关联性信息合为同一条数据。
27.一种基于关联性信息的社交网络用户对齐装置,其包括:包括处理器、存储器以及程序;所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行所述的基于关联性信息的社交网络用户对齐方法。
28.一种计算机可读存储介质,所述计算机可读存储介质被配置成存储程序,所述程序被配置成执行所述一种基于关联性信息的社交网络用户对齐方法。
29.与现有技术相比,本发明具有如下技术效果:
30.从公开信息源中提取关联性信息,即提取与社交网络应用虚拟账号持有者身份具有关联、对应关系的信息,在此基础上检索上述关联性信息,并对检索结果进行自动化筛选,得到疑似的、包含社交网络应用账号信息的目标网站,通过对疑似目标网站详情信息进行自动化采集与采集结果校验,获得与上述关联性信息有关的一个或多个社交网络应用账号详情信息,将与同一个人强关联性信息关联的多社交网络账号视为同属同一用户,最终实现社交网络用户对齐目标;通过搭建网页解析神经网络模型,可自动筛选可能包含社交网络应用账号详情信息的疑似目标网站,无需用户预先指定待匹配的社交网络应用,所述方法相较现有技术实用性与可扩展性更强。
附图说明
31.图1为本发明的基于关联性信息的社交网络用户对齐方法的流程图;
32.图2为本发明的基于网页解析神经网络模型的疑似目标网站筛选流程示意图;
33.图3为本发明的错误数据示意图。
具体实施方式
34.以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
35.图1为本发明的一种基于关联性信息的社交网络用户对齐方法的流程图。
36.参照图1,一种基于关联性信息的社交网络用户对齐方法,包括以下步骤:
37.步骤1.从公开信息源中获取用户身份的关联性信息。
38.采集公开信息源数据,并利用正则表达式等方式从公开信息源数据中提取关联性信息。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
39.关联性信息是指与社交网络账号持有者身份具有关联、对应关系的信息,比如用户的姓名、电子邮箱地址等信息。
40.步骤2.在社交网络中基于所述用户身份的关联信息进行检索,并对检索到的网页快照进行保存。
41.在社交网络中利用搜索引擎依次自动化检索关联性信息,将检索到的网页快照依次截图保存。
42.步骤3.对所述网页快照进行筛选,获取疑似包含社交网络应用账号信息的目标网站。
43.构建网页解析神经网络模型,并对所构建的网页解析神经网络模型进行训练,通过训练好的网页解析神经网络模型对所述网页快照进行筛选,获取疑似含有社交网络账号信息的目标网页快照,进而获得所对应的疑似目标网站。
44.这一步参照图2,图2为基于网页解析神经网络模型的疑似目标网站筛选流程示意图,具体包括以下步骤:
45.步骤3.1确定网页快照中的文本内容区域坐标、图片内容区域坐标。
46.确定所保存的网页快照中的文本内容区域坐标、图片内容区域坐标,对于确定网页快照中的文本内容区域坐标、图片内容区域坐标,可利用图像文本识别技术和图像对象检测技术,如构建attention ocr(attention optical character recognition,自然场景文本检测识别)模型识别网页快照的文本内容区域坐标。构建yolo(you only look once)模型识别网页快照的图片内容区域坐标,yolo模型是目标检测模型,用来在一张图篇中找到某些特定的物体,目标检测不仅要求识别这些物体的种类,同时要求标出这些物体的位置。
47.步骤3.2重构网页快照的文本内容及图片内容布局结构,即为网页快照构建尺寸相同、像素点以零值填充的图像;并根据文本内容区域坐标、图片内容区域坐标,在零值填充后的图像中标注各网页快照的文本内容区域与图片内容区域。
48.由于图像可以表示为矩阵的形式,在零值填充后的图像中标注各网页快照的文本内容区域与图片内容区域后将图像表示为矩阵形式,即得到各网页快照文本及图片内容布局图像矩阵。
49.步骤3.3构建网页解析神经网络模型,利用训练好的网页解析神经网络模型判断待解析的网页快照对应的原网页是否属于包含社交网络应用账号信息的疑似目标网站。
50.在一些实施例中,构建网页解析神经网络模型可选用主流的图像处理模型,比如卷积神经网络(convolutional neural network,简称:cnn),cnn的结构可以分为:输入层、卷积层(convolutional layer)、池化层(max pooling layer)、全连接层(fully connected layer)、输出层。
51.对构建的网页解析神经网络模型进行训练,获得训练好的网页解析神经网络模型,选用有监督训练方式训练神经网络模型,其中,有监督训练又称监督学习,是一个机器学习中的方法,可以由训练资料中学到或建立一个模式,并依此模式推测新的实例。训练资料是由输入物件和预期输出所组成。函数的输出可以是一个连续的值,或是预测一个分类标签。
52.本实施例中训练集数据由网页快照的文本及图片内容布局图像及其类别标签组成,类别标签1表示当前网页快照对应的原网页是社交网络应用账号详情页,0表示当前网页快照对应的原网页不是社交网络应用账号详情页,通过训练接对构建的网页解析神经网络模型进行训练,获得训练好的网页解析神经网络模型。
53.通过训练好的网页解析神经网络模型对所述网页快照文本内容与图片内容布局图进行特征提取和分类,在训练好的网页解析神经网络模型中输入各网页快照文本及图片内容布局图像矩阵,输出采用softmax进行二分类,分为当前网页快照对应的原网页含有社交网络账号信息和当前网页快照对应的原网页不含有社交网络账号信息,即当前网页快照对应的原网页社交网络应用账号详情页和当前网页快照对应的原网页不是社交网络应用账号详情页。根据分类结果可得当前输入对应的原网页是否为包含社交网络应用账号信息的疑似目标网站。
54.在一些实施例中,通过训练集训练卷积神经网络构建的网页解析神经网络模型,训练好的卷积神经网络构建的网页解析神经网络模型输入层输入各网页快照文本及图片内容布局图像矩阵,经过卷积层提取特征,经过池化层过对卷积后的结果进行降采样来降低维度,经过全连接层对卷积层提取出来的特征进一步提取出高层次的特征,提取出其中的具有区分性的特征,从而达到分类的目的,进而采用softmax进行二分类,分为当前网页快照对应的原网页含有社交网络账号信息和当前网页快照对应的原网页不含有社交网络账号信息,即当前网页快照对应的原网页社交网络应用账号详情页和当前网页快照对应的原网页不是社交网络应用账号详情页。根据分类结果可得当前输入对应的原网页是否为包含社交网络应用账号信息的疑似目标网站。
55.步骤4.采集所述疑似目标网站所对应的网页信息,并对采集结果进行验证,获取用户在社交网络中的账号信息。
56.利用自动化采集技术对疑似目标网站的网页详情进行采集,网页自动化采集技术可采用现有技术或现有的工具,比如基于网页html(hyper text markup language,超文本标记语言)结构的信息抽取技术或利用八爪鱼采集器等网页自动化采集工具实现目标网站
详情采集。
57.图3为本发明的错误数据示意图,为避免如图3所示的错误情况:假设在搜索引擎中检索关联性信息m1,此处m1特指纯数字串形式的关联性信息,检索结果1的url(uniform resource locator,统一资源定位符)中包含m1且经判断检索结果1对应的网页快照内容属于疑似目标网站。但检索结果1只是url中包含m1,其所指向的社交网络账号u1与关联性信息m1本身无任何关联关系,因此,该条记录属错误数据,经校验无法入库。
58.因此,需要对检测获取的结果加以验证,需判断获取结果的各个属性字段中是否包含用户关联性信息,若包含,则得到用户在社交网络中的账号信息,经校验后的社交网络账号信息与检索的关联性信息合为同一条数据记录存入数据库中,若不包含,则属错误数据,无法保存到数据库中。
59.步骤5.将同一关联信息所对应的社交网络账号信息视为同属同一用户,实现社交网络用户对齐。
60.将经验证后的社交网络账号信息与当前检索的用户关联性信息合为同一条数据。在数据库中查找某一关联性信息,检索结果即为与该关联性信息关联的社交网络账号集合,即由同一个关联性信息关联的多个社交网络账号视为同属同一用户。至此,完成社交网络用户对齐任务。
61.本实施例通过从公开信息源中提取与社交网络虚拟账号所属用户身份具有关联、对应关系的信息,在此基础上检索上述关联性信息,通过搭建神经网络模型,自动化筛选检索结果中包含社交网络应用账号详情的疑似目标网站并对疑似目标网站详情信息进行自动化采集与采集结果校验,获得与上述关联性信息有关的社交网络应用账号详情信息。相比于已有技术,多利用用户虚构的、重复率较高的虚拟网络身份信息,本发明以关联性信息为出发点,此类信息往往相对真实可靠、与社交网络账号所属用户间具备较强的对应关系,使得本实施例所述社交网络用户对齐方法结果更为准确、高效。除此之外,本实施例通过搭建网页解析神经网络模型,可自动筛选可能包含社交网络应用账号详情信息的疑似目标网站,无需用户预先指定待匹配的社交网络应用,所述方法相较现有技术实用性与可扩展性更强。
62.在本发明的实施例中,还提供了一种基于关联性信息的社交网络用户对齐装置,其包括:包括处理器、存储器以及程序;程序存储在存储器中,处理器调用存储器存储的程序,以执行上述的基于关联性信息的社交网络用户对齐方法。
63.在上述基于关联性信息的社交网络用户对齐装置的实现中,存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接,如可以通过总线连接。存储器中存储有实现数据访问控制方法的计算机执行指令,包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理。
64.存储器可以是,但不限于,随机存取存储器(randomaccessmemory,简称:ram),只读存储器(read only memory,简称:rom),可编程只读存储器(programmable read-onlymemory,简称:prom),可擦除只读存储器(erasable programmable read-onlymemory,简称:eprom),电可擦除只读存储器(electric erasableprogrammableread-onlymemory,
简称:eeprom)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
65.处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,简称:cpu)、网络处理器(networkprocessor,简称:np)等。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
66.在本发明的实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质被配置成存储程序,程序被配置成执行上述的基于关联性信息的社交网络用户对齐的方法。
67.本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
68.本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图中指定的功能的装置。
69.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图中指定的功能。
70.这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图中指定的功能的步骤。
71.以上对本发明所提供的基于关联性信息的社交网络用户对齐方法、基于关联性信息的社交网络用户对齐装置和一种计算机可读存储介质的应用进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1