多媒体网页协议信息转换方法、装置及系统与流程

文档序号:32886345发布日期:2023-01-12 21:50阅读:33来源:国知局
多媒体网页协议信息转换方法、装置及系统与流程

1.本发明涉及通信技术领域,具体涉及一种多媒体网页协议信息转换方法、装置及系统。


背景技术:

2.目前,移动运营商都在加大力度建设各自的5g消息系统,手机终端厂商也在逐渐发布支持5g消息的手机终端。5g消息与短信相比较,具有丰富的媒体资源展示,菜单操作,强交互能力的优势,更有利于消息内容的丰富和推广效果。
3.在5g消息出现之前,各企业和应用对多媒体消息已有多种展现形式,例如pc端网站、移动终端html5(hyper text mark-up language 5,超文本标记语言规范5,是构建web内容的一种语言描述方式)、公众号。各企业和应用在使用5g消息发送同样的内容时,需要先从源网站复制下载图片视频等多媒体资源,再重新按照5g消息的格式和要求进行编辑,这需要增加额外的工作量,也有一定的操作技术门槛,且信息一致性方面也可能产生偏差。各企业和应用如果重新开发5g消息功能,面临开发工作量,而且开发周期很长,不利于目前市场上做消息推广的企业和平台快速使用新型的5g消息形式。而且,当5g消息协议发生变化时,各企业的5g消息编辑系统还需要重新开发和升级,造成重复开发工作。
4.为此,如何使现有的多媒体网页信息业务平台快捷、方便地适用5g消息系统是业界亟待解决的一个问题。


技术实现要素:

5.本发明提供一种多媒体网页协议信息转换方法、装置及系统,可以使现有的多媒体网页信息业务平台快捷、方便地使用5g消息系统,实现多媒体网页协议信息与5g消息的转换及发送。
6.为此,本发明提供如下技术方案:
7.一种多媒体网页协议信息转换方法,所述方法包括:
8.接收用户提交的url地址;
9.根据所述url地址访问多媒体网页;
10.对所述多媒体网页进行元素抓取,得到多媒体数据;
11.将所述多媒体数据转换为5g消息;
12.将所述5g消息返回给所述用户。
13.可选地,所述对所述多媒体网页进行元素抓取,得到多媒体数据包括:
14.利用爬虫分析器对所述多媒体网页进行元素抓取,得到多媒体数据。
15.可选地,所述对所述多媒体网页进行元素抓取,得到多媒体数据包括以下任意一种或多种:
16.从所述多媒体网页对应的html文档获取静态信息;
17.从所述多媒体网页对应的javascript对象数据获取变量信息;
18.从加载渲染后页面的数据节点获取xhr动态渲染信息;
19.抓取动态数据。
20.可选地,所述根据所述url地址访问多媒体网页包括:
21.采用躲避反爬虫方式访问所述多媒体网页。
22.可选地,所述采用躲避反爬虫方式访问所述多媒体网页包括:
23.设置伪头部用户代理信息,以绕开反爬虫检测。
24.可选地,所述方法还包括:
25.设置ip代理池和代理服务器,所述ip代理池包括多个ip代理;
26.所述采用躲避反爬虫方式访问所述多媒体网页包括:
27.向代理服务器发送任务请求,所述任务请求中包括所述url地址;
28.所述代理服务器接收到所述任务请求后,从所述ip代理池中选择一个ip代理,并通过所述ip代理访问所述多媒体网页。
29.可选地,所述采用躲避反爬虫方式访问所述多媒体网页还包括:
30.利用图片识别库识别滑块及所述滑块的位置;
31.利用程序模拟拖动所述滑块到目标位置。
32.一种多媒体网页协议信息转换装置,所述装置包括:
33.用户接口模块,用于接收用户提交的url地址;
34.网页访问模块,用于根据所述url地址访问多媒体网页;
35.数据抓取模块,用于对所述多媒体网页进行元素抓取,得到多媒体数据;
36.转换模块,用于将所述多媒体数据转换为5g消息;
37.所述用户接口模块,还用于将所述5g消息返回给所述用户。
38.可选地,所述数据抓取模块,具体用于利用爬虫分析器对所述多媒体网页进行元素抓取,得到多媒体数据。
39.可选地,所述装置还包括:
40.躲避反爬虫处理模块,用于设置躲避反爬虫方式;
41.所述网页访问模块,采用所述躲避反爬虫方式访问所述多媒体网页。
42.一种多媒体网页协议信息转换系统,所述系统包括:多媒体网页信息业务平台、以及前面所述的多媒体网页协议信息转换装置;
43.所述多媒体网页信息业务平台,用于登录所述多媒体网页协议信息转换装置,提交url地址;
44.所述多媒体网页协议信息转换装置,用于将所述url地址对应的多媒体网页中的信息转换为5g消息,将所述5g消息返回给所述多媒体网页信息业务平台。
45.本发明提供的多媒体网页协议消息转换方法、装置及系统,接收用户提交的url地址;根据所述url地址访问多媒体网页;对所述多媒体网页进行元素抓取,得到多媒体数据;将所述多媒体数据转换为5g消息并返回给所述用户。整个过程中用户只需要提供多媒体资源的url地址,即可实现相应5g消息的生成,而不需额外复制下载多媒体资源重新上传处理,节省了操作时间和成本。
附图说明
46.图1是本发明实施例提供的多媒体网页协议信息转换方法的一种流程图;
47.图2是本发明实施例提供的多媒体网页协议信息转换装置的一种结构示意图;
48.图3是本发明实施例提供的多媒体网页协议信息转换装置的另一种结构示意图;
49.图4是本发明实施例提供的多媒体网页协议信息转换系统的一种结构示意图。
具体实施方式
50.为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
51.5g消息基于https(hypertext transfer protocol secure,安全的超文本传输协议)协议,通过ssl(secure sockets layer,安全套接层)保证数据传输安全和完整性。5g消息支持发送文本、图片、音视频、地理位置等消息;还可与商户的聊天机器人进行交互,获取一定时间的智能服务。
52.5g消息包括请求头和消息体,其中:
53.请求头包括以下各字段:http头域(用于保存鉴权信息)、请求时间戳、请求流水号、平台鉴权身份id(即各平台唯一标识)。
54.消息体包括表1中所示的各元素:
55.表1
[0056][0057]
针对现有的多媒体网页信息业务平台在使用5g消息发送同样内容时,需要重新按照5g消息的格式和要求进行编辑,并开发对应的5g消息的编辑系统,从而增加开发工作量和开发周期等问题,本发明实施例提供一种多媒体网页协议消息转换方法及装置,其核心理念是设计实现一种简便操作并且无接入壁垒的工具,方便任何一个提供多媒体网页协议信息的业务平台在需要5g消息平台时能够快速无缝接入使用。
[0058]
具体地,用户只需提交需要转换的多媒体网页的url(uniform resource locator,统一资源定位符)地址,无需用户重新按照5g消息的格式和要求对相应信息进行编辑,即可得到对应该多媒体网页信息的5g消息。
[0059]
如图1所示,是本发明实施例提供的多媒体网页协议信息转换方法的一种流程图,该方法包括以下步骤:步骤101,接收用户提交的url地址。
[0060]
所述用户是指对接提供多媒体网页协议信息转换服务的下游系统,比如可以是企业、多媒体网页信息业务平台等。
[0061]
步骤102,根据所述url地址访问多媒体网页。
[0062]
步骤103,对所述多媒体网页进行元素抓取,得到多媒体数据。
[0063]
在实际应用中,可以利用爬虫分析器对所述多媒体网页进行元素抓取,得到多媒体数据。
[0064]
爬虫又被称为网页蜘蛛、网络机器人,有时也被称为网页追逐者,是一种按照一定的规则,自动地抓取互联网上网页中相应信息(比如文本、图片等)的程序或脚本,然后把抓取的信息存储到自己的计算机上。简单来说,爬虫就是抓取目标网站内容的工具,一般是根据定义的行为自动进行抓取,更智能的爬虫会自动分析目标网站结构,类似于搜索引擎的爬虫。在网络爬虫的系统框架中,主过程由控制器、解析器、资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页,进行页面的处理,爬取目标元素。
[0065]
所述目标元素来源可分为html(hypertext markup language,超文本标记语言)文档数据、javascript(一种解释型脚本语言)数据对象、xhr((xml http request))动态请求加载数据。解析器需要利用到各种工具库,静态目标网页可由java-jsoup(一种java的html解析器)执行,xhr动态请求加载渲染可由java-selenium(浏览器自动化测试框架)配合浏览器驱动执行,二者执行获取皆可按照目标url的网页结构选择相应的选择器,包括但不限于id(identity document,身份标识)选择器、css(cascading style sheets,层叠样式表)选择器、xpath(xml path language,xml路径语言)选择器、相对定位绝对定位选择器。一些特殊页面也可以直接分析javascript脚本,读取目标对象数据、或构造请求参数,直接访问数据接口。
[0066]
在本发明实施例中,可以抓取的元素包括但不限于以下任意一种或多种:
[0067]
(1)从所述多媒体网页对应的html文档获取静态信息,所述静态信息比如电商类商品关键信息等信息,例如按照标签《meta name=”keywords”》获取商品标题。
[0068]
(2)从所述多媒体网页对应的javascript对象数据获取变量信息,所述变量信息比如可以是商品价格等信息。
[0069]
(3)从加载渲染后页面的数据节点获取xhr动态渲染信息;
[0070]
(4)抓取动态数据,比如可以利用selenium工具来爬取动态数据。
[0071]
步骤104,将所述多媒体数据转换为5g消息。
[0072]
所述多媒体数据包括但不限于以下任意一种或多种:图片、音频、视频。
[0073]
因为5g消息卡片是由文本、图片、视频、音频和其他元素一种或者多种组成,所以在得到所述多媒体数据后,依据5g消息协议将这些多媒体数据拼装成5g消息。
[0074]
步骤105,将所述5g消息返回给所述用户。
[0075]
需要说明的是,在实际应用中,还可以先对所述用户鉴权,只对有权限的提供相应的信息转换服务。
[0076]
进一步地,考虑到有些网站会设置反爬虫功能,以防止一些爬虫对网站信息的非
法采集和利用。为此,在实际应用中,还可以利用一些技术手段避开反爬虫,也就是说,采用躲避反爬虫方式访问所述多媒体网页,以保证对用户提交的url地址对应的网页数据的正常采集。比如,可以采用但不限于以下任意一种方式:
[0077]
(1)设置伪头部用户代理(user-agent,ua)信息,以绕开反爬虫检测。
[0078]
无论是浏览器还是爬虫程序,在向webserver(网页服务器)发起网络请求的时候,都会发过去一个头文件:headers,表明身份。很多网站都会建立user-agent白名单,只有属于正常范围的user-agent才能够正常访问。
[0079]
为此,在具体应用中,可以收集常见浏览器版本,包括但不限于谷歌、火狐、safari等浏览器;收集pc端,手机端等终端设备信息及其版本,包括但不限于windows、macos、ios、android。将浏览器版本和终端设备版本进行两两随机组合(例如,多种不同型号的手机可以安装同一个版本的浏览器),输出合理有效的ua信息,可在一定程度上绕开反爬虫检测。
[0080]
(2)设置ip代理池及代理服务器,所述ip代理池包括多个ip代理。
[0081]
实践发现,当一个出口ip反复抓取同个目标网站,会被检测到,导致ip被限制访问。为此,在本发明实施例中,引入ip代理池。javaclient(java爬虫程序客户端)发出的请求不直接访问目标url,而是发送给代理服务器,由所述代理服务器对目标url进行访问。具体地,在需要访问url地址时,向所述代理服务器发送任务请求,所述任务请求中包括所述url地址。相应地,所述代理服务器接收到所述任务请求后,从所述ip代理池中选择一个ip代理,并通过所述ip代理根据所述url地址访问所述多媒体网页。
[0082]
需要说明的是,代理服务器从ip代理池中选择ip代理时,可以根据访问频率以及轮询规则来选择。尽可能使webserver所能获取的入口ip来源每次均不相同,即大概率不会开启反爬机制来限制网页资源爬取。
[0083]
(3)滑动验证码技术
[0084]
滑动验证码也叫行为验证码,是比较流行的一种验证码,通过用户的操作行为来完成验证。滑动验证码的原理就是使用机器学习中的深度学习技术,根据一些特征来区分是否为正常用户。通过记录用户的滑动速度,还有每一小段时间的瞬时速度,用户鼠标点击情况,以及滑动后的匹配程度来识别。滑动验证码验证时,不仅滑动验证码要滑动到正确位置,而且还要根据特征识别来区分是否为真实用户。
[0085]
为此,在本发明一种非限制性实施例中,可以利用图片识别库识别滑块位置,所述图片识别库包括但不限于:js的canvas、python的ocr库、opencv库等,然后利用程序模拟拖动所述滑块。
[0086]
需要说明的是,为了解决反爬机制中的特征识别,滑块的拖动需要用程序模拟代替人的拖动,且拖动的规律符合人的正常操作。拖动的轨迹可以通过学习研究相关的公式,建立相应的数学-物理模型。例如,利用牛顿运动定律模拟人工移动可以解决上述特征识别问题。
[0087]
模拟滑块扡动的具体实现过程如下:
[0088]
1.打开浏览器开发者模式,审查滑块元素,取得滑块的特征值。定位滑块位置,获取滑块的轨道长度,获取滑块的宽度。滑块所需滑行距离值=轨道长度-滑块宽度。
[0089]
2.代码中获取滑块的目标对象,调用单击按住事件,再调用鼠标拖动事件,拖动的过程需要考虑人体行为学原理,还需要考虑相对的匀速变速、轨迹抖动,最终将滑块拖动到
目标位置。
[0090]
本发明提供的多媒体网页协议消息转换方法,根据用户提交的url地址访问多媒体网页;对所述多媒体网页进行元素抓取,得到多媒体数据;将所述多媒体数据转换为5g消息并返回给所述用户。整个过程中用户只需要提供多媒体资源的url地址,即可实现相应5g消息的生成,而不需额外复制下载多媒体资源重新上传处理,节省了操作时间和成本。
[0091]
相应地,本发明还提供一种多媒体网页协议消息转换装置,如图2所示,是该装置的一种结构示意图。
[0092]
该多媒体网页协议消息转换装置200包括:用户接口模块201、网页访问模块202、数据抓取模块203、转换模块204。其中:
[0093]
用户接口模块201用于接收用户提交的url地址;
[0094]
网页访问模块202用于根据所述url地址访问多媒体网页;
[0095]
数据抓取模块203用于对所述多媒体网页进行元素抓取,得到多媒体数据;
[0096]
转换模块204用于将所述多媒体数据转换为5g消息;
[0097]
所述用户接口模块201还用于将所述5g消息返回给所述用户。
[0098]
在实际应用中,所述装置200还可进一步包括数据存储模块(未图示)。相应地,所述数据抓取模块203将得到的多媒体数据存储到所述数据存储模块,所述转换模块204从所述数据存储模块中提取数据,生成5g消息。
[0099]
上述数据抓取模块203具体可以利用爬虫分析器对所述多媒体网页进行元素抓取,得到多媒体数据。所述多媒体数据可以有多种类型,而且抓取的方式可以依据数据类型的不同而不同,具体可以参照前面本发明方法实施例中的描述,在此不再赘述。
[0100]
考虑到有些网站会设置反爬虫功能,以防止一些爬虫对网站信息的非法采集和利用。为此,如图3所示,在本发明多媒体网页协议消息转换装置另一实施例中,还可进一步包括:躲避反爬虫处理模块205,所述躲避反爬虫处理模块205用于设置躲避反爬虫方式。
[0101]
相应地,在该实施例中,所述网页访问模块202采用所述躲避反爬虫方式访问所述多媒体网页。
[0102]
在实际应用中,所述躲避反爬虫处理模块205可以采用多种方式躲避反爬虫技术,具体可参照前面本发明方法实施例中的描述,在此不再赘述。
[0103]
本发明提供的多媒体网页协议消息转换装置,根据用户提交的url地址访问多媒体网页;对所述多媒体网页进行元素抓取,得到多媒体数据;将所述多媒体数据转换为5g消息并返回给所述用户。整个过程中用户只需要提供多媒体资源的url地址,即可实现相应5g消息的生成,而不需额外复制下载多媒体资源重新上传处理,节省了操作时间和成本。
[0104]
相应地,本发明还提供一种多媒体网页协议信息转换系统,如图4所示,该系统包括:多媒体网页信息业务平台400和多媒体网页协议信息转换装置200。其中:
[0105]
所述多媒体网页信息业务平台400用于登录所述多媒体网页协议信息转换装置,提交url地址;
[0106]
所述多媒体网页协议信息转换装置200用于将所述url地址对应的多媒体网页中的信息转换为5g消息,将所述5g消息返回给所述多媒体网页信息业务平台。
[0107]
所述多媒体网页协议信息转换装置200的具体结构可以参照前面各实施例中的描述。
[0108]
利用本发明方案,各企业的原消息应用无需改造,可以继续使用,有效减少了改造工作量;而且各企业只需提供的原消息url,即可自动生成5g消息,减少编辑5g消息的日常工作量;根据原消息url生成的5g消息与原消息内容一致,减少重复编辑造成的内容偏差;各企业的消息系统无需开发5g消息编辑器,便于实现业务系统在5g消息方面的快速升级。
[0109]
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0110]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的,即可以位于一个网络单元上,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0111]
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及装置,其仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围,本说明书内容不应理解为对本发明的限制。因此,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1