一种信息识别方法及其装置与流程

文档序号:29522558发布日期:2022-04-06 23:46阅读:101来源:国知局
一种信息识别方法及其装置与流程

1.本技术涉及计算机技术领域,尤其涉及一种信息识别方法及其装置。


背景技术:

2.随着电子产品的普及,手机、电脑等电子产品逐渐成为人们生活中不可缺少的部分。同时随着互联网行业的飞速发展,各种网页能够为用户提供的信息越来越多。然而由于网络信息越来越容易获得,伴随着的是一些不法分子或者别有用心者将一些违规信息在网络上进行传播,容易给很多网民和企业结机构造成不可挽回的误导和影响。
3.因此,如何有效地识别违规信息是亟待解决的技术问题。


技术实现要素:

4.本技术公开了一种信息识别方法及其装置,可以有效识别违规信息,有利于创建更健康的网络环境。
5.第一方面,本技术实施例提供了一种信息识别方法,所述方法包括:
6.获取第一待识别信息;
7.确定第一待识别信息与违规词数据集之间的匹配结果;匹配结果包括既存在于第一待识别信息,也存在于违规词数据集中的目标违规词;
8.若匹配结果满足预设条件,则在第一待识别信息中获取包括目标违规词的第二待识别信息;
9.利用深度模型判断第二待识别信息是否违规。
10.在一种可选的实施方式中,第二待识别信息包括多个字词;利用深度模型判断第二待识别信息是否违规的具体实施方式为:利用深度模型,确定第二待识别信息中字词之间的语义依赖关系;并根据该语义依赖关系,判断第二待识别信息是否违规。
11.在一种可选的实施方式中,第二待识别信息包括第一字词、定语和第二字词;在第二待识别信息中,第一字词、定语和第二字词的出现顺序递减;利用深度模型,确定第二待识别信息中字词之间的语义依赖关系的具体实施方式为:利用深度模型,从第一字词和第二字词中确定该定语的修饰对象为该第一字词。
12.在一种可选的实施方式中,目标违规词的数量为一个或多个;预设条件包括以下一项或多项:目标违规词的长度小于第一阈值;目标违规词的数量小于第二阈值;第一待处理信息的违规程度值小于第三阈值,第一待处理信息的违规程度值由目标违规词的词性确定。
13.在一种可选的实施方式中,在第一待识别信息中获取包括目标违规词的第二待识别信息的具体实施方式为:确定目标违规词在第一待识别信息中的位置;根据该位置,对第一待识别信息进行切句,得到包括目标违规词的第二待识别信息;其中,第二待识别信息包括的字符长度小于第四阈值,和/或,第二待识别信息具有完整的句子结构。
14.在一种可选的实施方式中,第一待识别信息为与过滤对象数据集中的对象不匹配
的爬取信息,过滤对象数据集包括黑名单对象和/或白名单对象。
15.在一种可选的实施方式中,该方法还可以包括:根据爬取策略,爬取得到所述爬取信息;其中,爬取策略包括以下一项或多项:在爬取过程中,利用第一信息发送预设数量的请求,后续利用第二信息发送请求;第一信息为身份信息和/或地址信息;若检测到爬取的网页的页面结构并非预设结构,则格式化该网页的页面结构;若检测到爬取url不完整,则对该爬取url对应的页面进行动态抓包。
16.第二方面,本技术实施例提供了一种信息识别装置,所述装置包括用于实现第一方面所述的方法的单元。
17.第三方面,本技术实施例提供另一种信息识别装置,包括处理器;该处理器,用于执行第一方面所述的方法。
18.在一种可选的实施方式中,该信息识别装置还可以包括存储器;该存储器用于存储计算机程序;处理器,具体用于从该存储器中调用计算机程序,执行第一方面所述的方法。
19.第四方面,本技术实施例提供一种芯片,该芯片用于执行第一方面所述的方法。
20.第五方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如第一方面所述的方法。
附图说明
21.图1是本技术实施例提供的一种信息识别方法的流程示意图;
22.图2是本技术实施例提供的一种使用深度模型进行违规信息的识别的结果示意图;
23.图3是本技术实施例提供的一种信息识别系统的架构示意图;
24.图4是本技术实施例提供的一种网页中的层级结构的示意图;
25.图5是本技术实施例提供的一种文本研判模块的处理流程的示意图;
26.图6是本技术实施例提供的一种信息识别装置的结构示意图;
27.图7是本技术实施例提供的另一种信息识别装置的结构示意图。
具体实施方式
28.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
29.为了更好地理解本技术实施例提供的技术方案,首先对本技术实施例涉及的技术术语进行介绍。
30.(1)深度模型
31.深度模型用于识别待识别信息是否违规。本技术中,深度模型可以使用深度模型架构bilstm。可选的,深度模型可以使用bilstm和textcnn模型的结合。可选的,深度模型可以使用bilstm加textcnn模型和虚拟对抗训练(virtual adversarial training)的方式来
作为文本分类的模型架构,即在训练bilstm的时候添加virtual adversarial training扰动后的部分模型。
32.对抗训练的思想是培养一个对手(对抗网络),不断完善自己(生成网络)的学习。例如,用不同的目标分别训练对抗网络与生成网络进行竞争。本技术中的深度模型使用virtual adversarial training,可以提高模型的泛化能力和鲁棒性。
33.对抗训练是针对某一个模型产生的对抗样本进行学习,那么模型势必会更具有针对性,所以就可能在面对其他模型生成的对抗样本攻击时会出现比原始模型更高的错误率。另外,各个模型普遍对于对抗模型产生的对抗样本具有好的鲁棒性。对抗训练不仅仅是拟合了对模型有影响的扰动,其同时弱化了单步攻击时需要依赖的模型的线性假设,进一步提升模型对黑盒攻击的鲁棒性。
34.对抗性扰动通常包括对许多实值输入进行小的修改。对于文本分类,输入是离散的,通常表示为一系列高维一维热编码向量。由于高维一维热编码向量集不允许无穷小扰动,本技术中的深度模型定义了连续词嵌入上的扰动,而不是离散词输入上的扰动。传统的对抗性训练和虚拟对抗性训练都可以解释为正则化策略作为防御敌人提供恶意输入。由于扰动嵌入不映射到任何单词,并且对手可能没有访问单词嵌入层的权限,所以本技术中的训练策略不再是针对对手的防御策略。
35.(2)云服务
36.本技术实施例所提出的信息识别方法可以由信息识别装置执行,信息识别装置的存在形态可以是承载于云服务器上的虚拟装置,通过在实体服务器(主机)上虚拟出多个类似独立服务器的部分,每个部分都可以做单独的操作系统,管理方法同服务器一样。云服务器,可以提供可调整云主机配置的弹性云技术,具备按需使用和按需即时付费能力的云主机租用服务,在灵活性、可控性、扩展性及资源复用性上都有很大的提高。其管理方式比物理服务器更简单高效,能够快速构建更稳定、安全的应用,降低开发运维的难度和整体信息技术(information technology,it)成本。
37.可以将本技术涉及的信息识别方法封装为一个云服务,且对外暴露一个接口。当需要使用本技术所涉及的信息识别方法时,通过调用该接口,即可识别待识别信息是否违规。
38.(3)云计算
39.云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
40.本技术提供的信息识别方法中涉及较大规模计算,需要较大的算力和存储空间,因此在本技术中的一种可行的实施方式中,可以通过云计算技术获取足够算力和存储空间。
41.为了有效识别违规信息,从而创建更健康的网络环境,本技术实施例提供了一种信息识别方法,如图1所示,该信息识别方法可以包括但不限于如下步骤:
42.s101、获取第一待识别信息。
43.本技术实施例所提出的信息识别方法可以由信息识别装置执行,该信息识别装置
可以为服务器或终端设备。其中,服务器可以为云服务器,即可以由云服务器执行信息识别方法。终端设备也可称为用户设备(user equipment,ue),还可以称为终端(terminal)、移动台(mobile station,ms)、移动终端(mobile terminal,mt)等。该终端设备可以是手机(mobile phone)、穿戴式设备、平板电脑、带无线收发功能的电脑、虚拟现实(virtual reality,vr)终端设备、增强现实(augmented reality,ar)终端设备、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等等。
44.其中,第一待识别信息可以为爬虫爬取得到的信息,第一待识别信息可以包括如下一种或多种形式的信息:文本、图片、视频、音频、文件等。例如,该第一待识别信息为网页。可选的,信息识别装置可以从本地数据库中获取第一待识别信息,或者,信息识别装置可以通过云服务获取第一待识别信息。
45.在一种实现方式中,第一待识别信息可以为与过滤对象数据集中的对象不匹配的爬取信息,过滤对象数据集包括黑名单对象和/或白名单对象。换言之,第一待识别信息可以是通过过滤对象数据集过滤后的爬取信息,在过滤对象数据集包括黑名单对象的情况下,该第一待识别信息与黑名单对象不匹配(或不关联);在过滤对象数据集包括白名单对象的情况下,该第一待识别信息与白名单对象不匹配(或不关联);在过滤对象数据集包括黑名单对象和白名单对象的情况下,该第一待识别信息与黑名单对象和白名单对象均不匹配(或不关联)。其中,该第一待识别信息与黑名单对象不匹配(或不关联)可以指:黑名单对象不包括于该第一待识别信息中。
46.对象可以为网址、网页、字词等信息。黑名单对象可以为之前检测到过的违规的对象。白名单对象可以为一些大型的网站,这些网站中的数据发布过程中会经过严格审核,因此该网站中的信息一般是不违规的。通过过滤对象数据集对爬取信息进行过滤,过滤掉一些爬取信息不进行进一步的识别,仅对过滤后得到的爬取信息进行进一步识别,有利于节省计算资源。
47.s102、确定第一待识别信息与违规词数据集之间的匹配结果;匹配结果包括既存在于第一待识别信息,也存在于违规词数据集中的目标违规词。
48.其中,违规词数据集包括多个违规词,违规词可以是一个或多个领域中的违规词。例如,违规词可以为涉及色情、赌博、涉政、涉毒、涉赌等方面的字词。
49.信息识别装置可以检索第一待识别信息是否包括违规词数据集中的违规词,以得到匹配结果。需要说明的是,本技术实施例提及的违规词是指存在于违规词数据集中的字词。匹配结果可以包括在第一待识别信息中检索到的目标违规词,可以理解的是,该目标违规词也存在于违规词数据集中。需要说明的是,前述由信息识别装置检索第一待识别信息是否包括违规词数据集中的违规词,以得到匹配结果用于举例,在其他实现方式中,还可以由其他设备检索,信息识别装置从该设备中获取匹配结果。违规词数据集可以存储信息识别装置,也可以存储于云服务器中,本技术实施例对此不做限定。
50.s103、若匹配结果满足预设条件,则在第一待识别信息中获取包括目标违规词的第二待识别信息。
51.信息识别装置获取匹配结果后,可以判断该匹配结果是否满足预设条件(如称为违规词匹配)。若满足预设条件,则可以进一步识别是否违规,若不满足于预设条件,可以不用进一步识别,即可确定出第一待识别信息是否违规。
52.在一种实现方式中,目标违规词的数量为一个或多个;预设条件可以包括以下一项或多项:目标违规词的长度小于第一阈值;目标违规词的数量小于第二阈值;第一待处理信息的违规程度值小于第三阈值,第一待处理信息的违规程度值由目标违规词的词性确定。
53.违规词匹配可以包括如下一个或多个处理子过程:长词计算,违规程度计算,词性计算。其中,长词计算子过程是指计算出长度比较长的违规词。目标违规词的长度小于第一阈值,可以表明该目标违规词并未长度较长的违规词。可选的,若检测到目标违规词的长度大于或等于第一阈值,则不用进一步识别,也可确定该第一待识别信息违规。因为就常规的人类使用词语而言长词代表了更多的语义信息和确定性。在日常的语言使用习惯中,如果一个比较长的字符用来作为一个词语的话,这个词极大的代表了某种事件,或者某种具体想法。因此如果在第一待识别信息中匹配到长词,该第一待识别信息很大概率是违规的。目标违规词的数量小于第二阈值,可以表明第一待识别信息中存在的目标违规词的数量较少。可选的,若检测到目标违规词的数量大于或等于第二阈值,则不用进一步识别,也可确定该第一待识别信息违规。如果违规词的数量较多,该违规词所属第一待识别信息很大概率是违规的。
54.违规程度计算子过程是指计算第一待识别信息中匹配到的多个违规词词性的累积。第一待处理信息的违规程度值小于第三阈值,可以表明由第一待识别信息中存在的多个目标违规词的词性确定的违规程度值小于第三阈值,换言之,该第一待识别信息的违规程度较低。可选的,若第一待处理信息的违规程度值大于或等于第三阈值,则不用进一步识别,也可确定该第一待识别信息违规。违规程度计算是一个量化的过程,例如一个涉黄网页中出现的大量甚至全部的词词性都是涉黄的,当累积的违规程度大于第二阈值时,不用进一步识别该网页,可直接确定该网页是违规的。
55.词性计算子过程是指猜测字词的词性,进一步去猜测该字词所属待识别信息的语义信息。词性计算可以应用于违规程度计算子过程中,确定各目标违规词的词性,进而得到第一待处理信息的违规程度值。在一种实现方式中,一种词性可以对应有一个违规程度值。确定各目标违规词的词性后,可将各目标违规词的词性对应的违规程度值相加,将得到的结果作为第一待处理信息的违规程度值。
56.若满足预设条件,则可以进一步从第一待识别信息中获取包括目标违规词的第二待识别信息,并判断该第二待识别信息是否违规。第二待识别信息是否违规,可以指示第一待识别信息是否违规。若第二待识别信息违规,则表示第一待识别信息违规。若第二待识别信息不违规,则表示第一待识别信息不违规。
57.在一种实现方式中,在第一待识别信息中获取包括目标违规词的第二待识别信息的具体实施方式可以为:确定目标违规词在第一待识别信息中的位置;并根据该位置,对第一待识别信息进行切句,得到包括目标违规词的第二待识别信息;其中,第二待识别信息包括的字符长度小于第四阈值,和/或,第二待识别信息具有完整的句子结构。
58.匹配结果不满足预设条件的情况下,第一待识别信息提供的意义信息还比较少,可通过搜索目标违规词周围的语境信息及位置,然后对第一待识别信息进行切句。可选的,可采用如下切句方式:第一种,在第一待识别信息中切目标违规词周围的一部分短句,这样切出来得到的第二待识别信息可能是不符合正常阅读习惯和逻辑结构的。第二待识别信息
包括的字符长度小于第四阈值,表示该第二待识别信息是从第一待识别信息中切的短句。第二种,按照正常的阅读情况切句(即按照正常的语义情况切句),此时,切出来的第二待识别信息具有完整的句子结构。完整的句子结构可以指:第二待识别信息包括主谓宾对象。其中,第一种切句方式可以称为违规短文本切句或相对切句,第二种切句方式可以称为语义切句或绝对切句。
59.s104、利用深度模型判断第二待识别信息是否违规。
60.在一种实现方式中,第二待识别信息可以包括多个字词;利用深度模型判断第二待识别信息是否违规,包括:利用深度模型,确定第二待识别信息中字词之间的语义依赖关系;并根据该语义依赖关系,判断该第二待识别信息是否违规。语义依赖关系是指第二待识别信息中各个字词之间的相关程度,例如,第二待识别信息包括一个形容词和两个名词,语义依赖关系可以指示该形容词是用于修饰两个名词中的哪个名词。
61.在一种实现方式中,第二待识别信息包括第一字词、定语和第二字词;在第二待识别信息中,第一字词、定语和第二字词的出现顺序递减。利用深度模型,确定第二待识别信息中字词之间的语义依赖关系,包括:利用深度模型,从第一字词和第二字词中确定该定语的修饰对象为第一字词,而非第二字词。在其他实现方式中,该定语的修饰对象也可以为第二字词。第一字词、定语和第二字词的出现顺序递减,该定语的修饰对象为第一字词,表明在第二待识别信息中后出现的定语用于修饰在该定语之前出现的第一字词。由此可见,本技术中的深度模型可以充分利用历史信息。例如,“这个餐厅脏得不行,没有隔壁好”中,“不行”是对“脏”的程度的一种修饰,通过本技术中的深度模型可以更好的捕捉双向的语义依赖。
62.在自然语言处理中为了将词的表示组合成句子的表示,可以采用相加的方法,即将所有词的表示进行加和,或者取平均等方法,但是这些方法没有考虑到词语在句子中前后顺序。如句子“我不觉得他好”。若不使用本技术中的深度模型,则仅是对所有词的表示进行加和,这样无法获知“不”字是对后面“好”的否定,进而因为“好”而误认为该句子的情感是褒义的。若使用本技术中的深度模型,可以更好的捕捉双向的语义依赖,即可获知“不”字是对后面“好”的否定,从而可以准确地确定出该句子的情感是贬义的。本技术中的深度模型对情感词具有很细粒度的分类,如对于强程度的褒义、弱程度的褒义、中性、弱程度的贬义、强程度的贬义的五分类。并且在五分类中还会注意情感词、程度词、否定词之间的交互。
63.在一种实现方式中,在第二待识别信息中,该第一字词与该定语之间间隔的字符的数量大于预设数量,即表明第一字词和该定语之间间隔较远。即通过本技术中的深度模型,可以更好的捕捉到较长距离的语义依赖关系,从而有利于提高识别违规词的准确性。
64.可选的,本技术中的深度模型中的学习参数可以进行更新。具体的,深度模型中学习参数的更新可以使用通过时间的反向传播(back-propagation through time,bptt)算法,此种情况下,深度模型在前向计算误差(forward)和反向更新模型参数梯度(backard)阶段与一般模型不同之处在于隐藏层对于所有的time step都要展开计算。
65.在深度模型使用bilstm和textcnn模型的结合的情况下,可以在卷积的过程中计算与违规词的相似度,然后通过max pooling层来得出模型关注的违规词是否在待识别信息中出现。可选地,还可以确定最相似的违规词与卷积核的相似度最大有多大。假设中文输出为字向量,理想情况下一个卷积核代表一个关键词(如违规词),比如说一个2分类任务
中,如果把整个深度模型当成一个黑箱去检测其输出结果,会发现这个模型对于输入文本中是否含有“喜欢”,“热爱”这样的词特别敏感。这是因为如果大量的训练样本中都存在一个或者多个这两个词,说明这两个词是此类数据的公共特征,卷积核可以学到这些特性。本技术的深度模型中,一个卷积核可以只学半个关键词词向量,然后另外的卷积核学另外半个关键词词向量,最后在分类器的地方这些特征值被累加得到了最终的结果。因此本技术的深度模型可以从多维度获取文本的局部语义特征。
66.可选的,本技术的深度模型中,在待识别信息进入textcnn模型前可加一层双向bilstm,来捕获文本的全局信息,这样可形成lstm层学习上下文依赖,textcnn捕获局部重要信息的分类模型。
67.参见图2,为使用深度模型进行违规信息的识别的结果示意图。图2中,未改进前,是以使用lstm模型判断文本是否违规,改进后,是指使用本技术提出的深度模型判断文本是否违规。由图2可知,对于文本“一起来看亚洲美图”,未改进前的识别结果为违规,而改进后的识别结果为不违规。对于文本“大华娱乐厅”,由于在这种场所涉及违规行为的概率非常高,因此,识别结果为违规是准确的。对于文本“艺人们在大华娱乐厅参加了活动”,该文本虽然包括被识别为违规信息的“大华娱乐厅”,但是结合上下文可知,该文本不违规的概率更高。采用本技术的深度模型可以准确判别,这是因为该深度模型可以捕获较长距离的语义依赖关系,而lstm模型不能。可见,使用本技术的深度模型,可以提高违规信息识别的准确性,还可以避免将正常信息误识别为违规信息。
68.需要说明的是,本技术实施例中的阈值(如第一阈值、第二阈值、第三阈值等)以及预设参数(如预设数量等)可以由信息识别装置设置或修改。
69.在一种实现方式中,本技术实施例还提出一种信息识别系统,该信息识别系统的架构示意图如图3所示。信息识别系统可包括如下几个模块:在线配置模块,爬虫模块,数据的解析、存储和去重模块,文本研判模块。如图3所示,在线配置模块还可以称为模块1,爬虫模块还可以称为模块2,数据的解析、存储和去重模块还可以称为模块3,文本研判模块还可以称为模块4。
70.需要说明的是,每个模块所进行的处理和流程是一个环节,各个环节对数据进行不同的处理架构和存储,并且各个小模块中的各个处理流程消息队列等都是相互解耦的。这些功能性的小模块其实是一个个的原子能力,他们功能相对单一和集中,因此可以单独对部分模块进行升级、优化或者改造。各个模块之间的交流是靠数据的流动。独立的模块设计可以解决系统各个模块之间的强依赖问题。各个小模块之间还可以单独提供服务能力,当其他项目或者系统想要获得相应的服务能力时,接入相应模块就可以使用该模块的服务能力。
71.其中,在线配置模块(即模块1)可以具有如下功能中的一种或多种:供使用者灵活的配置爬虫种子、网页站点,配置爬取策略,给网络爬虫设置爬取的目标。例如爬取的站点层级,是否使用无头浏览器渲染页面,爬虫运行使用的进程数量、线程数量、分配的内存大小,网络的流量阀值的控制,程序运行失败重启策略,爬取失败重爬策略,每一个页面的响应时间,告警等级等。如图3所示中的模块1,在存在爬取任务时,加载种子,加载后的种子数据进入种子队列,以便模块2使用其进行爬取。
72.网页站点是爬虫需要爬取的网页站点。可选的,所设置的网页站点可以具有如下
特征中的一项或多项:浏览量小于第五阈值、在搜索引擎平台上的搜索排名为前n位。n为大于或等于1的整数。其中,浏览量小于第五阈值,表示浏览量不大,在搜索引擎平台上的搜索排名为前n位,表示在搜索引擎平台上搜索排名靠前。示例性的,所设置的网页站点可以为医疗机构、学校教育等官网网站。
73.信息识别系统可以使用无头浏览器动态的加载和渲染页面以保证数据的真实性。由于现实的站点中有的网站中的网页是动态加载的,若爬虫不使用无头浏览器加载统一资源定位符(uniform resource locator,url)的内容,得到的数据将会是超文本标记语言(hypertext markup language,html)标签。在动态页面中,其中的文本信息、图片信息一般都是通过javascript(js)请求远程服务器获得的,只使用普通的爬取策略得到的信息将会是不真实的信息。无头浏览器是指没有图形用户界面(graphical user interface,gui)的web浏览器,通常是通过编程或命令行界面来控制的。
74.爬取层级可用来控制网页的爬取的最深层级以保证爬取的数量。进程数量和线程数量可用于控制爬虫爬取的速度。内存分配配置项可用于保证爬虫系统的性能,当爬取的数据量很大的时候适当的将项目运行的内存设置大一些可以保证爬虫的服务能力,并且该配置项还能控制程序请求内存时不会导致内存的野蛮增长给服务器以及其他项目带来负面的反馈。网络流量是指网络中一秒可通过的的数据量,单位为比特(bit)/秒。可以把网络比作高速路,流量越大,说明路越宽,这时网络公路上可以通过的数据更多(同一时间)。爬虫爬取数据时除了基本的网络请求以外还有数据的下载,合理地设置网络流量阀值可控制爬取的速度和进度。程序运行失败重启策略可保证程序不会丧失服务能力。爬取失败重爬策略可保证爬取的数据不丢失。页面响应时间是指页面内容的加载时间,很多网页的内容是多个远程服务器加载的,这种页面加载的响应时间会很长。告警等级是指后续流程中违规信息研判结果的违规等级。在本技术实施例中,违规信息也可以称为不良信息。
75.爬虫模块(即模块2)可用于:按照模块1配置的策略以及任务进行数据抓取。图3中,模块2中的缓存(cache)可以用来暂存加载的种子数据以及后续的url解析去重后的链接和图片数据,系统运行的时候可以优先爬取缓存中的数据,如果缓存中没有数据或者加载完缓存中的数据,之后可以去加载消息队列中的数据。采用这样方式,可以避免在系统爬取任务繁重的时候没有多余的资源来响应直接加载的种子。
76.前述消息队列可以是待抓取url队列也可以是其他队列。抓取策略可用于确定待抓取url队列中url的排列顺序,url的排列顺序可以影响该url对应的页面的抓取顺序。
77.爬虫系统是一个多进程多线支撑的系统,爬取的数据在站点的存在方式是树状的形式存在,那就意味着爬取的数据随着爬取层级的深入,数量将会是指数级的上升。图4是一个网页中的层级结构,图中字母a、b、c、d

j代表超链接。本技术中的信息识别系统可采用如下方式进行数据抓取:深度优先搜索(depth first search,dfs)或广度优先搜索(breadth first search,bfs)。dfs是指爬虫从某个url开始,一个链接接一个链接的爬取下去,直到处理完了某个链接所在的所有线路,才切换到其它的线路。此时抓取顺序为:a-》b-》d-》h-》i-》e-》j-》c-》f-》g。bfs是将新下载网页中发现的链接直接插入待抓取url队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。此时抓取顺序为:a-》b-》c-》d-》e-》f-》g-》h-》i-》j。若信息识别系统使用dfs爬取,则在爬取每一个页面的时候会自带一个层级标
识,当这个标识没有超过配置中设置的层级将会自动爬取和解析下一个层级,并且对解析出来的数据打标加一设置其层级。这样随着迭代的进行,当最终的层级达到设定的层级之后会自动停止不再往下继续。
78.对于某些特定的站点而言网络爬虫短时间内发出大量请求,消耗大量的服务器带宽,可能会影响正常用户访问。另外,数据已成为一个公司的核心资产,企业需要保护自身的核心数据,以维持或提升自身的核心竞争力,因此反爬虫非常重要。本技术中的信息识别系统还可以解决反爬问题。
79.通过配置信息识别系统中的爬取策略,可以解决反爬问题。在一种实现方式中,前述信息识别方法还可以包括如下步骤:根据爬取策略,爬取得到爬取信息;其中,爬取策略包括以下一项或多项,以用于解决反爬问题:
80.爬取策略1:在爬取过程中,利用第一信息发送预设数量的请求,后续利用第二信息发送请求;第一信息为身份信息和/或地址信息。第二信息也可以为身份信息和/或地址信息。第一信息与第二信息不同。地址信息例如可以是ip地址,爬取策略1中,每请求几次更换一个ip,可以很容易的绕过多种反爬虫。
81.爬取策略2:若检测到爬取的网页的页面结构并非预设结构,则根据该网页的源代码更改xpath或正则表达式。有的反爬策略通过javascript将原本的html页面结构改变,从而在程序中无法匹配到需要的内容。爬取策略2中,若检测到爬取的网页的页面结构并非预设结构,则根据该网页的源代码更改该网页的xpath或正则表达式,可以返回标准形式的数据,从而解决反爬虫问题。预设结构可以指预先设置的标准的html页面结构,爬取的网页的页面结构并非预设结构可以表明:爬取的网页的页面结构发生了改变。xpath是python的一个第三方库,用于解析网页内容。
82.爬取策略3:若检测到爬取的网页的页面结构并非预设结构,则格式化该网页的页面结构。爬取策略3与爬取策略2类似,在检测到爬取的网页的页面结构并非预设结构的情况下,格式化该网页的页面结构,可以返回标准形式的数据,从而解决反爬虫问题。
83.爬取策略4:若检测到爬取url不完整,则对所述爬取url对应的页面进行动态抓包。爬取url不完整,可以表示该爬取url对应的网页的数据并不是一次性加载出来的,这样爬虫爬到的数据是不完整的。此种情况下,爬取策略4对该爬取url对应的页面进行动态抓包,可以获取异步加载的数据包。通过这种方式,网页每次加载的新内容,均可以被抓取到,从而解决反爬虫问题。
84.爬取策略5:若检测到爬取url不完整或不正确,则获取加密文件,根据该加密文件对爬取到的信息执行加密,返回加密数据。检测到爬取url不完整或不正确,可能是因为目标站点通过javascript加密了一些参数。此种情况下,爬取策略5获取加密文件,分析加密算法,并根据该加密文件对爬取到的信息执行加密,返回加密数据,从而解决反爬虫问题。
85.爬取策略6:在爬虫中添加headers,将浏览器的user-agent复制到爬虫的headers中,或者将refer值修改为目标网站域名。对于检测headers的反爬虫,将浏览器的user-agent复制到爬虫的headers中,可以解决该反爬虫问题。headers可以为浏览器的标识数据,该数据可以包含浏览器的配置信息(如使用的内核版本信息,某浏览器,支持的网络协议,超文本协议等)。user-agent可用于存储用户自身的信息,如用户标识(identity,id),用户名,用户密码,用户的会话(session)信息等。这些信息在访问网站的时候会接受访问
网站的验证。refer是当访问某个页面资源时,浏览器告诉该页面该访问是从哪个页面链接过来的,refer可用于验证访问的合法性。
86.数据的解析、存储和去重模块(即模块3)可用于:解析模块2抓取的数据,然后对数据进行一系列的去重和持久化操作。如图3所示,模块2抓取的数据例如可以包括图片、文本等,相应的,模块3对抓取的数据进行解析包括:解析文本、解析图片(图3中以数据解析引擎执行解析为例)。解析后,可能得到文本、图片和链接。具体的,可以将解析后得到的的文本、图像、链接放入相应的文本解析队列、图片解析队列、链接识别队列。链接识别队列中的链接进一步进行链接去重、层级判断,得到需要爬取的链接,并将其放入链接爬取队列,模块2中的数据爬取步骤还包括:对链接爬取队列中的链接对应的页面内容进行爬取。层级判断包括:若从链接识别队列中获取的链接的层级标识没有超过配置中设置的层级,则可以进一步抓取该链接的下一层级。
87.在一种实现方式中,解析爬虫模块抓取的数据可以指:解析html中的文本信息,这些信息是一些纯文本,需要去除html中带有的各种标签,因为这些标签对后面的数据分析和研判没有用,还会给数据的传输和存储带来巨大的消耗和压力。可选的,除了解析html中的纯文本信息还可以解析html中的一些关键标签中的文本信息,如解析网页的html,网页的meta标签中的文本信息。通过解析网页的title和meta标签,可以更高效地检测到违规网页。这是因为很多的不良信息网页可能将一些关键的信息或者内容放在title中,以获得潜在用户的点击。另外,这些不良信息为了提高其不良信息网站的搜索排名,会将大量关键的信息或者关键词放到meta标签中,以提高整个网页的搜索排名,当用户去搜索相应的关键词的时候,网站会将这些不良信息有限展示在浏览器的前面位置,方便用户发现和浏览。meta是html语言head区的一个辅助性标签,位于文档的头部,不包含任何内容。
88.在另一种实现方式中,解析爬虫模块抓取的数据可以指:解析html中的超链接的url。网站的开发模式千差万别,超链接在不同的站点中的存在方式也是千差万别的,为了尽量比较全面的解析出正确url,本技术的信息识别系统提出了如下一种或多种解析方式,以解析超链接的url:
89.解析方式1:匹配网页中所有带有http或者https协议的url,并且结尾为[-a-za-z0-9+&@#/%?=~_|!:,.;]空格(包括文本中的)这些字符中的任意字符。这种方式可用来解析符合超文本链接的url格式的超链接。
[0090]
解析方式2:匹配网页中所有带有www开头的url,并且结尾为[-a-za-z0-9+&@#/%?=~_|!:,.;]空格(包括文本中的)这些字符中的任意字符。这种方式可匹配网页中符合www协议下的网站域名(包括暗链和超级链接)。
[0091]
解析方式3:处理网页中链接中存在的&\"%3a%2f等特殊字符。即将链接中的这些特殊字符识别为正常字符。这些符号是一些特殊的浏览器编码字符,识别为正常的字符,例如,将特殊字符&amp识别为&。
[0092]
解析方式4:匹配href=""超链接中的url并作相应拼接,这样可以复现浏览器拼接规则,使得浏览器可以识别访问拼接得到的链接。如../../,//,./,../,/,?开头的。这种方式处理href后面是双引号的情况。href代表超链接,是指从一个网页指向一个目标的连接关系。示例性的,父链接为https://www.abc.com,超链接href="/common/declaration"》,拼接方式为:以/开头的拼接在父链接,此时,拼接后得到的链接为https://abc.com/
common/declaration。
[0093]
解析方式5:匹配网页中有base href标签的,并对拼接规则进行改变。具体的,有base href的子链接不再用当前父链接进行拼接,而是用父链接的主域名进行拼接。例如,对于链接https://a.abc.com/common/declaration,该链接的子链接用该链接的主域名(即https://a.abc.com)进行拼接。
[0094]
解析方式6:匹配href=”超链接中的url并作相应拼接。如../../,//,./,../,/,?开头的。这种方式处理href后面是单引号的情况。
[0095]
解析方式7:匹配href超链接中的url并作相应拼接。如../../,//,./,../,/,?开头的。这种方式是处理href后面没有引号的情况。
[0096]
解析方式8:匹配src=""超链接中的url并作相应拼接。如../../,//,./,../,/,?开头的。这种方式是处理src后面是双引号的情况。
[0097]
解析方式9:匹配src=”超链接中的url并作相应拼接。如../../,//,./,../,/,?开头的。这种方式是处理src后面是单引号的情况。
[0098]
解析方式10:匹配@符号后面的邮箱,且邮箱以如下后缀中的任一项结尾:\.edu\.com|\.gov\.cn|\.org\.cn|\.net\.cn|\.com\.cn|\.top\.cn|\.asp|\.com|\.cn|\.top|\.xyz|\.vip|\.net|\.org|\.wang|\.gov|\.mil|\.co|\.biz|\.name|\.info|\.pro|\.int|\.im|\.ltd|\.hk。其中,|用于分割具体项,/是具体项中的分隔符。这种方式可以处理邮箱后面有违规链接的情况。
[0099]
解析方式11:匹配window.location=

,这种方式可以处理网页跳转情况后的新链接。
[0100]
解析方式12:匹配option value=""超链接中的url并作相应拼接。如../../,//,./,../,/,?开头的。这种方式是处理option value后面是双引号的情况。
[0101]
解析方式13:匹配option value=”超链接中的url并作相应拼接。如../../,//,./,../,/,?开头的。这种方式是处理option value后面是单引号的情况。
[0102]
解析方式14:处理网页乱码meta name="keywords"content="标签中的乱码文字并还原进行链接匹配。
[0103]
数据去重是指一个网站中有很多重复的链接,模块2需要爬的网页太多,如果重复的爬取一些重复的标签不仅会导致爬虫系统压力繁重占用大量的软硬件性能还会导致爬虫进入死循环不知道何时结束爬取数据,这样会导致整个系统性能变慢。若全网有n个网站,那么判重的复杂度就是n*log(n),因为所有网页要遍历一次,而每次判重用需要log(n)的复杂度。本技术中的信息识别系统使用的判重做法是:使用布隆过滤器(bloom filter)。其特点是,可以使用固定的内存(不随url的数量而增长),以o(1)的效率判定url是否已经被爬取过。
[0104]
本技术中,信息识别需要处理的数据量很大,而且很多数据是图片数据。本技术可通过云计算技术获取足够算力和存储空间。可选的,信息识别系统可具有数据恢复和纠错功能,当存储服务器宕机或者磁盘损坏时,可以快速高效的恢复之前存储的数据。具体的,可使用纠删码erasure code和校验和checksum来保护数据免受硬件故障和无声数据损坏。纠删码是一种恢复丢失和损坏数据的数学算法。可选的,本技术可使用存储数据库minio进行数据存储,例如,存储爬取到的信息。在标准硬件上,minio的读/写速度上高达183gb/秒
和171gb/秒。需要说明的是,图3中,将待识别的图片存储至minio数据库用于举例,还可以存储至其他数据库,本技术实施例对此不做限定。
[0105]
可选的,模块3中还具有光学字符识别(optical character recognition,ocr)模块,以用于对包括图片的待识别信息进行识别。如图3所示,经过ocr识别的结果可以放入ocr识别队列中。很多不良信息网页中大量违规的内容是以图片的形式存在的,通过ocr模块可识别出图片包括的文本信息。通过这种方式,可以有效识别出违规图片,以保证信息识别系统对不良信息捕获能力的全面性。
[0106]
文本研判模块(即模块4)可用于:判断来自模块3的待识别信息,是否违规。例如,参见图3,判断来自文本解析队列和ocr识别队列中的待识别信息是否违规。文本研判模块的大致处理流程包括:对来自模块3的待识别信息,与违规词数据集进行匹配,对于与违规词数据集之间的匹配结果满足预设条件的待识别信息,放入违规词过滤队列,进一步的,由深度模型对违规词过滤队列中的待识别信息进行研判,从而得到研判结果。研判结果指示是否违规。对于与违规词数据集之间的匹配结果不满足预设条件的待识别信息,可以直接得到研判结果,具体可参见前文步骤s102和步骤s103中的描述。
[0107]
示例性的,文本研判模块的处理流程的示意图可以参见图5所示。图5中,波浪框代表各种数据集,平行四边形代表某一个处理过程,小长条长方形代表处理过程所包含的子过程,大长方形代表结果。整体的数据流向如图中实线所示,模块3输出的数据流入本环节的处理中,首先经过数据清洗,然后得到无黑白名单的数据(即前述第一待识别信息)。这里数据有两个流向,一个是流向违规词匹配处理过程,一个是匹配到黑名单的数据可以直接流向最终的结果,或者,匹配到外链的数据可以流入接口或队列,并进一步采用深度模型对其进行语义分析和研判,从而得到结果。经过数据清洗后,进行下一个处理过程,即违规词匹配。具体的,将无黑白名单的数据全文匹配系统的违规词数据集,然后将匹配到违规词的待识别信息(例如网页文本)进行反向全文搜索,以获得违规词在原文中的位置信息,确定具体位置信息后可以对文本进行短文本切句以获得违规词相关的短文本数据,最后将这些数据送到接口或者队列中去使用深度模型进行研判。使用反向全文搜索的搜索效率较高。
[0108]
图5中,爬虫文本数据集包括爬虫爬取到的信息。爬虫文本数据集中,可以按照爬取批次或者任务编号。爬虫文本数据集可以包括如下内容中的一项或多项:所爬取的相关网页,站点,公众号,新闻媒体,监管站点等相关网页的原始网页非结构化数据。低置信度文本是指匹配到相关违规词的网页,由于匹配到违规词的网页不一定违规,所以这些数据被称为低置信度文本。其中,无黑白名单的数据、违规词匹配的内容可参见前文描述,此处不再赘述。
[0109]
图5中虚线部分是指违规词的生成和违规词的运营,在信息识别系统中违规词的运营前期可以通过利用互联网上寻找一些基础的词库资源(即图中词典数据集),然后经过运营(例如人工审核),添加到词库中。运营违规词可以包括如下方式:对违规词添加一些属性,例如添加如下一种或多种属性:类别、敏感等级、拦截率、拦截准确率、召回率等。这些属性可用于计算匹配到该违规词的待识别信息的违规程度。可选的,还可以通过实际生产中的回馈来调整违规词的相关属性,确保拦截不良信息的准确率。可选的,还可以对基础词库中的词也进行扩展,例如进行如下一种或多种扩展:同义字扩展、拼音扩展、异形字扩展、同意扩展、跳跃扩展、反义扩展等。扩展出的词语的属性、类别可以与源词汇一样。可选的,还
可以利用新词发现和热词计算自动获取新的违规词和相应的属性类别,进而扩充违规词数据集。
[0110]
如图5所示,违规词匹配包括长词计算、违规程度计算、词性计算这3个子过程。违规词匹配过程中,满足预设条件的待识别信息为低置信度违规文本,进一步的,在原文中搜索违规词的位置,然后进行切句,将切句得到的第二待识别信息放入接口或队列,进一步采用深度模型对齐进行研判,得到研判结果。对于不满足预设条件的,直接得到研判结果。违规字匹配的相关内容可参见步骤s102中的描述,此处不再赘述。
[0111]
在进行违规词数据集匹配的过程中,可基于哈希(hash)强匹配,或者,基于正则的过滤,或者,使用确定有限状态机(deterministic finite automaton,dfa)算法或ahocorasick多模匹配算法。dfa可实现违规词高效过滤。ahocorasick算法是字符串搜索算法,ahocorasick算法与普通字符串匹配的不同点在于:同时与所有字典串进行匹配。算法均摊情况下具有近似于线性的时间复杂度,约为字符串的长度加所有匹配的数量。
[0112]
需要说明的是,本技术中的“大于或等于”可以替换为“大于”,此时,“小于”可以替换为“小于或等于”。
[0113]
使用信息识别系统进行违规信息的识别,可具有如下有益效果:第一,全面性,可识别不同传播途径和传播方式的违规信息,例如可识别文本、图片等类型的违规信息。第二,准确性,采用前述深度模型进行违规信息识别,可以提高识别的准确性。第三,灵活性,信息识别系统各模块独立设计,能大大增加系统的可改造型和耦合性,更加灵活。第四,新信息的发现和识别能力,深度模型可通过不断的维护和训练模型来保持对新信息的发现能力,进而也能加强违规信息的识别能力。第五,数据的高可用性和复用性,本技术使用云计算提供强大的算力和存储资源,存储的大量数据可用于模型的自学习或者更新,从而实现了数据的高可用性和复用性。
[0114]
请参阅图6,图6是本技术实施例提供的一种信息识别装置的结构示意图。如图6所示,该信息识别装置60包括获取单元601和处理单元602。其中,
[0115]
获取单元601,用于获取第一待识别信息;
[0116]
处理单元602,用于确定第一待识别信息与违规词数据集之间的匹配结果;匹配结果包括既存在于第一待识别信息,也存在于违规词数据集中的目标违规词;
[0117]
处理单元602,还用于若匹配结果满足预设条件,则在第一待识别信息中获取包括目标违规词的第二待识别信息;
[0118]
处理单元602,还用于利用深度模型判断第二待识别信息是否违规。
[0119]
在一种可选的实施方式中,第二待识别信息包括多个字词;处理单元602用于利用深度模型判断第二待识别信息是否违规时,具体用于:利用深度模型,确定第二待识别信息中字词之间的语义依赖关系;并根据该语义依赖关系,判断第二待识别信息是否违规。
[0120]
在一种可选的实施方式中,第二待识别信息包括第一字词、定语和第二字词;在第二待识别信息中,第一字词、定语和第二字词的出现顺序递减;处理单元602用于利用深度模型,确定第二待识别信息中字词之间的语义依赖关系时,具体用于:利用深度模型,从第一字词和第二字词中确定该定语的修饰对象为该第一字词。
[0121]
在一种可选的实施方式中,目标违规词的数量为一个或多个;预设条件包括以下一项或多项:目标违规词的长度小于第一阈值;目标违规词的数量小于第二阈值;第一待处
理信息的违规程度值小于第三阈值,第一待处理信息的违规程度值由目标违规词的词性确定。
[0122]
在一种可选的实施方式中,处理单元602用于在第一待识别信息中获取包括目标违规词的第二待识别信息时,具体用于:确定目标违规词在第一待识别信息中的位置;根据该位置,对第一待识别信息进行切句,得到包括目标违规词的第二待识别信息;其中,第二待识别信息包括的字符长度小于第四阈值,和/或,第二待识别信息具有完整的句子结构。
[0123]
在一种可选的实施方式中,第一待识别信息为与过滤对象数据集中的对象不匹配的爬取信息,过滤对象数据集包括黑名单对象和/或白名单对象。
[0124]
在一种可选的实施方式中,处理单元602还可以用于:根据爬取策略,爬取得到所述爬取信息;其中,爬取策略包括以下一项或多项:在爬取过程中,利用第一信息发送预设数量的请求,后续利用第二信息发送请求;第一信息为身份信息和/或地址信息;若检测到爬取的网页的页面结构并非预设结构,则格式化该网页的页面结构;若检测到爬取url不完整,则对该爬取url对应的页面进行动态抓包。
[0125]
信息识别装置60还可以用于实现图1对应实施例中信息识别装置的其他功能,此处不再赘述。
[0126]
请参阅图7,图7为本技术实施例提供的另一种信息识别装置70。可以用于实现上述方法实施例中信息识别装置的功能。该信息识别装置70可以包括处理器701。可选的,该信息识别装置70还可以包括存储器702。其中,处理器701、存储器702可以通过总线703或其他方式连接。总线在图7中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0127]
本技术实施例中的耦合是装置、单元或模块之间的间接耦合或通信连接,可以是电性,机械或其它的形式,用于装置、单元或模块之间的信息交互。本技术实施例中不限定上述处理器701、存储器702之间的具体连接介质。
[0128]
存储器702可以包括只读存储器和随机存取存储器,并向处理器701提供指令和数据。存储器702的一部分还可以包括非易失性随机存取存储器。
[0129]
处理器701可以是中央处理单元(central processing unit,cpu),该处理器701还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器,可选的,该处理器701也可以是任何常规的处理器等。
[0130]
当信息识别装置采用图7所示的形式时,图7中的处理器可以执行上述任一方法实施例中的信息识别装置执行的方法。
[0131]
在一种可选的实施方式中,存储器702,用于存储程序指令;处理器701,用于调用存储器702中存储的程序指令,以用于执行图1对应实施例中信息识别装置所执行的步骤。具体的,图6的获取单元、处理单元的功能/实现过程均可以通过图7中的处理器701调用存储器702中存储的计算机执行指令来实现。
[0132]
在本技术实施例中,可以通过在包括中央处理器(central processing unit,简
称cpu)、随机存取存储介质(random access memory,ram)、只读存储介质(read-only memory,rom)等处理元件和存储元件的例如计算机的通用计算装置上运行能够执行上述方法所涉及的各步骤的计算机程序(包括程序代码),以及来实现本技术实施例所提供的方法。计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算装置中,并在其中运行。
[0133]
基于同一发明构思,本技术实施例中提供的信息识别装置70解决问题的原理与有益效果与本技术方法实施例中信息识别装置解决问题的原理和有益效果相似,可以参见方法的实施的原理和有益效果,为简洁描述,在这里不再赘述。
[0134]
本技术实施例还提供一种芯片,该芯片可以执行前述方法实施例中信息识别装置的相关步骤。在一种可能的实现方式中,该芯片包括至少一个处理器、至少一个第一存储器和至少一个第二存储器;其中,前述至少一个第一存储器和前述至少一个处理器通过线路互联,前述第一存储器中存储有指令;前述至少一个第二存储器和前述至少一个处理器通过线路互联,前述第二存储器中存储前述方法实施例中需要存储的数据。
[0135]
对于应用于或集成于芯片的各个装置、产品,其包含的各个模块可以都采用电路等硬件的方式实现,或者,至少部分模块可以采用软件程序的方式实现,该软件程序运行于芯片内部集成的处理器,剩余的(如果有)部分模块可以采用电路等硬件方式实现。
[0136]
本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有一条或多条指令,一条或多条指令适于由处理器加载并执行上述方法实施例所提供的方法。
[0137]
本技术实施例还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法实施例所提供的方法。
[0138]
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0139]
本技术实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
[0140]
本技术实施例装置中的模块可以根据实际需要进行合并、划分和删减。
[0141]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,可读存储介质可以包括:闪存盘、rom、ram、磁盘或光盘等。
[0142]
以上所揭露的仅为本技术一种较佳实施例而已,仅仅是本技术一部分实施例,不能以此来限定本技术之权利范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1