信息处理的方法、装置及存储介质与流程

文档序号:33004891发布日期:2023-01-18 03:08阅读:32来源:国知局
信息处理的方法、装置及存储介质与流程

1.本技术涉及信息安全技术领域,具体而言,涉及信息处理的方法、装置及存储介质。


背景技术:

2.迄今为止,我国将近有73%的用户使用网络,对网络的需求也越来越大,网络信息安全和垃圾信息也成为如今的焦点。当人们在网上聊天、填写信息、打开未知网站等动作时都可能会产生不良信息(广告、诈骗、传销以及影响社会稳定的谣言等)或造成安全隐患。
3.现目前采用的方案,主要是将信息识别后,从而拦截非法信息,通过正常信息。假设a发送一条正常信息给b,但中途被非法人员植入垃圾信息。那么b将接收不到a的消息。
4.这样的处理方式,也对用户带来了极大的不便。


技术实现要素:

5.本技术实施例的目的在于一种信息处理的方法、装置、电子设备及存储介质,通过对识别出的目标信息的类别采取相应的处理措施。以避免用户输入或发出的信息一旦被非法人员植入非正常信息,该目标信息便一律被拦截,而导致为用户带来不便的问题。
6.第一方面,本技术实施例提供了信息的处理方法,包括:获取信息发送用户发出的目标信息;利用目标朴素贝叶斯算法模型对所述目标信息进行识别,确定所述目标信息的分类结果;以及根据所述目标信息的分类结果对所述目标信息进行处理。
7.上述信息处理的方法,通过目标朴素贝叶斯算法模型对用户发送的信息进行识别并分类,再根据分类结果,对目标信息进行相对应的处理,解决了现有技术中,一旦发现目标信息中包含有不良信息便一律做拦截处理给用户带来不便的问题,实现了只要用户本身所编辑的目标信息是正常信息,无论非法人员是否植入不正常信息,该目标信息都能在被去除不正常信息后发送出去,改善了用户上网聊天、在网页上留言、交流等的体验。
8.结合第一方面,可选地,其中,所述目标朴素贝叶斯算法模型通过以下方式获得:
9.获取包含所述目标信息的第一训练信息集;利用分词库提取所述目标信息中的词汇并分类,获得所述目标信息的分类列表;以及将所述分类列表作为特征值,并通过输入所述特征值和第一训练信息集对预先构建的初始朴素贝叶斯算法模型进行训练,获得所述目标朴素贝叶斯算法模型。
10.上述信息处理的方法,通过分词库将包含目标信息的第一训练集进行分词处理,在将经过分词处理后获得词汇进行分类得到该目标信息的分类列表,并将该分类列表作为初始朴素贝叶斯算法模型训练的特征值。经过训练后获得的目标朴素贝叶斯算法模型能够更加准确地对目标信息的分类进行识别。
11.结合第一方面,可选地,其中,所述分词库包括jieba库。
12.所述利用分词库提取所述目标信息中的词汇并分类,获得所述目标信息的分类列表,包括:根据所述目标信息的语法结构,提取所述目标信息中的第一类词汇,对所述第一
类词汇进行分类,并将所述第一类词汇进行分类的结果作为分类列表;或将所述目标信息中所有至少两个相邻的文字组合成文字组,从所述文字组中提取出与词库中的词汇对应的第二类词汇,对所述第二类词汇进行分类,并将所述第二类词汇进行分类的结果作为分类列表;或根据所述目标信息的语法结构,提取所述目标信息中的第一类词汇,对所述第一类词汇进行分类,并将所述第一类词汇进行分类的结果依照预设条件进行切分,将切分后的结果作为分类列表。
13.上述信息处理的方法,由于jieba库是目前相对最好的python分词组件,安装便捷,只需要使用pip安装且不需要另外下载其它的数据包。加之其功能强大,得出的分词结果更能满足用户的需求。因此,本技术实施例采用jieba库作为分词环节的分词工具,方案的可行性高,基于jieba库做对目标信息做出的词汇提取和分类,提高了对目标信息进行识别的准确性。
14.结合第一方面,可选地,其中,所述分类列表包括违禁词汇列表、垃圾词汇列表以及正常词汇列表。
15.上述信息处理的方法,将目标信息中提取的词汇分为违禁词汇列表、垃圾词汇列表以及正常词汇列表三类,便于对目标信息按照违禁词汇列表、垃圾词汇列表以及正常词汇列表三类进行分类,进而便于针对目标信息的不同分类采取相应的处理方式。避免了凡是目标信息中包含非正常信息便一律做拦截处理,进而导致用户因导致用户不能正常发送或接收正常信息的问题,从而改善了用户的体验。
16.结合第一方面,可选地,其中,所述目标信息的分类结果包括违禁信息。
17.所述根据所述目标信息的分类结果对所述目标信息进行处理,包括:若判断所述目标信息的分类结果中存在违禁信息,则对包含所述违禁信息的所述目标信息进行拦截。
18.上述信息处理的方法,通过判断识别出目标信息属于违禁信息的情况下,为了阻止该违禁信息,才对该目标信息做拦截处理。避免了凡是对包含非正常信息的目标信息一律做拦截处理为用户带来的不便。
19.结合第一方面,可选地,其中,所述根据所述目标信息的分类结果对所述目标信息进行处理,还包括:若所述目标信息的分类结果中存在违禁信息,则向信息发送用户发送警告信息。
20.上述信息处理的方法,通过对发送或输入违禁信息的用户进行警告,一定程度上控制了对不良信息的宣扬,进而改善了网络环境。
21.结合第一方面,可选地,其中,所述目标信息的分类结果包括垃圾信息。
22.所述根据所述目标信息的分类结果对所述目标信息进行处理,包括:若所述目标信息的分类结果中存在垃圾信息,则判断是否获取到由信息接收用户发出的处理所述垃圾信息的处理指令;若判定获取到由信息接收用户发出的处理所述垃圾信息的处理指令,则剔除所述目标信息中的垃圾信息,获得所述目标信息中的正常信息;以及对所述正常信息进行重组,获得信息发送用户输入的原始信息。
23.上述信息处理的方法,通过在判断出目标信息属于垃圾信息的类别的情况下,表明目标信息中所包含的原始信息是用户需要发送或接收的。因此,通过将其中由非法人员所植入的广告等垃圾剔除,并对经过剔除操作所获得正常信息进行重组,便能获得用户需要发送或接收的原始信息。为用户上网带来了便利。
24.结合第一方面,可选地,其中,所述正常信息包括至少一个正常子信息。
25.所述对所述正常信息进行重组,获得信息发送用户输入的原始信息,包括:利用目标余弦相似度算法模型计算各所述正常子信息的契合度;根据所述契合度排列所述正常子信息,获得所述原始信息。
26.上述信息处理的方法,通过基于余弦相似度算法构建的目标余弦相似度算法模型计算经过剔除处理后得到的各正常子信息的契合度,再根据各正常子信息的契合度排列并重组该各正常子信息,便更加准确地得到了用户输入的原始信息。粉碎了非法人员的不良企图的同时,进一步地确保了用户能够发出或接收原始信息。
27.第二方面,本技术实施例还提供了一种信息处理的装置,包括:
28.获取模块,用于获取信息发送用户发出的目标信息;
29.识别模块,用于利用目标朴素贝叶斯算法模型对所述目标信息进行识别,确定所述目标信息的分类结果;
30.处理模块,用于根据所述目标信息的分类结果对所述目标信息进行处理。
31.上述实施例,提供的信息处理的装置具有与上述第一方面,或第一方面的任意一种可选的实施方式所提供的一种信息处理的方法相同的有益效果,此处不作赘述。
32.第三方面,本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上面描述的方法。
33.上述实施例,提供的计算机可读存储介质具有与上述第一方面,或第一方面的任意一种可选的实施方式所提供的一种信息处理的方法相同的有益效果,此处不作赘述。
34.第四方面,本技术实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
35.上述实施例,提供的电子设备具有与上述第一方面,或第一方面的任意一种可选的实施方式所提供的一种信息处理的方法相同的有益效果,此处不作赘述。
36.综上所述,本技术提供的一种信息处理的方法、装置及存储介质,通过对目标信息进行识别并分类,根据目标信息的分类采取相对应的处理措施。避免了目标信息一旦被非法人员植入非正常信息,该目标信息便一律被拦截,为用户上网带来的不便。具体地,对识别出为违禁信息类别的目标信息做拦截处理,并对发送该目标信息的用户进行警告,一定程度上控制了不良信息的传播。对识别出为垃圾信息类别的目标信息做剔除、重组处理,剔除目标信息中的垃圾广告等,并对剩下的正常信息进行重组,得到用户输入的原始信息,为用户上网带来了便利。其中,通过训练得到的目标朴素贝叶斯算法模型对目标信息进行识别并分类,提高了对目标信息识别的准确性。通过训练得到的目标余弦相似度算法模型对经过剔除处理后得到的正常信息进行重组,能够更加准确地得到用户所输入的原始信息,从而进一步地为用户上网带来了便利。
附图说明
37.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他相关的附图。
38.图1为本技术实施例提供的信息处理方法的流程示意图;
39.图2为本技术实施例提供的获得目标朴素贝叶斯算法模型的流程示意图;
40.图3为本技术实施例提供的步骤s160的详细流程示意图;
41.图4为本技术实施例提供的信息处理装置的功能模块示意图;
42.图5为本技术实施例提供的电子设备的结构示意图。
具体实施方式
43.下面将结合附图对本技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本技术的技术方案,因此只作为示例,而不能以此来限制本技术的保护范围。
44.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术。
45.在本技术实施例的描述中,技术术语“第一”、“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本技术实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
46.由于现目前对包含被非法人员植入的不良信息(广告、诈骗、传销以及影响社会稳定的谣言等)采用的处理方式是,一旦识别出包含该不良信息的信息,一律做拦截处理。这样会导致用户不能正常发送或接收正常信息。因此,根据不良信息的类型,采取相应的处理方式,确保用户依然能够正常的发送或接收正常信息就很有必要。具体地,请参阅本技术提供的实施例及附图。
47.请参照图1,图1是本技术实施例提供的信息处理方法的流程示意图。该信息的处理方法包括:
48.步骤s120:获取信息发送用户发出的目标信息。
49.上述步骤s120中,用户发送的目标信息可以是聊天用户发送的聊天消息,也可以是用户在客户端或者网页填写的文章或更新的动态,还可以网站编辑用户所编辑的网站信息等。
50.步骤s140:利用目标朴素贝叶斯算法模型对目标信息进行识别,确定目标信息的分类结果。
51.上述步骤s140中,朴素贝叶斯算法的基本原理如下:
[0052][0053]
其中,p(a|b)是在b发生的情况下a发生的概率;p(a)是a发生的概率;p(b|a)是在a发生的情况下b发生的概率;p(b)是b发生的概率。
[0054]
在本方案执行环境中,可以把上述公式理解为:
[0055]
[0056]
其中,l为样本的一种分类(例如:违禁信息、垃圾信息、正常信息),t为特征。
[0057]
首先计算各类数据中,各特征的条件概率,比如:特征t1出现的情况下,属于a类的概率p(a|t1),属于b类的概率p(b|t1),属于c类的概率p(c|t1)。从而得到三类的概率,a、b、c中概率最高的一者即为特征1出现的情况下,样本l的分类。
[0058]
接着,分解待分类数据中的特征(特征t1、特征t2、特征t3、特征t4……
)。
[0059]
然后,计算各特征的各条件概率的乘积,如下所示:
[0060]
a类的概率:p(a|t1)*p(a|t2)*p(a|t3)*p(a|t4)
……

[0061]
b类的概率:p(b|t1)*p(b|t2)*p(b|t3)*p(b|t4).....,
[0062]
c类的概率:p(c|t1)*p(c|t2)*p(c|t3)*p(c|t4).....
[0063]
最后,结果中的最大值就是该样本l所属的类别。
[0064]
步骤s160:根据目标信息的分类结果对目标信息进行处理。
[0065]
上述步骤s160中,根据目标信息的分类结果对目标信息进行相应的处理。对目标信息的分类可以包括三种:违禁信息、垃圾信息以及正常信息。其中,违禁信息为用户自身所编辑的信息,其中包含危害社会公德、宣扬赌博、吸毒、发布低俗信息、损害国家和民族形象等信息。这类信息的处理方式可以是直接将其拦截。垃圾信息可以是有非法人员在目标信息中植入有广告、诈骗、传销以及影响社会稳定的谣言等不良信息,这类信息的处理方式可以是将目标信息中由非法人员所植入的不良信息进行过滤之后,再发送给用户。而正常信息则不用对其进行拦截或过滤等处理。
[0066]
上述实现过程中,通过目标朴素贝叶斯算法模型对用户发送的信息进行识别并分类,再根据分类结果,对目标信息进行相对应的处理,解决了现有技术中,一旦发现目标信息中包含有不良信息便一律做拦截处理给用户带来不便的问题,实现了只要用户本身所编辑的目标信息是正常信息,无论非法人员是否植入不正常信息,该目标信息都能在被去除不正常信息后发送出去,改善了用户上网聊天、在网页上留言、交流等的体验。
[0067]
请参照图2,图2是本技术实施例提供的获得目标朴素贝叶斯算法模型的流程示意图。一种可选的实施方式,上述目标朴素贝叶斯算法模型通过以下方式获得:
[0068]
步骤s10:获取包含目标信息的第一训练信息集;
[0069]
上述步骤s10中,目标信息包含正常的目标信息和被非法人员植入过不良信息的目标信息。以该目标信息作为训练模型的第一训练信息集。
[0070]
步骤s20:利用分词库提取目标信息中的词汇并分类,获得目标信息的分类列表;
[0071]
上述步骤s20中,分词库包括但不限于jieba库、hanlp工具包、jcseg分词器、sego分词库、foolnltk工具包、ansj中文分词以及word分词。基于上述分词库,对从目标信息中提取出来的词汇进行分类,并形成分类列表。形成的分类列表可以包括:违禁词汇列表、垃圾词汇列表以及正常词汇列表。
[0072]
步骤s30:将分类列表作为特征值,并通过输入特征值和第一训练信息集对预先构建的初始朴素贝叶斯算法模型进行训练,获得目标朴素贝叶斯算法模型。
[0073]
上述实现过程中,通过分词库将包含目标信息的第一训练集进行分词处理,在将经过分词处理后获得词汇进行分类得到该目标信息的分类列表,并将该分类列表作为初始朴素贝叶斯算法模型训练的特征值。经过训练后获得的目标朴素贝叶斯算法模型能够更加准确地对目标信息的分类进行识别。
[0074]
在一种可选的实施方式中,上述分词库包括jieba库。
[0075]
同时请结合参照表1,表1是示例性的目标信息分别经下述步骤s21、步骤s22以及步骤s23处理后所得的结果对照表,表1如下所示;
[0076]
表1
[0077][0078]
上述步骤s20包括如下步骤之一:
[0079]
步骤s21:根据目标信息的语法结构,提取目标信息中的第一类词汇,对第一类词汇进行分类,并将所有词汇进行分类的结果作为分类列表。
[0080]
上述步骤s21中,语法结构包括目标信息中的“主谓宾”、“主系表”等,根据该语法结构,提取出作为目标信息中的主语、谓语、宾语、标语等词汇,作为目标信息中的第一类词汇。示例性地,如表1所示,目标信息中包含“欢迎来到古典咖啡馆”,从所有切词方案中找到最优方案,从而获得:
“‘
欢迎’,

来到’,

古典’,

咖啡馆
’”
,其中,
“‘
咖啡’,


’”
组合成“咖啡馆”对拆分后所获得的词汇进行分类,获得该分类列表。
[0081]
上述步骤s21中的提取方式能很好的避免对一些正常信息识别成非正常信息,例如:目标信息为正常信息,其中包含“abc”(为避免出现敏感词汇,此处仅用字母代替由具体汉字构成的具体示例做原理性说明),根据上述步骤s21中的提取方式对其中的词汇进行提取,获得
“‘
ab’,
‘c’”
,然而,“b”和“c”构成的词汇“bc”也是词典、者辞海等词库所具有的词,而该词汇“bc”却是包含危害社会公德、宣扬赌博、吸毒、发布低俗信息、损害国家和民族形象等含义的词。因此,本身为正常信息的目标信息“abc”被误识别为非正常信息。
[0082]
步骤s22:将目标信息中所有至少两个相邻的文字组合成文字组,从文字组中提取出与词库中的词汇对应的第二类词汇,对第二类词汇进行分类,并将所有特征词汇进行分类的结果作为分类列表。
[0083]
上述步骤s22中:首先,文字组是由目标信息中,任意位置相邻的两个或两个以上的相邻文字,例如:“同学打篮球”中,包含的文字组有“同学”、“学打”、“打篮”、“篮球”、“同
学打”、“学打篮”、“打篮球”、“同学打篮”、“学打篮球”。提取出这些词组。接着,依据词库中所现有的词汇,从目标信息中所有的词组中提取出与词库中的词汇对应的第二类词汇,例如:在“同学打篮球”中提取出的文字组中,“同学”、“篮球”、“打篮球”这些文字组在词库中具有对应的词汇,因此,“同学”、“篮球”、“打篮球”便是最后提取到的第二类词汇。其中,上述词库包括但不限于:词典、辞海。
[0084]
示例性地,如表1所示,目标信息中包含“欢迎来到古典咖啡馆”,利用分词库可将其拆分为:
“‘
欢迎’,

迎来’,

来到’,

古典’,

咖啡馆
’”
。可见,其中的词汇“迎来”与文本“欢迎来到古典咖啡馆”的含义并不相关,但是该词汇属于辞海等词库中的词汇,因此被一并拆分出来。对拆分后获得的词汇进行分类,获得该分类列表。
[0085]
上述步骤s22中的提取方式能够避免非法人员故将非法信息如上述步骤s21中所列举的示例的方式植入非正常信息。具体地,词汇“bc”包含危害社会公德、宣扬赌博、吸毒、发布低俗信息、损害国家和民族形象等含义。非法人员为了避免被识别出,故意将该词汇“bc”植入用户输入或发送的正常信息中,形成包含“abc”的目标信息。此种情况下,通过上述步骤s22中的提取方式,能够更准确地识别出包含非正常信息的目标信息。
[0086]
步骤s23:根据目标信息的语法结构,提取目标信息中的第一类词汇,对第一类词汇进行分类,并将所有词汇进行分类的结果依照预设条件进行切分,将切分后的结果作为分类列表。
[0087]
上述步骤s23中,预设条件可以是:对应于词典、辞海等词库中的词汇。
[0088]
示例性地,如表1所示,一目标信息中包含“欢迎来到古典咖啡馆”,根据上述步骤s21中的提取方式可提取到第一类词汇:
“‘
欢迎’,

来到’,

古典’,

咖啡馆
’”
,再根据该预设条件做进一步拆分,其中,“咖啡馆”中包含词汇“咖啡”,将其拆分出来,最终得到
“‘
欢迎’,

来到’,

古典’,

咖啡’,

咖啡馆
’”

[0089]
另一目标信息包含“我今天下午打篮球”,根据上述步骤s21中的提取方式可提取到第一类词汇:
“‘
我’,

今天下午’,

打篮球
’”
,再根据该预设条件做进一步拆分,其中,词汇“今天下午”中还包含词汇“今天”和“下午”,词汇“打篮球”中还包含词汇“篮球”,将其拆分出来,最终得到
“‘
我’,

今天’,

下午’,

今天下午’,

篮球’,

打篮球
’”

[0090]
对拆分后获得的词汇进行分类,获得该分类列表。
[0091]
上述步骤s23中,在上述步骤s21的基础上做了进一步的拆分,从而进一步地提高了对目标信息的进行识别的准确性。
[0092]
上述实现过程中,由于jieba库是目前相对最好的python分词组件,安装便捷,只需要使用pip安装且不需要另外下载其它的数据包。加之其功能强大,得出的分词结果更能满足用户的需求。因此,本技术实施例采用jieba库作为分词环节的分词工具,方案的可行性高,基于jieba库做对目标信息做出的词汇提取和分类,提高了对目标信息进行识别的准确性。
[0093]
在一种可选的实施方式中,分类列表包括违禁词汇列表、垃圾词汇列表以及正常词汇列表。
[0094]
上述违禁词汇指的是包含危害社会公德、宣扬赌博、吸毒、发布低俗信息、损害国家和民族形象等含义的词汇。上述垃圾词汇指的是包含非法人员所植入广告等信息,例如:某品牌、某公司等。
[0095]
上述实现过程中,将目标信息中提取的词汇分为违禁词汇列表、垃圾词汇列表以及正常词汇列表三类,便于对目标信息按照违禁词汇列表、垃圾词汇列表以及正常词汇列表三类进行分类,进而便于针对目标信息的不同分类采取相应的处理方式。避免了凡是目标信息中包含非正常信息便一律做拦截处理,进而导致用户因导致用户不能正常发送或接收正常信息的问题,从而改善了用户的体验。
[0096]
在一种可选的实施方式中,上述目标信息的分类结果包括违禁信息。
[0097]
上述步骤s160包括:
[0098]
若判断目标信息的分类结果中存在违禁信息,则执行步骤s161:对包含违禁信息的目标信息进行拦截。
[0099]
上述步骤s161中,若判断出目标信息属于违禁信息,为了避免该违禁信息在社会上传播并造成不良影响,对该违禁信息做拦截处理。
[0100]
上述实现过程中,通过判断识别出目标信息属于违禁信息的情况下,为了阻止该违禁信息,才对该目标信息做拦截处理。避免了凡是对包含非正常信息的目标信息一律做拦截处理为用户带来的不便。
[0101]
在一种可选的实施方式中,上述步骤s160还包括:
[0102]
若目标信息的分类结果中存在违禁信息,则执行步骤s162:向信息发送用户发送警告信息。
[0103]
上述步骤s161中,由于违禁信息包含危害社会公德、宣扬赌博、吸毒、发布低俗信息、损害国家和民族形象等信息。在目标信息被判定为违禁信息的情况下,发送或输入该目标信息的用户便应当被劝告。
[0104]
上述实现过程中,通过对发送或输入违禁信息的用户进行警告,一定程度上控制了对不良信息的宣扬,进而改善了网络环境。
[0105]
请参照图3,图是本技术实施例提供的步骤s160的详细流程示意图。在一种可选的实施方式中,目标信息的分类结果包括垃圾信息。
[0106]
上述步骤s160包括:
[0107]
若目标信息的分类结果中存在垃圾信息,则执行步骤s163:判断是否获取到由信息接收用户发出的处理垃圾信息的处理指令。
[0108]
若判定获取到由信息接收用户发出的处理垃圾信息的处理指令,则执行步骤s164:剔除目标信息中的垃圾信息,获得目标信息中的正常信息。
[0109]
上述步骤中,垃圾信息为非法人员在用户所发送的正常信息中所植入有广告等垃圾的信息。剔除其中的广告等垃圾,获得的便是发送该目标信息用户所编辑的正常信息。
[0110]
步骤s165:对正常信息进行重组,获得信息发送用户输入的原始信息。
[0111]
上述步骤s165中,由于在经过剔除垃圾信息处理的目标信息之后,所获得正常信息的语序不一定与发送该目标信息用户所编辑的原始信息一致。因此,需要经过重组操作之后才能获得与该用户编辑的原始信息。
[0112]
上述实现过程中,在判断出目标信息属于垃圾信息的类别的情况下,表明目标信息中所包含的原始信息是用户需要发送或接收的。因此,通过将其中由非法人员所植入的广告等垃圾剔除,并对经过剔除操作所获得正常信息进行重组,便能获得用户需要发送或接收的原始信息。为用户上网带来了便利。
[0113]
请参照图,图是。在一种可选的实施方式中,上述正常信息包括至少一个正常子信息。其中,正常子信息为构成用户输入的原始信息的词汇或断句。
[0114]
上述步骤s165包括:
[0115]
步骤s1651:利用目标余弦相似度算法模型计算各正常子信息的契合度。
[0116]
上述步骤s1651中,余弦相似度算法的基本原理如下:
[0117][0118]
其中,a和b为属性向量,ai和bi分别为向量a和b的各分量。
[0119]
基于上述基本原理构建初始余弦相似度算法模型,采用历史正常信息以及该历史正常信息经过重组后得到的历史原始信息作为模型的训练集,通过对初始余弦相似度算法模型进行训练之后,得到目标余弦相似度算法模型。
[0120]
将经过剔除处理的所获得正常信息输入训练好的该目标余弦相似度算法模型,得到各正常子信息的契合度,契合度越小的正常子信息,在重组时就越靠前。
[0121]
示例性地,如下表2所示的一组正常子信息的契合度列表:
[0122]
表2
[0123]
正常子信息契合度小明要去旅游1但天气不好3在上海2
[0124]
步骤s1652:根据契合度排列正常子信息,获得原始信息。
[0125]
上述步骤s1652中,继续以上述示例进行说明,根据契合度越小越靠前的原则,将上述正常子信息排列成:
“‘
小明要去旅游’,

在上海’,

但天气不好
’”
。按照此顺序将该正常子信息进行重组,获得的原始信息为:“小明要去旅游,在上海,但天气不好”。
[0126]
上述实现过程中,通过基于余弦相似度算法构建的目标余弦相似度算法模型计算经过剔除处理后得到的各正常子信息的契合度,再根据各正常子信息的契合度排列并重组该各正常子信息,便更加准确地得到了用户输入的原始信息。粉碎了非法人员的不良企图的同时,进一步地确保了用户能够发出或接收原始信息。
[0127]
请参见图4示出的本技术实施例提供的信息处理的装置400的结构示意图;本技术实施例提供了一种信息处理的装置400装置,包括:
[0128]
获取模块410,用于获取信息发送用户发出的目标信息;
[0129]
识别模块420,用于利用目标朴素贝叶斯算法模型对目标信息进行识别,确定目标信息的分类结果;
[0130]
处理模块430,用于根据目标信息的分类结果对目标信息进行处理。
[0131]
在一种可选的实施方式中,上述目标朴素贝叶斯算法模型通过以下方式获得:
[0132]
获取包含目标信息的第一训练信息集;利用分词库提取目标信息中的词汇并分类,获得目标信息的分类列表;以及将分类列表作为特征值,并通过输入特征值和第一训练信息集对预先构建的初始朴素贝叶斯算法模型进行训练,获得目标朴素贝叶斯算法模型。
[0133]
在一种可选的实施方式中,上述分词库包括jieba库。
[0134]
上述利用分词库提取目标信息中的词汇并分类,获得目标信息的分类列表,具体以下方式中任意一种进行:
[0135]
根据目标信息的语法结构,提取目标信息中的第一类词汇,对第一类词汇进行分类,并将第一类词汇进行分类的结果作为分类列表。
[0136]
将目标信息中所有至少两个相邻的文字组合成文字组,从文字组中提取出与词库中的词汇对应的第二类词汇,对第二类词汇进行分类,并将第二类词汇进行分类的结果作为分类列表。
[0137]
根据目标信息的语法结构,提取目标信息中的第一类词汇,对第一类词汇进行分类,并将第一类词汇进行分类的结果依照预设条件进行切分,将切分后的结果作为分类列表。
[0138]
在一种可选的实施方式中,上述分类列表包括违禁词汇列表、垃圾词汇列表以及正常词汇列表。
[0139]
请继续参照图,在一种可选的实施方式中,上述目标信息的分类结果包括违禁信息。
[0140]
若判断目标信息的分类结果中存在违禁信息,上述处理模块430则具体用于,对包含违禁信息的目标信息进行拦截。
[0141]
请继续参照图,在一种可选的实施方式中,若判断目标信息的分类结果中存在违禁信息,上述处理模块430则具体还用于,向信息发送用户发送警告信息。
[0142]
请继续参照图,在一种可选的实施方式中,上述目标信息的分类结果包括垃圾信息。
[0143]
若目标信息的分类结果中存在垃圾信息,上述处理模块430则具体用于:
[0144]
判断是否获取到由信息接收用户发出的处理垃圾信息的处理指令;若判定获取到由信息接收用户发出的处理垃圾信息的处理指令,则剔除目标信息中的垃圾信息,获得目标信息中的正常信息;以及对正常信息进行重组,获得信息发送用户输入的原始信息。
[0145]
请继续参照图,在一种可选的实施方式中,上述正常信息包括至少一个正常子信息。
[0146]
上述处理模块430具体还用于:
[0147]
利用目标余弦相似度算法模型计算各正常子信息的契合度;根据契合度排列正常子信息,获得原始信息。
[0148]
应理解的是,该装置与上述的信息处理的方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,os)中的软件功能模块。
[0149]
本技术实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上的方法。
[0150]
其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(static random access memory,简称sram),电可擦除可编程只读存储器(electrically erasable programmable read-only memory,简称eeprom),可擦除可编程只读存储器(erasable programmable read only memory,简称eprom),可编程
只读存储器(programmable red-only memory,简称prom),只读存储器(read-only memory,简称rom),磁存储器,快闪存储器,磁盘或光盘。
[0151]
基于同样的发明构思,请参见图5,图5是本技术实施例提供的电子设备500的结构示意图。电子设备500可以包括存储器511、存储控制器512、处理器513、外设接口514、输入输出单元515、显示单元516。本领域普通技术人员可以理解,图5所示的结构仅为示意,其并不对电子设备500的结构造成限定。例如,电子设备500还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。
[0152]
上述的存储器511、存储控制器512、处理器513、外设接口514、输入输出单元515及显示单元516各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器513用于执行存储器中存储的可执行模块。
[0153]
其中,存储器511可以是,但不限于,随机存取存储器(random access memory,简称ram),只读存储器(read only memory,简称rom),可编程只读存储器(programmable read-only memory,简称prom),可擦除只读存储器(erasable programmable read-only memory,简称eprom),电可擦除只读存储器(electric erasable programmable read-only memory,简称eeprom)等。其中,存储器511用于存储程序,所述处理器513在接收到执行指令后,执行所述程序,本技术实施例任一实施例揭示的过程定义的电子设备500所执行的方法可以应用于处理器513中,或者由处理器513实现。
[0154]
上述的处理器513可能是一种集成电路芯片,具有信号的处理能力。上述的处理器513可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0155]
上述的外设接口514将各种输入/输出装置耦合至处理器513以及存储器511。在一些实施例中,外设接口514,处理器513以及存储控制器512可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
[0156]
上述的输入输出单元515用于提供给用户输入数据。所述输入输出单元515可以是,但不限于,鼠标和键盘等。
[0157]
上述的显示单元516在电子设备500与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。
[0158]
本实施例中的电子设备500可以用于执行本技术实施例提供的各个方法中的各个步骤。
[0159]
综上所述,本技术提供的一种信息处理的方法、装置及存储介质,通过对目标信息进行识别并分类,根据目标信息的分类采取相对应的处理措施。避免了目标信息一旦被非
法人员植入非正常信息,该目标信息便一律被拦截,为用户上网带来的不便。具体地,对识别出为违禁信息类别的目标信息做拦截处理,并对发送该目标信息的用户进行警告,一定程度上控制了不良信息的传播。对识别出为垃圾信息类别的目标信息做剔除、重组处理,剔除目标信息中的垃圾广告等,并对剩下的正常信息进行重组,得到用户输入的原始信息,为用户上网带来了便利。其中,通过训练得到的目标朴素贝叶斯算法模型对目标信息进行识别并分类,提高了对目标信息识别的准确性。通过训练得到的目标余弦相似度算法模型对经过剔除处理后得到的正常信息进行重组,能够更加准确地得到用户所输入的原始信息,从而进一步地为用户上网带来了便利。
[0160]
本技术实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0161]
另外,在本技术实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0162]
以上的描述,仅为本技术实施例的可选实施方式,但本技术实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术实施例的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1