互联网信息风险提示方法及系统与流程

文档序号:13804826阅读:358来源:国知局
互联网信息风险提示方法及系统与流程

本发明涉及互联网信息处理领域,特别是涉及一种互联网信息风险提示方法及系统。



背景技术:

在大数据时代背景下,企业散落在互联网上的海量资讯中蕴含着大量的有价值但未被利用的信息,若能从中及时识别出涉及风险的事件,并挖掘出潜在的风险特征,就能及时、全面和直观地掌握客户风险情况,大幅提升企业识别和揭示风险的能力。

识别事件信息中隐含的风险主题,其实质是一项文本分类任务。在传统方法中,主要采用基于规则的本体模型对文本进行分类;即对于每个分类建立本体,并由专家定义特征词汇或者业务规则作为要素。现有技术虽然可以应用于大部分简单语义的业务场景下,但是互联网上的大部分信息往往语义复杂,具有以下特点:

语义反转:如标题是“公司成功消除了火灾隐患”、“公司举行了火灾演练”、“公司开展了火灾警示教育”、“公司避免了在火灾中遭受损失”。增加限定词后,标题的语义得到了反转,不再是风险事件了。而中文博大精深,表示反转的语言模式非常多样化,人无法做到完全归纳,导致大量无风险信息被错判为风险信息。

多词一义:多词一义即同义词问题。例如形容秩序良好时就可以有“井然有序”、“井井有条”、“有条不紊”等大量的同义说法,即使是这方面的专家,也无法将所有可能的说法归纳完整,导致大量有风险信息被遗漏。类似的,还存在一词多义问题。

刻意否认:在一些情况下数据中蕴含着较为特殊的内涵,虽然新闻标题的表面语义无风险,其实背后仍存在较大的隐患。如“公司总经理辟谣,否认工厂停工”,类似的刻意否认、刻意辟谣、刻意澄清的背后往往另有真相,不可忽视。而这些对事件内涵的深入理解,是表面的词汇无法表达的,需要根据经验进行判断。

因此,对于互联网信息风险提示,在处理海量的复杂语义文本时,现有技术存在以下不足:识别效率低下,只能识别语义简单的文本内容,对诸如上述具有语义反转、多词一义和刻意否认等复杂语言表达方式的文本识别出错率高,如果换成人工筛查,则将耗费大量人力、时间。



技术实现要素:

本发明实施例提供一种互联网信息风险提示方法,用以提升互联网信息风险提示的准确性,代替人工整理海量复杂的业务文本,迅速识别风险事件,该方法包括:

将互联网信息作为原始文本数据,对原始文本数据进行分词,并将各词转化为数字标识,形成由数字标识组成的分词数组;

根据分词数组中每一数字标识的对应词与上下文的关联关系,将分词数组映射为对应的词向量序列;

通过神经网络模型对词向量序列进行分类识别,获得分类结果数据;

对分类结果数据进行风险分析,根据风险分析结果发出风险提示。

本发明实施还提供了一种互联网信息风险提示系统,用以提升对复杂语义的文本信息的识别、分类能力,代替人工整理海量复杂的业务文本,迅速识别风险事件,该系统包括:

数据采集单元,用于将互联网信息作为原始文本数据,对原始文本数据进行分词,并将各词转化为数字标识,形成由数字标识组成的分词数组;

词向量生成单元,用于根据分词数组中每一数字标识的对应词与上下文的关联关系,将分词数组映射为对应的词向量序列;

语义识别单元,用于通过神经网络模型对词向量序列进行分类识别,获得分类结果数据;

应用单元,用于对分类结果数据进行风险分析,根据风险分析结果发出风险提示。

本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现互联网信息风险提示方法。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行互联网信息风险提示方法的计算机程序。

本发明实施例中,将从互联网中采集的原始文本数据进行分词,获得分词数组后进而得到词向量序列,再通过神经网络模型对词向量序列进行分类识别,获得分类结果信息,最终根据存储的分类结果信息向用户进行风险提示。该方法可以更接近人类的思维方式来理解人类语言,且可以快速、智能地识别各类风险信息;因而在处理大量信息时,可以代替人工去整理海量、复杂的业务文本,迅速识别风险事件,节省了大量人力、时间。进一步的,可以不断加入新的样本数据对神经网络模型进行训练,优化模型参数,即使在互联网信息快速更替的情况下依旧可以保持较高的分析准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1为本发明实施例中互联网信息风险提示方法的流程示意图;

图2为本发明实施例中一储存分词后所得词汇的示例图;

图3为本发明实施例中一词向量的示例图;

图4为本发明实施例中训练神经网络模型的流程示意图;

图5为本发明实施例中互联网信息风险提示系统的结构示意图;

图6为本发明实施例中训练单元的结构示意图;

图7为本发明实施例中神经网络模型训练模块的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。

如图1所示,本发明实施例中提供了一种互联网信息风险提示方法,用以提升对复杂语义的文本信息的识别、分类能力,代替人工整理海量复杂的业务文本,迅速识别风险事件,该方法包括:

101:将互联网信息作为原始文本数据,对原始文本数据进行分词,并将各词转化为数字标识,形成由数字标识组成的分词数组;

102:根据分词数组中每一数字标识的对应词与上下文的关联关系,将分词数组映射为对应的词向量序列;

103:通过神经网络模型对词向量序列进行分类识别,获得分类结果数据;

104:对分类结果数据进行风险分析,根据风险分析结果发出风险提示。

本发明实施例中的互联网信息风险提示方法工作原理如下:周期性地采集海量互联网信息,并将互联网信息存储后作为原始文本数据。原始文本分词后形成分词数组,统计各分词出现次数,即结合当前词汇与上下文词汇的关联关系,获得当前词汇的词向量,进而获取词向量序列。加载神经网络模型及参数,通过处理步骤103中得到的词向量序列,分析该条信息属于各分类的概率分布,概率值最大的即为该原始文本数据的预测分类,全部数据分析完毕,存储分析结果数据,并将最新分析结果应用于神经网络模型及模型参数的迭代训练,优化神经网络模型,以便下一周期采集的信息可使用当前最优神经网络模型进行分析处理。

一个实施例中,步骤104中根据分析结果发出风险提示可以有多种实施方式。例如,可以报表、图标等方式多维度展现分析结果,具体按实际业务需求,生成风险事件河流图及事件明细、向关注用户发送通知等,对风险事件进行预警提示。

一个实施例中,上述步骤101中,对原始文本数据进行分词,还可以包括:剔除原始文本数据中的无意义词汇。具体实施时剔除无意义词汇可以有多种实施方式,例如,可以先对原始文本信息进行分词,然后剔除原始文本中的的虚词、助词、标点符号等无意义的词汇。以一个简单的原始文本数据“中国自北向南爆大范围空气污染天气了!”为例,分词并剔除无意义词汇后,可以得到以下词汇:中国,自北向南,爆,大范围,空气污染,天气。根据分词后各词对应的数字标识(词id),每条原始文本数据可转化为一个分词数组,所述数字标识(词id)是指预先设置的、用于标记分词后各词的唯一标识,分词后各词的存储结构示例如图2所示。分词后的各词组成的分词序列:中国,自北向南,爆,大范围,空气污染,天气,可以对应转化为分词数组:[2、17215、4077、4078、1、3]。最后,将根据原始文本数据分词后所得的词汇,统计各词汇的出现次数,并储存至数据库中。

一个实施例中,上述步骤102:根据分词数组中每一数字标识的对应词与上下文的关联关系,将分词数组映射为对应的词向量序列可以有多种实施方式。例如,可以使用word2vec算法对分词数组构建语言模型,将分词数组中的各词汇映射为词向量,并进行存储。所述语言模型可以根据如下公式进行计算:

其中,v表示一长度为τ的词向量序列,v=[w1,w2,w3,...wt];wi表示当前词;为当前词wi的向量;wj表示分词数组范围内的任一分词,取值范围为[w1,w2,w3,...wt];wk表示在当前词wi前后出现的c个词,即i-c≤k≤i+c,且i≠k,3≤c≤5;p(wk|wi)表示当前词wi前后个c词的出现概率。

当前词wi的窗口中词wk出现的概率p(wk|wi)通过统计所有语料信息即可获得,随机初始化未知参数,然后使用随机梯度上升法对公式进行求解。在公式求解过程中,即可得到当前词的词向量。进而获得与分词数组对应的词向量序列。

任意两个词向量之间都存在一定的非线性关联,在后续的神经网络模型训练中可以自动发现学习并提取此类特征。本发明实施例中使用词向量反映出了语义空间中的关联关系,向量的方向表达特定的语义,向量之间的距离反映了词汇之间的关联度,用两个向量的夹角余弦值来衡量向量距离,余弦值越大,距离越近,说明词汇间关联度越大。这里以图3为例:各词之间的关联度用余弦值表示,可以发现“废气”与“污染”的向量夹角余弦值0.778884相比较大,距离较近,说明两者关联度较大;同时“废气-->排放”与“垃圾-->焚烧”的距离近似,说明“废气”与“排放”的关系和“垃圾”与“焚烧”的关系类似。

一个实施例中,上述步骤103中,通过神经网络模型对词向量序列进行分类识别,获得分类结果数据可以有多种实施方式。例如,可以按如下步骤获得分类结果数据:

首先按如下公式对每个词向量进行特征提取,获得特征提取结果:

st=tanh(u1xt+w1st-1);

ot=tanh(u2st+w2ot-1);

其中,a表示一长度为τ的词向量序列,a=[x0,x1,...xt,...xt-1],0≤t≤t-1;xt表示当前词向量;st-1表示前一词向量xt-1的初步特征;st表示当前词向量xt的初步特征;ot-1表示前一词向量xt-1的综合特征;ot表示当前词向量xt的综合特征;u1、w1、u2、w2表示公式的权重矩阵;

然后按如下公式根据词向量序列中所有词向量的特征提取结果,计算词向量序列属于各业务分类的概率,根据所述概率判断词向量序列的分类结果:

其中,σ(o)j表示词向量序列属于当前分类的概率;o表示词向量序列的特征;k表示词向量序列包含k个业务分类;j表示当前分类。

一个实施例中,神经网络模型的训练分为神经网络模型初始训练及周期性迭代训练两个阶段。首先将样本数据分为训练样本数据和验证样本数据,所述样本数据包括:词向量序列及分类结果数据,将训练样本数据输入已构建的深度神经网络模型,进行初始训练,优化生成神经网络模型的模型参数,神经网络模型的模型参数包括网络中各层的权重矩阵,用于特征筛选;词向量序列作为验证样本数据,用于求取训练后分类结果与人工分类结果之间的误差值。在初始训练后,验证分类结果的误差值,如果误差值超过设定阈值,则反复进行迭代训练,直到误差值小于设定阈值。由于互联网信息是不断变化的,误差值小于设定值的神经网络模型在经过一定时间的实际应用后,其误差由于互联网信息的变化可能会变大,超过设定阈值,此时可以再次对神经网络模型进行训练,直至神经网络模型的误差再次达到设定阈值范围内。

一个实施例中,本发明实施中的互联网信息风险提示方法还包括将词向量序列和分类结果数据作为样本数据对神经网络模型进行训练。训练神经网络模型可以有多种实施方式,例如,如图4所示,可以如下步骤进行训练:

401:选择词向量序列和分类结果数据作为训练样本数据,选择词向量序列作为验证样本数据;

402:将作为训练样本数据的词向量序列和分类结果数据输入神经网络模型,反向求解模型参数,对神经网络模型进行训练;

403:将作为验证样本数据的词向量序列输入训练后的神经网络模型,得到训练后分类结果数据;

404:将训练后分类结果数据与人工分类结果数据进行比较,获得训训练后分类结果与人工分类结果之间的误差值;

405:反复训练神经网络模型至训练后分类结果与人工分类结果之间的误差值小于设定值时,保存训练后得到的神经网络模型及模型参数。

一个实施例中,每次训练神经网络模型,均须要将训练样本数据平均分为多个批次,分批将训练样本数据输入神经网络模型,求解模型参数(即公式的权重矩阵)u1、w1、u2、w2;计算中,首先初始化模型参数(即公式的权重矩阵)u1、w1、u2、w2为高斯矩阵,然后输入训练样本数据,使用反向传播算法计算模型参数(即公式的权重矩阵)的偏导数反复迭代,直至得到最终结果。

一个实施例中,上述步骤401中,训练样本数据用于根据词向量序列和分类结果数据反向求解神经网络模型的模型参数,优化神经网络模型;验证样本数据用于根据优化后的神经网络模型求解词向量序列的分类结果数据,两者可以按9:1的比例进行分配,数据集格式为:词向量序列、分类结果数据;所述分类结果数据中的业务分类以风险领域为例,可以根据实际情况划分为三种类型:环境污染、安全事故、无风险。

一个实施例中,上述步骤404中,将训练后分类结果数据与人工分类结果数据进行比较,获得训练后分类结果与人工分类结果之间的误差值,可以有多种实施方式。例如,可以通过如下公式计算,获得训练后分类结果与人工分类结果之间的误差值:

l(y,p(y|x))=-logp(y|x);

其中,y为人工分类结果数据;y'为训练后结果分类数据;x为验证样本数据;p(y|x)为训练后验证样本数据x得到正确分类的概率;l为训练后分类结果与人工分类结果之间的误差值。

一个实施例中,还可以将训练取得的神经网络模型的模型参数进行存储:随着训练迭代次数及训练时间的增加,最终产生临界值,达到临界值之后再继续训练,对神经网络模型的优化效果会越来越小;因此,可以对训练后分类的误差值设定一个阈值,对神经网络模型反复进行迭代训练,提升训练后分类的准确率,当训练后分类的误差值达到设定的阈值范围时,便可停止迭代训练,并将训练获得的神经网络模型的模型参数进行存储,用于实际的互联网信息的分类处理。

基于同一发明构思,本发明实施例中还提供了一种互联网信息风险提示系统,由于该方法解决问题的原理与互联网信息风险提示方法相似,因此该方法的实施可以参见互联网信息风险提示方法的实施,重复之处不再赘述。

如图5所示,本发明实施例中的互联网信息风险提示系统,可以提升对复杂语义的文本信息的识别、分类能力,代替人工整理海量复杂的业务文本,迅速识别风险事件,该系统包括:

数据采集单元501,用于将互联网信息作为原始文本数据,对原始文本数据进行分词,并将各词转化为数字标识,形成由数字标识组成的分词数组;

词向量生成单元502,用于根据分词数组中每一数字标识的对应词与上下文的关联关系,将分词数组映射为对应的词向量序列;

语义识别单元503,用于通过神经网络模型对词向量序列进行分类识别,获得分类结果数据;

应用单元504,用于对分类结果数据进行风险分析,根据风险分析结果发出风险提示。

一个实施例中,所述数据采集单元501进一步用于:剔除原始文本数据中的无意义词汇。

一个实施例中,所述词向量生成单元502,根据如下公式进行计算:

其中,v表示一长度为τ的词向量序列,v=[w1,w2,w3,...wt];wi表示当前词;为当前词wi的向量;wj表示分词数组范围内的任一分词,取值范围为[w1,w2,w3,...wt];wk表示在当前词wi前后出现的c个词,即i-c≤k≤i+c,且i≠k,3≤c≤5;p(wk|wi)表示当前词wi前后个c词的出现概率。

一个实施例中,如图6所示,所述语义识别单元503包括:

特征提取层601,用于按如下公式对每个词向量进行特征提取,获得特征提取结果:

st=tanh(u1xt+w1st-1);

ot=tanh(u2st+w2ot-1);

其中,a表示一长度为τ的词向量序列,a=[x0,x1,...xt,...xt-1],0≤t≤t-1;xt表示当前词向量;st-1表示前一词向量xt-1的初步特征;st表示当前词向量xt的初步特征;ot-1表示前一词向量xt-1的综合特征;ot表示当前词向量xt的综合特征;u1、w1、u2、w2表示公式的权重矩阵;

感知分类器602,用于按如下公式根据词向量序列中所有词向量的特征提取结果,计算词向量序列属于各业务分类的概率,根据所述概率判断词向量序列的分类结果:

其中,σ(o)j表示词向量序列属于当前分类的概率;o表示词向量序列的特征;k表示词向量序列包含k个业务分类;j表示当前分类;k表示。

一个实施例中,如图7所示,本发明实施中的互联网信息风险提示系统还包括训练单元505,所述训练单元505包括:

样本数据获取模块701,用于选择词向量序列和分类结果数据作为训练样本数据,选择词向量序列作为验证样本数据;

模型训练模块702,用于将作为训练样本数据的词向量序列和分类结果数据输入神经网络模型,反向求解模型参数,对神经网络模型进行训练;

模型验证模块703,用于将作为验证样本数据的词向量序列输入训练后的神经网络模型,得到训练后分类结果数据;

分类结果对比模块704,用于将训练后分类结果数据与人工分类结果数据进行比较,获得训练后分类结果与人工分类结果之间的误差值;

模型存储模块705,用于反复训练神经网络模型至训练后分类结果与人工分类结果之间的误差小于设定值时,保存训练后得到的神经网络模型及模型参数。

一个实施例中,所述分类结果对比模块704,通过如下公式计算获得训练后分类结果与人工分类结果之间的误差值:

l(y,p(y|x))=-logp(y|x);

其中,y为人工分类结果数据;y'为训练后结果分类数据;x为验证样本数据;p(y|x)为训练后验证样本数据x得到正确分类的概率;l为训练后分类结果与人工分类结果之间的误差值。

本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现互联网信息风险提示方法。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行互联网信息风险提示方法的计算机程序。

综上所述,本发明实施例中,将从互联网中采集的原始文本数据进行分词,获得分词数组后进而得到词向量序列,再通过神经网络模型对词向量序列进行分类识别,获得分类结果信息,最终根据存储的分类结果信息向用户进行风险提示。该方法可以更接近人类的思维方式来理解人类语言,且可以快速、智能地识别各类风险信息;因而在处理大量信息时,可以代替人工去整理海量、复杂的业务文本,迅速识别风险事件,节省了大量人力、时间。进一步的,可以不断加入新的样本数据对神经网络模型进行训练,优化模型参数,即使在互联网信息快速更替的情况下依旧可以保持较高的分析准确率。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1