一种基于文本逻辑特征的语义风险计算方法

文档序号:10594746阅读:212来源:国知局
一种基于文本逻辑特征的语义风险计算方法
【专利摘要】本发明公开了一种基于文本逻辑特征的语义风险计算方法,包括:结构类型预定义,构成预定类型的语义逻辑组合;将待处理文本按段落切分成若干文本,并作切词处理;对待处理段落的词语组合,根据预定义的预定类型的语义逻辑组合进行匹配,遍历预定类型的语义逻辑组合,对命中所有定义语义结构的词语集合计算段落风险值;对所有段落,执行匹配计算处理;归类计算待处理文本所有段落匹配的风险集合,按照段落权重、段落风险值进行累加计算,规约计算后获得顺序化的风险及其分值。通过本发明能够实现高效准确的风险挖掘处理。
【专利说明】
-种基于文本還辑特征的语义风险计算方法
技术领域
[0001] 本发明设及中文语义处理及数据挖掘技术领域,尤其设及大规模数据下的语义风 险自动识别处理方法。
【背景技术】
[0002] 随着互联网技术的蓬勃发展,尤其是近年来互联网数据的爆发式增长,风险的识 别与控制也愈发重要,典型的应用场景包括金融、情报等领域,W金融为例,现有的金融风 控技术主要是针对W财务数据为代表的结构化数据的分析,但如何在海量的、非结构化的 互联网数据中快速识别风险信息,成为一项重要的课题,也是W银行为代表的金融机构极 为关屯、的内容。
[0003] 现有的语义风险分析多基于关键词或关键词库进行过滤,缺乏模型的支撑,在面 对复杂文本或复杂语义时既无法准确命中对象,也无法识别风险,因此在海量数据文本规 模下,无法实现高效准确的风险挖掘处理,如何设计一种能够在海量多样化的数据集合下 使用的语义风险挖掘技术是非常有意义的。

【发明内容】

[0004] 有鉴于此,本发明的主要目的在于提供一种大规模数据下语义风险信息的自动识 别方法,能够对海量多样化的互联网数据进行风险计算与判断。
[0005] 为达到上述目的,本发明的技术方案是运样实现的:
[0006] -种基于文本逻辑特征的语义风险计算方法,包括:
[0007] 步骤1.语义结构类型预定义:按语义逻辑定义多个语义结构,将多个语义结构进 行组合,构成预定类型的语义逻辑组合;
[000引步骤2 .风险类型预定义:根据语义逻辑组合定义语义风险类型,每类语义风险类 型均满足语义逻辑组合规范;
[0009] 步骤3 .将待处理文本按段落切分成若干文本,并作切词处理,形成各段落的词语 集合;
[0010] 步骤4.对待处理段落的词语集合,根据步骤2预定义的语义风险类型调用语义风 险预定义结构进行匹配,对匹配成功的语义风险类型,计算段落风险原始值,其中匹配成功 是指该风险类型的预定义语义结构均能在该段落集合中找到匹配词;
[0011] 步骤5.对所有段落的词语组合,执行如步骤4所述步骤处理;
[0012] 步骤6.对所有已完成计算的段落风险原始值,按风险类型进行多段落加权计算, 得到综合加权计算的风险终值;
[0013] 步骤7.对匹配成功的语义风险类型相对应的风险终值队列进行规约计算,得到归 一化的风险值。
[0014] 所述的一种基于文本逻辑特征的语义风险计算方法,进一步的:
[0015] 所述多个语义结构均为词组集合。
[0016] 所述的一种基于文本逻辑特征的语义风险计算方法,进一步的:
[0017] 所述步骤4中对待处理段落的词语组合,根据步骤2预定义的语义风险类型调用语 义风险预定义结构进行匹配,对匹配成功的语义风险类型,计算段落风险值具体为:获取预 定义的语义风险类型的语义逻辑组合,对该语义逻辑组合中的每一种语义结构进行记录, 并与所处理的任意段落的词语集合进行遍历对比,如果所述预定义语义风险类型的所有语 义结构都有匹配结果,则匹配成功,对命中所有预定义语义结构的词语集合计算段落风险 值。
[0018] 所述的一种基于文本逻辑特征的语义风险计算方法,进一步的:
[0019] 所述步骤1中的按语义逻辑定义的多个语义结构包括:A:对象、B:地点、C:行为、D: 特征,所述语义结构A-D均为词组集合;
[0020] 所述步骤1中构成的预定类型的语义逻辑组合包括:
[0021] 1)组合1:对象+地点+行为+特征
[0022] 2)组合2:对象+地点+特征
[0023] 3)组合3:对象+行为+特征
[0024] 4)组合4:对象+特征。
[0025] 所述的一种基于文本逻辑特征的语义风险计算方法,进一步的:
[0026] 所述步骤4计算段落风险原始值包括:
[0027] 1)定义Xii为集合A中的词语,0<i<n,n为正整数;
[002引2)定义X21为集合帥的词语,0<i<n,n为正整数;
[0029] 3)定义X31为集合帥的词语,0<i<n,n为正整数;
[0030] 4)定义X41为集合帥的词语,0<i<n,n为正整数;
[0031] 5)定义N(Xii)为集合A中某词语Xii在待匹配文本中出现的次数,包括重复的情况, 又称词频,同理定义N(Mi)/N(Mi)/N(X4i);
[0032] 6)定义M(Xi)为集合A中所有已定义关键词的数量,同理定义M(X2)/M(X3)/M(X4);
[0033] 7)定义P(Xi)为在待匹配对象中出现过的集合A中的关键词的数量,该数量不包括 重复出现的情况,同理定义P(X2)/P(X3)/P(X4);
[0034] 8)按W下公式计算段落的原始风险值:
[0035]
[0036] 其中CO为影响因子,a、e为限定系数,分别限定单段落命中关键词个数上限及关键 词频次最大值,e是自然常数,n为正整数。
[0037] 所述的一种基于文本逻辑特征的语义风险计算方法,进一步的:
[0038] 所述步骤6计算综合加权计算的风险终值包括:
[0039] 定义f (X)为预定风险类型,r(x)为该特定风险的段落原始值,rtDmUi)为综合加权 计算的风险终值,当f (X)仅在其中一个段落i中出现时,即为ri(x),否则按W下公式 进行计算:
[0040] ;Tc〇m(x)=Max(;ri(x),... Jn(X))。
[0041] 所述的一种基于文本逻辑特征的语义风险计算方法,进一步的:
[0042] 所述步骤7采用分段归一化方式进行规约计算:即对步骤6中计算得到的风险终 值,根据统计结果进行分段,将该终值置于基于统计结果确定的数值分段区间中,按W下公 式,计算归一化的风险值:
[0043]
[0044] 其中rfin(x)为归一化后的风险值,t为分段区间号,mint为该分段区间数值极小 值,maxt为该分段区间数值极小值,Lmin为该分段对应归一化区间极小值,Lmax为该分段对 应归一化区间极大值。
[0045] -种基于网络信息的风险识别方法,包括如上所述的基于文本逻辑特征的语义风 险计算方法;
[0046] 还包括将归一化后得到的风险值与预设的风险值阔值进行比较,如果计算得到的 归一化的风险值大于预设的风险值阔值,则确认存在风险,输出该风险值所对应风险类型, 风险识别成功;
[0047] 其中待处理的文本为从互联网抓取的网页文本信息。
[0048] -种基于网络信息风险报警方法,包括如上所述的风险识别方法,还包括:
[0049] 在风险识别成功后,发出风险报警信息,包括发送包含有风险类型的信息的邮件、 短息或推送消息。
[0050] -种基于文本逻辑特征的语义风险计算方法,包括:
[0051] a)风险结构预定义,对不同的风险类型,按照对象(A)、地点(B)、行为(C)、特征(D) 等语义结构进行构造,每类风险均为不同语义结构的不同方式组合,定义为风险语义逻辑 组合RU);
[0052] 在所述的步骤a)中,设定语义结构A= {曰1,…,an},其中n为大于等于1的整数,a广 an是语义结构A中的语义词;
[005;3]设定语义结构B= {bi,…,bn},其中n为大于等于1的整数,bi-bn是语义结构帥的 语义词;
[0054] 设定语义结构C= kl,,…,Cn},其中n为大于等于1的整数,Cl-Cn是语义结构帥的 语义词;
[0055] 设定语义结构D= {di,,…,dn},其中n为大于等于1的整数,山-dn是语义结构D中的 语义词;
[0056] b)将待处理文本text按段落切分成若干文本paragraph,并作切词处理;
[0057] C)对任意段落文本paragraph,遍历风险类型f (X),对命中所有定义语义结构的风 险集合RU),统计其各语义结构命中词及其词频,形成(命中词-词频-权重)的映射表,并计 算单个结构所有命中词在原始词表中的覆盖度Cr对所述段落的任意风险集合RU),就语义 结构作词频及覆盖度的加权计算,计算段落风险值r(x);
[0058] d)对所有段落,执行如C所述步骤处理;
[0059] e)归类计算待处理文本所有段落匹配的风险集合,按照段落权重、段落风险值进 行累加计算,规约计算后获得顺序化的风险及其分值。
【附图说明】
[0060] 图la为本发明语义结构定义示意图;
[0061] 图化为本发明语义逻辑组合示意图;
[0062] 图2为本发明方法的流程图。
【具体实施方式】
[0063] 下面结合附图1、2和实施例对本发明做进一步的描述。
[0064] 语义风险类型定义将不同的语义风险按语义逻辑定义为四大语义结构,分别包括 对象(A)、地点(B)、行为(C)、特征(D),A-D等语义结构均为词组集合:
[0065] 设定语义结构A= {曰1,…,an},其中n为大于等于1的整数,a广an是语义结构A中的 语义词;
[0066] 设定语义结构B= {bi,…,bn},其中n为大于等于1的整数,bi-bn是语义结构帥的 语义词;
[0067] 设定语义结构C= kl,,…,Cn},其中n为大于等于1的整数,Cl-Cn是语义结构帥的 语义词;
[006引设定语义结构D= {di,,…,山},其中n为大于等于1的整数,山-dn是语义结构D中的 语义词。
[0069] 语义结构的不同组合方式构成不同的语义逻辑,具体包括W下逻辑组合方式,如 下:
[0070] 组合1:对象+地点+行为+特征 [0071 ] 组合2:对象+地点+特征
[0072] 组合3:对象+行为+特征
[0073] 组合4:对象+特征
[0074] W组合3为例,风险所在文本语义包含类似"对象"的"行为"存在"特征"(风险)的 结构,具体包括=个词组集合,每类词组集合都包含形态一致的描述词,如对象包括相应的 描述名词或代称,行为包括相应的描述动作,特征包括相应的描述风险特征。
[0075] 所有的语义风险类型,都将按如上所述的逻辑组合进行对应定义,
[0076] 例如"高级人员贪腐风险"对应逻辑组合3),即包含"对象"、节为"、"特征"立类词 组集合,一个实例为"知情人±向记者独家透露,DZ集团副总裁张立于6月22日被深功I警方 带走,主要原因是张 S负责DZ集团视频采购时期设嫌商业贿赂",其中"DZ集团副总裁"、"张 三'命中"对象"语义,"采购"命中"行为"语义,"贿赂"命中"特征"语义,至此,该段文本符合 "高级人员贪腐风险"的逻辑语义定义。
[0077] 针对词组集合A-D,做如下定义:
[007引1)定义Xii为集合A中的词语,0<i<n,n为正整数
[0079] 2)定义拙为集合B中的词语,0<i<n,n为正整数
[0080] 3)定义X31为集合C中的词语,0<i<n,n为正整数
[0081] 4)定义X41为集合D中的词语,0<i<n,n为正整数
[0082] 5)定义N(Xii)为集合A中某词语Xii在待匹配文本中出现的次数(包括重复的情 况),又称词频,同理定义N(X2i)/N(X3i)/N(X4i)(分别为集合B/C/D中某词语在待匹配文本中 出现的次数)
[0083] 6)定义M(Xl)为集合A中所有已定义关键词的数量,同理定义M(X2)/M(X3)/M(X4) (分别为集合B/C/D中所有已定义关键词的数量)
[0084] 7)定义P(Xi)为在待匹配对象中出现过的集合A中的关键词的数量(不包括重复出 现的情况),同理定义P(X2)/P(X3)/P(X4)(分别为在待匹配对象中出现过的集合B/C/D中的 关键词的数量,不包括重复出现的情况)
[0085] 8)定义f (X)为某种特定风险类型,r(x)为该特定风险的段落原始值,rtDmUi)为综 合加权计算的风险终值,当f (X)仅在其中一个段落冲出现时,rcUx)即为ri(x),否则将按 W下公式进行计算:
[0086] rc〇m(x)=Max(ri(x) ,??? ,rn(x))
[0087] 其中ri(x)为第I段落风险原始值,rn(x)为第n段落风险原始值。
[0088] 如图2所示为本发明一种基于文本语义逻辑特征的语义风险计算方法的工作流程 图,包括:
[0089] 段落切分步骤S201,对待处理文本(所述待处理文本可W是在互联网页面上抓取 的文本信息,如在网络新闻、论坛帖子、评论、博客等页面抓取的文本信息),将其切分成不 同的段落i(〇<i<n),包括标题及物理段落,所述物理段落指正文中W段落标识符区分的语 句集合,其中标题为第1段落,即i = 1,正文第一个顺序自然段为第2段落,即i = 2,W此类 推。
[0090] 段落文本的切词步骤S202,对完成段落切分后的待处理文本,按段落顺序对第1段 文本进行文本切词,形成该段落的词语集合S,实际所得结果为类似(词语1,词语2,词语 3,…词语n)的词语集合。
[0091] 在风险类型遍历匹配步骤S203中,调用语义风险预定义结构(参见图Ib),对预定 义的每一种语义风险类型进行匹配,所述匹配是一种基于组合构造的文本结构匹配方式, 如"境外投资风险",匹配组合1,即"对象+地点+行为+特征",对象、地点、行为、特征均为预 定义的词语集合,计算步骤S202中的词语集合S是否满足该风险定义,如满足则该风险匹配 成功,具体包括W下步骤:
[0092] 1)定义"境外投资风险"的词组集合对象(Ai)、地点化)、行为(Cl)、特征(Di);
[0093] 2)对待处理段落i,比较词组集合"对象"(Al)与该段落分词后的词语集合S,是否 存在相同的词语,如存在则记录其词频;
[0094] 3)同理处理集合"地点"、"行为"、"特征";
[00M] 4)如该风险的四种定义词组集合均能在集合S中找到匹配词,则风险匹配成功,即 待处理段落存在目标风险"境外投资风险"。
[0096] 对匹配成功的风险f (X),按步骤S204计算其所含的各语义结构的词频(某词语出 现的次数)N(Xji) (0<jX5,0<i<n)、所有已定义关键词的数量M(Xj) (0<jX5)、集合中出现过的 关键词的数量P(^)(〇<j<5),核算覆盖度PUjVM(Xj),即Cr。结合段落权重进行多语义结构 的加权累加乘积计算,获得目标风险类型f (X)的段落风险原始值r(x)。
[0097] 段落的原始风险值按W下公式计算:
[009引
[0099] 其中O为影响因子,控制取值关键词覆盖度范围,其取值为[100-200]之间的正整 数,cue为限定系数,分别用于限定单段落命中关键词个数上限(P(x)/M(x))及关键词频次 最大值(N(X)),e自然常数,是一个无限不循环小数,其值约等于2.718281828459…,n为正 整数。
[0100] 发明人发现,在网络上的诸多文字信息中,如博客、新闻、论坛发帖、评论等,既含 有有用信息,又含有无用的垃圾信息,如恶意漫骂等信息,运些信息中虽然会出现大量的关 键词,但是毫无疑问的,运类信息在语义风险计算中是干扰项,因此为了排除运一类的干 扰,设定了上述的限定系数a、e,其取值可W分别是20、5,实际取值来自大量样本的统计经 验值。
[0101] 在其中一个实施例中,段落文本从第一种风险f(l)进行匹配,所述匹配任务采用 如下方式进行:
[0102] 获取所述第一种风险的组合类型,对组合类型中每一种语义结构进行记录,并与 所处理段落的词语集合S进行遍历对比,如果所述风险的语义结构都有匹配结果,则风险匹 配成功,根据覆盖度、命中词频等计算所述风险在目标段落文本中的段落风险原始值r( 1)。
[0103] 对其他匹配风险f(x)(0<x<m,m为正整数)执行S204操作,直到所有匹配成功的风 险都已完成风险原始值计算,在其中一个实施例中,段落文本完成风险类型匹配,命中风险 为^2)^(3),段落风险原始值分别为^2)、^3),综上,该处理段落共匹配^种不同类型的 风险^1)^(2)^(3),所述风险原始值分别为八1)^(2)、八3)。
[0104] 此时对目标段落已获得所匹配所有风险的原始风险值计算,由于实际风险值依赖 于全文,因此还需要对其他段落逐次计算(执行S202-S204),直到待处理文本的所有段落都 已经处理完毕,最终计算得到全文风险值rcDx(x)。
[0105] 在其中一个实施例中,对一篇包含n个段落的待处理文本,共匹配风险类型5种,分 别为^1)^(2)^(3)^(4)^(5),分别出现在11个不同的段落中,其中'(1)^(2)^(5)均在 不同段落出现。
[0106] 步骤S205,对所有已完成计算的风险原始值,按风险类型进行多段落加权计算。
[0107] 在其中一个实施例中,对'(1)^(2)^(3)^(4)^(5)等不同风险类型,最终计算 得到对应的不问风险值为rc;Dm( 1 )、rc;Dm( 2 )、rc;Dm( 3 )、rc;Dm( 4)、rc;Dm( 5)。
[0108] 对所述r?m(x)队列进行规约计算并排序,获得匹配风险的标准值序列输出。
[0109] 本发明采用分段归一化方式进行规约计算,对2015年3月份共计163,163条风险文 本进行统计,结果呈现明显的分段特征,统计结果如下表所示
[0110]
[0111] 对每一个分段,按照Min-max标准化进行计算,定义rfin( X)为归一化后的风险值, 则归一化计算公式如下:
[0112]
[0113] 具甲t刃分段K间亏,mint刃该分段K间数值极小值,maxt为该分段区间数值极小 值,Lmin为该分段对应归一化区间极小值,Lmax为该分段对应归一化区间极大值。
[0114] 本发明在W上文本逻辑特征的语义风险计算方法的基础上,能够实现根据网络信 息的风险识别,也即根据上述归一化后的风险值,确定风险类型,具体的将归一化后得到的 一系列风险值与预设的风险值阔值进行比较,如果计算得到的归一化的风险值大于预设的 风险值阔值,则可确认存在风险,输出该风险值所对应风险类型,则风险识别成功。
[0115] 本发明还提供一种风险报警方法,也即在如上在识别出风险类型后,发出风险报 警信号,例如可W通过向相关人员发送包含有风险类型的信息的邮件、短息、推送消息等, W实现风险报警。
[0116] 通过本发明,采用基于文本逻辑特征的语义风险模型,能够快速处理大规模文本 下的语义类型识别,值得指出的是,本发明所提出的思路和方法,不仅可W应用到风险领域 的语义识别,还可W应用到情感分析、中文语义模型等泛数据挖掘领域。
【主权项】
1. 一种基于文本逻辑特征的语义风险计算方法,其特征在于包括: 步骤1.语义结构类型预定义:按语义逻辑定义多个语义结构,将多个语义结构进行组 合,构成预定类型的语义逻辑组合; 步骤2.风险类型预定义:根据语义逻辑组合定义语义风险类型,每类语义风险类型均 满足语义逻辑组合规范; 步骤3.将待处理文本按段落切分成若干文本,并作切词处理,形成各段落的词语集合; 步骤4.对待处理段落的词语集合,根据步骤2预定义的语义风险类型调用语义风险预 定义结构进行匹配,对匹配成功的语义风险类型,计算段落风险原始值; 步骤5.对所有段落的词语组合,执行如步骤4所述步骤处理; 步骤6.对所有已完成计算的段落风险原始值,按风险类型进行多段落加权计算,得到 综合加权计算的风险终值; 步骤7.对匹配成功的语义风险类型相对应的风险终值队列进行规约计算,得到归一化 的风险值。2. 根据权利要求1所述的一种基于文本逻辑特征的语义风险计算方法,其特征在于:所 述多个语义结构均为词组集合。3. 根据权利要求1所述的一种基于文本逻辑特征的语义风险计算方法,其特征在于: 所述步骤4中对待处理段落的词语组合,根据步骤2预定义的语义风险类型调用语义风 险预定义结构进行匹配,对匹配成功的语义风险类型,计算段落风险值具体为:获取预定义 的语义风险类型的语义逻辑组合,对该语义逻辑组合中的每一种语义结构进行记录,并与 所处理的任意段落的词语集合进行遍历对比,如果所述预定义语义风险类型的所有语义结 构都有匹配结果,则匹配成功,对命中所有预定义语义结构的词语集合计算段落风险值。4. 根据权利要求3所述的一种基于文本逻辑特征的语义风险计算方法,其特征在于: 所述步骤1中的按语义逻辑定义的多个语义结构包括:A:对象、B:地点、C:行为、D:特 征,所述语义结构A-D均为词组集合; 所述步骤1中构成的预定类型的语义逻辑组合包括: 1) 组合1:对象+地点+行为+特征 2) 组合2:对象+地点+特征 3) 组合3:对象+行为+特征 4) 组合4:对象+特征。5. -种基于网络信息的风险识别方法,其特征在于:包括如权利要求1所述的基于文本 逻辑特征的语义风险计算方法; 还包括将归一化后得到的风险值与预设的风险值阈值进行比较,如果计算得到的归一 化的风险值大于预设的风险值阈值,则确认存在风险,输出该风险值所对应风险类型,风险 识别成功; 其中处理的文本为从互联网抓取的网页文本信息。6. -种基于网络信息风险报警方法,其特征在于:包括如权利要求5所述的风险识别方 法,还包括: 在风险识别成功后,发出风险报警信息,包括发送包含有风险类型的信息的邮件、短息 或推送消息。
【文档编号】G06Q10/06GK105956740SQ201610245494
【公开日】2016年9月21日
【申请日】2016年4月19日
【发明人】黄玉麟, 韩东东, 林春雨
【申请人】北京深度时代科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1