一种基于语音语义内容分析的防电信电话诈骗方法和系统的制作方法

文档序号:7553911阅读:868来源:国知局
专利名称:一种基于语音语义内容分析的防电信电话诈骗方法和系统的制作方法
技术领域
本发明涉及一种基于语音语义内容分析的防电信电话诈骗方法和系统,具体涉及基于电话语音语义内容识别判定诈骗或不良内容的方法及系统。
背景技术
美国的卡耐基梅隆大学在二十世纪八十年代制作的S PHIN X系统率先实现了语音识别中非特定人、连续语音、大词汇量的识别技术。随后美国的IBM公司的Tangora5000,能够在其识别系统的词选识别率达到了 97%,同时其公司的Via Voice和Microsoft微软公司的Speech SDK等产品都实现了中文语音识别,并且同时提供中文语音识别的开发包。同时在德国、法国等欧洲国家,也建造了许多很有特色的连续语音识别系统。而在国内,中文的语音识别取得很大的进展。国家“863”计划把大词汇量语音识别的研究列入其计划之内。有突出代表的安徽科大讯飞公司在语音识别方面拥有40多项发明专利。
具体来讲,在语义解析上,中国各大高校研究所在研究发明上都有所建树,现有的语音和语义解析结合的公司如虫洞、科大讯飞、搜狗搜索、小i机器人、神州图骥等公司的产品。现在主要的语义识别产品使用的方法大致有三类,有基于倾向向量空间模型表示算法,有利用文本的语法,有语义、语用相结合的SOVR算法进行语句解析的,有通过SVM支持向量机和决策树算法的中文语法解析的算法。但现在并没有把语音语义,云计算和通信技术相结合的防电信欺骗产品问世。
在防电信诈骗领域中,只有几家公司拥有类似专利,这些专利只是单纯利用交换机信令消息或者追溯电话短信来源的方式对电信诈骗进行防范,并没有使用语音语义对通话内容解析,只是单纯的对通话源是否大量呼叫进行判断,也不能自动在通话中进行防范检测,并且无法对没有加入黑名单的诈骗电话准确检测,容易产生误判。
本专利的防电信电话诈骗系统则是把网络通信,中文语音解析和语义解析等技术综合,从内容上切实分析和防范电信电话诈骗,其检测的速度,时效性和准确度都较其他方法闻。发明内容
本专利提出的方法拟解决的问题,主要是对识别到的语音进行分析识别,同时对解析到的语句进行语句意思的识别,最后通过云计算平台和数据挖掘技术进行查找匹配并判定是否为诈骗行为从而实现对电话诈骗进行识别。
(I)电话输入的语音输入到通话语音输入模块,这个模块负责处理收到的通话语音并通过TCP/IP方式连接语音处理模块并把语音输入到后者。
(2)语音处理模块,主要是进行语音片段分割和对应字符匹配的预处理,该模块包括形式转换子模块,声学子模块,语音语法子模块和预处理引擎子模块。其中形式转换子模块负责对语音进行编码转换。声学子模块和语音语法子模块负责通过声学检索算法对声音进行特征匹配,预处理引擎子模块负责对匹配到的候选词通过本地数据导入方式输入到搜索轨迹中以便进行下一步的语义匹配处理。(3)在搜索轨迹模块中,把语音处理模块输出的匹配结果备词进行语义解析并且对词义进行搜索匹配,之后通过本地数据导入方式输入到语义处理搜索模块。(4)语义处理搜索模块包括声音段组合子模块,关键字解析子模块,和搜索引擎子模块。其中搜索引擎子模块把搜索轨迹模块输出的数据经过组合形成正确的词或者句子,然后通过关键字解析子模块识别并找出的语句中的敏感词区域方便随后的云处理模块处理,随后声音段组合子模块负责处理检查找到的敏感词对应的声音片段是否和库中的声音样本组合的片段类似,最后通过TCP/IP网络输出到云处理模块进行外部处理。(5)云处理模块包括语义匹配处理子模块,业务处理引擎子模块,声学数据库子模块,外部数据库匹配子模块,告警预处理子模块和事件备份子模块。语义匹配处理子模块把语义处理搜索模块输出的信息进行语义查找,随后业务处理引擎子模块对找到的敏感关键字或者关键句进一步识别出意思,并且识别到关键字符或数字输入到外部匹配子模块进行查找,告警预处理子模块和事件备份子模块负责对用户,外部系统产生报警并且记录事件日志。


图1:防电信电话诈骗处理模块概要图。图2:语音语义识别及告警处理流程图。
具体实施例方式本专利提出的方法拟解决的问题,主要是对识别到的语音进行分析识别,同时对解析到的语句进行语句意思的识别,最后通过云计算平台和数据挖掘技术进行查找匹配并判定是否为诈骗行为从而实现对电话诈骗进行识别。(I)电话输入的语音输入到通话语音输入模块,这个模块负责处理收到的通话语音并通过TCP/IP方式连接语音处理模块并把语音输入到后者。(2)语音处理模块,主要是进行语音片段分割和对应字符匹配的预处理,该模块包括形式转换子模块,声学子模块,语音语法子模块和预处理引擎子模块。其中形式转换子模块负责对语音进行编码转换。声学子模块和语音语法子模块负责通过声学检索算法对声音进行特征匹配,预处理引擎子模块负责对匹配到的候选词通过本地数据导入方式输入到搜索轨迹中以便进行下一步的语义匹配处理。(3)在搜索轨迹模块中,把语音处理模块输出的匹配结果备词进行语义解析并且对词义进行搜索匹配,之后通过本地数据导入方式输入到语义处理搜索模块。(4)语义处理搜索模块包括声音段组合子模块,关键字解析子模块,和搜索引擎子模块。其中搜索引擎子模块把搜索轨迹模块输出的数据经过组合形成正确的词或者句子,然后通过关键字解析子模块识别并找出的语句中的敏感词区域方便随后的云处理模块处理,随后声音段组合子模块负责处理检查找到的敏感词对应的声音片段是否和库中的声音样本组合的片段类似,最后通过TCP/IP网络输出到云处理模块进行外部处理。
(5)云处理模块包括语义匹配处理子模块,业务处理引擎子模块,声学数据库子模块,外部数据库匹配子模块,告警预处理子模块和事件备份子模块。语义匹配处理子模块把语义处理搜索模块输出的信息进行语义查找,随后业务处理引擎子模块对找到的敏感关键字或者关键句进一步识别出意思,并且识别到关键字符或数字输入到外部匹配子模块进行查找,告警预处理子模块和事件备份子模块负责对用户,外部系统产生报警并且记录事件日志。
具体实施方式
本发明提供了一种基于电话语音语义内容分析的防电信电话诈骗方法和系统,具体来讲,通过包括四个步骤实现本方法和系统: 步骤1:在语音处理阶段,设语音序列W = WliW2...Wy输入到库中,通过形式转换器转换成参数化的语音波形s= S1.s2…% ,则语音波形建立概率P(WlS),可以根据语音样本库模型计算出P(s),然后可以通过P(WlS)建立模型M,有隐形马尔科夫过程(HMM)得出的联合概率P (W,S |M),随后通过声学模型和语音语法匹配器进行参数匹配。
在预处理引擎中,建立合适的声音样本库,包括对声音特征的提取,使用梅尔域频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFFCC)做倒谱分析来提取特征,为了实现敏感字的语音和语义相结合,使用HMM方式: a)初始化:
权利要求
1.一种基于语音语义内容分析的防电信电话诈骗方法和系统,其特征在于包括以下步骤: a)利用声学与语法匹配方式匹配声波特征,把语音序列输入到库中; b)通过形式转换器转换成参数化的语音波形,对语音波形建立概率模型,根据语音样本库模型计算出模型期望; c)通过建立的概率模型建立样本模型; d)通过计算样本模型的隐马尔科夫过程得出的联合概率,随后通过声学模型和语音语法匹配器进行参数匹配; e)建立声音样本库,对声音特征进行提取,使用梅尔域频率倒谱系数做倒谱分析; f)使用隐马尔科夫过程模型检测语音输入,通过大词汇量、非特定人的连续语音识别(LVCSR)算法计算得出; g)通过最小化语音差错值计算对语音片段形成分类; h)使用区分函数对语音差错中的分类差错进行距离递减,对语音中分类检索区段进行直接检索分类,对马尔科夫过程中的值设置分类检索率; i)最小化语音差错的直接差分处理,使用高斯m的对数临近域状态s在时间向量t下计算卷积; j)通过对调整参数迭代递减,对进入预处理引擎的音阶段进行线性排序并且重组,然后使用线性参数4对出现的3的线性部分进行处理; k)对语音片段预处理,先对声音片段排序并且匹配,在对语语音语法处理的搜索结果做划分,找到语音核心域后对声音边界做边界切分; I)通过计算得出特征区域边界范围,可以对语音片段切割和检索并且进行语句连接;m)完成判定语音特征核区界后,通过参数化调整检查匹配选中的字符的方式减小音节匹配差错; η)通过语音段匹配和参数调整,得到两者的对应关系,并且使其组合成语音段词;ο)把相似的词进行列举,并且通过搜索引擎匹配查找出能和上下文匹配的正确词组,并且组成句子; P)对形成的子句,通过关键字解析器找出敏感词; q)通过声学数据库对敏感词对应的句子做匹配检查; r)设(P,q)为两个已经识别出的邻接的词组,通过线性检索,找到敏感词的最大匹配域的数对,而最大相似域距离为D(p Ii q); s)通过数对建立关系,通过计算得到U q)的最小值; t)使用线性搜索找到两个相邻词对或者数对,并且找到最大值匹配值词组; u)在云处理阶段,通过词关系结构和句子结构,得出语义匹配结果; V)把匹配结果输出并和外部的信息系统匹配,通过对比,如果查出黑名单中有该通话发出者的账户信息或者违法记录信息,则反馈信息到其他外部系统,以便后期立案处理;W)对正在接收通话的用户在通话中产生告警音,结束通话后发送告警短信或信息。
2.根据权利要求1所述,其特征在于,按以下方法构建大词汇量、非特定人的连续语音识别(LVCSR)算法: a)初始化:
3.根据权利要求1所述,其特征在于,按以下方法计算最小化语音差错的直接差分的卷积:
4.根据权利要求1所述,其特征在于,按以下方法计算参数化调整检查匹配遴选字符的方式减小音节匹配差错:
5.根据权利要求1所述,其特征在于,按以下方法计算得到的最小值:
6.一种实现权利要求1所述一种基于语音内容的防电信电话诈骗方法的系统,其特征在于包括以下模块:a)通话语音输入模块:该模块负责处理收到的通话语音并且输入到语音处理模块; b)语音处理模块,包含声学子模块,语音语法子模块,形式转换子模块和预处理引擎子模块; c)搜索轨迹模块负责对语音处理模块输出的匹配结果备份并输入到语义处理及搜索模块; d)语义处理搜索模块包括声音段组合子模块,关键字解析子模块,和搜索引擎子模块; e)云处理模块包括语义匹配处理子模块,业务处理引擎子模块,声学数据库子模块,夕卜部数据库匹配子模块,告警预处理子模块和事件备份子模块; 所述通话语音输入模块和语音处理模块之间,语义处理搜索模块和云处理模块之间通过TCP/IP方式相互连接;语音处理模块,搜索轨迹模块和语义处理搜索模块之间通过本地数据导入方式实现连接。
7.根据权利要求6所述的系统,其特征在于,所述语音处理模块主要是进行语音片段分割和对应字符匹配的预处理,形式转换子模块负责对语音进行编码转换;声学子模块和语音语法子模块负责通过声学检索算法对声音进行特征匹配,预处理引擎子模块负责对匹配到的候选词输入到搜索轨迹中以便进行下一步的语义匹配处理。
8.根据权利要求6所述的系统,其特征在于,所述的搜索引擎子模块负责组合出正确的词或者句子,关键字解析子模块负责处理找到识别到的语句中的敏感词,声音段组合子模块负责处理检查找到的敏感词对应的声音片段是否和库中的声音样本组合的片段类似。
9.根据权利要求6所述一种防电信电话诈骗方法及系统,其特征在于,所述的语义匹配处理子模块和业务处理引擎子模块主要负责对敏感关键字或者关键句识别意思,并且识别到关键字符或数字输入到外部匹配子模块进行查找,告警预处理子模块和事件备份子模块负责对用户,外部系统产生报警并且记录事件日志。
全文摘要
本发明涉及一种基于语音语义内容分析的防电信电话诈骗方法和系统,通过提高通话中语音和语义识别的效率和准确率,并且使用中文语义判定技术判定并对陌生电话发送者是否为诈骗电话。具体而言,通过对双方通话过程中使用本发明提出的大词汇量、非特定人的连续语音识别(LVCSR)算法对语音进行解析,并且针对解析出来的关键字或者关键数字进行判定,利用算法构造策略引擎,使用算法在云服务端对通话方的语句意思进行解析并且归类,同时针对语音中的关键信息进行解析,同步匹配通话者所在银行的信息,判定是否为可疑电话诈骗。总体来讲,本方法,特别是能够有效地阻止电话诈骗的发生,特别是通过语音语义识别和判定的方式,加上云平台信息挖掘匹配方式保护用户安全,并且在语音识别速率,可疑电话检出率上也能满足正常的使用。
文档编号H04L29/06GK103179122SQ20131009423
公开日2013年6月26日 申请日期2013年3月22日 优先权日2013年3月22日
发明者马博 申请人:马博
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1