一种广告电话识别的方法及终端与流程

文档序号:15095846发布日期:2018-08-04 14:32阅读:319来源:国知局

本发明涉及数据处理领域,尤其涉及一种广告电话识别的方法及终端。



背景技术:

申请号为201410367838.4的专利文献提供一种骚扰电话处理方法、装置及电话,该方法中,首先在电话接通后的预设时间段内,获取通话录音;然后,获取所述通话录音的语音识别特征;基于所述语音识别特征,判断本次通话是否为骚扰电话,并在确定本次通话为骚扰电话时,对所述骚扰电话执行相应的处理。通过该方法,可以判断出本次通话是否为骚扰电话,并在是的情况下,执行相应的处理,避免该骚扰电话对用户的干扰。由于该方法基于本次的通话录音判断是否为骚扰电话,因此,对于首次拨打的骚扰电话,也能识别并进行相应处理,提高了识别并处理骚扰电话的准确性,

但是,上述专利文献在判断本次通话是否为骚扰电话前,需要预先存储关键词,所述关键词根据用户需求预先设定,并存储至电话或服务器端。例如,所述关键词可以包括“中介”、“保险”、“推销”和“价格”等。而人为设置用于识别骚扰电话的关键词,易存在漏设、关键词设置不全面等情况,从而使得难以全面拦截骚扰电话。



技术实现要素:

本发明所要解决的技术问题是:如何提高识别骚扰电话的准确性。

为了解决上述技术问题,本发明采用的技术方案为:

本发明提供一种广告电话识别的方法,包括:

预设多个分类;

触发搜索引擎获取与多个所述分类对应的网页,得到网页集合;

获取所述网页集合中每一网页的文本信息,得到文本信息集合;

根据所述文本信息集合识别骚扰电话。

本发明还提供一种广告电话识别的终端,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:

预设多个分类;

触发搜索引擎获取与多个所述分类对应的网页,得到网页集合;

获取所述网页集合中每一网页的文本信息,得到文本信息集合;

根据所述文本信息集合识别骚扰电话。

本发明的有益效果在于:本发明通过搜索引擎搜索与不同骚扰电话的分类对应的网页,从而获取与不同分类的骚扰电话对应的文本信息,将所述文本信息作为识别骚扰电话的依据,一方面使得用于识别骚扰电话的特征信息较完整,另一方面通过搜索引擎可获取到与骚扰电话的分类对应的新信息,有利于提高识别骚扰电话的准确性。

附图说明

图1为本发明提供的一种广告电话识别的方法的具体实施方式的流程框图;

图2为本发明提供的一种广告电话识别的终端的具体实施方式的结构框图;

标号说明:

1、处理器;2、存储器。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。

请参照图1以及图2,

如图1所示,本发明提供一种广告电话识别的方法,包括:

预设多个分类;

触发搜索引擎获取与多个所述分类对应的网页,得到网页集合;

获取所述网页集合中每一网页的文本信息,得到文本信息集合;

根据所述文本信息集合识别骚扰电话。

进一步地,根据所述文本信息集合识别骚扰电话,具体为:

根据预设的分词算法获取与所述文本信息集合对应的词组,得到第一词组集合;

转换所述第一词组集合中的每一词组为对应的汉语拼音,得到第一拼音集合;

将接收到的音频信号转换为汉语拼音,得到第二拼音集合;

根据所述第一拼音集合和所述第二拼音集合识别与所述音频信号对应的来电类型;所述来电类型包括骚扰电话和非骚扰电话。

由上述描述可知,通过匹配音频信号对应的汉语拼音与从搜索引擎获取到的第一拼音集合识别骚扰电话,消除了将音频信号转换为实际汉字的同音字而导致无法识别出骚扰电话的情况,提高了识别骚扰电话的准确度。

进一步地,根据所述第一拼音集合和所述第二拼音集合识别与所述音频信号对应的来电类型,具体为:

计算所述第一词组集合中每一词组在所述文本集合中出现的频率,得到频率集合;

为每一所述分类分配编号,得到编号集合;

根据所述频率集合和所述编号集合计算得到所述第一词组集合中每一词组的权重值;

根据所述第二拼音集合中每一词组在所述音频信号中出现的频率和所述第二拼音集合中每一词组的权重值计算得到分类值;

计算所述分类值与每一所述分类对应的编号的差值,得到差值集合;

获取与所述差值集合中的最小值对应的编号,得到当前编号;

若所述分类值与所述当前编号的差值小于预设阈值,则标记所述音频信号为与所述当前编号对应的分类的骚扰电话。

由上述描述可知,实现了对骚扰电话进行分类,使得能够拦截指定分类的骚扰电话。

进一步地,还包括:

若一词组在每一分类对应的文本信息中出现的频率均大于预设的比例阈值,则从所述第一词组集合中删除所述一词组。

由上述描述可知,从第一词组集合中删除无关的词,有利于提高识别骚扰电话的效率。

进一步地,触发搜索引擎获取与多个所述分类对应的网页,得到网页集合,具体为:

分别获取与每一所述分类对应的关键词,得到关键词集合;

触发搜索引擎依次搜索所述关键词集合中的每一关键词,得到网页集合。

如图2所示,本发明还提供一种广告电话识别的终端,包括一个或多个处理器1及存储器2,所述存储器2存储有程序,并且被配置成由所述一个或多个处理器1执行以下步骤:

预设多个分类;

触发搜索引擎获取与多个所述分类对应的网页,得到网页集合;

获取所述网页集合中每一网页的文本信息,得到文本信息集合;

根据所述文本信息集合识别骚扰电话。

进一步地,根据所述文本信息集合识别骚扰电话,具体为:

根据预设的分词算法获取与所述文本信息集合对应的词组,得到第一词组集合;

转换所述第一词组集合中的每一词组为对应的汉语拼音,得到第一拼音集合;

将接收到的音频信号转换为汉语拼音,得到第二拼音集合;

根据所述第一拼音集合和所述第二拼音集合识别与所述音频信号对应的来电类型;所述来电类型包括骚扰电话和非骚扰电话。

进一步地,根据所述第一拼音集合和所述第二拼音集合识别与所述音频信号对应的来电类型,具体为:

计算所述第一词组集合中每一词组在所述文本集合中出现的频率,得到频率集合;

为每一所述分类分配编号,得到编号集合;

根据所述频率集合和所述编号集合计算得到所述第一词组集合中每一词组的权重值;

根据所述第二拼音集合中每一词组在所述音频信号中出现的频率和所述第二拼音集合中每一词组的权重值计算得到分类值;

计算所述分类值与每一所述分类对应的编号的差值,得到差值集合;

获取与所述差值集合中的最小值对应的编号,得到当前编号;

若所述分类值与所述当前编号的差值小于预设阈值,则标记所述音频信号为与所述当前编号对应的分类的骚扰电话。

进一步地,还包括:

若一词组在每一分类对应的文本信息中出现的频率均大于预设的比例阈值,则从所述第一词组集合中删除所述一词组。

进一步地,触发搜索引擎获取与多个所述分类对应的网页,得到网页集合,具体为:

分别获取与每一所述分类对应的关键词,得到关键词集合;

触发搜索引擎依次搜索所述关键词集合中的每一关键词,得到网页集合。

本发明的实施例一为:

本实施例提供一种广告电话识别的方法,包括:

S1、预设多个分类;触发搜索引擎获取与多个所述分类对应的网页,得到网页集合。具体为:

S11、分别获取与每一所述分类对应的关键词,得到关键词集合。

S12、触发搜索引擎依次搜索所述关键词集合中的每一关键词,得到网页集合。

例如,分类包括快递、送餐、保险、装修、购房、租房和金融。其中,送餐的关键词包括:外卖、下午茶和夜宵等。

S2、获取所述网页集合中每一网页的文本信息,得到文本信息集合。

其中,当搜索引擎搜索一关键词获得大量的网页信息时,一般只获取前预设页数的网页所包含的文本内容。一般前预设页数的网页更新时间距离当前时间较近,具有较高的信息价值。

S3、根据所述文本信息集合识别骚扰电话。具体为:

S31、根据预设的分词算法获取与所述文本信息集合对应的词组,得到第一词组集合。

S32、若一词组在每一分类对应的文本信息中出现的频率均大于预设的比例阈值,则从所述第一词组集合中删除所述一词组。

可选地,所述预设的比例阈值为50%。

例如,“我们”、“的”、“官网”和“系统”等都是没有实际意义的高频词。

S33、转换所述第一词组集合中的每一词组为对应的汉语拼音,得到第一拼音集合。

S34、将接收到的音频信号转换为汉语拼音,得到第二拼音集合。

S35、根据所述第一拼音集合和所述第二拼音集合识别与所述音频信号对应的来电类型;所述来电类型包括骚扰电话和非骚扰电话。具体为:

计算所述第一词组集合中每一词组在所述文本集合中出现的频率,得到频率集合;

为每一所述分类分配编号,得到编号集合;

根据所述频率集合和所述编号集合计算得到所述第一词组集合中每一词组的权重值;

根据所述第二拼音集合中每一词组在所述音频信号中出现的频率和所述第二拼音集合中每一词组的权重值计算得到分类值;

计算所述分类值与每一所述分类对应的编号的差值,得到差值集合;

获取与所述差值集合中的最小值对应的编号,得到当前编号;

若所述分类值与所述当前编号的差值小于预设阈值,则标记所述音频信号为与所述当前编号对应的分类的骚扰电话。

其中,预设权重矩阵和与所述权重矩阵对应的结果集合,将每个网页获得的各个词组的出现频率代入所述权重矩阵计算,得出最优权重集合。

例如:将分类为送餐的网页获得的词组频率分别代入,文章1对应表1,保险出现频率为0,房子出现频率为0,外卖频率0.1,送餐频率为0.2,代入计算。再将文章2代入表2,保险出现频率为0,房子出现频率为0,外卖频率0.5,送餐频率为0.1。每一个单元格为权重乘以词组出现的频率,可以通过梯度下降算法,求出权重矩阵的最优解。

表1

表2

依次类推,代入一定量的送餐的文章,再代入保险的文章,如表3所示,保险出现频率为0.5,其他频率为0,分类权重则保险为1其他为0。

表3

最终通过一定量的迭代计算,可以求出一个最优的W11,W12……W34的权重矩阵。后续就可以用它来分类。

一音频信号包括词组“waimai”(外卖)和“songcan”(送餐)等10个词组,且“waimai”出现的次数为1,“songcan”出现的次数为2,则“waimai”出现频率为0.1,“songcan”出现的频率为0.2,其他词组的权重关键字权重为0。其中根据上述求得的W权重矩阵,这里假设求得矩阵W11=0,W12=0.001,如表4所示:

表4

其中,0x0表示权重系数x词组出现频率,根据每个词语对应的权重累加得出该分类的权重结果,权重值最大的则为最终分类。在送餐分类中“保险的系数很低,所以,权重值也低”。

原理:由于通过搜索引擎抓取的相关词组代入权重矩阵,通过求出权重矩阵最优解,它能够通过代入的文章将每个分类相关词语的权重系数提高,从而可以提高分类的准确率。

S4、从多个所述分类中选择预设个数分类,得到分类集合;拦截与所述分类集合中的分类对应的骚扰电话。

可选地,从所述分类集合中获取一分类,得到当前分类;设置与所述当前分类对应的拦截时间段;在所述拦截时间段内,拦截与所述当前分类对应的骚扰电话。

其中,用户可根据自己的偏好设置所需拦截的骚扰电话分类,已经执行拦截操作的时间段,若不在预设的拦截时间段内,则不拦截对应的骚扰电话。使得骚扰电话的设置符合用户习惯,可由用户自定义,提高用户体验。

本发明的实施例二为:

本实施例提供一种广告电话识别的终端,包括一个或多个处理器1及存储器2,所述存储器2存储有程序,并且被配置成由所述一个或多个处理器1执行以下步骤:

S1、预设多个分类;触发搜索引擎获取与多个所述分类对应的网页,得到网页集合。具体为:

S11、分别获取与每一所述分类对应的关键词,得到关键词集合。

S12、触发搜索引擎依次搜索所述关键词集合中的每一关键词,得到网页集合。

S2、获取所述网页集合中每一网页的文本信息,得到文本信息集合。

S3、根据所述文本信息集合识别骚扰电话。具体为:

S31、根据预设的分词算法获取与所述文本信息集合对应的词组,得到第一词组集合。

S32、若一词组在每一分类对应的文本信息中出现的频率均大于预设的比例阈值,则从所述第一词组集合中删除所述一词组。

可选地,所述预设的比例阈值为50%。

S33、转换所述第一词组集合中的每一词组为对应的汉语拼音,得到第一拼音集合。

S34、将接收到的音频信号转换为汉语拼音,得到第二拼音集合。

S35、根据所述第一拼音集合和所述第二拼音集合识别与所述音频信号对应的来电类型;所述来电类型包括骚扰电话和非骚扰电话。具体为:

计算所述第一词组集合中每一词组在所述文本集合中出现的频率,得到频率集合;

为每一所述分类分配编号,得到编号集合;

根据所述频率集合和所述编号集合计算得到所述第一词组集合中每一词组的权重值;

根据所述第二拼音集合中每一词组在所述音频信号中出现的频率和所述第二拼音集合中每一词组的权重值计算得到分类值;

计算所述分类值与每一所述分类对应的编号的差值,得到差值集合;

获取与所述差值集合中的最小值对应的编号,得到当前编号;

若所述分类值与所述当前编号的差值小于预设阈值,则标记所述音频信号为与所述当前编号对应的分类的骚扰电话。

S4、从多个所述分类中选择预设个数分类,得到分类集合;拦截与所述分类集合中的分类对应的骚扰电话。

可选地,从所述分类集合中获取一分类,得到当前分类;设置与所述当前分类对应的拦截时间段;在所述拦截时间段内,拦截与所述当前分类对应的骚扰电话。

综上所述,本发明提供的一种广告电话识别的方法及终端,通过搜索引擎搜索与不同骚扰电话的分类对应的网页,从而获取与不同分类的骚扰电话对应的文本信息,将所述文本信息作为识别骚扰电话的依据,一方面使得用于识别骚扰电话的特征信息较完整,另一方面通过搜索引擎可获取到与骚扰电话的分类对应的新信息,有利于提高识别骚扰电话的准确性。通过匹配音频信号对应的汉语拼音与从搜索引擎获取到的第一拼音集合识别骚扰电话,消除了将音频信号转换为实际汉字的同音字而导致无法识别出骚扰电话的情况,提高了识别骚扰电话的准确度。进一步地,实现了对骚扰电话进行分类,使得能够拦截指定分类的骚扰电话。进一步地,从第一词组集合中删除无关的词,有利于提高识别骚扰电话的效率。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1