不良电话号码识别方法、装置、存储介质和计算机设备与流程

文档序号:29302972发布日期:2022-03-19 10:57阅读:349来源:国知局
不良电话号码识别方法、装置、存储介质和计算机设备与流程
不良电话号码识别方法、装置、存储介质和计算机设备
【技术领域】
1.本发明涉及安全技术领域,尤其涉及一种不良电话号码识别方法、装置、存储介质和计算机设备。


背景技术:

2.相关技术中,治理不良电话的途径主要为电信运营商在网络侧进行海量通话记录的采集,并结合大数据风险挖掘技术对高频、高离散度等通话进行特征分析,以识别各类不良电话号码。但近年来,各类不良电话号码为规避监管增加了大量主叫号码,通过控制主叫号码的外呼频次、外呼号码数、外呼时长等手段来实施广泛地电话骚扰,使得相关技术中的技术方案的管控效果日趋下降,降低了识别不良电话号码的准确性。


技术实现要素:

3.有鉴于此,本发明实施例提供了一种不良电话号码识别方法、装置、存储介质和计算机设备,用以提高识别不良电话号码的准确性。
4.一方面,本发明实施例提供了一种不良电话号码识别方法,应用于蜜罐池中的工作蜜罐服务器,所述方法包括:
5.对生成的媒体流信息进行解析,生成多个关键词信息和每个所述关键词信息对应的词性信息;
6.根据多个所述关键词信息和多个所述词性信息进行计算,生成显著强度系数方差;
7.判断所述显著强度系数方差是否位于闭合区间,所述闭合区间包括第一设定阈值与第二设定阈值之间的数值范围;
8.若判断出所述显著强度系数方差位于所述闭合区间,将所述媒体信令消息对应的主叫号码设置为不良电话号码。
9.可选地,所述对获取的媒体流信息进行解析,生成多个关键词信息和每个所述关键词信息对应的词性信息之前包括:
10.接收所述蜜罐池中的分发单元发送的媒体信令消息,所述媒体信令消息是由终端设备发送至所述分发单元的;
11.提取所述媒体信令消息中主叫方向的多个媒体内容信息;
12.将多个所述媒体内容信息按照时间顺序排列,生成媒体流信息。
13.可选地,所述对所述媒体流信息进行解析,生成多个关键词信息和每个所述关键词信息对应的词性信息包括:
14.通过语音识别技术对所述媒体流信息进行计算,生成媒体文本信息;
15.通过分词技术对所述媒体文本信息进行解析,生成多个关键词信息和每个所述关键词信息对应的词性信息。
16.可选地,所述根据多个所述关键词信息和多个所述词性信息进行计算,生成显著
强度系数方差包括:
17.通过文本排名算法对多个所述关键词信息进行计算,生成多个敏感词强度系数;
18.通过专家算法对多个所述词性信息进行计算,生成多个词性强度系数;
19.根据多个所述敏感词强度系数与多个所述词性强度系数,生成多个显著强度系数;
20.计算多个所述显著强度系数的平均值,生成平均显著强度系数;
21.根据多个所述显著强度系数和所述平均显著强度系数生成显著强度系数方差。
22.可选地,还包括:
23.若判断出所述显著强度系数方差不位于所述闭合区间,将所述媒体信令消息对应的主叫号码设置为良好电话号码。
24.可选地,所述将所述媒体信令消息对应的主叫号码设置为不良电话号码之后包括:
25.停止接收所述蜜罐池中的分发单元发送的媒体信令消息,所述媒体信令消息是由终端设备发送的;
26.向服务器发送阻断指令,以供服务器对所述媒体信令消息对应的终端设备进行阻断。
27.可选地,所述根据多个所述敏感词强度系数与多个词性强度系数,生成多个显著强度系数包括:
28.通过公式θ=α*β对多个所述敏感词强度系数和所述多个词性强度系数进行计算,生成多个所述显著强度系数,其中,θ为所述显著强度系数,α为所述词性强度系数,β为所述敏感词强度系数;
29.所述根据多个所述显著强度系数和所述平均显著强度系数生成显著强度系数方差包括:
30.通过公式对多个所述显著强度系数和所述平均显著强度系数进行计算,生成所述显著强度系数方差,其中,θi为所述显著强度系数,所述平均显著强度系数,n为所述显著强度系数的总数。
31.另一方面,本发明实施例提供了一种不良电话号码识别装置,包括:
32.第一生成模块,用于对获取的媒体流信息进行解析,生成多个关键词信息和每个所述关键词信息对应的词性信息;
33.第二生成模块,用于根据多个所述关键词信息和多个所述词性信息进行计算,生成显著强度系数方差;
34.判断模块,用于判断所述显著强度系数方差是否位于闭合区间,所述闭合区间包括第一设定阈值与第二设定阈值之间的数值范围;
35.第一设置模块,用于若判断模块判断出所述显著强度系数方差位于所述闭合区间,将所述媒体信令消息对应的主叫号码设置为不良电话号码。
36.另一方面,本发明实施例提供了一种存储介质,包括:所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述不良电话号码识别方法。
37.另一方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于,所述程序指令被处理器加载并执行时实现上述不良电话号码识别方法的步骤。
38.本发明实施例提供的一种不良电话号码识别方法的技术方案中,通过对生成的媒体流信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息;根据多个关键词信息和多个词性信息进行计算,生成显著强度系数方差;若判断出显著强度系数方差位于闭合区间,将媒体信令消息对应的主叫号码设置为不良电话号码。本发明实施例中,通过对获取的媒体信令消息进行计算,生成显著强度系数方差,若判断出显著强度系数方差位于闭合区间,将媒体信令消息对应的主叫号码设置为不良电话号码,提高了识别不良电话号码的准确性。
【附图说明】
39.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
40.图1为本发明实施例提供的一种不良电话号码识别系统的结构示意图;
41.图2为本发明实施例提供的一种不良电话号码识别方法的流程图;
42.图3为本发明实施例提供的另一种不良电话号码识别方法的流程图;
43.图4为图3中工作蜜罐服务器对生成的媒体流信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息的流程图;
44.图5为图3中工作蜜罐服务器根据多个关键词信息和多个词性信息进行计算,生成显著强度系数方差的流程图;
45.图6为本发明实施例提供的一种多领域特征库组织示意图;
46.图7为本发明实施例提供的一种不良电话号码识别装置的结构示意图;
47.图8为本发明实施例提供的一种计算机设备的示意图。
【具体实施方式】
48.为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
49.应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
50.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
51.应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,甲和/或乙,可以表示:单独存在甲,同时存在甲和乙,单独存在乙这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
52.一种相关技术中,通过获取通话内容的范围与风险预警对象范围来限定单个主叫号码,使得识别不良电话号码的范围受限,降低了识别不良电话号码的准确性。另外,相关技术中的技术方案对通话内容关键词、语义、语调等特征的计算也主要围绕单个主叫号码,不能对海量通话进行不良电话号码的识别,降低了识别不良电话号码的准确性。多个领域都存在构成高频外呼的骚扰风险,例如房产、理财、贷款、欺诈、教育培训等领域,相关技术方法中不能准确地识别出多个不同领域的不良电话号码。
53.另一种相关技术中,通过对海量通话记录数据应用大数据分析挖掘技术进行通话行为特征分析方法来预测不良电话号码,此方法在外呼频次、外呼离散度等方面达不到设置的指定阈值,会造成漏拦不良电话的情况,降低了识别不良电话号码的准确性。
54.另一种相关技术中,通过互联网安全app收集用户标记举报的各类不良电话号码,相关技术中的标记结果容易导致标记错误,容易导致误拦不良电话的情况,降低了识别不良电话号码的准确性。
55.为解决相关技术中的技术问题,本发明实施例提供了一种不良电话号码识别系统。图1为本发明实施例提供的一种不良电话号码识别系统的结构示意图,如图1所示,该系统包括:服务器1和终端设备2。
56.本发明实施例中,服务器1包括蜜罐池。
57.本发明实施例中,蜜罐池包括分发单元11和至少一个蜜罐服务器12。作为一种可选方案,蜜罐池1包括多个蜜罐服务器12。
58.本发明实施例中,分发单元11与每个蜜罐服务器12连接。
59.本发明实施例中,终端设备2包括:手机、车机、平板电脑、计算机或可穿戴设备。
60.本发明实施例中,服务器1与终端设备2连接。作为一种可选方案,服务器1与终端设备2通过移动通信技术连接。移动通信技术包括第三代移动通信技术(3rd-generation,简称3g)、第四代移动通信技术(the 4th generation mobile communication technology,简称4g)或第五代移动通信技术(the 5th generation mobile communication technology,简称5g)。
61.本发明实施例中,终端设备2向蜜罐池中的分发单元11发送媒体信令消息。蜜罐池中每个蜜罐服务器12均具备工作状态和空闲状态两种状态,默认每个蜜罐服务器12的初始状态为空闲状态。当蜜罐服务器12接收到媒体信令消息时,分发单元11从多个蜜罐服务器12中选取出一个空闲的蜜罐服务器12,该蜜罐服务器12的状态从空闲状态变更为工作状态,该空闲的蜜罐服务器12作为工作蜜罐服务器。分发单元11向工作蜜罐服务器发送媒体信令消息。当工作蜜罐服务器结束工作时,工作蜜罐服务器的状态从工作状态变更为空闲状态,将该工作蜜罐服务器作为蜜罐服务器12。
62.本发明实施例中,工作蜜罐服务器用于对生成的媒体流信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息;根据多个关键词信息和多个词性信息进行计算,生成显著强度系数方差;判断显著强度系数方差是否位于闭合区间,闭合区间包括第一设定阈值与第二设定阈值之间的数值范围,且第一设定阈值与第二设定阈值为闭合区间的端点,第一设定阈值小于第二设定阈值;若判断出显著强度系数方差位于闭合区间,将媒体信令消息对应的主叫号码设置为不良电话号码。
63.本发明实施例中,工作蜜罐服务器还用于接收蜜罐池中的分发单元11发送的媒体
信令消息,媒体信令消息是由终端设备2发送至分发单元11的;提取媒体信令消息中主叫方向的多个媒体内容信息;将多个媒体内容信息按照时间顺序排列,生成媒体流信息。
64.本发明实施例中,工作蜜罐服务器具体用于通过语音识别技术对媒体流信息进行计算,生成媒体文本信息;通过分词技术对媒体文本信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息。
65.本发明实施例中,工作蜜罐服务器具体用于通过文本排名算法对多个关键词信息进行计算,生成多个敏感词强度系数;通过专家算法对多个词性信息进行计算,生成多个词性强度系数;根据多个敏感词强度系数与多个词性强度系数,生成多个显著强度系数;计算多个显著强度系数的平均值,生成平均显著强度系数;根据多个显著强度系数和平均显著强度系数生成显著强度系数方差。
66.本发明实施例中,工作蜜罐服务器还用于若判断出显著强度系数方差不位于闭合区间,将媒体信令消息对应的主叫号码设置为良好电话号码。
67.本发明实施例中,工作蜜罐服务器还用于停止接收蜜罐池1中的分发单元11发送的媒体信令消息,媒体信令消息是由终端设备2发送至分发单元11的;向服务器1发送阻断指令,以供服务器1对所述媒体信令消息对应的终端设备2进行阻断。
68.本发明实施例中,工作蜜罐服务器具体用于通过公式θ=α*β对多个敏感词强度系数和多个词性强度系数进行计算,生成多个显著强度系数,其中,θ为显著强度系数,α为词性强度系数,β为敏感词强度系数。工作蜜罐服务器具体用于通过公式对多个显著强度系数和平均显著强度系数进行计算,生成显著强度系数方差,其中,θi为显著强度系数,为平均显著强度系数,n为显著强度系数的总数。
69.本发明实施例提供的一种不良电话号码识别方法的技术方案中,通过对生成的媒体流信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息;根据多个关键词信息和多个词性信息进行计算,生成显著强度系数方差;若判断出显著强度系数方差位于闭合区间,将媒体信令消息对应的主叫号码设置为不良电话号码。本发明实施例中,通过对获取的媒体信令消息进行计算,生成显著强度系数方差,若判断出显著强度系数方差位于闭合区间,将媒体信令消息对应的主叫号码设置为不良电话号码,提高了识别不良电话号码的准确性。
70.本发明实施例提供了一种不良电话号码识别方法。图2为本发明实施例提供的一种不良电话号码识别方法的流程图,如图2所示,该方法包括:
71.步骤101、对生成的媒体流信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息。
72.本发明实施例中,各步骤由工作蜜罐服务器执行。
73.具体地,通过语音识别技术对媒体流信息进行计算,生成媒体文本信息;通过分词技术对媒体文本信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息。
74.本发明实施例中,语音识别技术包括自动语音识别技术(automatic speech recognition,简称asr)。
75.本发明实施例中,分词技术包括结巴分词技术。
76.作为一种可选方案,通过分词技术对媒体文本信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息的集合,该集合写作p={(w0,c0),(w1,c1),
……
(wi,ci)},其中,wi为关键词信息,ci为关键词信息对应的词性信息。
77.步骤102、根据多个关键词信息和多个词性信息进行计算,生成显著强度系数方差。
78.步骤103、判断显著强度系数方差是否位于闭合区间,闭合区间包括第一设定阈值与第二设定阈值之间的数值范围。
79.具体地,判断显著强度系数方差是否大于或等于第一设定阈值且小于或等于第二设定阈值。
80.本发明实施例中,第一设定阈值与第二设定阈值为闭合区间的端点,第一设定阈值小于第二设定阈值。
81.本发明实施例中,若判断出显著强度系数方差位于闭合区间则表明显著强度系数方差大于或等于第一设定阈值且小于或等于第二设定阈值,该显著强度系数方差对应的主叫号码为不良电话号码;若判断出显著强度系数方差不位于闭合区间,则表明显著强度系数方差小于第一设定阈值且大于第二设定阈值,该显著强度系数方差对应的主叫号码为良好电话号码。
82.本发明实施例中,不良电话号码包括骚扰电话号码、诈骗电话号码或吸费电话号码。
83.步骤104、若判断出显著强度系数方差位于闭合区间,将媒体信令消息对应的主叫号码设置为不良电话号码。
84.本发明实施例提供的一种不良电话号码识别方法的技术方案中,通过对生成的媒体流信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息;根据多个关键词信息和多个词性信息进行计算,生成显著强度系数方差;若判断出显著强度系数方差位于闭合区间,将媒体信令消息对应的主叫号码设置为不良电话号码。本发明实施例中,通过对获取的媒体信令消息进行计算,生成显著强度系数方差,若判断出显著强度系数方差位于闭合区间,将媒体信令消息对应的主叫号码设置为不良电话号码,提高了识别不良电话号码的准确性。
85.本发明实施例提供了另一种不良电话号码识别方法。图3为本发明实施例提供的另一种不良电话号码识别方法的流程图,如图3所示,该方法包括:
86.步骤201、终端设备向蜜罐池中的分发单元发送媒体信令消息。
87.步骤202、工作蜜罐服务器接收蜜罐池中的分发单元发送的媒体信令消息。
88.本发明实施例中,分发单元通过弹性收缩分发管理技术向空闲的蜜罐服务器发送媒体信令消息。
89.步骤203、工作蜜罐服务器提取媒体信令消息中主叫方向的多个媒体内容信息。
90.本发明实施例中,媒体信令消息包括收发标识,该收发标识用于标示媒体信令消息的主叫方向或者被叫方向。
91.本发明实施例中,具体地,工作蜜罐服务器根据媒体信令消息中的收发标识提取媒体信令消息中主叫方向的多个媒体内容信息。
92.步骤204、工作蜜罐服务器将多个媒体内容信息按照时间顺序排列,生成媒体流信
息。
93.本发明实施例中,时间顺序包括时间由先到后的顺序或时间由后到先的顺序。
94.作为一种可选方案,工作蜜罐服务器将多个媒体内容信息按照时间由先到后的顺序排列,生成媒体流信息。
95.步骤205、工作蜜罐服务器对生成的媒体流信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息。
96.本发明实施例中,关键词信息包括关键词,例如:“购买”、“合适的”或“产品”。
97.本发明实施例中,词性信息包括词性,例如:动词、形容词或名词。
98.例如:“购买”对应的词性信息为动词,“合适的”对应的词性信息为形容词,“产品”对应的词性信息为名词。
99.本发明实施例中,图4为图3中工作蜜罐服务器对生成的媒体流信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息的流程图,如图4所示,步骤205包括:
100.步骤2051、工作蜜罐服务器通过语音识别技术对媒体流信息进行计算,生成媒体文本信息。
101.本发明实施例中,语音识别技术包括自动语音识别技术(automatic speech recognition,简称asr)。
102.步骤2052、工作蜜罐服务器通过分词技术对媒体文本信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息。
103.本发明实施例中,分词技术包括结巴分词技术。
104.作为一种可选方案,工作蜜罐服务器通过分词技术对媒体文本信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息的集合,该集合写作p={(w0,c0),(w1,c1),
……
(wi,ci)},其中,wi为关键词信息,ci为关键词信息对应的词性信息。
105.步骤206、工作蜜罐服务器根据多个关键词信息和多个词性信息进行计算,生成显著强度系数方差。
106.本发明实施例中,图5为图3中工作蜜罐服务器根据多个关键词信息和多个词性信息进行计算,生成显著强度系数方差的流程图,如图5所示,步骤206包括:
107.步骤2061、工作蜜罐服务器通过文本排名算法对多个关键词信息进行计算,生成多个敏感词强度系数。
108.本发明实施例中,具体地,工作蜜罐服务器通过文本排名(text rank)算法对多个关键词信息进行计算,生成每个关键词信息对应的敏感词强度系数。关键词信息与敏感词强度系数一一对应。
109.步骤2062、工作蜜罐服务器通过专家算法对多个词性信息进行计算,生成多个词性强度系数。
110.本发明实施例中,具体地,工作蜜罐服务器通过专家算法对多个词性信息进行计算,生成每个词性信息对应的词性强度系数。词性信息与词性强度系数一一对应。
111.步骤2063、工作蜜罐服务器根据多个敏感词强度系数与多个词性强度系数,生成多个显著强度系数。
112.具体地,工作蜜罐服务器通过公式θ=α*β对多个敏感词强度系数和多个词性强度系数进行计算,生成多个显著强度系数,其中,θ为显著强度系数,α为词性强度系数,β为敏
感词强度系数。
113.作为一种可选方案,本发明实施例提供了一种多领域特征库组织,图6为本发明实施例提供的一种多领域特征库组织示意图,如图6所示,多领域特征库组织包括多个领域,例如:领域a、领域b
……
领域n。每个领域包括多个矩阵,例如:领域a包括矩阵f1、矩阵f2
……
矩阵fx。每个矩阵包括多个关键词信息、每个关键词信息对应的词性信息和根据每个关键词信息和其对应的词性信息计算出的显著强度系数,例如:矩阵f1包括{(w1,c1,θ1),(w2,c2,θ2)
……
(wn,cn,θn)},其中,wn为关键词信息,cn为词性信息,θn为显著强度系数。
114.本发明实施例中,作为一种可选方案,敏感词属性相同的关键词信息、词性信息和显著强度系数构成一行,例如:矩阵f1中的第一行(w1,c1,θ1)中的关键词信息w1、词性信息c1和显著强度系数θ1的敏感词属性相同。
115.本发明实施例中,作为一种可选方案,工作蜜罐服务器可确定出某一领域的敏感词属性的集合为该领域的特征簇,例如:领域a中f1矩阵、f2矩阵
……
fx矩阵为领域a的特征簇。
116.步骤2064、工作蜜罐服务器计算多个显著强度系数的平均值,生成平均显著强度系数。
117.本发明实施例中,作为一种可选方案,工作蜜罐服务器能够计算每个特征簇对应的多个显著强度系数的平均值,生成每个特征簇对应的平均显著强度系数。
118.步骤2065、工作蜜罐服务器根据多个显著强度系数和平均显著强度系数生成显著强度系数方差。
119.具体地,工作蜜罐服务器通过公式对多个显著强度系数和平均显著强度系数进行计算,生成显著强度系数方差,其中,θi为显著强度系数,为平均显著强度系数,n为显著强度系数的总数。
120.本发明实施例中,作为一种可选方案,工作蜜罐服务器能够根据每个特征簇对应的多个显著强度系数和每个特征簇对应的平均显著强度系数生成每个特征簇对应的显著强度系数方差。
121.步骤207、工作蜜罐服务器判断显著强度系数方差是否位于闭合区间,闭合区间包括第一设定阈值与第二设定阈值之间的数值范围,若是,执行步骤209;若否,执行步骤208。
122.具体地,判断显著强度系数方差是否大于或等于第一设定阈值且小于或等于第二设定阈值。
123.本发明实施例中,第一设定阈值小于第二设定阈值,第一设定阈值与第二设定阈值为闭合区间的端点。
124.本发明实施例中,作为一种可选方案,工作蜜罐服务器判断每个特征簇对应的显著强度系数方差是否位于闭合区间。
125.本发明实施例中,作为一种可选方案,若工作蜜罐服务器判断出每个特征簇对应的显著强度系数方差位于闭合区间,则表明该显著强度系数方差对应的媒体信令消息命中该特征簇,该媒体信令消息对应的主叫号码为不良电话号码;若工作蜜罐服务器判断出每
个特征簇对应的显著强度系数方差不位于闭合区间,则表明该显著强度系数方差对应的媒体信令消息命中该特征簇,该媒体信令消息对应的主叫号码为良好电话号码。
126.步骤208、工作蜜罐服务器将媒体信令消息对应的主叫号码设置为良好电话号码,流程结束。
127.步骤209、工作蜜罐服务器将媒体信令消息对应的主叫号码设置为不良电话号码。
128.本发明实施例中,不良电话号码包括骚扰电话号码、诈骗电话号码或吸费电话号码。
129.本发明实施例中,作为一种可选方案,步骤209具体包括:工作蜜罐服务器根据命中的特征簇对应的特征簇名称标识媒体信令消息对应的主叫号码,并将该主叫号码设置为不良电话号码。
130.步骤210、工作蜜罐服务器停止接收蜜罐池中的分发单元发送的媒体信令消息。
131.步骤211、工作蜜罐服务器向服务器发送阻断指令,以供服务器对媒体信令消息对应的终端设备进行阻断。
132.本发明实施例中,服务器对媒体信令消息对应的终端设备进行阻断以阻断当前主叫号码的呼叫。
133.本发明实施例提供的一种不良电话号码识别方法的技术方案中,通过对生成的媒体流信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息;根据多个关键词信息和多个词性信息进行计算,生成显著强度系数方差;若判断出显著强度系数方差位于闭合区间,将媒体信令消息对应的主叫号码设置为不良电话号码。本发明实施例中,通过对获取的媒体信令消息进行计算,生成显著强度系数方差,若判断出显著强度系数方差位于闭合区间,将媒体信令消息对应的主叫号码设置为不良电话号码,提高了识别不良电话号码的准确性。
134.本发明实施例提供的技术方案中,能够基于通话中媒体信令消息进行识别,对不良电话号码处置的时效性高,并适用于所有中高频、中低频不良电话号码的识别,对媒体内容信息进行特征计算并结合领域特征库进行算法匹配,对不良电话进行阻断,提高了对不良电话号码处置的时效性。
135.本发明实施例提供的技术方案中,多领域特征库内容组织设计方法能够实现精细化分类,能够广泛涵盖各类不同领域外呼不良电话的个性化通话内容特征,提高识别精度,从而降低误拦风险。
136.本发明实施例提供的技术方案无需消耗终端设备资源,并能够适用所有手机号码。
137.本发明实施例提供了一种不良电话号码识别装置。图7为本发明实施例提供的一种不良电话号码识别装置的结构示意图,如图7所示,该装置包括:第一生成模块31、第二生成模块32、判断模块33和第一设置模块34。
138.第一生成模块31用于对获取的媒体流信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息。
139.第二生成模块32用于根据多个关键词信息和多个词性信息进行计算,生成显著强度系数方差。
140.判断模块33用于判断显著强度系数方差是否位于闭合区间,闭合区间包括第一设
定阈值与第二设定阈值之间的数值范围。
141.第一设置模块34用于若判断模块33判断出显著强度系数方差位于闭合区间,将媒体信令消息对应的主叫号码设置为不良电话号码。
142.本发明实施例中,该装置还包括:接收模块35、提取模块36和第三生成模块37。
143.接收模块35用于接收蜜罐池中的分发单元发送的媒体信令消息,媒体信令消息是由终端设备发送至分发单元的。
144.提取模块36用于提取媒体信令消息中主叫方向的多个媒体内容信息。
145.第三生成模块37用于将多个媒体内容信息按照时间顺序排列,生成媒体流信息。
146.本发明实施例中,第一生成模块31包括:第一生成子模块311和第二生成子模块312。
147.第一生成子模块311用于通过语音识别技术对媒体流信息进行计算,生成媒体文本信息。
148.第二生成子模块312用于通过分词技术对媒体文本信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息。
149.本发明实施例中,第二生成模块32包括:第三生成子模块321、第四生成子模块322、第五生成子模块323、第六生成子模块324和第七生成子模块325。
150.第三生成子模块321用于通过文本排名算法对多个关键词信息进行计算,生成多个敏感词强度系数。
151.第四生成子模块322用于通过专家算法对多个词性信息进行计算,生成多个词性强度系数。
152.第五生成子模块323用于根据多个敏感词强度系数与多个词性强度系数,生成多个显著强度系数。
153.第六生成子模块324用于计算多个显著强度系数的平均值,生成平均显著强度系数。
154.第七生成子模块325用于根据多个显著强度系数和平均显著强度系数生成显著强度系数方差。
155.本发明实施例中,该装置还包括:第二设置模块38。
156.第二设置模块38用于若判断模块33判断出显著强度系数方差不位于闭合区间,将媒体信令消息对应的主叫号码设置为良好电话号码。
157.本发明实施例中,该装置还包括:发送模块39。
158.接收模块35还用于停止接收蜜罐池中的分发单元发送的媒体信令消息,媒体信令消息是由终端设备发送至分发单元的。
159.发送模块39用于向蜜罐池发送阻断指令,以供蜜罐池对媒体信令消息对应的终端设备进行阻断。
160.本发明实施例中,第五生成子模块323具体用于通过公式θ=α*β对多个敏感词强度系数和多个词性强度系数进行计算,生成多个显著强度系数,其中,θ为显著强度系数,α为词性强度系数,β为敏感词强度系数。
161.第七生成子模块325具体用于通过公式对多个显著强度系数和平均显著强度系数进行计算,生成显著强度系数方差,其中,θi为显著强度系数,为平均显著强度系数,n为显著强度系数的总数。
162.本发明实施例提供的一种不良电话号码识别方法的技术方案中,通过对生成的媒体流信息进行解析,生成多个关键词信息和每个关键词信息对应的词性信息;根据多个关键词信息和多个词性信息进行计算,生成显著强度系数方差;若判断出显著强度系数方差位于闭合区间,将媒体信令消息对应的主叫号码设置为不良电话号码。本发明实施例中,通过对获取的媒体信令消息进行计算,生成显著强度系数方差,若判断出显著强度系数方差位于闭合区间,将媒体信令消息对应的主叫号码设置为不良电话号码,提高了识别不良电话号码的准确性。
163.本实施例提供的不良电话号码识别装置可用于实现上述图2和图3中的不良电话号码识别方法,具体描述可参见上述不良电话号码识别方法的实施例,此处不再重复描述。
164.本发明实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述不良电话号码识别方法的实施例的各步骤,具体描述可参见上述不良电话号码识别方法的实施例。
165.本发明实施例提供了一种计算机设备,包括存储器和处理器,存储器用于存储包括程序指令的信息,处理器用于控制程序指令的执行,程序指令被处理器加载并执行时实现上述不良电话号码识别方法的实施例的各步骤,具体描述可参见上述不良电话号码识别方法的实施例。
166.图8为本发明实施例提供的一种计算机设备的示意图。如图8所示,该实施例的计算机设备40包括:处理器41、存储器42以及存储在存储42中并可在处理器41上运行的计算机程序43,该计算机程序43被处理器41执行时实现实施例中的应用于不良电话号码识别方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器41执行时实现实施例中应用于不良电话号码识别装置中各模型/单元的功能,为避免重复,此处不一一赘述。
167.计算机设备40包括,但不仅限于,处理器41、存储器42。本领域技术人员可以理解,图8仅仅是计算机设备40的示例,并不构成对计算机设备40的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如网络设备还可以包括输入输出设备、网络接入设备、总线等。
168.所称处理器41可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
169.存储器42可以是计算机设备40的内部存储单元,例如计算机设备40的硬盘或内存。存储器42也可以是计算机设备40的外部存储设备,例如计算机设备40上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡
(flash card)等。进一步地,存储器42还可以既包括计算机设备40的内部存储单元也包括外部存储设备。存储器42用于存储计算机程序以及网络设备所需的其他程序和数据。存储器42还可以用于暂时地存储已经输出或者将要输出的数据。
170.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
171.在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
172.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
173.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
174.上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
175.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1