骚扰电话号码确定方法、装置和系统的制作方法

文档序号:9380543阅读:505来源:国知局
骚扰电话号码确定方法、装置和系统的制作方法
【技术领域】
[0001] 本公开涉及安全技术领域,特别涉及一种骚扰电话号码确定方法、装置和系统。
【背景技术】
[0002] 骚扰电话号码通常可以包括推销保险的电话号码、房产中介的电话号码和进行诈 骗的电话号码,这些骚扰电话号码长期干扰着人们的正常生活。
[0003] 相关技术中有一种骚扰电话号码确定方法,该方法首先由大量用户通过终端来确 认接听到的号码是否为骚扰电话号码,并将确认的骚扰电话号码上传至服务器,服务器将 大量用户确认的骚扰电话号码进行汇总生成骚扰电话号码表。
[0004] 公开内容
[0005] 为了解决相关技术问题,本公开实施例提供了一种骚扰电话号码确定方法、装置 和系统。所述技术方案如下:
[0006] 第一方面,提供一种骚扰电话号码确定方法,该方法包括:
[0007] 从至少一个终端获取目标通话记录得到通话记录集合,通话记录集合中包含有预 定个数的目标通话记录,每个目标通话记录中包含有陌生号码和至少一个关键词,至少一 个关键词是终端根据与陌生号码通话的通话内容文本数据得到的,用于表征通话内容文本 数据的通话主题,陌生号码为陌生号码对应的终端的通讯录中未存储的号码;
[0008] 获取通话记录集合中N个可疑号码,N个可疑号码为预定个数的目标通话记录中 包含的陌生号码按出现次数降序排列,排名前N位的陌生号码;
[0009] 检测每个可疑号码所在的目标通话记录包含的关键词中是否存在预设词典记录 的骚扰特征词;
[0010] 若任一可疑号码所在的目标通话记录包含的关键词中存在预设词典记录的骚扰 特征词,将所在的目标通话记录中存在骚扰特征词的可疑号码确定为骚扰电话号码。
[0011] 本公开的第一方面,能够方便快捷的确定出通话记录集合包含的大量电话号码中 的骚扰电话号码,提高了骚扰电话号码的获取效率。
[0012] 结合第一方面,在第一种可实现方式中,将所在的目标通话记录中存在骚扰特征 词的可疑号码确定为骚扰电话号码,包括:
[0013] 获取包含第一可疑电话号码的目标通话记录组成的目标通话记录集合,第一可疑 电话号码为任一所在的目标通话记录中存在骚扰特征词的可疑号码;
[0014] 根据预设的骚扰特征词与骚扰类型的对应关系,确定第一通话记录包含的骚扰特 征词的骚扰类型,骚扰类型表征第一可疑电话号码的骚扰目的,第一通话记录为目标通话 记录集合中的任一通话记录;
[0015] 将第一通话记录包含的骚扰特征词的骚扰类型确定为第一通话记录的骚扰类 型;
[0016] 统计目标通话记录集合中每种骚扰类型对应的通话记录的数量;
[0017] 根据每种骚扰类型对应的通话记录的数量与目标通话记录集合中通话记录的总 数的比值,确定每种骚扰类型在目标通话记录集合中的比例;
[0018] 若目标通话记录集合中存在比例大于比例阈值的骚扰类型,则确定第一可疑电话 号码为骚扰电话号码。
[0019] 本公开第一方面的第一种可实现方式,提高了确定的骚扰电话号码的准确性。
[0020] 结合第一种可实现方式,在第二种可实现方式中,该方法还包括:
[0021] 将目标通话记录集合中比例最大的骚扰类型作为骚扰电话号码的骚扰类型。
[0022] 本公开第一方面的第二种可实现方式,确定了骚扰电话号码的骚扰类型。
[0023] 结合第一方面,或第一种可实现方式,或第二种可实现方式,在第三种可实现方式 中,每个目标通话记录中包含有两个电话号码,两个电话号码中包含有陌生号码,获取通话 记录集合中N个可疑号码,包括:
[0024] 对通话记录集合进行去重复处理,去重复处理用于丢弃至少两个同类通话记录中 除包含关键词最多的目标通话记录之外的通话记录,同类通话记录为包含相同的两个电话 号码的目标通话记录;
[0025] 获取处理后的通话记录集合中N个可疑号码。
[0026] 本公开第一方面的第三种可实现方式,增加了最终确定的骚扰电话号码的准确 性。
[0027] 第二方面,提供一种骚扰电话号码确定方法,该方法包括:
[0028] 获取与陌生号码通话的通话语音数据和通话记录,通话记录中包含有陌生号码, 陌生号码为通讯录中未存储的号码;
[0029] 将通话语音数据转化为通话内容文本数据;
[0030] 获取通话内容文本数据的至少一个关键词,至少一个关键词为表征通话内容文本 数据的通话主题的词;
[0031] 根据至少一个关键词和通话记录生成目标通话记录,目标通话记录中包含有陌生 号码和至少一个关键词;
[0032] 将目标通话记录提供给服务器,服务器用于根据目标通话记录中的陌生号码和至 少一个关键词确定陌生号码是否为骚扰电话号码。
[0033] 本公开的第二方面,使服务器能够方便快捷的确定出通话记录集合包含的大量电 话号码中的骚扰电话号码,提高了骚扰电话号码的获取效率。
[0034] 结合第二方面,在第一种可实现方式中,获取通话内容文本数据的至少一个关键 词,包括:
[0035] 对内容文本数据进行分词处理得到包含有至少一个词的分词结果;
[0036] 获取分词结果中每个词的关键词因子,关键词因子正相关于每个词的主题相关 度,每个词的主题相关度用于指示每个词与通话内容文本数据的通话主题相关的程度; [0037] 按照关键词因子的大小将分词结果中的词降序排列;
[0038] 将排名前M位的词作为内容文本数据的关键词。
[0039] 本公开第二方面的第一种可实现方式,提高了获取的关键词与主题的相关程度。
[0040] 结合第一种可实现方式,在第二种可实现方式中,获取分词结果中每个词的关键 词因子,包括:
[0041] 根据预设类型词典获取分词结果中每个词的类型,类型用于表征每个词的特征;
[0042] 根据预设的类型与权值的对应关系,按照分词结果中每个词的类型为每个词分配 权值;
[0043] 获取分词结果中每个词的词频;
[0044] 将每个词的权值与词频的乘积作为每个词的关键词因子。
[0045] 本公开第二种可实现方式,获取了可信度较高的关键词因子,提高了关键因子的 可靠性。
[0046] 结合第二种可实现方式,在第三种可实现方式中,获取分词结果中每个词的关键 词因子,包括:
[0047] 去除分词结果中类型为语气词、人称代词和修饰词的词得到处理后的分词结果;
[0048] 获取处理后的分词结果中每个词的关键词因子。
[0049] 本公开第二方面第三种可实现方式,减少了终端的计算量,提高了关键词因子的 可信度。
[0050] 第三方面,提供一种骚扰电话号码确定装置,该装置包括:
[0051] 集合获取模块,被配置为从至少一个终端获取目标通话记录得到通话记录集合, 通话记录集合中包含有预定个数的目标通话记录,每个目标通话记录中包含有陌生号码 和至少一个关键词,至少一个关键词是终端根据与陌生号码通话的通话内容文本数据得到 的,用于表征通话内容文本数据的通话主题,陌生号码为陌生号码对应的终端的通讯录中 未存储的号码;
[0052] 号码获取模块,被配置为获取通话记录集合中N个可疑号码,N个可疑号码为预定 个数的目标通话记录中包含的陌生号码按出现次数降序排列,排名前N位的陌生号码;
[0053] 检测模块,被配置为检测每个可疑号码所在的目标通话记录包含的关键词中是否 存在预设词典记录的骚扰特征词;
[0054] 确定模块,被配置为在任一可疑号码所在的目标通话记录包含的关键词中存在预 设词典记录的骚扰特征词时,将所在的目标通话记录中存在骚扰特征词的可疑号码确定为 骚扰电话号码。
[0055] 结合第三方面,在第一种可实现方式中,确定模块,包括:
[0056] 集合获取子模块,被配置为获取包含第一可疑电话号码的目标通话记录组成的目 标通话记录集合,第一可疑电话号码为任一所在的目标通话记录中存在骚扰特征词的可疑 号码;
[0057] 特征词确定子模块,被配置为根据预设的骚扰特征词与骚扰类型的对应关系,确 定第一通话记录包含的骚扰特征词的骚扰类型,骚扰类型表征第一可疑电话号码的骚扰目 的,第一通话记录为目标通话记录集合中的任一通话记录;
[0058] 记录确定子模块,被配置为将第一通话记录包含的骚扰特征词的骚扰类型确定为 第一通话记录的骚扰类型;
[0059] 统计子模块,被配置为统计目标通话记录集合中每种骚扰类型对应的通话记录的 数量;
[0060] 比例确定子模块,被配置为根据每种骚扰类型对应的通话记录的数量与目标通话 记录集合中通话记录的总数的比值,确定每种骚扰类型在目标通话记录集合中的比例;
[0061] 号码确定子模块,被配置为在目标通话记录集合中存在比例大于比例阈值的骚扰 类型时,确定所述第一可疑电话号码为骚扰电话号码。
[0062] 结合第一种可实现方式,在第二种可实现方式中,该装置还包括:
[0063] 类型确定模块,被配置为将目标通话记录集合中比例最大的骚扰类型作为骚扰电 话号码的骚扰类型。
[0064] 结合第三方面,或第一种可实现方式,或第二种可实现方式,在第三种可实现方式 中,每个目标通话记录中包含有两个电话号码,两个电话号码中包含有陌生号码,
[0065] 号码获取模块,被配置为对通话记录集合进行去重复处理,去重复处理用于丢弃 至少两个同类通话记录中除包含关键词最多的目标通话记录之外的通话记录,同类通话记 录为包含相同的两个电话号码的目标通话记录;获取处理后的通话记录集合中N个可疑号 码。
[0066] 第四方面,提供一种骚扰电话号码确定装置,该装置包括:
[0067] 终端获取模块,被配置为获取与陌生号码通话的通话语音数据和通话记录,通话 记录中包含有陌生号码,陌生号码为通讯录中未存储的号码;
[0068] 转化模块,被配置为将通话语音数据转化为通话内容文本数据;
[0069] 关键词获取模块,被配置为获取通话内容文本数据的至少一个关键词,至少一个 关键词为表征通话内容文本数据的通话主题的词;
[0070] 目标生成模块,被配置为根据至少一个关键词和通话记录生成目标通话记录,目 标通话记录中包含有陌生号码和至少一个关键词;
[0071] 记录提供模块,被配置为将目标通话记录提供给服务器,服务器用于根据目标通 话记录中的陌生号码和至少一个关键词确定陌生号码是否为骚扰电话号码。
[0072] 结合第四方面,在第一种可实现方式中,关键词获取模块,包括:
[0073] 分词子模块,被配置为对内容文本数据进行分词处理得到包含有至少一个词的分 词结果;
[0074] 因子获取子模块,被配置为获取分词结果中每个词的关键词因子,关键词因子正 相关于每个词的主题相关度,每个词的主题相关度用于指示每个词与通话内容文本数据的 通话主题相关的程度;
[0075] 因子排序子模块,被配置为按照关键词因子的大小将分词结果中的词降序排列;
[0076] 关键词确定子模块,被配置为将排名前M位的词作为内容文本数据的关键词。
[0077] 结合第一种可实现方式,在第二种可实现方式中,因子获取子模块,被配置为根据 预设类型词典获取分词结果中每个词的类型,类型用于表征每个词的特征;根据预设的类 型与权值的对应关系,按照分词结果中每个词的类型为每个词分配权值;获取分词结果中 每个词的词频;将每个词的权值与词频的乘积作为每个词的关键词因子。
[0078] 结合第二种可实现方式,在第三种可实现方式中,因子获取子模块,被配置为去除 分词结果中类型为语气词、人称代词和修饰词的词得到处理后的分词结果;获取处理后的 分词结果中每个词的关键词因子。
[0079] 第五方面,提供一种骚扰电话号码确定装置,该装置包括:
[0080] 处理器;
[0081] 用于存储处理器的可执行指令的存储器;
[0082] 其中,处理器被配置为:
[0083] 从至少一个终端获取目标通话记录得到通话记录集合,通话记录集合中包含有预 定个数的目标通话记录,每个目标通话记录中包含有陌生号码和至少一个关键词,至少一 个关键词是终端根据与陌生号码通话的通话内容文本数据得到的,用于表征通话内容文本 数据的通话主题,陌生号码为陌生号码对应的终端的通讯录中未存储的号码;
[0084] 获取通话记录集合中N个可疑号码,N个可疑号码为预定个数的目标通话记录中 包含的陌生号码按出现次数降序排列,排名前N位的陌生号码;
[0085] 检测每个可疑号码所在的目标通话记录
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1