骚扰电话号码确定方法、装置和系统的制作方法_6

文档序号:9380543阅读:来源:国知局
、用途或者适应性变化,这些变型、用途或 者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识 或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的 权利要求指出。
[0336] 应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并 且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
【主权项】
1. 一种骚扰电话号码确定方法,其特征在于,所述方法包括: 从至少一个终端获取目标通话记录得到通话记录集合,所述通话记录集合中包含有预 定个数的目标通话记录,每个所述目标通话记录中包含有陌生号码和至少一个关键词,所 述至少一个关键词是所述终端根据与陌生号码通话的通话内容文本数据得到的,用于表征 所述通话内容文本数据的通话主题,所述陌生号码为所述陌生号码对应的终端的通讯录中 未存储的号码; 获取所述通话记录集合中N个可疑号码,所述N个可疑号码为所述预定个数的目标通 话记录中包含的陌生号码按出现次数降序排列,排名前N位的陌生号码; 检测每个所述可疑号码所在的目标通话记录包含的关键词中是否存在预设词典记录 的骚扰特征词; 若任一可疑号码所在的目标通话记录包含的关键词中存在预设词典记录的骚扰特征 词,将所在的目标通话记录中存在骚扰特征词的可疑号码确定为骚扰电话号码。2. 根据权利要求1所述的方法,其特征在于,所述将所在的目标通话记录中存在骚扰 特征词的可疑号码确定为骚扰电话号码,包括: 获取包含第一可疑电话号码的目标通话记录组成的目标通话记录集合,所述第一可疑 电话号码为任一所在的目标通话记录中存在骚扰特征词的可疑号码; 根据预设的骚扰特征词与骚扰类型的对应关系,确定第一通话记录包含的骚扰特征词 的骚扰类型,所述骚扰类型表征所述第一可疑电话号码的骚扰目的,所述第一通话记录为 所述目标通话记录集合中的任一通话记录; 将所述第一通话记录包含的骚扰特征词的骚扰类型确定为所述第一通话记录的骚扰 类型; 统计所述目标通话记录集合中每种骚扰类型对应的通话记录的数量; 根据所述每种骚扰类型对应的通话记录的数量与所述目标通话记录集合中通话记录 的总数的比值,确定每种骚扰类型在所述目标通话记录集合中的比例; 若所述目标通话记录集合中存在比例大于比例阈值的骚扰类型,则确定所述第一可疑 电话号码为骚扰电话号码。3. 根据权利要求2所述的方法,其特征在于,所述方法还包括: 将所述目标通话记录集合中比例最大的骚扰类型作为所述骚扰电话号码的骚扰类型。4. 根据权利要求1至3任一所述的方法,其特征在于,每个所述目标通话记录中包含有 两个电话号码,所述两个电话号码中包含有陌生号码,所述获取所述通话记录集合中N个 可疑号码,包括: 对所述通话记录集合进行去重复处理,所述去重复处理用于丢弃至少两个同类通话记 录中除包含关键词最多的目标通话记录之外的通话记录,所述同类通话记录为包含相同的 两个电话号码的目标通话记录; 获取处理后的通话记录集合中N个可疑号码。5. -种骚扰电话号码确定方法,其特征在于,所述方法包括: 获取与陌生号码通话的通话语音数据和通话记录,所述通话记录中包含有所述陌生号 码,所述陌生号码为通讯录中未存储的号码; 将所述通话语音数据转化为通话内容文本数据; 获取所述通话内容文本数据的至少一个关键词,所述至少一个关键词为表征所述通话 内容文本数据的通话主题的词; 根据所述至少一个关键词和所述通话记录生成目标通话记录,所述目标通话记录中包 含有所述陌生号码和所述至少一个关键词; 将所述目标通话记录提供给服务器,所述服务器用于根据所述目标通话记录中的所述 陌生号码和所述至少一个关键词确定所述陌生号码是否为骚扰电话号码。6. 根据权利要求5所述的方法,其特征在于,所述获取所述通话内容文本数据的至少 一个关键词,包括: 对所述内容文本数据进行分词处理得到包含有至少一个词的分词结果; 获取所述分词结果中每个词的关键词因子,所述关键词因子正相关于所述每个词的主 题相关度,所述每个词的主题相关度用于指示所述每个词与所述通话内容文本数据的通话 主题相关的程度; 按照所述关键词因子的大小将所述分词结果中的词降序排列; 将排名前M位的词作为所述内容文本数据的关键词。7. 根据权利要求6所述的方法,其特征在于,所述获取所述分词结果中每个词的关键 词因子,包括: 根据预设类型词典获取所述分词结果中每个词的类型,所述类型用于表征所述每个词 的特征; 根据预设的类型与权值的对应关系,按照所述分词结果中每个词的类型为所述每个词 分配权值; 获取所述分词结果中每个词的词频; 将所述每个词的权值与词频的乘积作为所述每个词的关键词因子。8. 根据权利要求7所述的方法,其特征在于,所述获取所述分词结果中每个词的关键 词因子,包括: 去除所述分词结果中类型为语气词、人称代词和修饰词的词得到处理后的分词结果; 获取所述处理后的分词结果中每个词的关键词因子。9. 一种骚扰电话号码确定装置,其特征在于,所述装置包括: 集合获取模块,被配置为从至少一个终端获取目标通话记录得到通话记录集合,所述 通话记录集合中包含有预定个数的目标通话记录,每个所述目标通话记录中包含有陌生号 码和至少一个关键词,所述至少一个关键词是所述终端根据与陌生号码通话的通话内容文 本数据得到的,用于表征所述通话内容文本数据的通话主题,所述陌生号码为所述陌生号 码对应的终端的通讯录中未存储的号码; 号码获取模块,被配置为获取所述通话记录集合中N个可疑号码,所述N个可疑号码为 所述预定个数的目标通话记录中包含的陌生号码按出现次数降序排列,排名前N位的陌生 号码; 检测模块,被配置为检测每个所述可疑号码所在的目标通话记录包含的关键词中是否 存在预设词典记录的骚扰特征词; 确定模块,被配置为在任一可疑号码所在的目标通话记录包含的关键词中存在预设词 典记录的骚扰特征词时,将所在的目标通话记录中存在骚扰特征词的可疑号码确定为骚扰 电话号码。10. 根据权利要求9所述的装置,其特征在于,所述确定模块,包括: 集合获取子模块,被配置为获取包含所述第一可疑电话号码的目标通话记录组成的目 标通话记录集合,所述第一可疑电话号码为任一所在的目标通话记录中存在骚扰特征词的 可疑号码; 特征词确定子模块,被配置为根据预设的骚扰特征词与骚扰类型的对应关系,确定第 一通话记录包含的骚扰特征词的骚扰类型,所述骚扰类型表征所述第一可疑电话号码的骚 扰目的,所述第一通话记录为所述目标通话记录集合中的任一通话记录; 记录确定子模块,被配置为将所述第一通话记录包含的骚扰特征词的骚扰类型确定为 所述第一通话记录的骚扰类型; 统计子模块,被配置为统计所述目标通话记录集合中每种骚扰类型对应的通话记录的 数量; 比例确定子模块,被配置为根据所述每种骚扰类型对应的通话记录的数量与所述目标 通话记录集合中通话记录的总数的比值,确定每种骚扰类型在所述目标通话记录集合中的 比例; 号码确定子模块,被配置为在所述目标通话记录集合中存在比例大于比例阈值的骚扰 类型时,确定所述第一可疑电话号码为骚扰电话号码。11. 根据权利要求10所述的装置,其特征在于,所述装置还包括: 类型确定模块,被配置为将所述目标通话记录集合中比例最大的骚扰类型作为所述骚 扰电话号码的骚扰类型。12. 根据权利要求9至11任一所述的装置,其特征在于,每个所述目标通话记录中包含 有两个电话号码,所述两个电话号码中包含有陌生号码, 所述号码获取模块,被配置为对所述通话记录集合进行去重复处理,所述去重复处理 用于丢弃至少两个同类通话记录中除包含关键词最多的目标通话记录之外的通话记录,所 述同类通话记录为包含相同的两个电话号码的目标通话记录;获取处理后的通话记录集合 中N个可疑号码。13. -种骚扰电话号码确定装置,其特征在于,所述装置包括: 终端获取模块,被配置为获取与陌生号码通话的通话语音数据和通话记录,所述通话 记录中包含有所述陌生号码,所述陌生号码为通讯录中未存储的号码; 转化模块,被配置为将所述通话语音数据转化为通话内容文本数据; 关键词获取模块,被配置为获取所述通话内容文本数据的至少一个关键词,所述至少 一个关键词为表征所述通话内容文本数据的通话主题的词; 目标生成模块,被配置为根据所述至少一个关键词和所述通话记录生成目标通话记 录,所述目标通话记录中包含有所述陌生号码和所述至少一个关键词; 记录提供模块,被配置为将所述目标通话记录提供给服务器,所述服务器用于根据所 述目标通话记录中的所述陌生号码和所述至少一个关键词确定所述陌生号码是否为骚扰 电话号码。14. 根据权利要求13所述的装置,其特征在于,所述关键词获取模块,包括: 分词子模块,被配置为对所述内容文本数据进行分词处理得到包含有至少一个词的分 词结果; 因子获取子模块,被配置为获取所述分词结果中每个词的关键词因子,所述关键词因 子正相关于所述每个词的主题相关度,所述每个词的主题相关度用于指示所述每个词与所 述通话内容文本数据的通话主题相关的程度; 因子排序子模块,被配置为按照所述关键词因子的大小将所述分词结果中的词降序排 列; 关键词确定子模块,被配置为将排名前M位的词作为所述内容文本数据的关键词。15. 根据权利要求14所述的装置,其特征在于,所述因子获取子模块,被配置为根据预 设类型词典获取所述分词结果中每个词的类型,所述类型用于表征所述每个词的特征;根 据预设的类型与权值的对应关系,按照所述分词结果中每个词的类型为所述每个词分配权 值;获取所述分词结果中每个词的词频;将所述每个词的权值与词频的乘积作为所述每个 词的关键词因子。16. 根据权利要求15所述的装置,其特征在于, 所述因子获取子模块,被配置为去除所述分词结果中类型为语气词、人称代词和修饰 词的词得到处理后的分词结果;获取所述处理后的分词结果中每个词的关键词因子。17. -种骚扰电话号码确定装置,其特征在于,所述装置包括: 处理器; 用于存储所述处理器的可执行指令的存储器; 其中,所述处理器被配置为: 从至少一个终端获取目标通话记录得到通话记录集合,所述通话记录集合中包含有预 定个数的目标通话记录,每个所述目标通话记录中包含有陌生号码和至少一个关键词,所 述至少一个关键词是所述终端根据与陌生号码通话的通话内容文本数据得到的,用于表征 所述通话内容文本数据的通话主题,所述陌生号码为所述陌生号码对应的终端的通讯录中 未存储的号码; 获取所述通话记录集合中N个可疑号码,所述N个可疑号码为所述预定个数的目标通 话记录中包含的陌生号码按出现次数降序排列,排名前N位的陌生号码; 检测每个所述可疑号码所在的目标通话记录包含的关键词中是否存在预设词典记录 的骚扰特征词; 若任一可疑号码所在的目标通话记录包含的关键词中存在预设词典记录的骚扰特征 词,将所在的目标通话记录中存在骚扰特征词的可疑号码确定为骚扰电话号码。18. -种骚扰电话号码确定装置,其特征在于,所述装置包括: 处理器; 用于存储所述处理器的可执行指令的存储器; 其中,所述处理器被配置为: 获取与陌生号码通话的通话语音数据和通话记录,所述通话记录中包含有所述陌生号 码,所述陌生号码为通讯录中未存储的号码; 将所述通话语音数据转化为通话内容文本数据; 获取所述通话内容文本数据的至少一个关键词,所述至少一个关键词为表征所述通话 内容文本数据的通话主题的词; 根据所述至少一个关键词和所述通话记录生成目标通话记录,所述目标通话记录中包 含有所述陌生号码和所述至少一个关键词; 将所述目标通话记录提供给服务器,所述服务器用于根据所述目标通话记录中的所述 陌生号码和所述至少一个关键词确定所述陌生号码是否为骚扰电话号码。19. 一种骚扰电话号码确定系统,其特征在于,所述系统包括:服务器和终端, 所述服务器包括权利要求9至12任一所述的骚扰电话号码确定装置; 所述终端包括权利要求13至16任一所述的骚扰电话号码确定装置。20. -种骚扰电话号码确定系统,其特征在于,所述系统包括:服务器和终端, 所述服务器包括权利要求17所述的骚扰电话号码确定装置; 所述终端包括权利要求18所述的骚扰电话号码确定装置。
【专利摘要】本公开是关于一种骚扰电话号码确定方法、装置和系统,属于安全技术领域。所述方法包括:从终端获取目标通话记录得到通话记录集合,通话记录集合中包含有预定个数的目标通话记录;获取通话记录集合中N个可疑号码;检测每个可疑号码所在的目标通话记录包含的关键词中是否存在预设词典记录的骚扰特征词;将所在的目标通话记录中存在骚扰特征词的可疑号码确定为骚扰电话号码。本公开通过将所在目标通话记录包含的关键词中存在骚扰特征词的可疑号码确定为骚扰电话号码,可以解决获取骚扰电话号码的效率较低的问题;达到了提高骚扰电话号码的获取效率的效果。
【IPC分类】H04M1/663
【公开号】CN105100366
【申请号】CN201510408711
【发明人】秦秋平, 陈志军, 龙飞
【申请人】小米科技有限责任公司
【公开日】2015年11月25日
【申请日】2015年7月13日
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1