文本信息检测方法及装置的制造方法_6

文档序号:8943029阅读:来源:国知局
概率,判断所述文本信息中是否存在包括错别字的分词,包括: 在存在小于预设的第一概率阈值的条件概率时,确定所述小于预设的第一概率阈值的 条件概率所对应的两个相邻的分词中的一者包括错别字。4. 根据权利要求1所述的方法,其特征在于,所述分词序列包括至少三个分词; 所述根据所述相邻两个分词之间的条件概率,判断所述文本信息中是否存在包括错别 字的分词,包括: 在第二分词与第一分词之间的条件概率小于预设的第二概率阈值时,判断第三分词与 所述第二分词之间的条件概率是否小于所述第二概率阈值; 在所述第三分词与所述第二分词之间的条件概率小于所述第二概率阈值时,确定所述 第二分词包括错别字,其中,所述第一分词、所述第二分词和所述第三分词为所述分词序列 中任意相邻的三个分词,并且所述第一分词位于所述第二分词之前,所述第三分词位于所 述第二分词之后。5. 根据权利要求4所述的方法,其特征在于,所述根据所述相邻两个分词之间的条件 概率,判断所述文本信息中是否存在包括错别字的分词,还包括: 在所述第三分词与所述第二分词之间的条件概率大于或等于所述第二概率阈值时,确 定所述第一分词包括错别字。6. 根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括: 在确定所述文本信息中存在包括错别字的分词时,从相似字库中获取与第四分词匹配 的相似分词集合,其中,所述第四分词为所述文本信息中任一包括错别字的分词,并且,所 述相似分词集合包括至少一个与所述第四分词相似的分词; 确定所述相似分词集合包括的至少一个分词与所述分词序列中和所述第四分词相邻 的分词之间的条件概率; 在所述至少一个分词中存在与和所述第四分词相邻的分词之间的条件概率大于或等 于预设的第三概率阈值的目标分词时,输出所述目标分词。7. 根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括: 在确定所述文本信息中存在包括错别字的分词时,从相似字库中获取与第四分词匹配 的相似分词集合,其中,所述第四分词为所述文本信息中任一包括错别字的分词,并且,所 述相似分词集合包括至少一个与所述第四分词相似的分词; 确定所述相似分词集合包括的至少一个分词与所述分词序列中和所述第四分词相邻 的分词之间的条件概率; 将所述至少一个分词中与和所述第四分词相邻的分词之间的条件概率之积最大的分 词确定为目标分词; 输出所述目标分词。8. 根据权利要求1所述的方法,其特征在于,所述方法还包括:构建相似字库,包括: 从原始字库中获取目标文字,该目标文字为所述原始字库中的任一文字; 根据序列相似性匹配算法,判断所述目标文字与所述原始字库中的第一文字集合中的 各文字之间是否相似; 确定与所述目标文字对应的相似文字集合,其中,所述相似文字集合包括所述第一文 字集合中,与所述目标文字相似的文字;以及 利用所述目标文字和所述相似文字集合,建立所述相似字库。9. 根据权利要求8所述的方法,其特征在于,所述根据序列相似性匹配算法,判断所述 目标文字与所述原始字库中的第一文字集合中的各文字之间是否相似,包括: 分别计算所述目标文字的拼音序列与所述第一文字集合中各文字的拼音序列之间的 第一编辑距离; 分别确定所述目标文字的拼音序列与所述第一文字集合中各文字的拼音序列之间的 第一最大编辑距离; 在所述目标文字的拼音序列与所述第一文字集合中各文字的拼音序列之间的第一编 辑距离与第一最大编辑距离之比在第一预设范围内时,确定与第一最大编辑距离之比在第 一预设范围内的第一编辑距离对应的文字与所述目标文字相似。10. 根据权利要求8或9所述的方法,其特征在于,所述根据序列相似性匹配算法,判断 所述目标文字与所述原始字库中的第一文字集合中的各文字之间是否相似,包括: 分别计算所述目标文字的笔顺序列与所述第一文字集合中各文字的笔顺序列之间的 第二编辑距尚; 分别确定所述目标文字的笔顺序列与所述第一文字集合中各文字的笔顺序列之间的 第二最大编辑距尚; 在所述目标文字的笔顺序列与所述第一文字集合中各文字的笔顺序列之间的第二编 辑距离与第二最大编辑距离之比在第二预设范围内时,确定与第二最大编辑距离之比在第 二预设范围内的第二编辑距离对应的文字与所述目标文字相似。11. 一种文本信息检测装置,其特征在于,所述装置包括: 第一获取模块,用于获取文本信息; 分词处理模块,用于对所述文本信息进行分词处理,得到所述文本信息的分词序列,其 中,所述分词序列包括多个分词; 第一条件概率确定模块,用于确定相邻两个分词之间的条件概率; 第一判断模块,用于根据所述相邻两个分词之间的条件概率,判断所述文本信息中是 否存在包括错别字的分词。12. 根据权利要求11所述的装置,其特征在于,所述装置还包括: 第一输出模块,用于在确定所述文本信息中存在包括错别字的分词的时,输出提醒信 息,所述提醒信息用于指示所述包括错别字的分词。13. 根据权利要求11所述的装置,其特征在于,所述第一判断模块包括: 第一确定子模块,用于在存在小于预设的第一概率阈值的条件概率时,确定所述小于 预设的第一概率阈值的条件概率所对应的两个相邻的分词中的一者包括错别字。14. 根据权利要求11所述的装置,其特征在于,所述分词序列包括至少三个分词;以 及,所述第一判断模块包括: 第一判断子模块,用于在第二分词与第一分词之间的条件概率小于预设的第二概率阈 值时,判断第三分词与所述第二分词之间的条件概率是否小于所述第二概率阈值; 第二确定子模块,用于在所述第三分词与所述第二分词之间的条件概率小于所述第 二概率阈值时,确定所述第二分词包括错别字,其中,所述第一分词、所述第二分词和所述 第三分词为所述分词序列中任意相邻的三个分词,并且所述第一分词位于所述第二分词之 前,所述第三分词位于所述第二分词之后。15. 根据权利要求14所述的装置,其特征在于,所述第一判断模块还包括: 第三确定子模块,用于在所述第三分词与所述第二分词之间的条件概率大于或等于所 述第二概率阈值时,确定所述第一分词包括错别字。16. 根据权利要求11-15中任一项所述的装置,其特征在于,所述装置还包括: 第二获取模块,用于在确定所述文本信息中存在包括错别字的分词时,从相似字库中 获取与第四分词匹配的相似分词集合,其中,所述第四分词为所述文本信息中任一包括错 别字的分词,并且,所述相似分词集合包括至少一个与所述第四分词相似的分词; 第二条件概率确定模块,用于确定所述相似分词集合包括的至少一个分词与所述分词 序列中和所述第四分词相邻的分词之间的条件概率; 第二输出模块,用于在所述至少一个分词中存在与和所述第四分词相邻的分词之间的 条件概率大于或等于预设的第三概率阈值的目标分词时,输出所述目标分词。17. 根据权利要求11-15中任一项所述的装置,其特征在于,所述装置还包括: 第三获取模块,用于在确定所述文本信息中存在包括错别字的分词时,从相似字库中 获取与第四分词匹配的相似分词集合,其中,所述第四分词为所述文本信息中任一包括错 别字的分词,并且,所述相似分词集合包括至少一个与所述第四分词相似的分词; 第三条件概率确定模块,用于确定所述相似分词集合包括的至少一个分词与所述分词 序列中和所述第四分词相邻的分词之间的条件概率; 目标分词确定模块,用于将所述至少一个分词中与和所述第四分词相邻的分词之间的 条件概率之积最大的分词确定为目标分词; 第三输出模块,用于输出所述目标分词。18. 根据权利要求11所述的装置,其特征在于,所述装置还包括:相似字库构建模块, 用于构建相似字库,所述相似字库构建模块包括: 获取子模块,用于从原始字库中获取目标文字,该目标文字为所述原始字库中的任一 文字; 第二判断子模块,用于根据序列相似性匹配算法,判断所述目标文字与所述原始字库 中的第一文字集合中的各文字之间是否相似; 相似文字集合确定子模块,用于确定与所述目标文字对应的相似文字集合,其中,所述 相似文字集合包括所述第一文字集合中,与所述目标文字相似的文字;以及 相似字库建立子模块,用于利用所述目标文字和所述相似文字集合,建立所述相似字 库。19. 根据权利要求18所述的装置,其特征在于,所述第二判断子模块包括: 第一编辑距离计算单元,用于分别计算所述目标文字的拼音序列与所述第一文字集合 中各文字的拼音序列之间的第一编辑距离; 第一最大编辑距离确定单元,用于分别确定所述目标文字的拼音序列与所述第一文字 集合中各文字的拼音序列之间的第一最大编辑距离; 第一相似确定单元,用于在所述目标文字的拼音序列与所述第一文字集合中各文字的 拼音序列之间的第一编辑距离与第一最大编辑距离之比在第一预设范围内时,确定与第一 最大编辑距离之比在第一预设范围内的第一编辑距离对应的文字与所述目标文字相似。20. 根据权利要求18或19所述的装置,其特征在于,所述第二判断子模块包括: 第二编辑距离计算单元,用于分别计算所述目标文字的笔顺序列与所述第一文字集合 中各文字的笔顺序列之间的第二编辑距离; 第二最大编辑距离确定单元,用于分别确定所述目标文字的笔顺序列与所述第一文字 集合中各文字的笔顺序列之间的第二最大编辑距离; 第二相似确定单元,用于在所述目标文字的笔顺序列与所述第一文字集合中各文字的 笔顺序列之间的第二编辑距离与第二最大编辑距离之比在第二预设范围内时,确定与第二 最大编辑距离之比在第二预设范围内的第二编辑距离对应的文字与所述目标文字相似。21. -种文本信息检测装置,其特征在于,所述装置包括: 处理器; 用于存储处理器可执行指令的存储器; 其中,所述处理器被配置为: 获取文本信息; 对所述文本信息进行分词处理,得到所述文本信息的分词序列,其中,所述分词序列包 括多个分词; 确定相邻两个分词之间的条件概率; 根据所述相邻两个分词之间的条件概率,判断所述文本信息中是否存在包括错别字的 分词。
【专利摘要】本公开是关于一种文本信息检测方法及装置。所述方法包括:获取文本信息;对所述文本信息进行分词处理,得到所述文本信息的分词序列,其中,所述分词序列包括多个分词;确定相邻两个分词之间的条件概率;根据所述相邻两个分词之间的条件概率,判断所述文本信息中是否存在包括错别字的分词。由此,可以实现对文本信息进行错别字检测的效果,当用户输入的文本信息中含有错别字时,能够准确检测出该文本信息中是否包括错别字,操作快捷且智能化。
【IPC分类】G06F17/24
【公开号】CN105159871
【申请号】CN201510518343
【发明人】汪平仄, 陈志军, 龙飞
【申请人】小米科技有限责任公司
【公开日】2015年12月16日
【申请日】2015年8月21日
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1