文本信息检测方法及装置的制造方法

文档序号:8943029阅读:412来源:国知局
文本信息检测方法及装置的制造方法
【技术领域】
[0001] 本公开涉及计算机领域,尤其涉及文本信息检测方法及装置。
【背景技术】
[0002] 人们可以通过用户终端进行文字编辑操作,以实现信息录入、消息发送等目的。然 而,在用户编辑的文本信息中,有时会出现错别字。如果将含有错别字的文本信息进行录入 或发送,可能会造成其他用户对该用户原本的意图的误解、信息纪录错误等问题。

【发明内容】

[0003] 为克服相关技术中存在的问题,本公开提供一种文本信息检测方法及装置。
[0004] 根据本公开实施例的第一方面,提供一种文本信息检测方法,所述方法包括:获取 文本信息;对所述文本信息进行分词处理,得到所述文本信息的分词序列,其中,所述分词 序列包括多个分词;确定相邻两个分词之间的条件概率;根据所述相邻两个分词之间的条 件概率,判断所述文本信息中是否存在包括错别字的分词。
[0005] 在一些可能的实施方式中,所述方法还包括:在确定所述文本信息中存在包括错 别字的分词时,输出提醒信息,所述提醒信息用于指示所述包括错别字的分词。
[0006] 在一些可能的实施方式中,所述根据所述相邻两个分词之间的条件概率,判断所 述文本信息中是否存在包括错别字的分词,包括:在存在小于预设的第一概率阈值的条件 概率时,确定所述小于预设的第一概率阈值的条件概率所对应的两个相邻的分词中的一者 包括错别字。
[0007] 在一些可能的实施方式中,所述分词序列包括至少三个分词;所述根据所述相邻 两个分词之间的条件概率,判断所述文本信息中是否存在包括错别字的分词,包括:在第二 分词与第一分词之间的条件概率小于预设的第二概率阈值时,判断第三分词与所述第二分 词之间的条件概率是否小于所述第二概率阈值;在所述第三分词与所述第二分词之间的条 件概率小于所述第二概率阈值时,确定所述第二分词包括错别字,其中,所述第一分词、所 述第二分词和所述第三分词为所述分词序列中任意相邻的三个分词,并且所述第一分词位 于所述第二分词之前,所述第三分词位于所述第二分词之后。
[0008] 在一些可能的实施方式中,所述根据所述相邻两个分词之间的条件概率,判断所 述文本信息中是否存在包括错别字的分词,还包括:在所述第三分词与所述第二分词之间 的条件概率大于或等于所述第二概率阈值时,确定所述第一分词包括错别字。
[0009] 在一些可能的实施方式中,所述方法还包括:在确定所述文本信息中存在包括错 别字的分词时,从相似字库中获取与第四分词匹配的相似分词集合,其中,所述第四分词为 所述文本信息中任一包括错别字的分词,并且,所述相似分词集合包括至少一个与所述第 四分词相似的分词;确定所述相似分词集合包括的至少一个分词与所述分词序列中和所述 第四分词相邻的分词之间的条件概率;在所述至少一个分词中存在与和所述第四分词相 邻的分词之间的条件概率大于或等于预设的第三概率阈值的目标分词时,输出所述目标分 ο
[0010] 在一些可能的实施方式中,所述方法还包括:在确定所述文本信息中存在包括错 别字的分词时,从相似字库中获取与第四分词匹配的相似分词集合,其中,所述第四分词为 所述文本信息中任一包括错别字的分词,并且,所述相似分词集合包括至少一个与所述第 四分词相似的分词;确定所述相似分词集合包括的至少一个分词与所述分词序列中和所述 第四分词相邻的分词之间的条件概率;将所述至少一个分词中与和所述第四分词相邻的分 词之间的条件概率之积最大的分词确定为目标分词;输出所述目标分词。
[0011] 在一些可能的实施方式中,所述方法还包括:构建相似字库,包括:从原始字库中 获取目标文字,该目标文字为所述原始字库中的任一文字;根据序列相似性匹配算法,判断 所述目标文字与所述原始字库中的第一文字集合中的各文字之间是否相似;确定与所述目 标文字对应的相似文字集合,其中,所述相似文字集合包括所述第一文字集合中,与所述目 标文字相似的文字;以及利用所述目标文字和所述相似文字集合,建立所述相似字库。
[0012] 在一些可能的实施方式中,所述根据序列相似性匹配算法,判断所述目标文字与 所述原始字库中的第一文字集合中的各文字之间是否相似,包括:分别计算所述目标文字 的拼音序列与所述第一文字集合中各文字的拼音序列之间的第一编辑距离;分别确定所述 目标文字的拼音序列与所述第一文字集合中各文字的拼音序列之间的第一最大编辑距离; 在所述目标文字的拼音序列与所述第一文字集合中各文字的拼音序列之间的第一编辑距 离与第一最大编辑距离之比在第一预设范围内时,确定与第一最大编辑距离之比在第一预 设范围内的第一编辑距离对应的文字与所述目标文字相似。
[0013] 在一些可能的实施方式中,所述根据序列相似性匹配算法,判断所述目标文字与 所述原始字库中的第一文字集合中的各文字之间是否相似,包括:分别计算所述目标文字 的笔顺序列与所述第一文字集合中各文字的笔顺序列之间的第二编辑距离;分别确定所述 目标文字的笔顺序列与所述第一文字集合中各文字的笔顺序列之间的第二最大编辑距离; 在所述目标文字的笔顺序列与所述第一文字集合中各文字的笔顺序列之间的第二编辑距 离与第二最大编辑距离之比在第二预设范围内时,确定与第二最大编辑距离之比在第二预 设范围内的第二编辑距离对应的文字与所述目标文字相似。
[0014] 根据本公开实施例的第二方面,提供一种文本信息检测装置,所述装置包括:第一 获取模块,用于获取文本信息;分词处理模块,用于对所述文本信息进行分词处理,得到所 述文本信息的分词序列,其中,所述分词序列包括多个分词;第一条件概率确定模块,用于 确定相邻两个分词之间的条件概率;第一判断模块,用于根据所述相邻两个分词之间的条 件概率,判断所述文本信息中是否存在包括错别字的分词。
[0015] 在一些可能的实施方式中,所述装置还包括:第一输出模块,用于在确定所述文本 信息中存在包括错别字的分词时,输出提醒信息,所述提醒信息用于指示所述包括错别字 的分词。
[0016] 在一些可能的实施方式中,所述第一判断模块包括:第一确定子模块,用于在存在 小于预设的第一概率阈值的条件概率时,确定所述小于预设的第一概率阈值的条件概率所 对应的两个相邻的分词中的一者包括错别字。
[0017] 在一些可能的实施方式中,所述分词序列包括至少三个分词;以及,所述第一判断 模块包括:第一判断子模块,用于在第二分词与第一分词之间的条件概率小于预设的第二 概率阈值时,判断第三分词与所述第二分词之间的条件概率是否小于所述第二概率阈值; 第二确定子模块,用于在所述第三分词与所述第二分词之间的条件概率小于所述第二概率 阈值时,确定所述第二分词包括错别字,其中,所述第一分词、所述第二分词和所述第三分 词为所述分词序列中任意相邻的三个分词,并且所述第一分词位于所述第二分词之前,所 述第三分词位于所述第二分词之后。
[0018] 在一些可能的实施方式中,所述第一判断模块还包括:第三确定子模块,用于在所 述第三分词与所述第二分词之间的条件概率大于或等于所述第二概率阈值时,确定所述第 一分词包括错别字。
[0019] 在一些可能的实施方式中,所述装置还包括:第二获取模块,用于在确定所述文本 信息中存在包括错别字的分词时,从相似字库中获取与第四分词匹配的相似分词集合,其 中,所述第四分词为所述文本信息中任一包括错别字的分词,并且,所述相似分词集合包括 至少一个与所述第四分词相似的分词;第二条件概率确定模块,用于确定所述相似分词集 合包括的至少一个分词与所述分词序列中和所述第四分词相邻的分词之间的条件概率;第 二输出模块,用于在所述至少一个分词中存在与和所述第四分词相邻的分词之间的条件概 率大于或等于预设的第三概率阈值的目标分词时,输出所述目标分词。
[0020] 在一些可能的实施方式中,所述装置还包括:第三获取模块,用于在确定所述文本 信息中存在包括错别字的分词时,从相似字库中获取与第四分词匹配的相似分词集合,其 中,所述第四分词为所述文本信息中任一包括错别字的分词,并且,所述相似分词集合包括 至少一个与所述第四分词相似的分词;第三条件概率确定模块,用于确定所述相似分词集 合包括的至少一个分词与所述分词序列中和所述第四分词相邻的分词之间的条件概率;目 标分词确定模块,用于将所述至少一个分词中与和所述第四分词相邻的分词之间的条件概 率之积最大的分词确定为目标分词;第三输出模块,用于输出所述目标分词。
[0021] 在一些可能的实施方式中,所述装置还包括:相似字库构建模块,用于构建相似字 库,所述相似字库构建模块包括:获取子模块,用于从原始字库中获取目标文字,该目标文 字为所述原始字库中的任一文字;第二判断子模块,用于根据序列相似性匹配算法,判断所 述目标文字与所述原始字库中的第一文字集合中的各文字之间是否相似;相似文字集合确 定子模块,用于确定与所述目标文字对应的相似文字集合,其中,所述相似文字集合包括所 述第一文字集合中,与所述目标文字相似的文字;以及相似字库建立子模块,用于利用所述 目标文字和所述相似文字集合,建立所述相似字库。
[0022] 在一些可能的实施方式中,所述第二判断子模块包括:第一编辑距离计算单元,用 于分别计算所述目标文字的拼音序列与所述第一文字集合中各文字的拼音序列之间的第 一编辑距离;第一最大编辑距离确定单元,用于分别确定所述目标文字的拼音序列与所述 第一文字集合中各文字的拼音序列之间的第一最大编辑距离;第一相似确定单元,用于在 所述目标文字的拼音序列与所述第一文字集合中各文字的拼音序列之间的第一编辑距离 与第一最大编辑距离之比在第一预设范围内时,确定与第一最大编辑距离之比在第一预设 范围内的第一编辑距离对应的文字与所述目标文字相似。
[0023] 在一些可能的实施方式中,所述第二判断子模块包括:第二编辑距离计算单元,用 于分别计算所述目标文字的笔顺序列与所述第一文字集合中各文字的笔顺序列之间的第 二编辑距离;第二最大编辑距离确定单元,用于分别确定所述目标文字的笔顺序列与所述 第一文字集合中各文字的笔顺序列之间的第二最大编辑距离;第二相似确定单元,用于在 所述目标文字的笔顺序列与所述第一文字集合中各文字的笔顺序列之间的第二编辑距离 与第二最大编辑距离之比在第二预设范围内时,确定与第二最大编辑距离之比在第二预设 范围内的第二编辑距离对应的文字与所述目标文字相似。
[0024] 根据本公开实施例的第三方面,提供一种文本信息检测装置,所述装置包括:处理 器;用于存储处理器
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1