一种文本信息的处理方法及装置的制造方法_3

文档序号:9200345阅读:来源:国知局
43,用于当第一判断单元的判断结果为是时,将新词确定为目标新词。
[0072]具体的,若为多个新词,则可逐一将新词添加到预设分词列表中,每个新词对应一个测试分词列表,则每个新词对应得到的第二文本不同,每个新词对应的第二文本的准确率不同,而第一文本的分类准确率相同。预设差值为预设可编辑的准确率差值,为正数,即第二文本的分类准确率大于第一文本的分类准确率,预设差值例如0.1%?5%等。进一步的,可通过预设分类算法中的测试模型计算分类准确率。
[0073]目标文本分类模块205,用于将目标新词添加到预设分词列表中,得到目标预设分词列表,根据目标预设分词列表对目标文本进行分类。
[0074]作为一种可选的实施方式,可将确定的目标新词添加到预设分词列表中,得到目标预设分词列表,根据目标预设分词列表校准预设分类算法,并根据校准的预设分类算法对目标文本进行分类。
[0075]本发明实施例提供一种文本信息的处理装置,新词处理模块可根据预设固定分词策略对目标文本进行分词,比较分词结果和预设分词列表得到新词,目标新词确定模块可比较新词添加前对应的第一文本的分类准确率和新词添加后对应的第二文本的分类准确率,从而根据比较结果可从新词中确定目标新词,目标文本分类模块可将目标新词添加到预设分词列表中得到目标预设分词列表,可根据目标预设分词列表对目标文本进行分类,实现了识别新词,并将目标新词添加到分词列表进而对目标文本进行分类,提高了对文本信息分类的精准度。
[0076]本发明实施例还公开了一种终端,包括图2?图5任一所示的装置;该装置的结构和功能可参见图2?图5任一所示实施例的相关描述,在此不赘述。需要说明的是,本实施例的终端可应用于上述方法中。
[0077]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random AccessMemory, RAM)等。
[0078]以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
【主权项】
1.一种文本信息的处理方法,其特征在于,所述方法包括: 对目标文本由预设固定分词策略进行分词,并比较所述分词结果和预设分词列表得到新词; 将所述新词添加到所述预设分词列表中,得到测试分词列表; 根据所述预设分词列表对测试文本进行分类,得到第一文本,根据所述测试分词列表对所述测试文本进行分类,得到第二文本; 比较所述第一文本的分类准确率和所述第二文本的分类准确率,根据比较结果从所述新词中确定目标新词; 将所述目标新词添加到所述预设分词列表中,得到目标预设分词列表,根据所述目标预设分词列表对所述目标文本进行分类。2.如权利要求1所述的方法,其特征在于,所述比较所述第一文本的分类准确率和所述第二文本的分类准确率,根据比较结果从所述新词中确定目标新词包括: 对每个新词分别计算所述每个新词对应的第一文本的分类准确率和所述每个新词对应的第二文本的分类准确率; 判断所述每个新词的第二文本的分类准确率与所述每个新词的第一文本的分类准确率之差是否满足预设差值,若是,将所述新词确定为所述目标新词。3.如权利要求1所述的方法,其特征在于,所述对目标文本由预设固定分词策略进行分词,并比较所述分词结果和预设分词列表得到新词包括: 判断所述分词结果中的词是否与所述预设分词列表中的词匹配,若不匹配,统计所述不匹配的词的特征值,所述特征值包括所述不匹配的词在所述目标文本中出现的频率; 若所述不匹配的词的特征值满足预设特征值,则将所述不匹配的词确定为所述新词。4.如权利要求1所述的方法,其特征在于,所述对目标文本由预设固定分词策略进行分词包括: 对所述目标文本从第I个字开始,每N个字进行截取,得到多个词串,每个词串的字数为N,N为大于I的正整数。5.如权利要求1?4任一所述的方法,其特征在于,所述根据所述预设分词列表对测试文本进行分类,得到第一文本,根据所述测试分词列表对所述测试文本进行分类,得到第二文本包括: 根据预设分类算法对所述测试文本进行分类,得到所述第一文本,所述预设分类算法与所述预设分词列表关联; 根据所述预设分类算法对所述测试文本进行分类,得到所述第二文本,所述预设分类算法与所述测试分词列表关联; 所述根据所述目标预设分词列表对所述目标文本进行分类包括: 根据所述目标预设分词列表校准所述预设分类算法,并根据所述校准的预设分类算法对所述目标文本进行分类。6.一种文本信息的处理装置,其特征在于,所述装置包括: 新词处理模块,用于对目标文本由预设固定分词策略进行分词,并比较所述分词结果和所述预设分词列表得到新词; 添加模块,用于将所述新词添加到所述预设分词列表中,得到测试分词列表; 测试文本分类模块,用于根据所述预设分词列表对测试文本进行分类,得到第一文本,根据所述测试分词列表对测试文本进行分类,得到第二文本; 目标新词确定模块,用于比较所述第一文本的分类准确率和所述第二文本的分类准确率,根据比较结果从所述新词中确定目标新词; 目标文本分类模块,用于将所述目标新词添加到所述预设分词列表中,得到目标预设分词列表,根据所述目标预设分词列表对所述目标文本进行分类。7.如权利要求6所述的装置,其特征在于,所述目标新词确定模块包括: 计算单元,用于对每个新词分别计算所述每个新词对应的第一文本的分类准确率和所述每个新词对应的第二文本的分类准确率; 第一判断单元,用于判断所述每个新词的第二文本的分类准确率与所述每个新词的第一文本的分类准确率之差是否满足预设差值; 第一确定单元,用于当所述第一判断单元的判断结果为是时,将所述新词确定为所述目标新词。8.如权利要求6所述的装置,其特征在于,所述新词处理模块包括: 第二判断单元,用于判断所述分词结果中的词是否与所述预设分词列表中的词匹配;统计单元,用于当所述第二判断单元的判断结果为否时,统计所述不匹配的词的特征值,所述特征值包括所述不匹配的词在所述目标文本中出现的频率; 第二确定单元,用于在所述不匹配的词的特征值满足预设特征值时,则将所述不匹配的词确定为所述新词。9.如权利要求6所述的装置,其特征在于,所述新词处理模块对目标文本由预设固定分词策略进行分词具体包括: 对所述目标文本从第I个字开始,每N个字进行截取,得到多个词串,每个词串的字数为N,N为大于I的正整数。10.如权利要求6?9任一所述的装置,其特征在于,所述测试文本分类模块包括: 第一分类单元,用于根据预设分类算法对所述测试文本进行分类,得到所述第一文本,所述预设分类算法与所述预设分词列表关联; 第二分类单元,用于根据所述预设分类算法对所述测试文本进行分类,得到所述第二文本,所述预设分类算法与所述测试分词列表关联; 所述目标文本分类模块根据所述目标预设分词列表对所述目标文本进行分类包括:根据所述目标预设分词列表校准所述预设分类算法,并根据所述校准的预设分类算法对所述目标文本进行分类。11.一种终端,其特征在于,包括如权利要求6?10任一所述的装置。
【专利摘要】本发明实施例公开一种文本信息的处理及装置,其中方法可包括:对目标文本由预设固定分词策略进行分词,并比较分词结果和预设分词列表得到新词;将新词添加到预设分词列表中,得到测试分词列表;根据预设分词列表对测试文本进行分类,得到第一文本,根据测试分词列表对测试文本进行分类,得到第二文本;比较第一文本的分类准确率和第二文本的分类准确率,根据比较结果从新词中确定目标新词;将目标新词添加到预设分词列表中,得到目标预设分词列表,根据目标预设分词列表对目标文本进行分类。采用本发明实施例,可识别新词,并将目标新词添加到预设分词列表得到目标分词列表,根据目标分析列表对目标文本进行分类,提高了对文本信息分类的精准度。
【IPC分类】G06F17/30, G06F17/21
【公开号】CN104915327
【申请号】CN201410097479
【发明人】刘杰, 李映辉
【申请人】腾讯科技(深圳)有限公司
【公开日】2015年9月16日
【申请日】2014年3月14日
【公告号】WO2015135452A1
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1