一种文本信息的处理方法及装置的制造方法_2

文档序号：9200345阅读：来源：国知局

该词在该单个目标文本中的特征值，也可以为在包括多个目标文本的情况下，计算该词在所有目标文本中的特征值，进一步的，特征值包括不匹配的词在目标文本中出现的频率。若不匹配的词的特征值满足预设特征值，则将不匹配的词确定为新词。
[0038]进一步可选的，特征值还可以包括不匹配的词在目标文本中出现的概率等，具体不受本发明实施例的限制。
[0039]S102，将新词添加到预设分词列表中，得到测试分词列表。
[0040]作为一种可选的实施方式，将步骤SlOl中得到的新词添加到预设分词列表中，得到测试分词列表，其中，测试分词列表用于对测试文本进行分类。
[0041]S103，根据预设分词列表对测试文本进行分类，得到第一文本，根据测试分词列表对测试文本进行分类，得到第二文本。
[0042]作为一种可选的实施方式，根据预设分类算法对测试文本进行分类，得到第一文本，预设分类算法与预设分词列表关联；根据预设分类算法对测试文本进行分类，得到第二文本，预设分类算法与测试分词列表关联。在分类过程中，测试文本保持不变，由预设分类算法对应不同的分词列表对测试文本进行分类，预设分词列表对应第一文本，测试文本对应第二文本，其中，第一文本和第二文本为通过预设分类法对测试文本进行分类后得到的文本信息。
[0043]S104，比较第一文本的分类准确率和第二文本的分类准确率，根据比较结果从新词中确定目标新词。
[0044]作为一种可选的实施方式，可分别计算第一文本的分类准确率和第二文本的分类准确率，具体的，若为多个新词，对每个新词分别计算每个新词对应的第一文本的分类准确率和每个新词对应的第二文本的分类准确率；判断每个新词的第二文本的分类准确率与每个新词的第一文本的分类准确率之差是否满足预设差值，若是，将新词确定为目标新词。其中，若为多个新词，则可逐一将新词添加到预设分词列表中，每个新词对应一个测试分词列表，则每个新词对应得到的第二文本不同，每个新词对应的第二文本的准确率不同，而第一文本的分类准确率相同。预设差值为预设可编辑的准确率差值，为正数，即第二文本的分类准确率大于第一文本的分类准确率，预设差值例如0.1%?5%等。进一步的，可通过预设分类算法中的测试模型计算分类准确率。
[0045]S105，将目标新词添加到预设分词列表中，得到目标预设分词列表，根据目标预设分词列表对目标文本进行分类。
[0046]作为一种可选的实施方式，可将确定的目标新词添加到预设分词列表中，得到目标预设分词列表，根据目标预设分词列表校准预设分类算法，并根据校准的预设分类算法对目标文本进行分类。
[0047]本发明实施例提供一种文本信息的处理方法，可由预设固定分词策略对目标文本进行分词，比较分词结果和预设分词列表可得到新词，可比较新词添加前对应的第一文本的分类准确率和新词添加后对应的第二文本的分类准确率，从而根据比较结果可从新词中确定目标新词，进而将目标新词添加到预设分词列表中得到目标预设分词列表，可根据目标预设分词列表对目标文本进行分类，实现了识别新词，并将目标新词添加到分词列表进而对目标文本进行分类，提高了对文本信息分类的精准度。
[0048]下面将结合附图2?图5，对本发明实施例提供的文本信息的处理装置进行详细介绍。需要说明的是，附图2?图5任一所示的装置，用于执行本发明图1所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1所示的实施例。
[0049]请参见图2，为本发明实施例提供了一种文本信息的处理装置的结构示意图。如图2所示，本发明实施例的文本信息的处理装置可包括:新词处理模块201、添加模块202、测试文本分类模块203、目标新词确定模块204和目标文本分类模块205。
[0050]新词处理模块201，用于对目标文本由预设固定分词策略进行分词，并比较分词结果和预设分词列表得到新词。
[0051]作为一种可选的实施方式，新词处理模块201对目标文本由预设固定分词策略进行分词具体可以包括:
[0052]对目标文本从第I个字开始，每N个字进行截取，得到多个词串，每个词串的字数为N，N为大于I的正整数。
[0053]具体的，例如，对于目标文本I 抓狂，盗号的太垃圾了，由把我的号码盗走了，请允悲，还好有密保手机，帮我找回来了，感谢”，N可设为3，则从第一个字开始，每N个字进行截取，具体实现中，可以为对每个句子进行每N个字进行截取，对于句子中不足3个字的，则直接将其截取为一个词，则对于目标文本I的分词结果可以为:抓狂、盗号的、号的太、的太垃、太垃圾、垃圾了、由把我、把我的、我的号、的号码、号码盗、码盗走、盗走了、请允悲、还好有、好有密、有密保、密保手、保手机、帮我找、我找回、找回来、回来了、感谢”，进一步的，还可以将N设为2或4等，可对同一目标文本对应不同N值进行分词。
[0054]作为一种可选的实施方式，如图3所示，为本发明实施例提供的新词处理模块的结构示意图，如图所示，新词处理模块201可以包括第二判断单元2011、统计单元2012以及第二确定单元2013。其中:
[0055]第二判断单元2011，用于判断分词结果中的词是否与预设分词列表中的词匹配。
[0056]统计单元2012，用于当第二判断单元的判断结果为否时，统计不匹配的词的特征值，特征值包括不匹配的词在所述目标文本中出现的频率。
[0057]第二确定单元2013，用于在不匹配的词的特征值满足预设特征值时，则将不匹配的词确定为新词。
[0058]其中，预设分词列表与预设分类算法关联，预设分类算法可根据预设分词列表对文本信息进行分词以及对文本信息进行分类。本发明实施例中，可将分词结果中的词与预设分词列表中的词匹配，若预设分词列表中不存在与分词结果中的词匹配的词，则计算该词的特征值，具体的，可以计算该词在该单个目标文本中的特征值，也可以为在包括多个目标文本的情况下，计算该词在所有目标文本中的特征值，进一步的，特征值包括不匹配的词在目标文本中出现的频率。若不匹配的词的特征值满足预设特征值，则将不匹配的词确定为新词。
[0059]进一步可选的，特征值还可以包括不匹配的词在目标文本中出现的概率等，具体不受本发明实施例的限制。
[0060]添加模块202，用于将新词添加到预设分词列表中，得到测试分词列表。
[0061]作为一种可选的实施方式，添加模块202将新词处理模块201得到的新词添加到预设分词列表中，得到测试分词列表，其中，测试分词列表用于对测试文本进行分类。
[0062]测试文本分类模块203，用于根据预设分词列表对测试文本进行分类，得到第一文本，根据测试分词列表对测试文本进行分类，得到第二文本。
[0063]作为一种可选的实施方式，如图4所示，为本发明实施例提供的测试文本分类模块的结构示意图，如图所示，测试文本分类模块203可以包括:第一分类单元2031和第二分类单元2032。
[0064]第一分类单元2031，用于根据预设分类算法对测试文本进行分类，得到第一文本，预设分类算法与预设分词列表关联。
[0065]第二分类单元2032，用于根据预设分类算法对测试文本进行分类，得到第二文本，预设分类算法与测试分词列表关联。
[0066]具体的，在分类过程中，测试文本保持不变，由预设分类算法对应不同的分词列表对测试文本进行分类，预设分词列表对应第一文本，测试文本对应第二文本，其中，第一文本和第二文本为通过预设分类法对测试文本进行分类后得到的文本信息。
[0067]目标新词确定模块204，用于比较第一文本的分类准确率和第二文本的分类准确率，根据比较结果从新词中确定目标新词。
[0068]作为一种可选的实施方式，可分别计算第一文本的分类准确率和第二文本的分类准确率，具体的，若为多个新词，如图5所示，为本发明实施例提供的目标新词确定模块的结构示意图，如图所示，目标新词确定模块204可以包括:计算单元2041、第一判断单元2042和第一确定单元2043。其中:
[0069]计算单元2041，用于对每个新词分别计算每个新词对应的第一文本的分类准确率和每个新词对应的第二文本的分类准确率。
[0070]第一判断单元2042，用于判断每个新词的第二文本的分类准确率与每个新词的第一文本的分类准确率之差是否满足预设差值。
[0071]第一确定单元20

完整全部详细技术资料下载

当前第2页1 2 3