一种问题分类方法及系统的制作方法_2

文档序号:9327010阅读:来源:国知局
文本及每个第一训练文本的问题类型通过标签传播算法确定 每个第二训练文本的问题类型。
[0047] 其中,标签传播算法是一种基于图的半监督学习方法,其基本思路是用已标记节 点的标签信息去预测未标记节点的标签信息。在本申请实施例中,节点即为训练文本,标签 信息即为问题类型。
[0048] S13 :确定第一训练文本和第二训练文本为训练文本,将训练文本进行分词处理, 得到分别与每个训练文本对应的训练词组。
[0049] 其中,本发明实施例中进行的分词处理均可以是基于中文分词完成的,中文分词 指的是将一个汉字序列切分成一个一个单独的词,即将连续的字序列按照一定的规范重新 组合成词序列的过程。如将汉字序列"秦羊奶粉怎么认真假",分词成:'秦'、'羊'、'奶粉'、 '怎么'、'认'、'真假'。
[0050] S14:利用与每个训练文本对应的训练词组及每个训练文本的问题类型训练最大 熵分类器。
[0051] S15:利用最大熵分类器对待测词组进行分类,得到与待测词组对应的待测文本的 问题类型。
[0052] 本申请中利用已提供其问题类型的第一训练文本去获取未提供其问题类型的第 二训练文本的问题类型,然后利用第一训练文本和第二训练文本训练最大熵分类器,由此, 不需对大量训练文本的问题类型进行确定,而是利用少量已确定问题类型的训练文本去获 取其他训练文本的问题类型,无需耗费大量人力,且实验证明,本发明实施例提供的一种问 题分类方法对待测词组进行分类得到的结果准确率较高。
[0053] 其中,最大熵分类器是基于最大熵信息理论构建的,其基本思想是为所有已知的 因素建立模型,而把所有未知的因素排除在外。也就是说,要找到一种概率分布,满足所有 已知的事实,但是让未知的因素最随机化。相对于朴素贝叶斯方法,该方法最大的特点就是 不需要满足特征与特征之间的条件独立。因此,该方法适合融合各种不一样的特征,而无需 考虑它们之间的影响。
[0054] 在最大熵信息理论对应的最大熵模型下,假设p (y IX)代表样本X属于类别y的概 率,最大熵模型要求P (y IX)满足一定约束条件,同时必须使依据以下公式计算得到的熵取 得最大值:
[0056] 这里H(p)代表条件熵H(y |X),H(y |X)是一种度量条件概率p (y |X)均匀性的方 法,强调对概率分布P的依赖。上述约束条件是指所有已知事实,可用以下方式表述:
[0057]
[0058] 其中,f(X,y)为最大熵模型的特征。可以看到:这些特征描述了向量X与类别y 的联系,最终概率输出为:
[0062] 称为归一化因子;λ ;为特征的权重。
[0063] 需要说明的是,上述实施例提供的一种问题分类方法中,利用与每个训练文本对 应的训练词组及每个训练文本的问题类型训练最大熵分类器,可以包括:
[0064] 按照 TF-IDF (term frequency - inverse document frequency,信息检索数据挖 掘的常用加权技术)向量法将训练词组转换成与每个训练文本对应的测试特征向量;
[0065] 利用每个训练文本的测试特征向量及每个训练文本的问题类型训练最大熵分类 器。
[0066] 其中,每个训练文本对应一个训练词组。TF-IDF是一种统计方法,用以评估一字或 词对于一个文件集或一个语料库中的其中一份文件的重要程度。而TF-IDF向量法则可以 将每个训练词组均可以转换成一维特征向量,其中,每个词语对应的一维特征向量中的分 量为该词语在全部训练词组中出现的频度。
[0067] 将利用每个训练文本的测试特征向量及每个训练文本的问题类型训练最大熵分 类器,能够综合考虑训练词组中每个词语在全部训练词组中的出现的频度,即为其相对于 全部训练词组的重要程度,实验证明,由此训练出的最大熵分类器在对待测词组的进行问 题分类时得到的结果准确率较高。
[0068] 需要说明的是,上述实施例提供的一种问题分类方法中,获取第一预设量的第一 训练文本和第二预设量的第二训练文本,第一训练文本已提供其问题类型,第二训练文本 未提供其问题类型,可以包括:
[0069] 获取第一预设量的第一训练文本和第二预设量的第二训练文本,第一训练文本已 提供其问题类型,第二训练文本未提供其问题类型;问题类型包括电脑类和非电脑类,或者 情感类和非情感类,或者运动类和非运动类,或者生活类和非生活类,或者文化类和非文化 类,或者健康类和非健康类。
[0070] 其中,针对一个主题,问题类型可以分为两类,即为该主题和非该主题,如上述的 电脑类和非电脑类、情感类和非情感类等。具体对于问题的分类可以根据实际需要进行确 定。
[0071] 需要说明的是,上述实施例提供的一种问题分类方法中,获取第一预设量的第一 训练文本和第二预设量的第二训练文本,可以包括:
[0072] 获取第一预设量的第一训练文本和第二预设量的第二训练文本,第二预设量大于 第一预设量。
[0073] 将第二预设量设置成小于第一预设量,由此,利用第一训练文本获取第二训练文 本的问题类型,即为由少量的训练文本获取更多其他训练文本的问题类型,节省了确定每 个训练文本的问题类型的人力和时间,且,基于这种半监督方法,即通过一部分已知问题类 型的训练文本获取其他未知问题类型的训练文本的问题类型的方法以通过全部训练文本 构建最大熵分类器,相对于全监督方法,即利用全部已知问题类型的训练文本构建最大熵 分类器,得到的待测词组的测试结果的准确率更高。
[0074] 需要说明的是,上述实施例提供的一种问题分类方法中,获取第一预设量的第一 训练文本和第二预设量的第二训练文本,可以包括:
[0075] 在特定的问答平台中,通过网络爬虫程序获取第一预设量的第一训练文本和第二 预设量的第二训练文本。
[0076] 其中,特定的问答平台可根据实际需要进行确定。
[0077] 网络爬虫程序是一个沿着链接漫游Web (互联网)文档集合的稈序。它一般驻留 在服务器上,通过给定的一些URL (Uniform Resource Locator,统一资源定位符),利用 HTTP (HyperText Transfer Protocol,超文本传输协议)等标准协议读取相应文档,然后以 文档中包括的所有未访问过的URL作为新的起点,继续进行漫游,直到没有满足条件的新 URL为止。
[0078] 通过上述方法,可以根据用户需要实时获取相关文本,操作简单,效率高。
[0079] 需要说明的是,上述实施例提供的一种问题分类方法中,利用最大熵分类器对待 测词组进行分类,得到与待测词组对应的待测文本的问题类型,可以包括以下步骤:
[0080] S21 :获取待测样本,并将待测样本进行分词处理,得到待测词组;上述待测样本 未提供其问题类型。
[0081] 分词处理的具体说明请参考上文中的相关内容。另外,获取待测样本也可以是在 特定的问答平台中,通过网络爬虫程序获取。
[0082] S22 :按照TF-IDF向量法将待测词组转换成待测特征向量。
[0083] 按照TF-IDF向量法转换向量的具体说明请参考上文中的相关内容。
[0084] S23 :将待测特征向量作为最大熵分类器的输入,得到与待测特征向量对应的测试 结果。
[0085] S24 :根据测试结果确定待测文本的问题类型。
[0086] 具体的,根据测试结果确定待测文本的问题类型,可以包括:
[0087] 确定待测文本对应每个问题类型的概率;
[0088] 确定概率中最大的概率对应的问题类型为待测文本的问题类型。
[0089] 由此,将待测特征向量作为最大熵分类器的输入,能够输出与之对应的与待测特 征向量对应的测试结果,且,确定
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1