内容过滤器训练评估方法

文档序号：6564852阅读：182来源：国知局

专利名称：内容过滤器训练评估方法
技术领域：
本发明涉及一种文本内容过滤器训练指导依据的产生方法，尤其是文本内容过滤器训练评估方法，属于计算机技术领域。
本发明的目的是这样实现的一种内容过滤器训练评估方法，对过滤器训练端的训练进行评价，以对训练效果进行自动指导。
训练评价包括特征词数量的评价。
特征词数量的评价为其中xi为训练文本包含的特征词数，A为特征词表总词数，αI为对每个训练评估点的经验给定一个特征词数量阈值。
训练评价包括重复率的评价，具体为其中xI为平均重复率，β为经验阈值。
训练评价包括主题集中度的评价，具体为其中，xi为最高文档覆盖率，χ为经验阈值。
训练评价具体为Q＝Q1*Q2*Q3或Q＝Q1*Q2或Q＝Q1*Q3或Q＝Q2*Q3或Q＝Q1或Q＝Q2或Q＝Q3最后，根据Q值确定训练效果等级。
过滤器训练完成的是对用户过滤请求的信息提取和表示工作，系统执行过滤操作的唯一依据就是训练的结果——以特征向量空间定义的文本内容表示，因此，训练结果的优劣，将对过滤产生最直接、最显著的影响，本发明的技术方案为解决该问题提供了客观、合理的技术手段，保障了训练端的效果。
参见

图1，本发明的训练效果评价包括三方面的内容特征词数量评价、特征词重复率的评价以及主题集中度评价。当训练量达到某个数量(如100k，200k等等)时(称这些点训练评估点)，根据这些评价所表述的系数值，再得出训练效果评价的结果。
其中具体地，特征词数量评价系数的得到为因为特征词反映了语料的主要内容，所以如果训练文本中涉及的特征词数量越少，说明训练语料越集中，因此，设置一特征词数量评价系数。
训练文本包含的特征词数为xi，特征词表总词数为A。对每个训练评估点，根据经验给定一个特征词数量阈值αi。Q1计算公式根据经验，各评估点的αi如下训练量100k 200k 300k 400kαi 2500 3400 4200 4800特征词重复率评价系数的得到为因为特征词反映了语料的主要内容，所以训练文本中特征词重复率越高，说明训练语料越集中，因此设置一特征词重复率评价系数。
设第i个训练评估点上，从第i批训练文本中提取出特征词，将其与前(i-1)批训练文本中提出的特征词集合进行比较，计算特征词的平均重复率。设平均重复率为xi，取经验阈值β，Q2计算公式取β＝0.4。
再有，主题集中度评价系数的得到为如果训练语料的主题比较集中，则必然大部分语料会谈到相同的话题。根据这种思想，设置一主题集中度评价系数。
设第i个训练评估点上，从第i批训练语料中提取出前n个高频特征词中最高的文档覆盖率xi，取经验阈值χ，Q3计算公式取经验值为χ＝0.8，n＝50。
最后，训练效果评价公式Q＝Q1*Q2*Q3或Q＝Q1*Q2或Q＝Q1*Q3或Q＝Q1或Q＝Q2或Q＝Q3根据Q值确定训练效果等级。
Q0-0.2 0.2-0.4 0.4-0.6 0.6-0.8 0.8-1.0效果等级差、较差、一般、较好、好。
依据上述结果可以更好地对过滤器训练端的效果进行指导，提高训练效果。
具体实例的对比为针对几类集中程度好的训练文本，并从某一综合网站上随机抽取一些杂类文本作为实验对照，用以上方法验证其训练效果。其结果如下较好的训练文本训练量 100k 200k 300k 400kQ11 1 1 1Q21 1 1 1Q31 1 1 1Q 1 1 1 1内容杂糅的一批文本训练量100k 200k 300k 400kQ10.95 0.90.86 0.85Q21 0.80.70.75
Q30.85 0.67 0.65 0.35Q0.80 0.48 0.39 0.22很明显，杂糅的训练文本的训练效果相对于本发明的效果有相当的差距。
权利要求
1.一种内容过滤器训练评估方法，其特征在于对过滤器的训练进行评价，以对训练效果进行自动指导。
2.根据权利要求1所述的内容过滤器训练评估方法，其特征在于训练评价包括特征词数量的评价。
3.根据权利要求2所述的内容过滤器训练评估方法，其特征在于特征词数量的评价为其中xi为训练文本包含的特征词数，A为特征词表总词数，αI为对每个训练评估点的经验给定一个特征词数量阈值。
4.根据权利要求1所述的内容过滤器训练评估方法，其特征在于训练评价包括重复率的评价。
5.根据权利要求4所述的内容过滤器训练评估方法，其特征在于重复率的评价为其中xI为平均重复率，β为经验阈值。
6.根据权利要求1所述的内容过滤器训练评估方法，其特征在于训练评价包括主题集中度的评价。
7.根据权利要求6所述的内容过滤器训练评估方法，其特征在于主题集中度的评价为其中，xi为最高文档覆盖率，χ为经验阈值。
8.根据权利要求1或3或5或7所述的内容过滤器训练评估方法，其特征在于训练评价为Q＝Q1*Q2*Q3或Q＝Q1*Q2或Q＝Q1*Q3或Q＝Q2*Q3或Q＝Q1或Q＝Q2或Q＝Q3最后，根据Q值确定训练效果等级。
全文摘要
本发明涉及一种文本内容过滤器训练指导依据的产生方法，尤其是文本内容过滤器训练评估方法，过滤器训练完成的是对用户过滤请求的信息提取和表示工作，系统执行过滤操作的唯一依据就是训练的结果——以特征向量空间定义的文本内容表示，因此，训练结果的优劣，将对过滤产生最直接、最显著的影响，本发明的技术方案为解决该问题提供了客观、合理的技术手段，保障了训练端的效果。
文档编号G06F17/21GK1403956SQ0113117
公开日2003年3月19日申请日期2001年9月5日优先权日2001年9月5日
发明者肖航, 高建忠, 王江, 诸光, 王楠, 何燕申请人:联想(北京)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖航;高建忠;王江;诸光;王楠;何燕
技术所有人：联想(北京)有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。