内容过滤器训练评估方法

文档序号:6564852阅读:182来源:国知局
专利名称:内容过滤器训练评估方法
技术领域
本发明涉及一种文本内容过滤器训练指导依据的产生方法,尤其是文本内容过滤器训练评估方法,属于计算机技术领域。
本发明的目的是这样实现的一种内容过滤器训练评估方法,对过滤器训练端的训练进行评价,以对训练效果进行自动指导。
训练评价包括特征词数量的评价。
特征词数量的评价为 其中xi为训练文本包含的特征词数,A为特征词表总词数,αI为对每个训练评估点的经验给定一个特征词数量阈值。
训练评价包括重复率的评价,具体为 其中xI为平均重复率,β为经验阈值。
训练评价包括主题集中度的评价,具体为 其中,xi为最高文档覆盖率,χ为经验阈值。
训练评价具体为Q=Q1*Q2*Q3或Q=Q1*Q2或Q=Q1*Q3或Q=Q2*Q3或Q=Q1或Q=Q2或Q=Q3最后,根据Q值确定训练效果等级。
过滤器训练完成的是对用户过滤请求的信息提取和表示工作,系统执行过滤操作的唯一依据就是训练的结果——以特征向量空间定义的文本内容表示,因此,训练结果的优劣,将对过滤产生最直接、最显著的影响,本发明的技术方案为解决该问题提供了客观、合理的技术手段,保障了训练端的效果。
参见

图1,本发明的训练效果评价包括三方面的内容特征词数量评价、特征词重复率的评价以及主题集中度评价。当训练量达到某个数量(如100k,200k等等)时(称这些点训练评估点),根据这些评价所表述的系数值,再得出训练效果评价的结果。
其中具体地,特征词数量评价系数的得到为因为特征词反映了语料的主要内容,所以如果训练文本中涉及的特征词数量越少,说明训练语料越集中,因此,设置一特征词数量评价系数。
训练文本包含的特征词数为xi,特征词表总词数为A。对每个训练评估点,根据经验给定一个特征词数量阈值αi。Q1计算公式 根据经验,各评估点的αi如下训练量100k 200k 300k 400kαi 2500 3400 4200 4800特征词重复率评价系数的得到为因为特征词反映了语料的主要内容,所以训练文本中特征词重复率越高,说明训练语料越集中,因此设置一特征词重复率评价系数。
设第i个训练评估点上,从第i批训练文本中提取出特征词,将其与前(i-1)批训练文本中提出的特征词集合进行比较,计算特征词的平均重复率。设平均重复率为xi,取经验阈值β,Q2计算公式 取β=0.4。
再有,主题集中度评价系数的得到为如果训练语料的主题比较集中,则必然大部分语料会谈到相同的话题。根据这种思想,设置一主题集中度评价系数。
设第i个训练评估点上,从第i批训练语料中提取出前n个高频特征词中最高的文档覆盖率xi,取经验阈值χ,Q3计算公式 取经验值为χ=0.8,n=50。
最后,训练效果评价公式Q=Q1*Q2*Q3或Q=Q1*Q2或Q=Q1*Q3或Q=Q1或Q=Q2或Q=Q3根据Q值确定训练效果等级。
Q0-0.2 0.2-0.4 0.4-0.6 0.6-0.8 0.8-1.0效果等级差、较差、一般、较好、好。
依据上述结果可以更好地对过滤器训练端的效果进行指导,提高训练效果。
具体实例的对比为针对几类集中程度好的训练文本,并从某一综合网站上随机抽取一些杂类文本作为实验对照,用以上方法验证其训练效果。其结果如下较好的训练文本训练量 100k 200k 300k 400kQ11 1 1 1Q21 1 1 1Q31 1 1 1Q 1 1 1 1内容杂糅的一批文本训练量100k 200k 300k 400kQ10.95 0.90.86 0.85Q21 0.80.70.75
Q30.85 0.67 0.65 0.35Q0.80 0.48 0.39 0.22很明显,杂糅的训练文本的训练效果相对于本发明的效果有相当的差距。
权利要求
1.一种内容过滤器训练评估方法,其特征在于对过滤器的训练进行评价,以对训练效果进行自动指导。
2.根据权利要求1所述的内容过滤器训练评估方法,其特征在于训练评价包括特征词数量的评价。
3.根据权利要求2所述的内容过滤器训练评估方法,其特征在于特征词数量的评价为 其中xi为训练文本包含的特征词数,A为特征词表总词数,αI为对每个训练评估点的经验给定一个特征词数量阈值。
4.根据权利要求1所述的内容过滤器训练评估方法,其特征在于训练评价包括重复率的评价。
5.根据权利要求4所述的内容过滤器训练评估方法,其特征在于重复率的评价为 其中xI为平均重复率,β为经验阈值。
6.根据权利要求1所述的内容过滤器训练评估方法,其特征在于训练评价包括主题集中度的评价。
7.根据权利要求6所述的内容过滤器训练评估方法,其特征在于主题集中度的评价为 其中,xi为最高文档覆盖率,χ为经验阈值。
8.根据权利要求1或3或5或7所述的内容过滤器训练评估方法,其特征在于训练评价为Q=Q1*Q2*Q3或Q=Q1*Q2或Q=Q1*Q3或Q=Q2*Q3或Q=Q1或Q=Q2或Q=Q3最后,根据Q值确定训练效果等级。
全文摘要
本发明涉及一种文本内容过滤器训练指导依据的产生方法,尤其是文本内容过滤器训练评估方法,过滤器训练完成的是对用户过滤请求的信息提取和表示工作,系统执行过滤操作的唯一依据就是训练的结果——以特征向量空间定义的文本内容表示,因此,训练结果的优劣,将对过滤产生最直接、最显著的影响,本发明的技术方案为解决该问题提供了客观、合理的技术手段,保障了训练端的效果。
文档编号G06F17/21GK1403956SQ0113117
公开日2003年3月19日 申请日期2001年9月5日 优先权日2001年9月5日
发明者肖航, 高建忠, 王江, 诸光, 王楠, 何燕 申请人:联想(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1