采用特征扩展分类文本及构造文本分类器的方法和装置的制作方法

文档序号:6598146阅读:171来源:国知局
专利名称:采用特征扩展分类文本及构造文本分类器的方法和装置的制作方法
技术领域
本发明涉及计算机信息处理系统,尤其涉及通过对训练集的文本信息对象进行特
征扩展处理,构造文本分类器的方法和装置。
背景技术
短文本分类就是对长度短的文本(通常文本长度小于160字符),例如即时通讯系统QQ, MSN中的文本,手机短消息中的文本,利用计算机进行自动分类,以确定其是否属于某一类别。 短文本分类技术是基于短文本应用领域必须解决的具有挑战性的关键技术,具有重要的应用前景。例如短文本分类是解决手机短信息过滤这一现实任务的基础。手机短信息在最近几年进入了爆发式的快速增长时期,已经成为互联网技术与移动通信相结合的一种重要的信息传播渠道。短信息在给用户带来极大便利的同时,也成为信息安全的重大隐患。通过手机短信这一新兴的信息工具,各种色情暴力、政治谣言、反动言论、诈骗信息和非法广告的传播,已经成为影响社会稳定的重要因素之一。因此必须对短信息中的有害信息进行及时拦截和过滤。手机短信息过滤问题是一个典型的两类短文本分类任务。
短文本具有一种固有属性短文本所描述概念的信号弱,这是由短文本的长度短引起的,它使短文本分类具有极大的挑战性。由于短文本分具有的上述特点,当将现行主流文本分类技术(即那些对长文本分类性能好的分类技术,如中国专利,"用于分类文本以及构造文本分类器的方法和装置",专利申请号99808930. 3,)用于短文本时,分类器的性能变坏。这表明现有文本分类技术不适用于短文本分类。由于短文本具有长度短、所描述概念信号弱的固有缺陷,短文本分类的可行途径是利用外部资源中的额外信息来辅助分类。

发明内容
本发明针对现有技术构造的文本分类器,适用于长文本,而对短文本进行分类时,分类器的性能变坏的缺陷 本发明解决上述技术问题的技术方案是,利用训练语料集和人工构造的资源(例如知网等)挖掘出具有特定关系的特征组合等有用信息,构成特征扩展模式,用于对短文本进行扩展,弥补其概念信号弱的固有缺陷,通过对训练集的文本信息对象进行特征扩展处理来构造分类器,和先对文本信息对象进行特征扩展处理,进而将其分类成属于某个种类还是不属于某个种类。 依据本发明的一个方面,提供一种通过对训练集的文本信息对象进行特征扩展处理来构造分类器的方法,所述分类器确定一个文本信息对象是否属于一个种类,该方法包括以下步骤 a)特征抽取处理模块从待分类的文本信息对象中抽取特征,生成一个包含多个特征的特征序列集; b)特征精简模块根据标准确定阈值,对特征序列集进行特征选择处理,生成特征集的子集一精简特征集; c)特征扩展模式抽取处理模块对特征序列集和精简特征集进行处理,抽取特征扩
展模式,构成特征扩展模式集,所述特征扩展模式包括左部和右部两部分,左部由特征序列
集中的一个或者多个特征构成,右部由精简特征集中的一个精简特征构成; d)特征扩展处理模块对精简特征集和特征扩展模式集进行特征扩展处理,生成仅
由精简特征构成的精简特征序列,精简特征序列中的元素为单个精简特征或者多个精简特
征构成; e)生成处理模块对精简特征序列中的每个精简特征调整权重,生成精简特征向 量,构成简特征向量集; f)分类器构造处理模块根据精简特征向量集构造文本分类器。 本发明提供一种抽取特征扩展模式的方法,该方法包括如下子步骤 (a)从该训练集的多个文本信息对象抽取候选特征扩展模式,构成候选特征扩展
模式集,所述候选特征扩展模式包括左部和右部两部分,左部由特征集中的一个或者多个
特征构成,右部仅由特征集中的一个特征构成; (b)利用精简特征集过滤候选特征扩展模式集,生成特征扩展模式集。 本发明提供一种特征扩展模式过滤方法利用从特征扩展模式左部和右部在训练
集中的类别分布定义的类别趋同性标准,来过滤特征扩展模式集。 本发明利用关联规则挖掘算法来抽取候选特征扩展模式,具体包括,从特征序列 中抽取满足支持度要求的X阶频繁项,构造2至N阶特征频繁项集;模式处理模块对每个特 征频繁项进行处理构成候选特征扩展模式集;抽取处理模块将候选特征扩展模式集元素中 右部不为精简特征的候选特征扩展模式过滤掉,生成特征扩展模式集,其中,N为特征扩展 模式左部最多所能包含的特征数目。 本发明还利用知识词典抽取特征扩展模式,具体包括,抽取处理模块计算特征序 列中两词语的位置之差,抽取词语对间位置之差小于词语对之间的距离阈值e的词语对, 生成词语对集合;扫描模块扫描词语对集合,如果构成词语对的两个词语中,有且仅有一个 词语为精简特征,则以该精简特征词语为右部,非精简特征词语为左部,生成候选特征扩展 模式,构成候选特征扩展模式集;根据知识词典将候选特征扩展模式集中左部词语和右部 词语之间不存在上下位关系的候选特征扩展模式从候选特征扩展模式集中过滤掉,生成特 征扩展模式集。 通过上述方法对文本信息对象进行特征扩展处理,进而通过本发明构造的分类器 将其分类成属于某个种类还是不属于某个种类,具体包括 从该文本信息对象中抽取特征,生成一个仅由多个特征构成的特征序列;
利用特征扩展模式集,对文本信息对象对应的特征序列进行特征扩展处理,生成 仅由精简特征构成的精简特征序列,精简特征序列中的元素为单个精简特征或者多个精简 特征构成的集合; 对文本信息对象对应的精简特征序列中的每个精简特征调整权重,生成精简特征 向量; 将精简特征向量输入分类器构造处理模块进行处理;分类器构造处理模块根据与 训练语料集的文本信息对象相对应的精简特征向量集构造文本分类器;文本分类器根据与
6待分类文本信息对象相对应的精简特征向量对文本信息对象进行分类处理。 依据本发明的另一个方面,本发明提供了一种通过对文本信息对象的训练集进行
特征扩展处理来构造分类器的装置,该装置包括, 特征抽取处理模块从待分类的文本信息对象中抽取特征,生成一个包含多个特征 的特征序列集;特征精简模块根据标准确定阈值,对特征集中的特征进行特征选择处理,生 成特征集的子集一精简特征集;特征扩展模式抽取处理模块对特征序列集和精简特征集进 行处理,抽取特征扩展模式,构成特征扩展模式集,所述特征扩展模式包括左部和右部两部 分,左部由特征集中的一个或者多个特征构成,右部由精简特征集中的一个精简特征构成; 特征扩展处理模块对精简特征集和特征扩展模式集进行特征扩展处理,生成仅由精简特征 构成的精简特征序列,精简特征序列中的元素为单个精简特征或者多个精简特征构成的集 合;生成处理模块对精简特征序列中的每个精简特征调整权重,生成精简特征向量,构成精 简特征向量集;分类器构造处理模块根据精简特征向量集构造文本分类器,所述文本分类 器用于确定一个文本信息对象是否属于一个种类。 本发明针对短文本信号弱等特点,通过对文本进行特征扩展处理来分类文本,以 及对训练文本进行特征扩展处理来构造分类器,改善了分类器性能,能够对短文本信息中 的有害信息进行及时拦截和过滤。利用本发明提供的分类器对短文本进行分类处理,对短 文本具有良好的识别能力,达到良好的短文本分类能力。


图1对训练文本进行特征扩展处理来构造分类器示意流程图
图2通过对文本进行特征扩展处理分类文本的过程示意图
图3利用关联规则算法抽取特征扩展模式示意流程图
图4为利用《知网》抽取特征扩展模式流程图
具体实施例方式
本发明通过对文本进行特征扩展处理来分类文本,以及对训练文本进行特征扩展 处理来构造分类器。特别适用于即时通讯系统QQ,MSN和手机短消息中的文本,以及网络评 论中的文本的处理。对熟练技术人员而言,对所公开实施方式的各种更改是显而易见的,并 且可以将下面阐述的一般原则应用于其它实施方式和应用中。因此,本发明并不仅用所示 实施方式来限制。 以下针对附图对本发明的实施方式进行具体描述。关于附图中,一般箭头表示输
入,"帽子"箭头表示输出。 基于特征扩展的分类器构造 图1所示为对训练文本进行特征扩展处理来构造分类器的过程示意图。在文本信 息对象训练实例集115中给定一组训练数据,即具有类别标签的文本的集合,分类器构造 步骤如下 步骤1.抽取处理110 扫描训练语料集中的每个文本对象,特征抽取处理模块提取每个文本对象出现的 特征构成初始特征集A,统计每个特征在文本中出现次数,并记录下每个特征出现的频率。例如,假设特征为词语,有n个不同的词语在训练数据中出现过,则初始特征集A就由n个 词语构成。 预先构建停用词列表L,停用词列表由一些没有类别区分能力的词语构成,例如助 动词"的"、"地"、"得"等,或者英文中的"is", "a", "an"等。扫描模块在停用词列表中扫 描,比较初始特征集A中的特征,利用停用词列表L,过滤掉初始特征集A中的停用词,构成 新的特征集B。根据Zipf(给出Zipf的中文含义?)定律,将特征集B中的频率低于Zipf 频率阈值的特征过滤掉,构成特征序列集。 Zipf定律涉及文本中不同词语(单词)的分布,它表明单词的秩(r)和频率的
乘积为常数。即,许多单词在特征集中仅出现一次,在特征集中该数目有一半的单词出现两
次,在特征集中该数目三分之一的单词出现三次,等等。由此设置Zipf频率阈值,在特征集
中出现次数低于阈值的单词没有类别区分能力,过滤模块将其过滤掉。 扫描模块再次扫描训练语料集中的每个文本对象,将每个文本看成由一个个特征
构成的特征序列,将该序列中不在特征集中的特征过滤掉,将其转变为文本训练实例的特
征序列,构造文本信息对象训练实例的特征序列集125。例如,对给定文本"扫描训练数据
集中的每个文本",其特征序列为"扫描训练数据集中的每个文本",根据特征集过滤后的特
征序列为"扫描训练数据集每个文本"。应当说明当训练文本为中文文本、特征类型为词语
时,先采用中文分词系统进行分词。然后再按照步骤1进行特征抽取。 步骤2.特征精简处理120 特征集中的特征太多,可能包含数百万个特征元素,需要进行特征选择处理(即 特征精简处理),来选择较少的、具有强类别区分能力的特征,用于构建分类器和分类文本 处理。特征精简模块利用种类相关特征精简技术,或种类不相关特征精简技术,根据标准 确定阈值,对特征集中与训练语料集的文本信息对象相对应的特征序列集进行特征选择处 理,生成特征集的子集一精简特征集。特征精简过程为特征精简模块根据标准确定阈值, 计算特征集中的每个特征对应标准的值,每个特征至少对应一条标准,如果其特征对应标 准的值大于根据标准确定的阈值,则所对应的特征为精减特征,从而构造精减特征集。其标 准可采用(a)互信息,(b)信息增益,(c) x、平方),(d)相关系数,(e)贝叶斯评分,以及 (f)单值分解。至于选用哪几条标准进行计算,可预先设定参数进行选择。
步骤3.特征扩展模式抽取处理130 将训练语料集中文本训练实例的特征序列集和精减特征集输入到特征扩展模式 抽取处理模块进行处理,抽取特征扩展模式集。特征扩展模式包括左部和右部两部分,左部 由特征集中的一个或者多个特征构成,右部由精简特征集中的一个精简特征构成。特征扩 展模式抽取处理的输入为文本训练实例的特征序列集和精简特征集,输出为特征扩展模式 集。本实施方式以两种抽取处理方式为例进行说明利用关联规则算法抽取特征扩展模式, 以及利用《知网》等知识词典抽取特征扩展模式。
步骤4.文本特征扩展处理140 将文本训练实例的特征序列集125、精简特征集和特征扩展模式集作为输入,由特 征扩展处理模块处理,输出为文本训练实例的精简特征序列集135。精简特征序列集中的元 素为单个精简特征或者多个精简特征构成的集合。处理过程为扫描文本训练实例的特征 序列集,对每个文本训练实例的特征序列进行如下处理(a)根据精简特征集,将特征序列中的所有特征分成精简特征集A和非精简特征集B两部分;(b)对非精简特征集B中的每个 特征bi,搜索特征扩展模式集,进行匹配判定处理,找出左部与其相匹配的所有特征扩展模
式,并取出每个特征扩展模式右部的精简特征构成对应于特征bi的扩展精简特征集Ci;(C)
将特征序列中的所有非精简特征用其对应的扩展精简特征集替换,从而转化为精简特征序 列。在步骤(b)的匹配判定处理中,只要特征扩展模式的左部包含特征bi,且左部中的每个 特征都在特征序列中出现,则认为匹配成功。 步骤5.精简特征向量生成处理150 将文本训练实例的精简特征序列集135输入特征向量生成处理模块进行相关处 理,对精简特征序列中的每个精简特征调整权重,生成精简特征向量145。精简特征向量采 用稀疏数组表示,形如((A,fr叫),(a2,freq2),…,(an,freqn)),其中n表示精简特征序列 中精简特征的数目,A表示精简特征,freqi表示ai对应的频率。处理过程为扫描文本训 练实例的精简特征序列集,特征向量生成处理模块对每个精简特征序列进行如下处理(a) 对精简特征序列的每个扩展精简特征集Ci中的精简特征分配频率。假设扩展精简特征集Ci 中有n个精简特征,则每个精简特征分配频率1/n ;(b)对精简特征序列中的每个精简特征 分配频率a 。 a是设定的参数,用于调节由非精简特征扩展而来的扩展精简特征集与精简 特征之间的相对重要性关系。通常a设定为1. 2至1. 5之间;(c)将精简特征序列的每个 扩展精简特征集&打散,构成一个由精简特征及其对应频率组成的特征一频率对的集合; (d)对集合中的特征一频率对进行合并处理,即具有相同精简特征的特征一频率对中的频 率相加,合并为一个特征一频率对。将合并处理后的特征一频率对用稀疏数组表示,生成精 简特征向量。 例如,假设精简特征序列为〈a, (a, b) , b, a〉, a设定为1. 2,对扩展精简特征集 (a, b)分配频率(a 1/2, b 1/2),对精简特征a和b分配频率al. 2, b 1. 2, a 1. 2,构成特 征一频率对集合Ka 1.2), (a,1/2), (b,1/2), (b 1. 2) , (a, 1. 2)},生成精简特征向量((a, 2.9), (b,1.7))。 步骤6.分类器构造处理160 : 文本训练实例的精简特征向量集145输入分类器构造处理模块,分类器构造处理 模块根据与训练语料集的文本信息对象相对应的精简特征向量集构造文本分类器。分类器 构造处理模块可采用(a)朴素贝叶斯,(b)贝叶斯网络,(c)支持向量机,(d)k-近邻等本领 域技术人员熟知的处理方式对精简特征向量集进行处理,构造分类器Classifies可预先 设置参数,选择分类器的构造方法。
以下具体描述特征扩展模式的抽取处理过程。 将文本训练实例的特征序列集和精简特征集输入到特征扩展模式抽取处理模块 进行处理,输出特征扩展模式集。特征扩展模式集中包含一系列特征扩展模式,特征扩展模 式包括左部和右部两部分,左部由特征集中的一个或者多个特征构成,右部由精简特征集 中的一个精简特征构成。本实施例以两种特征扩展模式抽取的实施方式和一种对抽取出的 特征扩展模式进行精选的方法为例具体说明抽取过程。 实施方式1 :利用关联规则算法抽取特征扩展模式。如图2所示为利用关联规则 算法抽取特征扩展模式的流程图,抽取过程如下
步骤1. 2至N阶特征频繁项抽取处理310
9
设置输入特征扩展模式左部信息表,信息表中包括输入特征扩展模式左部最多所 能包含的特征数目N、支持度和置信度的阈值,扫描模块扫描文本训练实例的特征序列集 125',对每个特征序列进行如下处理,利用关联规则挖掘算法(可选用经典的FP-Growth算 法),从特征序列中抽取满足支持度要求的X阶频繁项,构造2至N阶特征频繁项集,其中 2《X《N+l。 步骤2.候选特征扩展模式生成处理320 扫描模块扫描2至N阶特征频繁项集,模式处理模块对每个特征频繁项进行如下 处理,将特征频繁项分解为多个特征构成的集合A,(例如将3阶频繁项变成3个特征构成 的集合),任意提取集合A中的一个元素,以集合A中的一个元素作为右部,其它元素作为左 部构成候选特征扩展模式集,将左部和右部进行置信度比较,如果由左部和右部构成的关 联规则满足置信度的要求,则将其组合成候选特征扩展模式。将该处理产生的所有候选特 征扩展模式中的重复项去掉,就构成了候选特征扩展模式集。 一个X阶频繁项最多可以构 造出X个候选特征扩展模式。例如,频繁项"abcd"可构成4个〈bcd, a>, 〈acd, b>, 〈abd, c>, 〈abc, d>。 步骤3.特征扩展模式生成处理330 扫描模块扫描候选特征扩展模式集,并进行比较、识别和判断,抽取处理模块将候 选特征扩展模式集元素中右部不为精减特征的候选特征扩展模式过滤掉,生成特征扩展模 式集。 实施方式2 :利用知识词典(如《知网》)来抽取特征扩展模式。本实施方式中,特 征集中的类型限定为词语。如图3所示为利用《知网》抽取特征扩展模式流程图,具体过程 如下 步骤1.词语对抽取处理410 将文本训练实例的特征序列集作为输入,输入到抽取处理模块进行处理,输出为 词语对集合。 设置词语对之间的距离阈值9 。扫描模块扫描文本训练实例的特征序列集125', 抽取处理模块对每个特征序列作如下处理获取特征序列中两词语的位置,计算两词语位
置之差,将差值与距离阈值e进行比较,从特征序列中抽取词语对间距离小于阈值e的词
语对。将抽取的所有词语对中的重复项去掉,生成词语对集合。 步骤2.候选特征扩展模式生成处理420 词语对集合和精简特征集输入候选特征扩展模式生成处理模块,经该模块处理后 输出候选特征扩展模式集。扫描模块扫描词语对集合,并对词语对进行识别判断,如果构成 词语对的两个词语中,有且仅有一个词语为精简特征集中的精简特征,则以该词语对中的 非精简特征词语为左部,精简特征词语为右部,生成候选特征扩展模式。将生成的所有候选 特征扩展模式中的重复项去掉,生成候选特征扩展模式集。
步骤3.词语(特征)对之间的上下位关系判定430 输入为候选特征扩展模式集和知识词典《知网》,输出为特征扩展模式集。
由于一个词语可能有多个概念,本实施方式中知识词典《知网》用于判定给定的两 个概念是否具有上下位关系。"知网"HowNet是一部通用常识资源词典,它描述了词语所代 表的概念,揭示了概念与概念之间以及概念所具有的属性和属性之间的关系(这些关系中
10就包含上下位关系)。"知网"使用一种知识表示语言KDML来描述概念,这种知识表示语言
所用的"词汇"叫做"义原"。"义原"是用于描述一个"概念"的最小意义单位。"知网"的义
原以树形结构存在于特征文件中,即特征文件中包含了义原之间的上下位关系,如下表所
示为表示义原之间的上下位关系的举例。 entity I实体卜thing I万物 (-physical |物质 I卜animate |生物 II卜AnimalH咖an I云力物 III卜human I人 IIII i_ humanized I拟人"知网"中的概念使用多个义原按照知识表示语言KDML的格式来进行描述。 预先设置上下位关系强度阈值,扫描模块扫描候选特征扩展模式集,上下位关系
判定模块根据上下位关系强度阈值e ,对每个候选特征扩展模式进行如下处理。 (a)查询模块查询"知网",确定左部词语的概念集合A = K|i = 1,2, ...,n}和
右部词语的概念集合B = {bi I i = 1, 2,, m} , n和m分别表示左部词语和右部词语的概
念的个数。 (b)配对模块将左部词语概念集合中的每个概念和右部词语概念集合中的每个概 念配对,生成概念对集合AB = {aibj I ai G A, bj G B}}。 (c)查询模块查询知识词典《知网》,对概念对集合中的所有概念进行判断,确定概 念对〈ai, bj>之间的上下位关系强度。 如果概念ai和bj的首义元不同,且它们都能在"知网"的义元层次树中找到。则 利用首义元的层次结构来计算上下位关系强度,计算公式为<formula>formula see original document page 11</formula> 3是一设定参数,根据经验本实施例中取值为1。 d为概念ai和bj在"知网"的义 元层次树中的距离。其确定规则为(l)如果一个义元是另一个义元的子节点,或通过子节 点又一条路径到达另一个义元,则d为它们之间的路径距离。(2)其它情况,则认为义元之 间不存在上下位关系,d设为①。 如果概念ai和bj的首义元相同,则将概念&和bj的义元描述式分别转化为L ={独立义原集合} 、 I2 = {关系义原集合}和I3 = {符号义元集合}三部分。则利用集 合的包含关系来计算上下位关系强度。当ai为bj的下位时,即集合/,。〕^、 /2。〕^和 乜〕^时,计算公式为
<formula>formula see original document page 11</formula>
当ai为bj的上位时,即集合、C /16 、 /2a C /26和/3(] C /36时,计算公式为
<formula>formula see original document page 11</formula> 其中,I I I表示集合I种元素的个数,a p a 2和a 3为设定的经验参数,本实施例 中,它们都设置为1。
(d)根据下述公式确定概念对〈ai, bj>在文本训练实例集中的概率分布P (ai, bj)
0< 其中,Freq(ai, b》为概念对〈^, 在文本训练实例集中的频率。
(e)利用概念对〈ai,bj>的上下位关系强度及概率分布,确定左部词语和右部词语
之间具有的上下位关系强度Degree (A, B)。
0< (f)根据上下位关系强度阈值9 ,判定左部词语A和右部词语B之间是否具有上 下位关系。判定规则,如果Degree (A, B) > 9 ,则左部词语A和右部词语B之间存在上下 位关系,否则不存在上下位关系。 将那些左部词语和右部词语之间不存在上下位关系的候选特征扩展模式从候选 特征扩展模式集中过滤掉,就生成了特征扩展模式集。 应当说明,当换作其它的知识词典(例如"词网"WordNet)时,处理过程是类似的。 即,实施方式2是不依赖于知识词典"知网"的。
特征扩展模式的精选处理 当抽取出特征扩展模式集以后,精选处理模块利用类别趋同性标准对其进行精选 处理,以获得高品质的特征扩展模式集。 假设特征扩展模式的左部为A,右部为B,文本类别集C二 {CpCy 列公式确定左部和右部条件下的概率分布:Pa(C」A)和PB(CilB), (i = 1,2,
苴山Pa(Ci|A) = ^^1_, pb(cjb) = —f一b,。
,CJ,根据下 .,n)。
中,
ZFreq(a,c')
/=1
SFreq(b,。
Freq(A, C》、
Freq(B, C》分别表示左部A和右部B在文本训练实例集中出现的类别为&的文本的数目 (即文本频率)。 左部和右部概率分布PA(CilA)、PB(CilB)中的最大值、次大值(第二大)即其对应 的类别标签为(最大值,类别):左部(Pa(CFIA),Lf),右部(Pb(CF|B),Rf);(次大值,类别):左部
(Pa(CSIA),Ls),右部(pb(cs|b),rs)。则类别趋同性标准定义为 如果(最大值,类别)对中,左部和右部的类别标签相同(即W二R》,且它们的
类别指示强度满足
pa(cf|a)-pa(cs|a) pa(cf|a)
A和
pb(cf|b)-pb(cs|b) pb(cf|b)
& ,则认为特征扩
展模式的左部和右部是趋同的;其它情况,则认为它们是不趋同的。其中,94和9e是设定 的类别指示强度阈值。本实施例中,它们可设置为15%。 扫描特征扩展模式集,精选处理模块对每个特征扩展模式根据类别趋同性标准判 定它的左部和右部类别是否趋同,将那些类别不趋同的特征扩展模式去掉,生成高品质的 特征扩展模式集。 基于特征扩展的文本分类处理过程
12
图4所示为通过对文本进行特征扩展处理来分类文本的过程。给定待分类的文本 205和分类器M,基于特征扩展的分类步骤如下
步骤1.特征抽取处理210 将待分类的文本205和特征集送入特征抽取处理模块,抽取待分类文本的特征序 列215。 处理过程将待分类文本看成由一个个特征构成的特征序列,将该序列中不在特 征集中的特征过滤掉,获取待分类文本的特征序列215。
步骤2.文本特征扩展处理220 将待分类文本的特征序列215、精简特征集和特征扩展模式集输入文本特征扩展 处理模块进行特征扩展处理,输出待分类文本的精简特征序列225,精简特征序列中的元素 为单个精简特征或者多个精简特征构成的集合。 具体方法为(a)根据精简特征集,将特征序列中的所有特征分成精简特征集A和 非精简特征集B两部分;(b)对非精简特征集B中的每个特征bi,搜索特征扩展模式集,找 出左部与其相匹配的所有特征扩展模式,并取出每个特征扩展模式右部的精简特征构成对 应于特征bi的扩展精简特征集Ci ;(c)将特征序列中的所有非精简特征用其对应的扩展精 简特征集替换,从而转化为待分类文本的精简特征序列225。在步骤(b)的匹配判定处理 中,只要特征扩展模式的左部包含特征bi,且左部中的每个特征都在特征序列中出现,则认 为匹配成功。 步骤3.精简特征向量生成处理230 特征向量生成处理模块提取待分类文本的精简特征序列225中的待分类文本的 精简特征向量235,精简特征向量采用稀疏数组表示,形如((ai, freq》,(a2, freq2),…, (an, freq》),其中n表示精简特征序列中精简特征的数目,ai表示精简特征,freq,表示&i 对应的频率。 处理过程具体为(a)对精简特征序列的每个扩展精简特征集&中的精简特征分 配频率。假设扩展精简特征集&中有n个精简特征,则每个精简特征分配频率1/n ; (b)对 精简特征序列中的每个精简特征分配预先设定的频率a 。参数a用于调节由非精简特征 扩展而来的扩展精简特征集与精简特征之间的相对重要性关系。根据经验通常a设定为 1.2至1.5之间;(c)将精简特征序列的每个扩展精简特征集Ci打散,构成一个由精简特征 及其对应频率组成的特征一频率对的集合;(d)对集合中的特征一频率对进行合并处理, 即具有相同精简特征的特征一频率对中的频率相加,合并为一个特征一频率对。将合并处 理后的特征一频率对用稀疏数组表示,生成待分类文本的精简特征向量235。
步骤4.分类处理240 将待分类文本的精简特征向量235输入分类器M,分类器输出待分类文本的类别 245。 处理过程为文本分类器根据与待分类文本信息对象相对应的精简特征向量对文 本信息对象进行分类处理,将待分类文本的精简特征向量235输入分类器M,分类器经过运 算后输出待分类文本的类别245。 应当说明,本实施方式中的分类器M可以是通过对训练文本进行特征扩展,从而 构造的分类器,也可以是按照技术人员熟知的方法构造的分类器。利用分类器M计算待分
13类文本属于某个类别的度量值,并将其和一个阈值进行比较,如果大于等于该阈值,则认为 文本属于该类别。不同分类器的区别在于它们计算待分类文本属于某个类别度量值的计算 公式不同。
权利要求
一种通过对文本信息对象进行特征扩展处理构造分类器的方法,所述分类器用于确定一个文本信息对象是否属于一个种类,其特征在于,该方法包括以下步骤a)特征抽取处理模块从文本信息对象中抽取特征,生成一个包含多个特征的特征序列;b)特征精简模块根据标准确定阈值,对与训练语料集的文本信息对象相对应的特征序列集进行特征选择处理,生成特征集的子集—精简特征集;c)特征扩展模式抽取处理模块对特征序列集和精简特征集进行处理,抽取特征扩展模式,构成特征扩展模式集,所述特征扩展模式包括左部和右部两部分,左部由特征序列集中的一个或者多个特征构成,右部由精简特征集中的一个精简特征构成;d)特征扩展处理模块利用精简特征集和特征扩展模式集对特征序列进行特征扩展处理,生成仅由精简特征构成的精简特征序列,精简特征序列中的元素为单个精简特征或者多个精简特征构成;e)生成处理模块对精简特征序列中的每个精简特征调整权重,生成精简特征向量。f)分类器构造处理模块根据与训练语料集的文本信息对象相对应的精简特征向量集构造文本分类器;文本分类器根据与待分类文本信息对象相对应的精简特征向量对文本信息对象进行分类处理。
2. 根据权利要求1所述的方法,其特征在于,其特征序列集中的每个特征满足,Zipf定 律,且为非停用词列表中的元素。
3. 根据权利要求l所述的方法,其特征在于,步骤b)中所述标准包括互信息,信息增 益,平方,相关系数,贝叶斯评分,以及单值分解。
4. 根据权利要求1所述的方法,其特征在于,利用关联规则算法抽取特征扩展模式, 具体包括,从特征序列中抽取满足支持度要求的X阶频繁项,构造2至N阶特征频繁项集; 模式处理模块对每个特征频繁项进行处理构成候选特征扩展模式集;抽取处理模块将候选 特征扩展模式集元素中右部不为精简特征的候选特征扩展模式过滤掉,生成特征扩展模式 集,其中,N-1为特征扩展模式左部最多所能包含的特征数目。
5. 根据权利要求1所述的方法,其特征在于,利用知识词典抽取特征扩展模式,具体包 括,抽取处理模块计算特征序列中两词语的位置之差,抽取词语对间位置之差小于词语对 之间的距离阈值e的词语对,生成词语对集合;扫描模块扫描词语对集合,如果构成词语 对的两个词语中,有且仅有一个词语为精简特征,则以该精简特征词语为右部,非精简特征 词语为左部,生成候选特征扩展模式,构成候选特征扩展模式集;根据知识词典将候选特征 扩展模式集中左部词语和右部词语之间不存在上下位关系的候选特征扩展模式从候选特 征扩展模式集中过滤掉,生成特征扩展模式集。
6. 根据权利要求l所述的方法,其特征在于,所述步骤c)进一步包括,精选处理模块对 特征扩展模式集中每个特征扩展模式根据类别趋同性标准判定它的左部和右部类别是否 趋同,将那些类别不趋同的特征扩展模式去掉,生成高品质的特征扩展模式集。
7. 根据权利要求4所述的方法,其特征在于,所述构成候选特征扩展模式集的具体步 骤为任意提取特征频繁项集中的一个元素作为右部,特征频繁项集中的其它元素作为左 部,如果由左部和右部构成的关联规则满足置信度的要求,则将其组合成候选特征扩展模 式,将其中的重复项去掉,构成候选特征扩展模式集。
8. 根据权利要求5所述的方法,其特征在于,所述根据知识词典确定上下位关系具体为,(a) 查询知识词典,确定左部词语的概念集合和右部词语的概念集合;(b) 将左部词语概念集合中的每个概念和右部词语概念集合中的每个概念配对,生成 概念对集合;(c) 查询知识词典,对概念对集合中的所有概念对进行判断,确定概念对之间的上下位 关系强度;(d) 确定概念对在文本训练实例集中的概率分布;(e) 利用概念对的上下位关系强度及概率分布,确定左部词语和右部词语之间具有的 上下位关系强度;(f) 将上下位关系强度与上下位关系强度阈值比较,判定左部词语和右部词语之间是 否具有上下位关系。
9. 一种通过对文本信息对象进行特征扩展处理构造分类器的装置,其特征在于,该装 置包括特征抽取处理模块从文本信息对象中抽取特征,生成一个包含多个特征的特征序列;特征精简模块根据标准确定阈值,对特征集中的特征进行特征选择处理,生成特征集 的子集一精简特征集;特征扩展模式抽取处理模块对特征序列集和精简特征集进行处理,抽取特征扩展模 式,构成特征扩展模式集,所述特征扩展模式包括左部和右部两部分,左部由特征集中的一 个或者多个特征构成,右部由精简特征集中的一个精简特征构成;特征扩展处理模块对精简特征集和特征扩展模式集进行特征扩展处理,生成仅由精简 特征构成的精简特征序列,精简特征序列中的元素为单个精简特征或者多个精简特征构成 的集合;生成处理模块对精简特征序列中的每个精简特征调整权重,生成精简特征向量。 分类器构造处理模块根据与训练语料集的文本信息对象相对应的精简特征向量集构造文本分类器;文本分类器根据与待分类文本信息对象相对应的精简特征向量对文本信息对象进行分类处理。
10. 根据权利要求9所述的装置,其特征在于,特征扩展模式抽取处理模块利用关联规 则算法抽取特征扩展模式,或利用知识词典抽取特征扩展模式。
11. 根据权利要求io所述的装置,其特征在于,利用关联规则算法抽取特征扩展模式具体包括,特征扩展模式抽取处理模块从特征序列中抽取满足支持度要求的X阶频繁项, 构造2至N阶特征频繁项集;模式处理模块对每个特征频繁项进行处理构成候选特征扩展 模式集;抽取处理模块将候选特征扩展模式集元素中右部不为精简特征的候选特征扩展模 式过滤掉,生成特征扩展模式集。
12. 根据权利要求10所述的装置,其特征在于,利用知识词典抽取特征扩展模式具体 包括,特征扩展模式抽取处理模块计算特征序列中两词语的位置之差,抽取词语对间位置 之差小于词语对之间的距离阈值e的词语对,生成词语对集合;扫描模块扫描词语对集 合,如果构成词语对的两个词语中,有且仅有一个词语为精简特征,则以该精简特征词语为 右部,非精简特征词语为左部,生成候选特征扩展模式,构成候选特征扩展模式集;扫描模块扫描候选特征扩展模式集,根据知识词典将左部词语和右部词语之间不存在上下位关系 的候选特征扩展模式从候选特征扩展模式集中过滤掉,生成特征扩展模式集。
全文摘要
一种通过对训练集的文本信息对象进行特征扩展处理来构造文本分类器的方法,以及对应于该方法的文本分类装置。通过对文本进行特征扩展处理来分类文本,以及对训练文本进行特征扩展处理来构造分类器,改善了分类器性能,能够对短文本信息中的有害信息进行及时拦截和过滤。对短文本具有良好的识别能力及分类能力。本发明特别适合于对即时通讯系统QQ,MSN和手机短消息中的文本,以及网络评论中的文本的处理。
文档编号G06K9/62GK101794303SQ201010109188
公开日2010年8月4日 申请日期2010年2月11日 优先权日2010年2月11日
发明者樊兴华 申请人:重庆邮电大学;樊兴华
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1