面向人物传记的事件分类方法

文档序号:6358152阅读:467来源:国知局
专利名称:面向人物传记的事件分类方法
技术领域
本发明属于智能信息处理技术,更进一步是关于文本的分类处理的技术,具体涉及一种面向人物传记的事件分类方法。
背景技术
随着网络、信息化技术的快速发展,数字化文档信息的极大丰富,对文本,资料,网页等的分类处理已成为信息处理的重要技术手段。文本分类的方法有很多,典型的方法有
(1)朴素贝叶斯分类器(Lewis D. . Naive bayes at forty: The independence assumption in information retrieval. In: Proceeding of the 10th European Conference on Machine Learning,Chemnitz,Germany,1998,4 5)朴素贝叶斯分类器是一种广泛使用的分类算法,其计算效率和分类效果均十分理想。朴素贝叶斯分类器与其他方法相比最大的优势或许就在于,它在接受大数据量训练和查询时所具备的高速度。朴素贝叶斯分类器的最大缺陷就是,它无法处理基于特征组合所产生的变化结果。(2)基于向量空间模型的分类器(Salton G. . Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Reading, MA: Addison-ffesley, 1989)向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,使用tfc算法对特征项进行权重计算,用KNN算法进行分类。该分类器的平均准确率和召回率都是可接受的,对类别的抽象程度无要求,即抽象度较高和较低的类别可以同时分类。通过使用更好的机器学习算法和其他的HNC语言理解技术,性能可以进一步提尚°(3)用支持向量机的分类器(Joachims Τ·· Text Categorization with support vector machines: Learning with many relevant features. In: Proceedings of the 10th European Conference on Machine Learning, Chemnitz, Germany, 1998, 137 14
它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。支持向量机属于一般化线性分类器。他们也可以认为是提克洛夫规范化(TiWlonov Regularization) 方法的一个特例。这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区。因此支持向量机也被称为最大边缘区分类器。这些技术是对于所有文本类别的分类,分类的粒度较大,而人物传记需要的与人物相关的事件信息往往只涉及到一个语句,如果直接用上述分类器进行分类,将无法达到对事件分类的效果。以上的这些方法严重依赖于外部知识,尤其是领域知识。受知识获取的瓶颈限制,这些方法只在受限领域得到成功应用。本发明突破了这些传统的分类技术,不再把文本作为分类的对象,而是将文本中所涉及的与人物相关的事件进行分类,分类的对象粒度更细,分类的目标是为了进一步用于人物传记的生成。本发明还摆脱了知识获取的束缚,在训练分类事件后还能根据当前已分类事件特征形成新的语料。发明目的
本发明的目的在于针对已有技术存在的缺陷,提供一种面向人物传记的事件分类方法。

发明内容
鉴于以上所述现有技术存在的问题和不足,本发明的目的在于解决已有技术问题是提供一种面向人物传记的事件分类方法,提高人物事件识别准确率。一种面向人物传记的时间分类方法,其特征在于操作步骤如下
A.构建训练语料库;
B.词库的训练;
C.人物事件分类。上述步骤A训练语料库的构建具体步骤如下 Al.从互联网或其他信息源获取人物描述语言的文本;
A2.标注语句的类型,语料标注的类别有性别、民族、出生时间、出生地、党派、现任职务、学习经历,若所标注的人物为科学家,则标注的类别还有发表文章、参与项目; A3.如果一句语句有多个类型,则标注多个类型;
A4.将标注好的文本按照人物类别分开存储,人物类别包括政治人物,科学家,影视明星;相同的人物类别可有多个文本。上述步骤B词库的训练具体步骤如下
Bi.建立词库语句类别,先分别按照人物类别建立政治人物,科学家,影视明星三种人物类别;
B2.在各个人物类别中逐个按照性另I」、民族、出生时间、出生地、党派、现任职务、学习经历建立语句类别;
B3.如果人物类别为科学家,则额外建立发表文章、参与项目两类类别; B4.将已标注语句类别的文本按照人物类别读取; B5.分辨其中语句所标注的类别; B6.将已标注的语句分词;
B7.逐个读取分词后得到的词语,每读取一个词语,就将此词语按照其所属语句所标注的类别存放于词库中对应的词语类别当中; B8.逐条语句分类直至所有语料分类完毕。上述步骤C人物事件分类具体步骤如下
Cl.获取需要分类的文本以及此文本所描述的相关人物的类别; C2.将文本按照句子逐句分离;
C3.将分离后的句子进行分词,并逐词读取所得的分词结果; C4.将词语按照词库中的词语进行匹配,若仅一个类别中有此词语,则此词语属于此类别,记录其在该类别中的权重;若有多个类别中都有此词语,则获取这些类别中该词语的权重,逐个记录;
C5. 一条语句中所有词语的权重都分类完毕后,将该条语句中所有词语的各类权重累加,所得的各个类别的权重记为该语句的权重;然后依据该语句的类别,将其置于所属人物的相关语句类别中,并且记录其权重。本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点,本发明准确地将人物相关的事件分成9类,为每一类构建了训练集,经过训练后,分类方法自动地进行人物事件的分类;提高了人物事件识别准确率。


图1是本发明所提的面向人物传记的事件分类方法的模块架构图; 图2是本发明所提及的词库训练程序流程图3是本发明所提的文本语句分类的程序流程图。
具体实施例方式本发明的优选实施例结合附图详述如下 实施例一
参照图1,本面向人物传记的事件分类方法的操作步骤如下 1.构建训练语料库104:
人工方式获取人物描述语言的文挡,并且将文档按照以下格式进行人工标注语句+ 空格+代号[+代号] 语句标注的类别有
权利要求
1.一种面向人物传记的事件分类方法,操作步骤如下A.构建训练语料库B.词库的训练C.人物事件分类。
2.根据权利要求1所述的面向人物传记的事件分类方法,其特征在于所述步骤A中构建训练语料库的具体操作步骤如下Al.从互联网或其他信息源获取人物描述语言的文本;A2.标注语句的类型,语料标注的类别有性别、民族、出生时间、出生地、党派、现任职务、学习经历,若所标注的人物为科学家,则标注的类别还有发表文章、参与项目;A3.如果一句语句有多个类型,则标注多个类型;A4.将标注好的文本按照人物类别分开存储,人物类别包括政治人物,科学家,影视明星;相同的人物类别可有多个文本。
3.根据权利要求1所述的面向人物传记的事件分类方法,其特征在于,所述步骤B中词库的训练,其操作步骤如下Bi.建立词库语句类别,先分别按照人物类别建立政治人物,科学家,影视明星三种人物类别;B2.在各个人物类别中逐个按照性另I」、民族、出生时间、出生地、党派、现任职务、学习经历建立语句类别;B3.如果人物类别为科学家,则额外建立发表文章、参与项目两类类别;B4.将已标注语句类别的文本按照人物类别读取;B5.分辨其中语句所标注的类别;B6.将已标注的语句分词;B7.逐个读取分词后得到的词语,每读取一个词语,就将此词语按照其所属语句所标注的类别存放于词库中对应的词语类别当中;B8.逐条语句分类直至所有语料分类完毕。
4.根据权利要求1所述的面向人物传记的事件分类方法,其特征在于,所述步骤C人物事件分类,具体操作步骤如下Cl.获取需要分类的文本以及此文本所描述的相关人物的类别;C2.将文本按照句子逐句分离;C3.将分离后的句子进行分词,并逐词读取所得的分词结果;C4.将词语按照词库中的词语进行匹配,若仅一个类别中有此词语,则此词语属于此类别,记录其在该类别中的权重;若有多个类别中都有此词语,则获取这些类别中该词语的权重,逐个记录;C5. 一条语句中所有词语的权重都分类完毕后,将该条语句中所有词语的各类权重累加,所得的各个类别的权重记为该语句的权重;然后依据该语句的类别,将其置于所属人物的相关语句类别中,并且记录其权重。
全文摘要
本发明设计一种面向人物传记的事件分类方法,该方法不仅针对的对象是更细的与人物相关的事件,而且准确地将与人物相关的事件分成9类,为每一类构建了训练集,经过训练后,分类方法可自动地进行人物事件的分类,提高了人物事件识别准确率。
文档编号G06F17/30GK102200997SQ201110095809
公开日2011年9月28日 申请日期2011年4月18日 优先权日2011年4月18日
发明者周文, 葛晶 申请人:上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1