一种基于互联网的人物传记自动提取方法

文档序号:6439546阅读:371来源:国知局
专利名称:一种基于互联网的人物传记自动提取方法
技术领域
本发明涉及的是一种基于互联网的人物传记自动提取方法,属于信息处理技术领域。
背景技术
随着互联网技术的迅猛发展,大量的信息以电子文档的形式保存在网络服务器上,面对大量的电子信息,如何从网络上这些无序的信息中及时准确的提取、整理,将无序的信息整理成人们感兴趣的信息,已成为一个亟待解决的难题。人物传记的信息提取,它是从互联网中已有的信息提取出与人物相关的信息,整理成一篇与人物有关的传记。Schiffman 在 2001 年最早提出人物传记概念(Schiffman, Mani, Concepcion, Producing biographical summaries Combining linguistic knowledge with corpus statistics[C]. Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics(ACL' 2001). New Brunswick, New Jersey!Association for Computational Linguistics, 2001:450-457),他把多文档摘要技术应用到人物传记抽取,设计了一个多文档人物传记自动摘要系统,利用在语料库上的统计信息和语言学知识, 由计算机选择、合并针对新闻中人物的描述语句,从而形成一篇新闻人物的传记,它是将描述一个人物的多个文本的主要信息按一定的压缩比例提炼为一个简短的摘要。人物传记方法是一种基于多文档的摘要方法的延伸,是将同一主题下的多个文本描述的的信息按一定的压缩比提炼为一个文本的自然语言处理方法。 Miller (Miller. WordNetA lexical database for English[C]. Communications of the ACM, 2004:39-41)认为不同于多文档摘要方法,传记方法是研究如何通过语义理解生成简洁的人物传记。超文本标记语言HTML标签过滤工具主要是对网页的超文本标记语言HTML脚本中的标签进行过滤的一种工具,目前此类过滤工具已经很成熟,包括C++、Java, 1等多种主流语言均可以编写此类过滤工具。爬虫技术是指,从互联网中爬取与预置信息有关系的网页,最后返回网页的链接和正文的一种技术。美国南加州大学的aiou、Ticrea和Hovy在2004年设计了一个英文的多文档 1 专i己摘要系统(Zhou, Ticrea, Hovy. Multi-document biography summarization [C]. Proceedings of EMNLP, 2004,434-441.),该方法首先把句子定义为人物传记和非人物传记,其中人物传记的句子分为9类个人简历信息、声望、个性、社会关系、受教育程度、国籍、丑闻、私人信息、工作信息和其它,然后,把句子分类,抽取描述人物传记的句子中各类型的句子组成一个人物传记。目前,Zhou的方法是基于事件的英文人物传记提取方法,上述方法不能用于中文的人物传记提取,没有利用互联网,换言之,一方面,该方法只能提取英文的人物传记,不能提取中文的人物传记,原因是上述方法中的英语与中文存在语言上的差异,涉及的语言处理技术、工具有较大的不同。比如,中文需要对文本先进行分词,而英文则不需要进行文本的分词操作;英文需要对词汇进行原形提取,而中文的词汇不存在时态、第三人称单数等变化,不需要进行原形提取。另一方面,现有的方法并不能即时从互联网上信息提取人物传记。

发明内容
鉴于现有的技术存在的问题和不足,本发明的目的在于提供一种基于互联网的人物传记自动提取方法,该方法不仅能从互联网上及时的获取人物信息,而且能从人物信息中提取人物传记。为了达到上述的目的,本发明采用下述技术方案 一种基于互联网的人物传记自动提取方法,它包括如下步骤
步骤1、获取预置的与人物传记相关的网站集合,将该集合以数组的形式保存,该数组记为传记类网站数组A ;
步骤2、输入待检索的人物姓名,对传记类网站数组A中的每一个网站分别对该姓名进行搜索,将搜索后得到的每个网站的超文本标记语言HTML脚本保存在数组中,该数组记为传记类网页脚本数组B;
步骤3、采用超文本标记语言HTML标签过滤工具对传记类网页脚本数组B中的各元素进行处理,将各网页的正文保存在传记数组中,该数组记为传记数组C;
步骤4、输入待生成的人物传记长度的字数,根据输入的人物传记的字数从传记数组C 中提取一篇人物传记。上述步骤1所述的获取预置的与人物传记相关的网站集合,将该集合以数组的形式保存,记该数组为传记类网站数组A,其中,对上述传记类网站数组A的索引从1开始进行编号,其索引号依次递增,传记类网站数组A中的元素的优先级随着索引号的递增依次递减,该优先级预置为人物传记相关的网站的优先级。上述步骤2所述的输入待检索的人物姓名,传记类网站数组A中的每一个网站分别对该姓名进行搜索,将搜索后得到的每个网站的超文本标记语言HTML脚本保存在数组中,该数组记为传记类网页脚本数组B,其中,对上述传记类网页脚本数组B中的索引依次递增编号,其索引号为1至n,传记类网页脚本数组B的索引号与传记类网站数组A的索引号一一对应,定义上述传记类网页脚本数组B中元素依次递增编排的索引号为传记类网页脚本数组B中的元素依次递减编排的优先级,该优先级为搜索后得到的每个网页的超文本标记语言HTML脚本的优先级
本发明的一种基于互联网的人物传记自动提取方法与现有技术相比较,具有如下实质性特点和显著的优点如下该方法克服了现有的基于事件的英文人物传记提取方法存在的不能用于中文的提取人物传记及没有利用互联网知识库的缺陷,不仅能即时获取互联网上的信息用于人物传记生成,还能利用构建的人物信息相关文本库提取人物传记信息用于生成人物传记。


图1是本发明的一种基于互联网的人物传记自动提取方法的流程图; 图2是图1中步骤2的流程图3是图1中步骤3的流程图; 图4是图1中步骤4的流程图。
具体实施例方式下面结合说明书附图和具体实施方式
对本发明作进一步详细的说明。参照图1,本发明的一种基于互联网的人物传记自动提取方法,其具体步骤如下 步骤1、获取预置的与人物传记相关的网站集合,将该集合以数组的形式保存,该数组
记为传记类网站数组A,其中,对上述传记类网站数组A的索引从1开始进行编号,其索引号依次递增,传记类网站数组A中的元素的优先级随着索引号的递增依次递减,该优先级预置为人物传记相关的网站的优先级,如表1所示, 表1传记类网站数组A
权利要求
1.一种基于互联网的人物传记自动提取方法,它包括如下步骤步骤1、获取预置的与人物传记相关的网站集合,将该集合以数组的形式保存,记该数组为传记类网站数组A ;步骤2、输入待检索的人物姓名,对传记类网站数组A中的每一个网站分别对该姓名进行搜索,将搜索后得到的每个网站的超文本标记语言HTML脚本保存在数组中,该数组记为传记类网页脚本数组B;步骤3、采用超文本标记语言HTML标签过滤工具对传记类网页脚本数组B中的各元素进行处理,将各网页的正文保存在传记数组中,该数组记为传记数组C ;步骤4、输入待生成的人物传记长度的字数,根据输入的人物传记的字数从传记数组C 中提取一篇人物传记。
2.根据权利要求1所述的一种基于互联网的人物传记自动提取方法,其特征在于,上述步骤1所述的获取预置的与人物传记相关的网站集合,将该集合以数组的形式保存,记该数组为传记类网站数组A,其中,对上述传记类网站数组A中的索引从1开始进行编号,其索引号依次递增,传记类网站数组A中的元素的优先级随着索引号的递增依次递减,该优先级预置为人物传记相关的网站的优先级。
3.根据权利要求1所述的一种基于互联网的人物传记自动提取方法,其特征在于,上述步骤2所述的输入待检索的人物姓名,传记类网站数组A中的每一个网站分别对该姓名进行搜索,将搜索后得到的每个网站的超文本标记语言HTML脚本保存在数组中,该数组记为传记类网页脚本数组B,其中,对上述对传记类网页脚本数组B中的索引依次递增编,其索引号为1至n,传记类网页脚本数组B的索引号与传记类网站数组A的索引号一一对应, 定义上述传记类网页脚本数组B中元素依次递增编排的索引号为传记类网页脚本数组B中的元素依次递减编排的优先级,该优先级为搜索后得到的每个网页的超文本标记语言HTML 脚本的优先级。
4.根据权利要求1所述的一种基于互联网的人物传记自动提取方法,其特征在于,上述步骤3所述的采用超文本标记语言HTML标签过滤工具对传记类网页脚本数组B中的各元素进行处理,将各网页的正文保存在传记数组中,该数组记为传记数组C,对传记数组C 中的元素依次递增编排索引号,其索引号为1至n,传记数组C的索引号与传记类网页脚本数组B的索引号一一对应,定义上述传记数组C中的元素依次递增编排的索引号为传记数组C中的元素依次递减编排的优先级,该优先级为得到的各网页的正文的优先级。
5.根据权利要求1所述的一种基于互联网的人物传记自动提取方法,其特征在于,上述步骤4所述的输入待生成的人物传记长度的字数,根据输入的人物传记的字数从传记数组C中提取一篇人物传记,如图4所示,其具体步骤如下[.41、输入待生成的人物传记长度的字数N,例如N=500,表示待生成的人物传记的字数不超过500,跳转到步骤42 ;[.42、建立一个空文档,该文档为文本类型的文档,记为T,初始化一个整型变量i,当 i=l,跳到步骤43 ;[.43、判断整型变量i是否大于传记数组C的最大索引号,如果i大于传记数组C的最大索引号,则对传记数组C读取结束,转步骤410,否则跳转到步骤44 ;[.44、初始化一个整型变量j,当整型变量j=l,则跳转到步骤45;[45、传记数组C中保存的是网站脚本正文,C[i]为第i个网站脚本正文,判断j是否大于元素C[i]的最大行号,如果j大于元素C[i]的最大行号,则跳转到步骤46,否则,跳转到步骤47 ;[46、当整型变量i=i+l,跳转到步骤43;[47、判断文档T的字数是否大于N,如果文档T的字数大于N,则结束该步骤,跳410,否则跳转到步骤48 ;[48、将C[i]的第j行写入到文档T中,跳转到步骤49;[49、当整型变量j=j+l,跳转到步骤45; 410、程序结束。
全文摘要
本发明公开了一种基于互联网的人物传记自动提取方法,它的步骤如下1、获取预置的与人物传记相关的网站集合,以数组保存,该数组记为传记类网站数组A;2、输入待检索的人物姓名搜索后得到的每个网站的超文本标记语言HTML脚本保存在数组中,该数组记为传记类网页脚本数组B;3、采用标签过滤工具对传记类网页脚本数组B中的各元素进行处理,将各网页的正文保存在传记数组中,该数组记为传记数组C;4、输入待生成的人物传记长度的字数,从传记数组C中提取一篇人物传记。该方法不仅能即时获取互联网上的信息用于人物传记生成,还能利用构建的人物信息相关文本库提取人物传记信息用于生成人物传记。
文档编号G06F17/30GK102567463SQ20111038658
公开日2012年7月11日 申请日期2011年11月29日 优先权日2011年11月29日
发明者周文, 李辉 申请人:上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1