基于中文分词的旅游信息抽取与聚合方法

文档序号:6652859阅读:631来源:国知局
专利名称:基于中文分词的旅游信息抽取与聚合方法
技术领域
本发明涉及ー种信息抽取与聚合方法,尤其涉及一种基于中文分词的旅游信息抽取与聚合方法。
背景技术
随着计算机的普及以及互联网的迅猛发展,互联网已经成为全球传播与共享科研、教育、商业和社会信息等最重要和最具潜力的巨大信息源。面对如此巨大的互联网信息库,如何快速、有效、经济地得到某个主题的所有相关信息就成了当前ー个十分热门的研究课题。与传统的信息资源相比,互联网上信息资源有着分布性、异构性、开放性、动态性和庞 大性等特点,这些特点导致互联网上数据的信息接口和组织形式各不相同,也使得互联网上的信息资源不能被有效的利用。信息抽取(InformationExtraction)研究正是在这种背景下产生的。什么是信息抽取信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统ー的形式集成在一起。这就是信息抽取的主要任务。信息以统ー的形式集成在一起的好处是方便检查和比较。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么ー个文档库。在互联网上,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式储存,那将是有益的。由于互联网上的信息载体主要是文本,所以信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此,成功的信息抽取系统将把互联网变成巨大的数据库。在互联网信息抽取领域中,信息抽取的准确性和通用性之间的矛盾一直是该研究领域的难题。性能较好的信息抽取技术需要用户的大量參与,但自动化程度不高;而自动化程度高的抽取技术其准确率和适应性较低,实用性较差。即使是机器学习,也要通过大量的样本学习来提高获取规则的自动化程度,这意味着系统需要经过较长时间的学习才能获得较好的查准率。纵观信息抽取技术的发展历史,研究者们提出了不少优秀的抽取策略。从实现方法的原理出发,可以将信息抽取技术划分为4个类别①基于自然语言理解方式;②基于ontology方式;③基于网页结构特征方式;@基于统计学习的方式。基于自然语言理解方式的信息抽取在一定程度上借鉴了自然语言处理技术,利用子句结构、短语和子句间的关系建立基于语法和语义的抽取规则,实现信息抽取。其缺点是抽取速度慢,使用范围窄,很难做到通用。基于ontology方式主要是利用对数据本身的描述信息实现抽取,对网页结构的依赖较少。只要事先创建的应用领域的ontology足够强大,系统可以对某ー应用领域中各种网页实现信息抽取。目前只能对特定领域构建,并且还只能采用半自动的方式由人工參与,这样使得该方法要求很高,工作量巨大。基于网页结构特征方式的特点是根据Web页面的结构来定位信息,在信息抽取之前通过解析器将Web文档解析成语法树,然后通过自动或半自动的方式产生抽取规则,最終转化为对语法树的操作来实现信息的抽取,本策略实现简单,抽取的准确性好,但要求人工參与。基于统计学习的信息抽取策略是根据统计学原理,首先构造ー个模型以模拟信息抽取的过程,应用统计学方法从训练语料中得出模型的參数;然后用训练好的模型对待抽取语料进行信息抽取。该方法需要经过较长时间的样本学习,且实现复杂。

发明内容
本发明的目的就是为了解决现有技术中存在的上述问题,提供一种基于中文分词的旅游信息抽取与聚合方法本发明的目的通过以下技术方案来实现 基于中文分词的旅游信息抽取与聚合方法,其包括以下步骤步骤①,收集初始旅游业特征词库;步骤②,进行网页获取及预处理;步骤③,网页正文的提取;步骤④,词法分析及信息提取;步骤⑤,信息聚合。上述的基于中文分词的旅游信息抽取与聚合方法,其中所述的收集初始旅游业特征词库为,首先对行业内已经存在的特征词语的收集整理;然后,根据以前网站的系统运行日志,分析出新的旅游业特征词;之后,将两者进行合井,形成初始旅游业特征词库。进ー步地,上述的基于中文分词的旅游信息抽取与聚合方法,其中所述的初始旅游业特征词需进行完善,既在每个月的特定时间,将已经分析好的线上网站运行日志进行统计,将发现的新词放入新词库,在新词库中停留ー个月;之后将已经确定的新词转入旅游业特征词库;对于新形成的热点词语,通过快速反应机制,直接转入旅游业特征词库。更进一歩地,上述的基于中文分词的旅游信息抽取与聚合方法,其中所述的网页获取为对旅游领域的网页信息进行获取,采用网络爬虫,通过网页的链接地址来寻找网页,从网站某ー个页面开始,读取网页的内容,找到在网页中的其它链接地址;然后通过这些链接地址寻找下一个网页,如此循环,直到把这个网站所有的网页都抓取完为止;所述的预处理为,利用HTMLParser提供标准类库的Parser函数,解析HTML文档,生成DOM树。更进一歩地,上述的基于中文分词的旅游信息抽取与聚合方法,其中对页正文提取吋,对网页进行扫描,将有缺陷的页面修复,即使用JTidy开放源代码工具,修正HTML文档中的常见错误并生成格式编排良好的等价文档;同时,去除页面噪音。更进一歩地,上述的基于中文分词的旅游信息抽取与聚合方法,其中所述的页面噪音为网页页面上存在的无关内容,包括有页头、页脚、广告、图像、脚本、函数、标签节点内容;除页面噪音方法为,根据HTML标签来去除Web文档中存在的噪音元素,根据噪音源的特征定义特定的规则进行过滤。更进一歩地,上述的基于中文分词的旅游信息抽取与聚合方法,其中所述的词法分析及信息提取包括中文分词和停用词过滤,所述的中文分词采用开源分词工具IKAnalyzer,并结合旅游领域词汇组成中文分词处理模块,同时采用多子处理器分析模式,支持英文字母、数字,中文词汇分词处理;利用IKAnalyze分词工具将通过网页正文提取得到的纯文本的关于旅游的信息与初始旅游业特征词库中的词条进行匹配,若在词库中找到某个字符串,则匹配成功,识别出ー个词,匹配成功的词都是我们需要提取的旅游信息,存入索引库。更进一歩地,上述的基于中文分词的旅游信息抽取与聚合方法,其中所述的词法分析及信息提取包括采用优化的词典存储,支持用户词典扩展定义。更进一歩地,上述的基于中文分词的旅游信息抽取与聚合方法,其中所述的提取构成为,首先找出网页中所有的开始标记,接着逐次找出网页中每个标记,并检查其是不是一个有开始标记与其对应的结束标记或者是注释标记;如果是没有对应开始标记的结束标记或者是注释标记,就删除该标记;否则,如果是有对应开始标记的结束标记,就将这个结束标记与其开始标记之间的内容提取出来,此时得到的关于旅游的信息是以纯文本形式的。再进ー步地,上述的基于中文分词的旅游信息抽取与聚合方法,其中所述的信息聚合为,当用户输入关键字查询相关旅游信息时,通过索引库查找就能找到相关的旅游信
O本发明技术方案的优点主要体现在可以有效解决对于某ー领域内精确信息的需求。同时满足用户精准查找信息的需求,使用垂直搜索引擎的人,对于需求的信息非常明确。并且,与其它Web信息抽取方法相比,由于它是基于中文分词的抽取,因此这种方法对文档的结构没有依赖性。从理论上讲,只要旅游领域中文词库足够強大,它就能在该领域的Web信息抽取中达到很高的抽取精确率和召回率。在此方法中中文词库可以是以分布式的形式存在的,因此它还很容易扩展到新的领域。当一个新的领域中文词库建成之后,只要对本系统给出它的地址,那么本方法就可以基于新的中文词库进行Web信息抽取了,从而就扩展到新的领域。本发明的目的、优点和特点,将通过下面优选实施例的非限制性说明进行解释。这些实施例仅是应用本发明技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本发明要求保护的范围之内。
具体实施例方式基于中文分词的旅游信息抽取与聚合方法,其与众不同之处在于包括以下步骤步骤①,收集初始旅游业特征词库。具体来说,首先对行业内已经存在的特征词语的收集整理;然后,根据以前网站的系统运行日志,分析出新的旅游业特征词;之后,将两者进行合井,形成初始旅游业特征词库。并且,考虑到初始旅游业特征词能够进行较佳的更新,适应旅游行业的发展,初始旅游业特征词需进行完善,既在每个月的特定时间(每个月月初),可以将已经分析好的线上网站运行日志进行统计,将发现的新词放入新词库,在新词库中停留ー个月。之后,将已经确定的新词转入旅游业特征词库;对于新形成的热点词语,通过快速反应机制,直接转入旅游业特征词库。步骤②,进行网页获取及预处理。具体来说,网页获取为对旅游领域的网页信息进行获取,采用网络爬虫(WebSpider或Robot),通过网页的链接地址来寻■找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址。然后通过这些链接地址寻找下一个网页,如此循环,直到把这个网站所有的网页都抓取完为止。并且,根据需要,可以采用人工指导下采集旅途类别的网页,这样对于未知类型的网页可以自动判断网页类别。进ー步来看,所述的预处理为,利用HTML Parser提供标准类库的Parser函数,解析HTML文档,生成DOM树。这样,对于人们感兴趣的数据,都将反映到DOM树上。步骤③,网页正文的提取。具体 来说,在对网页进行扫描是需要将有缺陷的页面修复,即使用JTidy开放源代码工具,修正HTML文档中的常见错误并生成格式编排良好的等价文档;同时,去除页面噪音,既去除网页中的无用信息,其主要目的是方便后面信息的分析和抽取速度更块和更精确。结合现有的网页内容来看,本发明所描述到的页面噪音为网页页面上存在的无关内容,包括有页头、页脚、广告、图像、脚本、函数、标签节点内容。进ー步来看,采用的除页面噪音方法为,根据HTML标签来去除Web文档中存在的噪音元素,根据噪音源的特征定义特定的规则进行过滤。步骤④,词法分析及信息提取。具体来说本发明所采用到的所述的词法分析及信息提取包括中文分词和停用词过滤,所述的中文分词采用开源分词工具IKAnalyzer,并结合旅游领域词汇组成中文分词处理模块。关于IKAnalyze,其为ー个开源的基于java语言开发的轻量级的中文分词工具包,采用了特有的正向迭代最细粒度切分算法,具有60万字/秒的高速处理能力。同时,采用多子处理器分析模式,支持英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)分词处理。进ー步来看,在本发明中,利用IKAnalyze分词工具,将通过网页正文提取得到的纯文本的关于旅游的信息与初始旅游业特征词库中的词条进行匹配,若在词库中找到某个字符串,则匹配成功,识别出ー个词,匹配成功的词都是我们需要提取的旅游信息,存入索引库(如Iucene)。再进ー步来看,考虑到能够尽可能的减少对于内存的占用。词法分析及信息提取包括采用优化的词典存储,这样同时还能够支持用户词典扩展定义。具体来说,信息提取为当解析生成DOM树之后,对HTML文档中信息的提取,就转换成为对DOM树中相应节点的查找。进ー步来看,其实施过程如下首先找出网页中所有的开始标记。接着逐次找出网页中姆个标记,并检查其是不是一个有开始标记与其对应的结束标记或者是注释标记。再进ー步来看,如果是没有对应开始标记的结束标记或者是注释标记,就删除该标记。否则,如果是有对应开始标记的结束标记,就将这个结束标记与其开始标记之间的内容提取出来,此时得到的关于旅游的信息是以纯文本形式的。步骤⑤,信息聚合即当用户输入关键字查询相关旅游信息时,通过索引库查找就能找到相关的旅游信息。通过上述的文字表述可以看出,采用本发明后,可以有效解决对于某ー领域内精确信息的需求。同时满足用户精准查找信息的需求,使用垂直搜索引擎的人,对于需求的信息非常明确。并且,与其它Web信息抽取方法相比,由于它是基于中文分词的抽取,因此这种方法对文档的结构没有依赖性。从理论上讲,只要旅游领域中文词库足够強大,它就能在该领域的Web信息抽取中达到很高的抽取精确率和召回率。在此方法中中文词库可以是以分布式的形式存在的,因此它还很容易扩展到新的领域。当一个新的领域中文词库建成之后,只要对本系统给出它的地址,那么本方法就可以基于新的中文词库进行Web信息抽取 了,从而就扩展到新的领域。
权利要求
1.基于中文分词的旅游信息抽取与聚合方法,其特征在于包括以下步骤 步骤①,收集初始旅游业特征词库; 步骤②,进行网页获取及预处理; 步骤③,网页正文的提取; 步骤④,词法分析及信息提取; 步骤⑤,信息聚合。
2.根据权利要求I所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于所述的收集初始旅游业特征词库为,首先对行业内已经存在的特征词语的收集整理;然后,根据以前网站的系统运行日志,分析出新的旅游业特征词;之后,将两者进行合并,形成初始旅游业特征词库。
3.根据权利要求2所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于所述的初始旅游业特征词需进行完善,既在每个月的特定时间,将已经分析好的线上网站运行日志进行统计,将发现的新词放入新词库,在新词库中停留ー个月;之后将已经确定的新词转入旅游业特征词库;对于新形成的热点词语,通过快速反应机制,直接转入旅游业特征词库。
4.根据权利要求I所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于所述的网页获取为对旅游领域的网页信息进行获取,采用网络爬虫,通过网页的链接地址来寻找网页,从网站某ー个页面开始,读取网页的内容,找到在网页中的其它链接地址;然后通过这些链接地址寻找下一个网页,如此循环,直到把这个网站所有的网页都抓取完为止;所述的预处理为,利用HTMLParser提供标准类库的Parser函数,解析HTML文档,生成DOM树。
5.根据权利要求I所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于对页正文提取吋,对网页进行扫描,将有缺陷的页面修复,即使用JTidy开放源代码工具,修正HTML文档中的常见错误并生成格式编排良好的等价文档;同时,去除页面噪音。
6.根据权利要求5所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于所述的页面噪音为网页页面上存在的无关内容,包括有页头、页脚、广告、图像、脚本、函数、标签节点内容;除页面噪音方法为,根据HTML标签来去除Web文档中存在的噪音元素,根据噪音源的特征定义特定的规则进行过滤。
7.根据权利要求I所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于所述的词法分析及信息提取包括中文分词和停用词过滤,所述的中文分词采用开源分词エ具IKAnal yzer,并结合旅游领域词汇组成中文分词处理模块,同时采用多子处理器分析模式,支持英文字母、数字,中文词汇分词处理;利用IKAnalyze分词工具将通过网页正文提取得到的纯文本的关于旅游的信息与初始旅游业特征词库中的词条进行匹配,若在词库中找到某个字符串,则匹配成功,识别出ー个词,匹配成功的词都是我们需要提取的旅游信息,存入索引库。
8.根据权利要求7所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于所述的词法分析及信息提取包括采用优化的词典存储,支持用户词典扩展定义。
9.根据权利要求I所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于所述的提取构成为,首先找出网页中所有的开始标记,接着逐次找出网页中每个标记,并检查其是不是一个有开始标记与其对应的结束标记或者是注释标记;如果是没有对应开始标记的结束标记或者是注释标记,就删除该标记;否则,如果是有对应开始标记的结束标记,就将这个结束标记与其开始标记之间的内容提取出来,此时得到的关于旅游的信息是以纯文本形式的。
10.根据权利要求I所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于所述的信息聚合为,当用户输入关键字查询相关旅游信息时,通过索引库查找就能找到相关的旅游信息。
全文摘要
本发明涉及一种基于中文分词的旅游信息抽取与聚合方法,其特点是采用如下首先,收集初始旅游业特征词库。接着,进行网页获取及预处理。然后,进行网页正文的提取。之后,采取词法分析及信息提取。最后进行信息聚合。可以有效解决对于某一领域内精确信息的需求。同时满足用户精准查找信息的需求,使用垂直搜索引擎的人,对于需求的信息非常明确。并且,与其它Web信息抽取方法相比,当一个新的领域中文词库建成之后,只要对本系统给出它的地址,那么本方法就可以基于新的中文词库进行Web信息抽取了,从而就扩展到新的领域。
文档编号G06F17/30GK102654873SQ20111005165
公开日2012年9月5日 申请日期2011年3月3日 优先权日2011年3月3日
发明者吴志祥 申请人:苏州同程旅游网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1