可扩展的智能化互联网索引系统的制作方法

文档序号:6555431阅读:166来源:国知局
专利名称:可扩展的智能化互联网索引系统的制作方法
技术领域
本发明涉及对互联网资源进行自动收集和建立索引的机制,特别涉及一种可扩展的智能化互联网索引系统。
背景技术
随着互联网上信息的增长,人们越来越重视对互联网上信息的索引,进而才能实现高效的查询和检索。互联网(Internet)包含了万维网(WWW)和局域网等,有多种通讯协议(如HTTP、FTP、文件等)和多种类型的内容(如Web页面、文件、音乐、电影等)。常见的Web搜索引擎(如Google、Baidu等)实现了一种对万维网页面内容的全文文本索引,并提供该索引的查询服务。对互联网进行索引通常需要以下几个步骤1,获取互联网上的内容;2,解析出内容中的文本;3,对内容中的文本建立全文索引。
对索引的查询则基于对全文索引的字符匹配技术。
常见的搜索引擎以网络爬虫软件来完成获取内容的过程,网络爬虫(Crawler)是一种在网络上对分布式资源进行自动收集的软件,主要应用在以下几个方面
为搜索引擎对万维网上的网页资源进行索引提供网页来源;协助特定用户收集特定的网页集;协助人们进行对互联网现状的进行统计分析,等等;随着社会的发展和技术的进步,人们对互联网检索提出了更高的要求,例如需要一种能根据搜索结果自动聚合话题的搜索系统、一种能够对企业局域网内分布的各种文件进行检索的系统、一种能够将内容自动分类的搜索系统等。然而,目前的搜索引擎和其他软件产品都不能很好的满足这些需求,因此发明一种智能的互联网索引系统是当前需要的。

发明内容
本发明的目的是解决前述互联网检索存在的不足,提供一种可扩展的智能化互联网索引系统。
该系统由基础层、功能层、逻辑层和数据文件构成,其中基础层设置有存储器、算法器和事件捕获器;功能层有传感器、解折器、清洗器和下载器;逻辑层有网络爬虫器、搜索器和索引器。
存储器用于存放如下信息的全部或部分获取内容的原始信息、清洗过的内容、代表该内容意义的表达式、内容的关键词、内容的摘要、内容的分类信息、内容的聚类信息、传感器的记录、附加信息(更新时间、链接数量等)和索引信息。存储器可以基于任何一种文件系统、数据系统或其他存储媒体。
算法库提供了该方法所需要的所有算法的实现,其中包括中文自然语言理解方面的算法,如分类器、聚类器、关键词提取器、摘要器等。
事件监控器负责监控和记录所有系统事件、错误。下载器自动选择合适的协议获取内容。
清洗器对内容进行清洗,包括去除重复内容、清除可能存在的广告、去掉无用的内容等。
解析器分析清洗过的内容,获得能代表该内容意义的表达式,该表达式可能是但不仅限于解析出的文本;对图形、音乐或影片提取的特征集合。
传感器是对特定内容做出反应的部件。
索引器是内容进行索引的部件。
网络爬虫是网络内容进行收集的程序。
搜索器,接受查询请求返回搜索结果的部件。
根据基础层、功能层、逻辑层软件结构,本发明的索引方法是(1)有内容需要处理?若没有,则结束;(2)若有内容要处理,则获取内容;(3)检该查内容是否更新?若未更新,则计算下次更新时间;(4)若该内容已更新,则清洗该内容;(5)解折该内容;(6)提取关键词;(7)提取摘要;(8)自动分类;
(9)自动聚类;(10)传感器检测;(11)计算下次更新时间;(12)存储内容及附加信息;(13)添加或更新索引;(14)等待指定时间;(15)返回到(1)。
其中获取需要处理的内容方法是(1)得到待获取内容的URI;(2)分折URI,先择合适的下载器;(3)选择HTTP下载器、FTP下载器、文件下载器或扩展下载器;(4)下载并保存内容的全部或部份;(5)结束。
其中解折内容的方法是(1)得到待清洗的内容;(2)根据内容类型选择合适的分折器;(3)选择HTML分折器、WORD分折器、PDF分折器或扩展分折器;(4)根据分折器,分别去除HTML标签获取Title内容、去除Word格式信息,获取正文、提取PDF文本内容或清除无用信息获取内容表达式;(5)将内容切分词语;
(6)结束。
其中提取关键词的方法是(1)得到内容的词语切分形式;(2)对词语出现次数进行统计;(3)去掉出现次数过高的和过低的词语;(4)根据词表对每个词语进行打分;(5)将得分最高的若干个词语作为该内容关键词。
其中提取内容摘要的方法是(1)得到内容的词语切分形式;(2)取出包含关键词的句子;(3)对每个句子中的所有词语打分;(4)将句子中所有词语的总分作为该句子的得分;(5)将所有句子按照得分从高到低排序;(6)将第一个句子输出作为摘要;(7)摘要字数达到要求?若是,则结束;(8)若不是,将下一个句子添加到摘要。
其中自动分类的工作方法是(1)得到待分类的内容;(2)提取该内容的分类特征;(3)对比已有分类的特征,找到匹配的所有分类;(4)输出匹配的分类;(5)结束。
其中聚类器的工作方法是(1)得到待聚类的内容的词语切分形式;(2)据词表将该内容矢量化;(3)找到与簇中心矢量夹角最小且夹角超过最小值的已有簇;(4)有夹角超过最小值的已有簇?(5)若是,加入该簇并更新该簇的中心;(6)若不是,创建新簇,并以该内容的矢量作为该簇中心;(7)结束。
其中对传感器进行检测的方法是(1)得到待传感器检测的内容;(2)将内容送达每个传感器;(3)关键词传感器1、关键词传感器2、相似内容传感器或扩展传感器;(4)对于关键词传感器,如果包含指定关键词则警报;(5)如果包含指定关键词则警报;(6)对于相似内容传达室感受器,为相似内容则警报;(7)对于其他传达室感器,满足警报条件则发出警报;(8)汇总警报输出;(9)结束。
其中对内容建立或更新索引的工方法是(1)得到待索引内容的词语切分形式;(2)建立该内容的Term列表;
(3)建立该内容与这些Term的映射关系;(4)保存或更新Term及映射关系(5)结束。
其中查询索引的方法是(1)得到待检索的查询请求;(2)将查询请求分解为Term;(3)根据Term与内容的映射关系找到相关内容;(4)输出符合要求的内容(5)结束。
一般通过建立的索引来查询符合条件的内容,该过程包含如下几个步骤的全部或部分1.按照一定顺序获取互联网上的内容;2.清洗获取的内容包括去除重复内容、清除可能存在的广告、去掉无用的内容等;3.分析清洗过的内容,获得能代表该内容意义的表达式,该表达式可能是但不仅限于解析出的文本;对图形、音乐或影片提取的特征集合;4.根据内容和表达式对内容进行关键词提取,取出指定个数的关键词;5.根据内容和表达式对内容进行摘要,获取较为简短的摘要性内容;6.根据内容和表达式对内容进行分类,如果该分类代表一个话题或主题,则表示该内容属于此话题或主题;
7.根据内容和表达式对内容进行聚类,将内容集合聚集成指定个数的簇,或将内容与已经形成的簇进行对比,加入某个簇或形成新的簇;8.将内容提交给传感器检测;9.对内容进行评价并决定下一次检查是否更新的时间;10.存储内容及附加信息(包括关键词、主题、簇、传感器输出等);11.为内容建立索引;12.在一定时间后检查内容是否发生了变化并更新存储的内容、索引及附加信息;本发明的扩展性体现在如下几个方面算法库中的算法可以定制并在运行时改变;存储器可以定制并在运行时改变,以适应各种存储需求,如文件、数据库等;事件捕获器可以定制并在运行时改变,可以将事件提供给实时监控的部件或者记录到指定存储部件;下载器可以扩展以适应更多的传输协议;解析器可以扩展以解析更多格式的内容;传感器可以扩展并在运行时改变,以对特定内容做出反应;索引器可以扩展,以支持更多的索引存储方式,如文件、数据库等;爬虫可以扩展并在运行时改变,以支持更多的内容获取策略;本发明的智能化体现在如下几个方面在处理前对内容进行清洗,以获得更好的效果;
自动提取内容关键词,使得内容可以按照相同关键词关联;对内容进行分类,以进行分类、主题或垂直搜索;对内容进行聚类,以减少结果中的重复内容,并将相关内容合并到同一个条目中;在索引过程中,传感器可以立即对相关内容做出反应;获取内容的策略智能化,根据情况会立即更新,也可以根据内容的价值来计算更新检查的间隔时间。
本发明的优点是1,通用性。该方法和系统适用于各种网络索引需求,并可通过调整或更换部件来实现更多的功能。
2,如上说述的智能性。
3,如上所述的扩展性。


图1是本发明的逻辑部件框图,表明了系统的一般结构,其中的部件并不限于某一种特定技术或形式的实现。
图2是此系统的一种可能的物理部署结构图,表明了该系统在分布式环境下的部署结构。
图3是索引方法的总流程图,表明了该系统的处理步骤。
图4是一种下载器的流程图,表明了该系统下载内容的一种处理步骤。
图5是一种分析器的流程图,表明了该系统分析内容的一种处理步骤。
图6是一种关键词提取器的流程图,表明了该系统提取关键词的一种处理步骤。
图7是一种摘要器的流程图,表明了该系统提取内容摘要的一种处理步骤。
图8是一种分类器的流程图,表明了该系统对内容进行自动分类的一种处理步骤。
图9是一种聚类器的流程图,表明了该系统对内容进行自动聚类的一种处理步骤。
图10是一种传感器的流程图,表明了该系统对内容进行传感器检测的一种处理步骤。
图11是一种建立和更新索引的流程图,表明了该系统对内容建立或更新索引的一种处理步骤。
图12是一种查询索引的流程图,表明了该系统对索引进行查询时的一种处理步骤。
具体的实施方式参照图3所示的流程,在本实施例中,系统启动后维持一个循环,直到没有需要处理的内容结束。该流程基于图1所示的系统来实现,具体说明如下如图1,系统由101逻辑层、102功能层、103基础层三个逻辑层次构成,其中基础层103设置有存储器113、算法器112和事件捕获器111;功能层102有传感器110、解折器109、清洗器108和下载器107;逻辑层101有网络爬虫器104、搜索器105和索引器106构成。其中基础层103提供系统运行的基础支持,功能层102提供系统运行的低层功能实现,逻辑层101提供系统的高层功能实现。这三个层次仅用于更好的理解各模块的关系,不对系统行为和结构产生影响。数据文件囊括了系统运行所需要的所有数据文件,在本实施例中数据文件包括三个词表,在提取关键词及摘要时需要对词语打分,该词表存储了分值;常用词库,在提取关键词时需要去掉频度特别高的常用词,这些词存在常用词库中;分类特征库,存储每个分类的特征。
请参阅附图3启动后,判断是否有需要处理的内容,判断依据为存储器所存储的数据,并可能通过搜索器来进行检索。
如有需要处理的内容,则进入301获取内容流程,系统通过调用合适的下载器下载指定的内容;如图4所示,本实施例根据内容的URI来判断传输协议,并选择相应的下载器,特定的下载器用各自的方式下载内容的全部或部分。如对于″http://www.sina.com.cn″的内容,系统选择根据URI判断选择HTTP下载器,并获得HTML字符串作为内容返回。
获取到内容的全部或部分后,检查内容自从上次系统访问后是否更新过,如果已经更新,则将内容完全下载并将下载到的内容传递到302清洗内容,否则转向309;302清洗内容流程通过清洗器来清洗301传递过来的内容,并将结果传递给303解析内容,其中可能调用多个清洗器,并使用混合策略来清洗各种内容,如广告和格式信息;如对于″http://www.sina.com.cn″的内容,系统将尝试去掉所有的广告。303解析内容通过调用合适的解析器从内容中解析出有意义的表达式,该表达式可能是但不仅限于解析出的文本;对图形、音乐或影片提取的特征集合,不同的解析器用于处理不同格式的内容;如图5所示,提取完毕后将内容切分为词语以供接下去的流程进一步处理。如″http://www.sina.com.cn″,系统将去掉所有HTML标签,并提取Title标签内的字符串作为内容的备用标题。
304提取关键词,通过调用算法库中的关键词提取器根据内容中选择合适的与该内容关联的词语,作为关键词;如图6所示,关键词作为内容的附加信息一并提供给接下去的流程。
305提取摘要,通过调用算法库中的算法从该内容中提取部分具有代表性的内容,作为摘要;如图7所示,摘要作为内容的附加信息一并提供给接下去的流程。
306自动分类,通过调用算法库中的算法对内容进行分类,将其关联到相关的类别,可能不止一个类别;如图8所示,分类作为内容的附加信息一并提供给接下去的流程。
307自动聚类,通过调用算法库中的算法将相关内容归并到一个簇当中;如图9所示,簇信息作为内容的附加信息一并提供给接下去的流程。
308传感器检测,将内容提交给系统中的所有传感器,每个做出反应的传感器将会通知事件捕获器111该内容的相关信息;如图10所示。
309计算下次更新时间,通过调用算法库中的算法,根据该内容以往更新的记录来预计下次变化的时间;310存储内容及附加信息,将内容本身及上述过程中产生的附加信息存储到存储器;311建立或更新索引,通过搜索器查询,如果该内容未在索引中,则将其添加进索引,否则更新已存在的索引,添加及更新均由索引器完成;312等待指定时间,网络爬虫会在指定时间,通常为309中所计算的下次更新时间再次获取该内容并检查其是否已经更新。
309计算下次更新时间;310存储内容及附加信息;311添加或更新索引;312等待指定时间。
图2所示为一种该系统的物理部署图,可以有多台应用程序服务器,且存储部分可以为分布式,并根据存储信息不同而分为不同的服务器或服务器集群,也可以根据情况将多个程序部属在同一台服务器上。本实施例中存储器分作四个集群,分别是202内容服务器,存储内容和附加信息;203索引服务器,存储内容的索引;204主机存储器,存储网络中所有被访问过的主机;205网站存储器,存储网络中所有被访问过的网站,其中网站指的是内容的集合。206监视器与系统中的事件捕获器联合工作,获取系统中的相关信息。
权利要求
1.一种可扩展的智能化互联网索引系统,其特征在于该系统由基础层、功能层、逻辑层和数据文件构成,其中基础层设置有存储器、算法器和事件监控器;功能层有传感器、解折器、清洗器和下载器;逻辑层有网络爬虫器、搜索器和索引器构成。
2.按权利要求1所述的可扩展的智能化互联网索引系统的索引方法,其特征在于该方法的步骤是(1)有内容需要处理?若没有,则结束;(2)若有内容要处理,则获取内容;(3)检该查内容是否更新?若未更新,则计算下次更新时间;(4)若该内容已更新,则清洗该内容;(5)解折该内容;(6)提取关键词;(7)提取摘要;(8)自动分类;(9)自动聚类;(10)传感器检测;(11)计算下次更新时间;(12)存储内容及附加信息;(13)添加或更新索引;(14)等待指定时间;(15)返回到(1)。
3.按权利要求2所述的可扩展的智能化互联网索引系统的索引方法,其特征在于获取需要处理的内容步骤是(1)得到待获取内容的URI;(2)分折URI,先择合适的下载器;(3)选择HTTP下载器、FTP下载器、文件下载器或扩展下载器;(4)下载并保存内容的全部或部份;(5)结束。
4.按权利要求2所述的可扩展的智能化互联网索引系统的索引方法,其特征在于解折内容的步骤是(1)得到待清洗的内容;(2)根据内容类型选择合适的分折器;(3)选择HTML分折器、WORD分折器、PDF分折器或扩展分折器;(4)根据分折器,分别去除HTML标签获取Title内容、去除Word格式信息,获取正文、提取PDF文本内容或清除无用信息获取内容表达式;(5)将内容切分词语;(6)结束。
5.按权利要求2所述的可扩展的智能化互联网索引系统的索引方法,其特征在于提取关键词的步骤是(1)得到内容的词语切分形式;(2)对词语出现次数进行统计;(3)去掉出现次数过高的和过低的词语;(4)根据词表对每个词语进行打分;(5)将得分最高的若干个词语作为该内容关键词。
6.按权利要求2所述的可扩展的智能化互联网索引系统的索引方法,其特征在于提取内容摘要的步骤是(1)得到内容的词语切分形式;(2)取出包含关键词的句子;(3)对每个句子中的所有词语打分;(4)将句子中所有词语的总分作为该句子的得分;(5)将所有句子按照得分从高到低排序;(6)将第一个句子输出作为摘要;(7)摘要字数达到要求?若是,则结束;(8)若不是,将下一个句子添加到摘要。
7.按权利要求2所述的可扩展的智能化互联网索引系统的索引方法,其特征在于自动分类的工作步骤是(1)得到待分类的内容;(2)提取该内容的分类特征;(3)对比已有分类的特征,找到匹配的所有分类;(4)输出匹配的分类;(5)结束。
8.按权利要求2所述的可扩展的智能化互联网索引系统的索引方法,其特征在于聚类器的工作步聚是(1)得到待聚类的内容的词语切分形式;(2)根据词表将该内容矢量化;(3)找到与簇中心矢量夹角最小且夹角超过最小值的已有簇;(4)有夹角超过最小值的已有簇?(5)若是,加入该簇并更新该簇的中心;(6)若不是,创建新簇,并以该内容的矢量作为该簇中心;(7)结束。
9.按权利要求2所述的可扩展的智能化互联网索引系统的索引方法,其特征在于对传感器进行检测的工作步聚是(1)得到待传感器检测的内容;(2)将内容送达每个传感器;(3)关键词传感器1、关键词传感器2、相似内容传感器或扩展传感器;(4)对于关键词传感器,如果包含指定关键词则警报;(5)如果包含指定关键词则警报;(6)对于相似传感受器,为相似内容则警报;(7)对于其他传感器,满足警报条件则发出警报;(8)汇总警报输出;(9)结束。
10.按权利要求2所述的可扩展的智能化互联网索引系统的索引方法,其特征在于对内容建立或更新索引的工作步聚是(1)得到待索引内容的词语切分形式;(2)建立该内容的Term列表;(3)建立该内容与这些Term的映射关系;(4)保存或更新Term及映射关系(5)结束。
11.按权利要求2所述的可扩展的智能化互联网索引系统的索引方法,其特征在于查询索引的工作步聚是(1)得到待检索的查询请求;(2)将查询请求分解为Term;(3)根据Term与内容的映射关系找到相关内容;(4)输出符合要求的内容(5)结束。
全文摘要
为解决目前互联网检索存在的不足,本发明提供一种可扩展的智能化互联网索引系统;该系统由基础层、功能层、逻辑层和数据文件软件模块构成,按照一定顺序获取互联网上的内容;清洗获取的内容分析清洗过的内容,获得能代表该内容意义的表达式;根据内容和表达式对内容进行关键词提取,根据内容和表达式对内容进行摘要,根据内容和表达式对内容进行分类;根据内容和表达式对内容进行聚类,将内容集合聚集成指定个数的簇,或将内容与已经形成的簇进行对比;将内容提交给传感器检测;本发明优点是通用性,智能性和扩展性,适用于各种网络索引需求,并可通过调整或更换添加部件来实现更多的功能。
文档编号G06F17/30GK1920814SQ20061002638
公开日2007年2月28日 申请日期2006年5月9日 优先权日2006年5月9日
发明者邱致中, 沈超 申请人:上海态格文化传播有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1