一种针对海量数据中查询词的搜索维度挖掘方法

文档序号:9766019阅读:600来源:国知局
一种针对海量数据中查询词的搜索维度挖掘方法
【技术领域】
[0001 ]本发明设及一种针对海量数据中查询词的捜索维度挖掘方法。
【背景技术】
[0002] 目前,在我们之前的研究工作中,针对海量数据中查询词的捜索维度挖掘方法主 要有W下四个步骤:(1)在网页上根据文本、HTML标签、重复区域等模式,抽取词项列表 化ist); (2)对词项列表进行打分,评估词项列表的重要性;(3)将相似的词项列表进行合并 形成一个查询维度;(4)计算不同的查询分面、词项列表的重要性;上述方案主要存在如下 问题:没有重复区域W及HTML标签的网页有很多(新闻数据、微博博文等),现有方法对于运 些数据并不适用,尤其是新闻数据,抽取到的词项列表会很少,或抽不到。
[0003] 因此,如何解决上述问题成为本领域技术人员亟需解决的技术问题。

【发明内容】

[0004] 针对【背景技术】中存在的问题,本发明的目的在于提供一种针对海量数据中查询词 的捜索维度挖掘方法,该方法可W获得更多有效的词项列表,在得到补充后的词项列表之 后,对新的词项列表进行打分,将相似的词项列表进行合并分类,计算不同的查询分面、词 项列表的重要性,最终使得挖掘出的查询维度更加完善,使得用户可W获得更为完整的信 息。
[0005] 本发明的目的是通过W下技术方案来实现的:
[0006] -种针对海量数据中查询词的捜索维度挖掘方法,所述方法包括如下步骤:
[0007] 1)词项列表抽取:基于文本、HTML标签或重复区域模式,从抓取到的数据集中的每 一个网页中抽取Lists;
[000引2)增加抽取机制,W实现对步骤1)中抽取到的Lists进行有效性扩充;
[0009] 3)词项列表打分:评估抽取出来的每一个List的重要性;
[0010] 4)词项列表聚类:将相似的词项列表进行合并形成一个查询维度;
[0011] 5)查询维度及词项列表的排序:计算不同的查询分面、词项的重要性。
[0012] 进一步,所述步骤2)具体为:
[0013] (1)对于每个新闻捜索词,在捜索引擎中爬取相关的新闻数据K条作为数据集;
[0014] (2)对爬取到的每个文档抽取出其中的文本;
[0015] (3)对每个文档的数据进行处理,抽取出同一句话、同一个段落或同一个章节中的 人名抽取出来作为一个List、地名抽取出来作为一个List、机构名抽取出来作为一个List;
[0016] (4)对步骤(3)中抽取出的List进行过滤。
[0017] 进一步,所述步骤(3)中对于中文的人名、地名、机构名的抽取,首先使用工具 nlpir汉语分词系统对中文文本进行分词,分词后便可W得到人名、地名和机构名;对于英 文的人名、地名、机构名的抽取,使用斯坦福大学的命名实体识别器识别人名,地名,机构 名。
[0018] 进一步,所述步骤(4)具体为:
[0019] a)爬取步骤(3)抽出的List中每个词项在Wikipedia中的网页,并获得该List中每 个词项的"分类"属性集;
[0020] b)将List中每个词项的"分类"属性集求并集,得到一个大的分类属性集C;
[0021] C)遍历C中的每个分类,对于每个分类,将该List中包含该分类的词项放一起,如 果该分类中的词项超过=个,则组成一个新的List,将词项不足=个的List舍弃;
[0022] d)步骤C)循环结束之后可W得到一系列Lists,并且每个List都是根据一个分类 属性得到的;
[0023] e)对于L i S t S中的每个新的L i S t,利用i壯信息对抽出的L i S t进行评分;
[0024] f)选择一个评分最高的List作为最终的List。
[0025] 进一步,所述步骤e)中的i壯计算公式为:i壯=(N-n+0.5)/(n+0.5);其中,其中N 是Wikipedia中包含的总共的item数目,n表示Li St所根据的分类属性在Wikipedia中包含 的词条总数。
[0026] 进一步,所述步骤e)中利用idf信息对抽出的LiSt进行评分的计算公式为:Score = length*i壯,其中length表示List的长度。
[0027] 进一步,所述步骤2)具体为:将同一句话、同一段落或同一篇新闻中的实体词抽取 出来作为一个List;然后对抽取到的List利用Wikipedia进行过滤处理。
[0028] 本发明具有W下积极的技术效果:
[0029] 本发明的方法可W获得更多有效的词项列表,在得到补充后的词项列表之后,对 新的词项列表进行打分,将相似的词项列表进行合并分类,计算不同的查询分面、词项列表 的重要性,最终使得挖掘出的查询维度更加完善,使得用户可W获得更为完整的信息。
【附图说明】
[0030] 图1是本发明的实施例中使用的新闻数据示例;
[0031 ]图2a是"北京"词项在Wikipedia中的分类属性信息;
[0032] 图化是"上海"词项在Wikipedia中的分类属性信息;
[0033] 图2c是"中国"词项在Wikipedia中的分类属性信息;
[0034] 图3是捜索词"成龙"在Wikipedia中分类属性信息。
【具体实施方式】
[0035] 下面结合附图对本申请作进一步的说明。
[0036] 随着互联网的快速发展,互联网的信息量越来越大,用户面对五花八口的信息,用 户往往很难快速地得到想要的信息。为了方便用户快速得到想要的信息,我们对大量的检 索信息进行处理,根据信息的查询维度进行分类,再呈现给用户,查询维度是用来描述一个 查询词某一个重要的方面的一系列词语,运一系列词语是一组语义相关的并列词项,在本 发明中被称为词项列表化1st)。例如手表,可W将检索到的大量信息按照品牌,特征,性能, 型号等查询维度进行分类,一部电视剧"Lost"可W按照每个季中的剧集,演员,剧中的角 色,剧情等维度进行分类,查询词"花",则可W有花的用处,种类,颜色等维度进行分类,表 一是一些查询词的查询维度的示例。如果能将互联网上与查询词相关的信息按照维度分 类,那么用户可W很方便的在互联网上根据查询词的维度快速地找到相应的信息。而本文 的工作就是挖掘出查询词的查询维度。
[0037] 在将检索到的信息按照维度分类的过程中,目前主要是针对网络上的查询词,得 至幢询维度,有W下四个处理过程(1)在网页上根据文本、HTML标签、重复区域等模式,抽取 词项列表化ist); (2)对词项列表进行打分,评估词项列表的重要性;(3)将相似的词项列表 进行合并形成一个查询维度;(4)计算不同的查询分面、词项列表的重要性。在第一步抽取 词项列表的过程中,原有的方法是根据文本、HTML标签、重复区域等模式抽取网页数据中的 List的,然而没有重复区域W及HTML标签的网页有很多(新闻数据、微博博文等),原来的方 法对于运些数据并不适用,尤其是新闻数据。本文W新闻数据为例,新闻数据中大部分是 纯文本信息,原来的抽取方法在运里很难抽取到合适的词项列表,而本文更有针对性地考 虑新闻数据的特征,在原有的抽取词项列表的方法的基础上加 W改进,针对新闻数据增加 一些抽取机制,对原有方法的抽取到的词项列表进行有效地扩充。
[0038] 本发明主要考虑了新闻数据的特征,主要做了 W下=个方面的改进:(1)人名、地 名、机构名:新闻数据中人物、地点之类的名词频繁出现,而且运类名词在新闻数据中很重 要,并且同一句话、同一个段落或同一篇新闻中出现的人名、地名、机构名很可能相关,可W 作为词项列表化ists)对原有的Lists进行扩充;(2)wikipedia过滤:对于问题(1)中的人 名、地名、机构名利用Wikipedia进行过滤处理,将同一个段落中的描述查询维度更加合适 的词项作为新的List,将不合适的词语从List中删除;(3)entity linking:考虑新闻数据 中,同一个段落中的实体词(实体词,运里指的是在Wikipedia中可W捜到的词项)意义很可 能相关,很可能可W用来描述同一个查询维度,考虑将同一个段落中的实体词作为一个 List,然后利用Wikipedia过滤处理后得到的新Lists。本发明主要通过考虑W上S个方面 的问题,一次做实验,抽取到新的Lists之后,用原来的打分方法对新得到的Lists进行打 分,再将相似的Lists合并到一起形成一个查询维度,最后再计算不同的查询分面、词项的 重要性。
[0039] 在新闻数据中,结构化的语句W及含有重复区域模式的很少,如果按照结构化的 语句抽取的话,只能抽取到很少或抽取不到东西,比如,根据图1中的资料,按照原来的抽取 方式,就抽取不到List。但是考虑到在新闻数据中,人物、地点是新闻中很重要的信息,而且 频繁出现,本实施例将新闻数据中的人名抽取出来作为一个List、地名抽取出来作为一个 Li St、机构名抽取出来作为一个Li St,对原有方法的抽取词项列表进行扩充。
[0040] 本发明主要考虑W下=种方案:
[0041] 方案一、将同一句话中的人名抽取出来作为一个List、地名抽取出来作为一个 List、机构名抽取出来作为一个List。
[0042] 方案二、将同一段落中的人名抽取出来作为一个List、地名抽取出来作为一个 List、机构名抽取出来作为一个List。
[0043] 方案=、将同一篇新闻中的人名抽取出来作为一个List、地名抽取出来作为一个 List、机构名抽取出来作为一个List。
[0044]本实施例主要介绍方案二的处理方法,对于方案一和方案立,与方案二类似。
[0045]对于方案二,出现在同一个段落中的人名、地名、机构名等信息很可能有很大的关 联。W图一为例,第一段中,"张外龙,郑又荣,米洛维奇"同时出现在同一段落,第二段中"马 下内斯,部林"同时出现在同一段落,他们都是足球运动员,他们是一些语义相关的并列词 项,很适合放到查询维度中,所W我们可W将运些很相关的信息抽取出来作为List。本发明 中,我们考虑将同一段落的人名、地名、机构名放一起作为分别一个List,表一是加入抽取 人名、地名、机构名之后根据运段文字抽取到的Lists,但是只有List长度超过3才会保留, 所W最终抽取到的List是前两个。
[0046] 具体的抽取方法如下:
[0047] (1)对于每个新闻捜索词,在捜索引擎中爬取相关的新闻数据K条作为数据集。
[0048] (2)对爬取到的每个文档抽取出其中的文本。
[0049] (3)对每个文档中的每个段落进行处理,抽取出每个段落中的人名作为一个List、 地名抽取出来作为一个List、机构名抽取出
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1