一种针对海量数据中查询词的搜索维度挖掘方法

文档序号：9766019阅读：600来源：国知局

一种针对海量数据中查询词的搜索维度挖掘方法
【技术领域】
[0001 ]本发明设及一种针对海量数据中查询词的捜索维度挖掘方法。
【背景技术】
[0002] 目前，在我们之前的研究工作中，针对海量数据中查询词的捜索维度挖掘方法主要有W下四个步骤：（1)在网页上根据文本、HTML标签、重复区域等模式，抽取词项列表化ist); (2)对词项列表进行打分，评估词项列表的重要性；（3)将相似的词项列表进行合并形成一个查询维度；（4)计算不同的查询分面、词项列表的重要性;上述方案主要存在如下问题:没有重复区域W及HTML标签的网页有很多(新闻数据、微博博文等），现有方法对于运些数据并不适用，尤其是新闻数据，抽取到的词项列表会很少，或抽不到。
[0003] 因此，如何解决上述问题成为本领域技术人员亟需解决的技术问题。

【发明内容】

[0004] 针对【背景技术】中存在的问题，本发明的目的在于提供一种针对海量数据中查询词的捜索维度挖掘方法，该方法可W获得更多有效的词项列表，在得到补充后的词项列表之后，对新的词项列表进行打分，将相似的词项列表进行合并分类，计算不同的查询分面、词项列表的重要性，最终使得挖掘出的查询维度更加完善，使得用户可W获得更为完整的信息。
[0005] 本发明的目的是通过W下技术方案来实现的：
[0006] -种针对海量数据中查询词的捜索维度挖掘方法，所述方法包括如下步骤：
[0007] 1)词项列表抽取:基于文本、HTML标签或重复区域模式，从抓取到的数据集中的每一个网页中抽取Lists;
[000引2)增加抽取机制，W实现对步骤1)中抽取到的Lists进行有效性扩充；
[0009] 3)词项列表打分:评估抽取出来的每一个List的重要性；
[0010] 4)词项列表聚类:将相似的词项列表进行合并形成一个查询维度；
[0011] 5)查询维度及词项列表的排序:计算不同的查询分面、词项的重要性。
[0012] 进一步，所述步骤2)具体为：
[0013] (1)对于每个新闻捜索词，在捜索引擎中爬取相关的新闻数据K条作为数据集；
[0014] (2)对爬取到的每个文档抽取出其中的文本；
[0015] (3)对每个文档的数据进行处理，抽取出同一句话、同一个段落或同一个章节中的人名抽取出来作为一个List、地名抽取出来作为一个List、机构名抽取出来作为一个List;
[0016] (4)对步骤(3)中抽取出的List进行过滤。
[0017] 进一步，所述步骤（3)中对于中文的人名、地名、机构名的抽取，首先使用工具 nlpir汉语分词系统对中文文本进行分词，分词后便可W得到人名、地名和机构名；对于英文的人名、地名、机构名的抽取，使用斯坦福大学的命名实体识别器识别人名，地名，机构名。
[0018] 进一步，所述步骤(4)具体为：
[0019] a)爬取步骤(3)抽出的List中每个词项在Wikipedia中的网页，并获得该List中每个词项的"分类"属性集；
[0020] b)将List中每个词项的"分类"属性集求并集，得到一个大的分类属性集C;
[0021] C)遍历C中的每个分类，对于每个分类，将该List中包含该分类的词项放一起，如果该分类中的词项超过=个，则组成一个新的List,将词项不足=个的List舍弃；
[0022] d)步骤C)循环结束之后可W得到一系列Lists,并且每个List都是根据一个分类属性得到的；
[0023] e)对于L i S t S中的每个新的L i S t，利用i壯信息对抽出的L i S t进行评分；
[0024] f)选择一个评分最高的List作为最终的List。
[0025] 进一步，所述步骤e)中的i壯计算公式为：i壯=(N-n+0.5)/(n+0.5);其中，其中N 是Wikipedia中包含的总共的item数目，n表示Li St所根据的分类属性在Wikipedia中包含的词条总数。
[0026] 进一步，所述步骤e)中利用idf信息对抽出的LiSt进行评分的计算公式为：Score = length*i壯，其中length表示List的长度。
[0027] 进一步，所述步骤2)具体为:将同一句话、同一段落或同一篇新闻中的实体词抽取出来作为一个List;然后对抽取到的List利用Wikipedia进行过滤处理。
[0028] 本发明具有W下积极的技术效果：
[0029] 本发明的方法可W获得更多有效的词项列表，在得到补充后的词项列表之后，对新的词项列表进行打分，将相似的词项列表进行合并分类，计算不同的查询分面、词项列表的重要性，最终使得挖掘出的查询维度更加完善，使得用户可W获得更为完整的信息。
【附图说明】
[0030] 图1是本发明的实施例中使用的新闻数据示例；
[0031 ]图2a是"北京"词项在Wikipedia中的分类属性信息；
[0032] 图化是"上海"词项在Wikipedia中的分类属性信息；
[0033] 图2c是"中国"词项在Wikipedia中的分类属性信息；
[0034] 图3是捜索词"成龙"在Wikipedia中分类属性信息。
【具体实施方式】
[0035] 下面结合附图对本申请作进一步的说明。
[0036] 随着互联网的快速发展，互联网的信息量越来越大，用户面对五花八口的信息，用户往往很难快速地得到想要的信息。为了方便用户快速得到想要的信息，我们对大量的检索信息进行处理，根据信息的查询维度进行分类，再呈现给用户，查询维度是用来描述一个查询词某一个重要的方面的一系列词语，运一系列词语是一组语义相关的并列词项，在本发明中被称为词项列表化1st)。例如手表，可W将检索到的大量信息按照品牌，特征，性能，型号等查询维度进行分类，一部电视剧"Lost"可W按照每个季中的剧集，演员，剧中的角色，剧情等维度进行分类，查询词"花"，则可W有花的用处，种类，颜色等维度进行分类，表一是一些查询词的查询维度的示例。如果能将互联网上与查询词相关的信息按照维度分类，那么用户可W很方便的在互联网上根据查询词的维度快速地找到相应的信息。而本文的工作就是挖掘出查询词的查询维度。
[0037] 在将检索到的信息按照维度分类的过程中，目前主要是针对网络上的查询词，得至幢询维度，有W下四个处理过程(1)在网页上根据文本、HTML标签、重复区域等模式，抽取词项列表化ist); (2)对词项列表进行打分，评估词项列表的重要性；（3)将相似的词项列表进行合并形成一个查询维度；（4)计算不同的查询分面、词项列表的重要性。在第一步抽取词项列表的过程中，原有的方法是根据文本、HTML标签、重复区域等模式抽取网页数据中的 List的，然而没有重复区域W及HTML标签的网页有很多（新闻数据、微博博文等），原来的方法对于运些数据并不适用，尤其是新闻数据。本文W新闻数据为例，新闻数据中大部分是纯文本信息，原来的抽取方法在运里很难抽取到合适的词项列表，而本文更有针对性地考虑新闻数据的特征，在原有的抽取词项列表的方法的基础上加 W改进，针对新闻数据增加一些抽取机制，对原有方法的抽取到的词项列表进行有效地扩充。
[0038] 本发明主要考虑了新闻数据的特征，主要做了 W下=个方面的改进：（1)人名、地名、机构名：新闻数据中人物、地点之类的名词频繁出现，而且运类名词在新闻数据中很重要，并且同一句话、同一个段落或同一篇新闻中出现的人名、地名、机构名很可能相关，可W 作为词项列表化ists)对原有的Lists进行扩充；（2)wikipedia过滤：对于问题（1)中的人名、地名、机构名利用Wikipedia进行过滤处理，将同一个段落中的描述查询维度更加合适的词项作为新的List,将不合适的词语从List中删除；（3)entity linking:考虑新闻数据中，同一个段落中的实体词(实体词，运里指的是在Wikipedia中可W捜到的词项)意义很可能相关，很可能可W用来描述同一个查询维度，考虑将同一个段落中的实体词作为一个 List,然后利用Wikipedia过滤处理后得到的新Lists。本发明主要通过考虑W上S个方面的问题，一次做实验，抽取到新的Lists之后，用原来的打分方法对新得到的Lists进行打分，再将相似的Lists合并到一起形成一个查询维度，最后再计算不同的查询分面、词项的重要性。
[0039] 在新闻数据中，结构化的语句W及含有重复区域模式的很少，如果按照结构化的语句抽取的话，只能抽取到很少或抽取不到东西，比如，根据图1中的资料，按照原来的抽取方式，就抽取不到List。但是考虑到在新闻数据中，人物、地点是新闻中很重要的信息，而且频繁出现，本实施例将新闻数据中的人名抽取出来作为一个List、地名抽取出来作为一个 Li St、机构名抽取出来作为一个Li St，对原有方法的抽取词项列表进行扩充。
[0040] 本发明主要考虑W下=种方案：
[0041] 方案一、将同一句话中的人名抽取出来作为一个List、地名抽取出来作为一个 List、机构名抽取出来作为一个List。
[0042] 方案二、将同一段落中的人名抽取出来作为一个List、地名抽取出来作为一个 List、机构名抽取出来作为一个List。
[0043] 方案=、将同一篇新闻中的人名抽取出来作为一个List、地名抽取出来作为一个 List、机构名抽取出来作为一个List。
[0044]本实施例主要介绍方案二的处理方法，对于方案一和方案立，与方案二类似。
[0045]对于方案二，出现在同一个段落中的人名、地名、机构名等信息很可能有很大的关联。W图一为例，第一段中，"张外龙，郑又荣，米洛维奇"同时出现在同一段落，第二段中"马下内斯，部林"同时出现在同一段落，他们都是足球运动员，他们是一些语义相关的并列词项，很适合放到查询维度中，所W我们可W将运些很相关的信息抽取出来作为List。本发明中，我们考虑将同一段落的人名、地名、机构名放一起作为分别一个List,表一是加入抽取人名、地名、机构名之后根据运段文字抽取到的Lists,但是只有List长度超过3才会保留，所W最终抽取到的List是前两个。
[0046] 具体的抽取方法如下：
[0047] (1)对于每个新闻捜索词，在捜索引擎中爬取相关的新闻数据K条作为数据集。
[0048] (2)对爬取到的每个文档抽取出其中的文本。
[0049] (3)对每个文档中的每个段落进行处理，抽取出每个段落中的人名作为一个List、地名抽取出来作为一个List、机构名抽取出

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：窦志成;文继荣;李谨秀;
技术所有人：中国人民大学;
我是此专利的发明人

上一篇：一种主题爬虫处理方法及装置的制造方法
上一篇：文字编码和译码方法、装置及电子设备的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。