一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法

文档序号:6623057阅读:273来源:国知局
一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法
【专利摘要】本发明公开了一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法,包括商家信息和团购信息自动搜索聚合单元,商家类别的本体知识库的创建单元,获取待分类商家信息单元,商家信息纠错词库的创建及信息纠错单元,商家信息自动分类单元。商家信息和团购信息自动搜索聚合单元用于搜索聚合商家信息;商家类别的本体知识库的创建单元,用于未分类商家信息的分类过程;获取待分类商家信息单元,用于大范围获取未分类商家信息;商家信息纠错词库的创建及信息纠错单元,用于将识别错误的商家信息进行纠错;商家信息自动分类单元,用于自动获取商家信息的正确类别。本发明实施起来更方便高效,信息更准确。
【专利说明】一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法

【技术领域】
[0001]本发明涉及一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统,属于互联网及图像识别【技术领域】。

【背景技术】
[0002]目前,互联网中各种商家网站,团购网站,信息数量众多,类型也是错综复杂,没有一个统一的分类标准,消费者想要找到自己需要的商品,而又不知道它属于什么类别,就要从一个个网站中寻找,例如大众点评网的商品就有高达9种类别,美团网的商品也有8种之多,每一个网站的分类标准不一样,就会使商品放在不同类别网页中,而消费者往往需要点击完这个网站后,还要打开另一个网站,找到自己商品所在网页,往往需要点击十几次甚至数十次,而互联网中出现的某些团购汇总网站,往往信息不够全面,甚至屡屡出现出现的商品和商品所对应的的类别差别巨大的错误。我们迫切需要一种可以大量搜索聚合互联网各主流商家团购网站,按照我们自己设定好的分类标准放置信息,做到精确,高效,一目了然。
[0003]搜索聚合大量的商家团购网站,必然会产生大量的商家信息,对于大量的商家信息,我们需要知道其中每一条信息所归属的类别,如果一条一条手动进行分类,这将是一个浩大的工程,也是不现实的,如果我们有属于自己的城市商家信息库,这将会产生事半功倍的效果,目前尚未有相关报道。


【发明内容】

[0004]本发明的技术解决问题:克服现有技术的不足,提供一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法,实现提高效率以及降低信息的复杂性。
[0005]本发明技术解决方案:一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统,包括:商家信息和团购信息自动搜索聚合单元,商家类别的本体知识库的创建单元,获取待分类商家信息单元,商家信息纠错词库的创建及信息纠错单元,商家信息自动分类单元;
[0006]商家信息和团购信息自动搜索聚合单元,自动搜索互联网上相关的热门网站,根据不同的网站,创建相应的网络爬虫框架,再根据需要确定所需要爬取的信息格式,信息所需要划分的类别以及存放信息的格式,同时进行定时设置,能够定时启动,定时更新数据;
[0007]商家类别的本体知识库的创建单元,根据商家信息和团购信息自动搜索聚合单元中所获取的数据,进行预处理,并存放入各个类别的文本文档中,然后使用Lucence为所有文档建立相应的索引;
[0008]获取商家信息单元,采用拍视频的方式获取一条街或一段路的一大片商家店名,也可以采用拍照片的方式获取商家店名,然后需要对视频进行切割,获取图片,进行图像识另IJ,得到相应的商家信息;
[0009]商家信息纠错词库创建及信息纠错单元,根据商家信息和团购信息自动搜索聚合单元所爬取的商家信息,以一定形式存储下来,形成纠错词库,再根据纠错词库进行图像识别,对识别出来的错误商家信息进行纠错,获取正确的商家信息;
[0010]商家信息自动分类单元,获取待分类的商家信息,然后对该信息进行分词处理,获取关键词集合,带入商家类别的本体知识库的创建单元所创建的本体知识库,根据其所创建的索引,计算关键词集合在各个类别文档中的相似度之和,该相似度计算采用的是基于动态规划算法的相似度计算,得到最大相似度之和对应的类别文档,该类别即为商家信息类别。
[0011]基于视频分析与搜索聚合的城市商铺信息库自动构建方法,步骤如下:
[0012](I)商家信息和团购信息自动搜索聚合步骤:自动搜索互联网上相关的热门网站,根据不同的网站,创建相应的网络爬虫框架,再根据需要确定所需要爬取的信息格式,信息所需要划分的类别以及存放信息的格式,同时进行定时设置,能够定时启动,定时更新数据;
[0013](2)商家类别的本体知识库的创建步骤:根据商家信息和团购信息自动搜索聚合步骤中所获取的数据,进行预处理,并存放入各个类别的文本文档中,然后使用Lucence为所有文档建立相应的索引;
[0014](3)获取商家信息步骤:采用拍视频的方式获取一条街或一段路的一大片商家店名,也可以采用拍照片的方式获取商家店名,然后需要对视频进行切割,获取图片,进行图像识别,得到相应的商家信息;
[0015](4)商家信息纠错词库创建及信息纠错步骤:根据商家信息和团购信息自动搜索聚合步骤所爬取的商家信息,以一定形式存储下来,形成纠错词库,再根据纠错词库进行图像识别,对识别出来的错误商家信息进行纠错,获取正确的商家信息;
[0016](5)商家信息自动分类步骤:获取待分类的商家信息,然后对该信息进行分词处理,获取关键词集合,带入商家类别的本体知识库的创建步骤所创建的本体知识库,根据其所创建的索引,计算关键词集合在各个类别文档中的相似度之和,该相似度计算采用的是基于动态规划算法的相似度计算,得到最大相似度之和对应的类别文档,该类别即为商家信息类别。
[0017]本发明与现有技术相比的优点在于:本发明通过对商家信息和团购信息的自动搜索爬取,聚合信息,用户可以用于科研,也可用于商用,例如进行排序找出正在热销商品,也可以通过热门商家地址找出黄金地段,找出规律等,构建用于商家分类的本体知识库,可以使信息分类更精确;获取商家正确信息单元,可以通过视频拍摄(也可以以拍照的方式)的方式将某一条街或路的商店名记录下来,然后进行视频切割,图像识别,将商店名一一识别出来;构建商家信息纠错字典库,可以将图片识别出来的错误的店名进行更正;商家信息自动分类,可以自动将商家信息归于一类,更具条理,一目了然,更易于人们接受,提高了信息的使用效率,也为开发者提供了便利。

【专利附图】

【附图说明】
[0018]图1为本发明的商家和团购信息自动搜索示意图;
[0019]图2为本发明中的商家信息的本体知识库的创建示意图;
[0020]图3为本发明中的获取待分类商家信息示意图;
[0021]图4为本发明中的商家信息纠错词库的创建及信息纠错示意图;
[0022]图5为本发明中的商家信息自动分类示意图;
[0023]图6为本发明的整个工作流程示意图。

【具体实施方式】
[0024]为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0025]下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围,本发明实例是基于Java编程语言实施的。
[0026]如图1所示,本发明实施例提供一种商家和团购信息的自动搜索聚合单元,包括自动搜寻商家和团购网站,确定信息格式,创建网络爬虫框架并进行定时爬取数据,对数据进行去重合并处理,更新数据库:
[0027]首先,系统自动在互联网中搜寻多个商家热门网站(如大众点评网等),确定所要爬取的信息格式,如商店名称,所在城区,地址,联系方式,经纬度,标签等,特别的是需要确定多个可以区分的类别属性,如美食类、生活类、酒店类、丽人类、酒店类等,更具体的话,我们还可以根据需要从上面的每一类继续划分为更小的类,如美食类可以继续分为地方菜、夕卜国菜、火锅、面包甜点,其他等,生活类可以继续划分为家政、装修、教育培训,购物等,然后根据所划分的类别进行定向爬取。
[0028]然后,系统自动在互联网中搜寻多个商家团购热门网站(如美团网等),确定所要爬取的信息格式,如商品名称,团购信息,所在城区,地址,联系方式,经纬度,已团购人数,团购活动截止日期等,同样的,需要确定多个可以区分的类别属性,和上述爬取商家热门网站时保持一致,然后根据所划分类别进行定向爬取。
[0029]创建网络爬虫框架并进行定时爬取数据,即需要根据不同网站的类型,创建不同的爬取规则和策略。
[0030]爬去规则和策略是基于Java和XPath来进行编写的,XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。我们可以获取网页的html源代码,然后通过查找,找到需要获取的信息的XPath爬取规则。然后我们导入关于XPath的jar包,基于XPath的API编写相关的函数,接下来我们根据所编写的函数和XPath规则通过网页的html源代码获取信息。
[0031]当遇到突发状况时,程序运行出现错误或者没有出现所要获取的信息(未获取信息,信息全存为NULL),可以将出现错误的时间和所发生的错误以邮件的形式发给用户,用户可以根据错误的类型,找到出现错误的位置,找到原因,将xpath规则改为正确的,从而可以更快速高效的爬取数据;进行定时爬取数据,需要设置时间,每到规定时间时,系统自动进行爬取工作并存入数据库。
[0032]设置时间,这里用的是基于Quartz的开源作业调度框架,简单地创建一个实现org.quartz.Job接口的java类。Job接口包含唯一的方法:
[0033]public void execute(JobExecut1nContext context)
[0034]throws JobExecut1nExcept1n ;
[0035]它在Job接口实现类里面,添加一些逻辑到execute O方法,Quartz调度包的两个基本单元是作业和触发器。作业是能够调度的可执行任务,触发器提供了对作业的调度。
[0036]Quartz还需要设置相应的表达式,例如:〃0012** ? 〃,表示每天中午12点触发,开始运行程序,这里我们设置的商家信息网站每周一凌晨I点运行,团购商家信息网站每天凌晨I点更新,对应的表达式分别是“00001** ? *Μ0Ν”,“00001** ? ”。
[0037]对数据进行去重合并处理,即对商家信息和团购信息中出现同一个商家的信息时,进行合并,删除重复出现的数据。
[0038]更新数据库,当出现数据库中没有的信息时,需要对数据进行扩充,对已过时及不存在的信息进行删除。
[0039]本发明实施例的商家信息及团购信息自动搜素聚合单元,用户可以通过自己设定的定时时间和信息格式,从互联网中搜寻自己所需要的信息并自动爬取下来,并进行信息的融合和更新,使信息保持最新的(团购信息每天更新一次),并保证了信息的数量(保持在10万条左右),可读性,准确性和可用性,并降低了信息的复杂性,使用户使用信息时更人性化,更科学高效。
[0040]通过商家信息及团购信息的自动搜索聚合的方式,可以使信息得到更快速,更充分的利用,在信息搜索聚合领域具有较大的发展前景,可广泛用于互联网中新闻信息搜索聚合、文字信息搜索聚合、视频信息搜索聚合,图片信息搜索聚合等,充分满足用户的需求。
[0041]如图2所示,本发明实施例提供商铺信息本体知识库的构建单元,包括构建商家的基本本体知识库,进行数据预处理,创建索引:
[0042]首先基于上面的商家信息搜索聚合得到的数据,抽取需要的信息,如商家名称,团购信息等,存入到文本文档中,从而构建基本的商家本体知识库。
[0043]然后将知识库中的数据进行预处理,分割数据,根据数据类别属性存入到各个类别文本文档中,例如:美食类的商家信息存入到美食文本文档中,每个文本文档存放某一类别的商家信息,将文本文档中不同类型的字符串转化为统一标准的字符串,方便以后的分词处理和相似度匹配,将文档的全角标点转化为半角标点。
[0044]接下来,使用Lucence为所有的文档创建索引,并为每个文档设定一个唯一的ID号,例如:如果信息分为美食,丽人,生活,酒店,休闲5大类,那么ID号可以为meishi,liren, shenguo, jiudian, xiuxian,或者为S1, s2, s3, s4, s5。为接下来的分类工作做好准备。
[0045]如图3所示,本发明实例提供获取待分类商家信息单元,这里主要获取的是商家的店名(也可以获取商家的其他信息如价格,特色商品等),通过拍摄视频的方式,记录下来一条街或者一条路上的所有商家的店名。
[0046]对视频进行切割,获取包含商家店名的一张张图片。
[0047]挑选出来可以识别的图片,进行再切割。
[0048]然后用图像识别软件进行识别(这里采用的是OCR软件),获取识别出来的字符串即商家名称。
[0049]首先把获得商家名称带入商铺信息自动分类单元,如果最后输出的类别不是规定的正确的类别,则将要分析出错的原因,如果是因为之前图片识别出来的是错误的商家店名,则将要对其进行纠错。
[0050]如图4所示商家信息纠错词库的创建及信息纠错单元,包括创建纠错词库,数据预处理和获得正确商家名称。纠错词库,是对错误信息进行纠错的标准,通过图1商家和团购信息的自动搜索聚合单元获取的信息中,挑选出某一类型的信息(这里采用的是商家店名)。
[0051]接下来进行数据处理,将数据所含有的多余信息去除,这里采用的是正则匹配,借助于正则强大的字符串的处理能力,例如金福川自助烧烤滁州路店,处理后为金福川自助烧烤,然后存储在文本文档中。
[0052]最后需要对图3获取待分类商家信息单元所获取的商家店名进行纠错,这里采用的是基于动态算法的相似度计算,即将待纠错店名和上述的纠错词库中的包含的信息进行相似度匹配。
[0053]这里的相似度计算的思想是:
[0054](I)使用jcseg分词工具将待处理的字符串进行分词处理,获取其中分得的词数为num,将分得的词赋予一个字符串数组str中;
[0055](2)设置i = O,然后将str数组里面的字符串和纠错词库中的每一条信息进行匹配,对于每一条信息,若有一个字符串匹配到,则i加I ;gstr中最后有η条字符串与某一条信息匹配,则str数组(待处理字符串)与这条信息的相似度为s = (n/num)*100% ;
[0056](3)假设该待处理字符串与纠错词库中的每条信息的相似度为S1, S2, S3, S4……,
则相似度最大为smax = max (S1, s2, s3, S4......),并记下最大相似度所对应的彳目息,将相似度最大的信息返回,该信息即为正确的店名。
[0057]如图5所示,本发明实施例提供商家信息自动分类单元,包括获取需要分类的商铺信息,分词处理,根据本体知识库计算相似度,获取正确分类:
[0058]获取需要分类的商家信息(这里采用的是商家信息),如商家店名,商品信息等。
[0059]分词处理,需要分词工具将商家信息进行分词操作,这里采用的是jcseg分词工具,然后提取分词中的关键词,(例如汉斯特自助烧烤可分为汉斯特、自助、烧烤的关键词集合),获得相应的关键词集合。
[0060]根据本体知识库计算相似度,即将上述的关键词集合,根据图2创建的本体知识库索引,一一和知识库的各个类别文档中的数据进行匹配,计算每个关键词的相似度,这里的计算的相似度用的是基于动态规划算法实现的相似度。
[0061]获取正确分类,即计算关键词集合在各个类别文档中的相似度总和,相似度总和最大的类别文档的类别即是商家信息需要被分类的正确类别。
[0062]整个计算过程为:
[0063](I)首先计算本体知识库中每个类别所含信息的条数a(若已经分为美食、休闲、丽人、生活、酒店5类,则条数分别为apa^a^a^as);
[0064](2)然后使用jcseg为待分类商家信息进行分词处理,获取关键词集合,数目为n,将关键词赋予一个字符串数组str ;
[0065](3)然后将str数组中的每一个字符串与各个类别文本文档进行相似度匹配,即计算该字符串在各个类别文本文档中出现的次数,若类别文档中某条信息包含该字符串,则算该字符串出现一次,则该字符串在各个类别中出现的次数分别为bn,bi2, bi3, bi4, bi5(i=1,2,3-n),则商家信息与各个类别文档的相似度为S1 = (bn+b21+b31+b41+……+bnl)/8^100%, s2 = (b12+b22+b32+b42+......+Idii2)/a2*100%......;
[0066](4)则有最大相似度为smax = max(S1, s2, S3......),则其所对应的类别即为商家信息所对应的类别。
[0067]本发明实施例的商铺信息自动分类单元,用户可以将未分类的商家信息,经过上述流程,可以获得所属的类别,在信息分类领域具有广阔的发展前景,可广泛用于网页分类,新闻信息分类,电影分类,歌曲分类,图片分类等领域,对用户而言,不管是日常生活还是科研工作,都提供了极大的便利。
[0068]如图6所示,整个搜索聚合的城市商家信息库自动构建与自动分类系统的流程:
[0069]1,要进行商家信息和团购信息的自动搜索聚合;
[0070]2,构建基于商家信息的本体知识库;
[0071]3,获取待分类商家信息;
[0072]4,构建商家信息纠错词库及并对商家信息进行纠错;
[0073]5,为所需要正确分类的信息进行分类,获取类别。
[0074]本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机编程语言来完成,所述的程序可在windows系统或Linux系统下完成,该程序在执行时,可包括如上述各方法的实施例的流程。其中上述计算机编程语言可以是Java,Python
等主流编程语目。
【权利要求】
1.一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统,其特征在于包括:商家信息和团购信息自动搜索聚合单元,商家类别的本体知识库的创建单元,获取待分类商家信息单元,商家信息纠错词库的创建及信息纠错单元,商家信息自动分类单元; 商家信息和团购信息自动搜索聚合单元,自动搜索互联网上相关的热门网站,根据不同的网站,创建相应的网络爬虫框架,再根据需要确定所需要爬取的信息格式,信息所需要划分的类别以及存放信息的格式,同时进行定时设置,能够定时启动,定时更新数据; 商家类别的本体知识库的创建单元,根据商家信息和团购信息自动搜索聚合单元中所获取的数据,进行预处理,并存放入各个类别的文本文档中,然后使用Lucence为所有文档建立相应的索引; 获取商家信息单元,采用拍视频的方式获取一条街或一段路的一大片商家店名,也可以采用拍照片的方式获取商家店名,然后需要对视频进行切割,获取图片,进行图像识别,得到相应的商家信息; 商家信息纠错词库创建及信息纠错单元,根据商家信息和团购信息自动搜索聚合单元所爬取的商家信息,以一定形式存储下来,形成纠错词库,再根据纠错词库进行图像识别,对识别出来的错误商家信息进行纠错,获取正确的商家信息; 商家信息自动分类单元,获取待分类的商家信息,然后对该信息进行分词处理,获取关键词集合,带入商家类别的本体知识库的创建单元所创建的本体知识库,根据其所创建的索引,计算关键词集合在各个类别文档中的相似度之和,该相似度计算采用的是基于动态规划算法的相似度计算,得到最大相似度之和对应的类别文档,该类别即为商家信息类别。
2.一种基于视频分析与搜索聚合的城市商铺信息库自动构建方法,其特征在于步骤如下: (1)商家信息和团购信息自动搜索聚合步骤:自动搜索互联网上相关的热门网站,根据不同的网站,创建相应的网络爬虫框架,再根据需要确定所需要爬取的信息格式,信息所需要划分的类别以及存放信息的格式,同时进行定时设置,能够定时启动,定时更新数据; (2)商家类别的本体知识库的创建步骤:根据商家信息和团购信息自动搜索聚合步骤中所获取的数据,进行预处理,并存放入各个类别的文本文档中,然后使用Lucence为所有文档建立相应的索引; (3)获取商家信息步骤:采用拍视频的方式获取一条街或一段路的一大片商家店名,也可以采用拍照片的方式获取商家店名,然后需要对视频进行切割,获取图片,进行图像识另IJ,得到相应的商家信息; (4)商家信息纠错词库创建及信息纠错步骤:根据商家信息和团购信息自动搜索聚合步骤所爬取的商家信息,以一定形式存储下来,形成纠错词库,再根据纠错词库进行图像识别,对识别出来的错误商家信息进行纠错,获取正确的商家信息; (5)商家信息自动分类步骤:获取待分类的商家信息,然后对该信息进行分词处理,获取关键词集合,带入商家类别的本体知识库的创建步骤所创建的本体知识库,根据其所创建的索引,计算关键词集合在各个类别文档中的相似度之和,该相似度计算采用的是基于动态规划算法的相似度计算,得到最大相似度之和对应的类别文档,该类别即为商家信息类别。
【文档编号】G06F17/30GK104133913SQ201410391136
【公开日】2014年11月5日 申请日期:2014年8月7日 优先权日:2014年8月7日
【发明者】朱明 , 雷鸣 申请人:中国科学技术大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1