一种基于位置服务采集新浪微博团购信息的方法

文档序号:7550750阅读:199来源:国知局
专利名称:一种基于位置服务采集新浪微博团购信息的方法
技术领域
本发明涉及新浪微博开放平台提供的位置服务接口,通过该接口抽取某一位置附近的所有的微博数据。针对这些微博数据信息,首先利用模式匹配技术进行预处理,再使用语义分析技术优化,最终获取所有团购信息。该方法帮助传统的借助第三方团购网站发布团购信息的商户,直接在微博上发布团购信息。属于数据挖掘领域。
背景技术
微博,即微博客(MicroBlog)的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现实时分享。与传统博客相比,微博最大的优势在于其实时性强,简单易用,多平台。人们可以随时随地发布信息分享自己的动态,同时它对用户的要求也很低,草根性强。微博开放平台是一个基于新浪微博客系统的开放的信息订阅、分享与交流平台。微博开放平台为您提供了海量的微博信息、粉丝关系、以及随时随地发生的信息裂变式传播渠道。广大开发者或网站只要登录平台网站并创建应用,即可通过平台开放接口(OpenAPI)对微博系统进行读写,挖掘微博系统的新功能与新玩法。位置服务,新浪微博“位置服务接口”为第三方提供基于“位置服务”与“兴趣图谱”的多维度位置服务。新浪微博“位置服务平台” 一共提供六大类接口,其中普通接口 21个,高级接口 7个。第三方开发者现在可以通过新浪微博开放平台直接调用以上接口,完成位置应用的基础开发。随着Internet技术的不断发展,网络技术越来越成熟,电子商务事业蓬勃发展。越来越多的商家和用户在网上交易,而团购在电子商务中崭露头角。团购作为一种新兴的电子商务模式,通过消费者自行组团、专业团购网站、商家组织团购等形式,提升用户与商家的议价能力,并极大程度地获得商品让利,引起消费者及业内厂商、甚至是资本市场关注。从美团、拉手、淘宝聚划算等专门收集团购信息的网站,到淘宝的用户自主组团,以及新浪微博的小米2手机发布抢购,团购成为电子商务不可缺少的一部分。目前主流的团购信息获取还是通过浏览第三方的团购网站获取,例如美团,拉手网,千品网等大型的团购网站。但随着技术的发展,人们对信息的实时性和位置就近服务要求越来越高。而大型的团购网站虽然搜罗了大量的团购信息,但信息不实时,且要求人要浏览相应网站。微博作为信息交流的平台,实时性高,传播广。尤其是微博的多平台性,既有Web,也有Wap客户端。用户移动终端只要下载了微博客户端即可登录随时发布微博,PC终端只要登录一下新浪微博即可浏览微博。商家用户只需将团购信息发布在微博平台上,客户将不再需要借助第三方团购网站,而只需利用微博客户端即可浏览团购信息。另一方面,新浪微博中有少数团购应用。这些应用只是简单的创建了一个话题收集一下大型团购网站的团购信息,或者做了美团网之类团购网站的手机客户端。应用并没有充分利用微博这一信息交流互动平台,并没有使得商家可以实时发布团购信息,并将信息汇总给用户。因此,开发一种新型的采集团购信息的方法是社会迫切需要的。针对传统方法的不足,提出了一种基于位置服务,采集团购信息的方法。

发明内容
技术问题:本发明的目的是提供一种基于位置服务采集新浪微博团购信息的方法。商家用户通过新浪微博平台发布团购信息,利用新浪微博开放的位置服务接口抽取在该位置附近发布的所有的微博数据。同时,将抽取出来的微博数据存放在数据库中,针对微博数据进行语料模式匹配预处理操作;再初步筛选出含团购信息特征的微博数据;接着,使用语义分析技术确定该条数据是否为团购信息;最终,成功地将团购信息从某一位置发布的大量微博数据中采集出来。技术方案:本发明的一种基于位置服务采集新浪微博团购信息的方法所包含的步骤为:
步骤I)抽取在某一具体位置附近发布微博的数据集信息:
步骤1.1)获取申请新浪微博应用的相关信息;
步骤1.2)分配授权信息;
步骤1.3)获取用户的该位置信息;
步骤1.4)根据位置服务的动态信息接口,抽取该位置附近发布的所有微博数据信
息;
步骤1.5)存储抽取的所有微博数据信息;
步骤2)预处理微博数据集信息:
步骤2.1)获取微博数据集信息;
步骤2.2)获取团购语料库;
步骤2.3)初始化微博数据集中团购的相关信息:
步骤2.3.1)初始化微博数据集中的团购信息标志为I ;
步骤2.3.2)初始化微博数据集中的团购关键词匹配次数为O ;
步骤2.4)获取第一条微博数据信息;
步骤2.5)判断该微博数据是否包含团购语料库中的词语,如果包含,转步骤2.6),否则,转步骤2.8);
步骤2.6)计算微博数据匹配语料库关键词的次数;
步骤2.7)更新微博团购关键词匹配的次数;
步骤2.8)更新该微博数据的团购信息标志为O;
步骤2.9)获取下一条微博数据信息;
步骤2.10)判断该微博数据信息是否到达微博数据集的末端,如果到达,转步骤
2.11),否则,转步骤2.5);
步骤2.11)删除团购信息标志为O的所有微博数据;
步骤2.12)更新微博数据集信息;
步骤3)对微博数据集进行分句:
步骤3.1)获取微博数据集中的第一条数据信息;
步骤3.2)获取该微博数据中的第一个字符信息; 步骤3.3)判断该字符是否为“;”,如果是,转步骤3.8),否则,转步骤3.4);
步骤3.4)判断该字符是否为“。”,如果是,转步骤3.8),否则,转步骤3.5);
步骤3.5)判断该字符是否为“ !”,如果是,转步骤3.8),否则,转步骤3.6);
步骤3.6)判断该字符是否为“,”,如果是,转步骤3.8),否则,转步骤3.7);
步骤3.7)判断该字符是否为“?”,如果是,转步骤3.8),否则,转步骤3.9);
步骤3.8)置换该字符为分句标识,用“/j”表示;
步骤3.9)获取下一个微博数据字符信息;
步骤3.10)判断是否到达微博数据的末端,如果到达,转步骤3.11),否则,转步骤
3.3);
步骤3.11)更新微博数据信息;
步骤3.12)获取下一条微博数据信息;
步骤3.13)判断该微博数据是否为微博数据集的末端,如果到达,转步骤3.14),否则,转步骤3.2);
步骤3.14)更新微博数据集信息;
步骤4)对微博数据集进行分词,并标注词性:
步骤4.1)获取微博数据集中第一条数据信息;
步骤4.2)获取该微博数据中的第一个字符信息;
步骤4.3)判断该字符是否为分句标识,如果是,转步骤4.4),否则,转步骤4.6);
步骤4.4)设置分词等级;
步骤4.5)根据分词函数,标注词性;
步骤4.6)获取下一个微博数据字符信息;
步骤4.7)判断是否到达微博数据的末端,如果到达,转步骤4.8),否则,转步骤4.3); 步骤4.8)存储分词后的数据信息;
步骤4.9)获取下一条微博数据信息;
步骤4.10)判断该微博数据是否为微博数据集的末端,如果到达,转步骤4.11),否则,转步骤4.2);
步骤4.11)更新微博数据集信息;
步骤5)抽取微博数据集中的团购事件:
步骤5.1)获取微博数据集中第一条数据信息;
步骤5.2)获取该微博数据中的第一个字符信息;
步骤5.3)判断该字符是否为分句标识,如果是,转步骤5.4),否则,转步骤5.14); 步骤5.4)根据该句子的句法,标注词性;
步骤5.5)分析事件的语义特征;
步骤5.6)映射事件的命题实体;
步骤5.7)映射事件的代指概念;
步骤5.8)识别该句子中的动词;
步骤5.9)分析事件的论元结构属性;
步骤5.10)映射论元;
步骤5.11)完成该句子的事件抽取; 步骤5.12)判断该事件是否为团购事件,如果是,转步骤5.13),否则,转步骤5.14); 步骤5.13)更新该微博数据的团购信息标志为2;
步骤5.14)获取下一个微博数据字符;
步骤5.15)判断该微博数据字符是否到达微博数据的末端,如果到达,转步骤5.16),否则,转步骤5.3);
步骤5.16)获取下一条微博数据信息;
步骤5.17)判断该微博数据是否到达微博数据集的末端,如果到达,转步骤5.18),否则,转步骤5.2);
步骤5.18)更新微博数据集信息;
步骤5.19)完成团购事件的抽取。有益效果:本发明对比已有技术具有以下创新点:
(1)利用新浪微博开放的位置服务接口,抽取某一位置附近发布的所有的微博数据;
(2)利用模式匹配技术,抽取具有团购事件特征的数据信息;
(3)利用基于语义的事件抽取技术,抽取出团购事件。总之,该发明让商家用户能实时发布团购消息,并且普通用户也能看到不同位置的团购信息。本发明对比已有技术具有以下显著优点:
(1)商家用户在微博发布团购信息成为可能,不再需要借助第三方的团购网站发布团购信息;
(2)使用语义分析技术,抽取事件精确度高,能将团购信息从普通数据中有效的分离出
来;
(3)普通用户能实时获取某个位置的团购信息。


图1:抽取某一具体位置附近发布微博的数据集信息流程 图2:预处理微博数据集流程 图3:分句一条微博数据流程 图4:分词一条微博数据流程 图5:抽取一条微博数据的团购事件流程图。
具体实施例方式本发明的一种基于位置服务采集新浪微博团购信息的方法,是通过在新浪微博上创建一个应用,利用新浪微博开放平台上开放的位置服务接口抽取某个位置附近发布的微博。对抽取的微博数据,通过预处理和事件抽取技术抽取出团购信息,其实现步骤为:
步骤I)抽取某个具体位置的附近发布的微博数据集,如图1所示:
步骤1.1)申请人在新浪微博开放平台上创建一个应用,根据平台的要求,申请人需输入与申请相关的所有信息;
步骤1.2)在申请人输入与申请相关的所有信息后,新浪微博开放平台接收接收申请人填写的申请信息,自动生成应用,并且得到应用的基本信息;
步骤1.3)申请人需从新浪微博开放平台下载所需的官方SDK,不同的环境有不同SDK,根据个人需要下载;
步骤1.4)根据从新浪微博开放平台下载的SDK搭建所需的软件抽取环境,开发语言使用java,则在myeclipse中搭建抽取新浪微博数据信息的环境;
步骤1.5)利用新浪微博开放平台中开放的位置服务接口获取用户该位置的信息,得到调用位置动态接口所需的poild ;
步骤1.6)根据获取位置信息的poild,调用位置服务接口中位置动态接口,抽取在该位置附近发布的所有微博数据;
步骤1.7)在mysql中根据抽取的 微博数据的格式建立一张表,将微博按属性存入mysql数据库中;
步骤2)预处理微博数据集,如图2所示:
步骤2.1)对传统的团购信息进行分析统计,将团购信息的标志词提取出来构建团购语料库,作为团购信息预处理时与微博数据比较的模板;
步骤2.2)对抽取的微博数据集W进行初始化操作,初始化微博数据集的团购信息标志为1,初始化团购关键词匹配次数为O ;
步骤2.3)将该微博数据与团购语料库匹配,看是否含有团购语料库中的词语。如果有则计算匹配次数,没有则将该数据的团购信息标志标为0,并接着获取下一条微博数据,直到微博集全部处理完;
步骤2.4)当微博数据集全部处理完后,删除团购信息标志为O的数据,并更新微博数据库信息;
步骤3)微博数据集分句,其中每条微博数据分句流程图,如图3所示:
步骤3.1)获取预处理后的微博数据集中的第一条微博数据;
步骤3.2)顺次读取微博字符,判断该字符是否为“;”,如果是,将“;”置换为Vj” ;否则,判断该字符是否是“。”。如果是,将“。”置换为“/j”;否则,判断该字符是否是“! ”。如果是,将“ !”置换为“/j”;否则,判断该字符是否是“,”。如果是,将“,”置换为“/j ” ;否则,判断该字符是否是“ ? ”。如果是,将“ ? ”置换为“/j ” ;否则,获取下一个微博字符,直至该条微博数据全部读取完整;
步骤3.3)存储该条微博数据的分句结果到微博数据集中,更新该微博数据信息;
步骤3.4)获取下一条微博数据,并判断判断该数据是否到达数据集末端,如果到达,结束数据集分句操作,否则继续进行数据分句操作,直至到达微博数据集末端结束;
步骤4)微博数据集分词,其中每条微博数据分词流程图,如图4所示:
步骤4.1)获取分句处理后的微博数据集中的第一条微博数据;
步骤4.2)顺次读取微博字符,判断该字符是否为“/j”。如果是,则对该句进行分词操作,设置分词的等级为2级,标注出该句的二级词性。否则,读取下一个字符,直至到达数据末端。步骤4.3)存储该条微博数据的二级分词结果到微博数据集中,更新该微博数据信息;
步骤4.4)获取下一条微博数据,并判断该数据是否到达数据集末端,如果到达,分词操作结束,否则,继续执行数据分词操作直至到达数据集末端结束;
步骤5)微博数据集团购事件抽取,其中每条微博数据抽取团购事件如图5所示: 步骤5.1)获取分词处理后的微博数据集中的第一条微博数据;
步骤5.2)顺次读取微博字符,判断该字符是否为为“/j” ;是则进行句法分析,否则读取下一个微博字符;
步骤5.3)分析句法,标注词性。标注出主语,谓语之类的句法成分。并用Sub标识主语,Adv标识状语,Pre标识谓语,Obj标识宾语,App标识同位语;
步骤5.4)根据句法分析结果,分析事件语义特征,标注语义特征。标注事件的对象,时间,地点等语义信息;
步骤5.5)映射命题实体和代指概念,将人名实体映射为对象H,地点实体映射为地点P,单位实体映射为组织0,时间实体映射为时间T,并对空语句进行扩充,代指其它概念;步骤5.6)根据团购事件语义特征,建立团购事件动词模板。利用模板,识别动词,进行论元属性结构分析;
步骤5.7)根据论元属性结构分析的结果,映射论元,确定事件实例中每个动词支配的论元。最终确定动词和论元之间具体的映射关系,事实上就完成一句话的事件抽取;
步骤5.8)判断该事件是否为团购事件,如果是,标注团购信息标志为2,否则,读取下一个微博字符;
步骤5.9)读取下一个微博字符,并判断该字符是否到达微博数据末端。如果到达,读取下一条微博数据,否则,判断该微博数据字符是否为“/j”;
步骤5.10)读取下一条微博数据,并判断该微博数据是否到达微博数据集末端,如果到达,结束团购事件抽取;否则,顺次读取微博数据字符,直至微博所有数据处理完毕;
步骤5.11)删除团购信息标志为I的数据,并更新微博数据集信息,最终获取微博团购信息。
权利要求
1.一种基于位置服务采集新浪微博团购信息的方法,其特征在于该方法所包含的步骤为: 步骤I)抽取在某一具体位置附近发布微博的数据集信息: 步骤1.1)获取申请新浪微博应用的相关信息; 步骤1.2)分配授权信息; 步骤1.3)获取用户的该位置信息; 步骤1.4)根据位置服务的动态信息接口,抽取该位置附近发布的所有微博数据信息; 步骤1.5)存储抽取的所有微博数据 信息; 步骤2)预处理微博数据集信息: 步骤2.1)获取微博数据集信息; 步骤2.2)获取团购语料库; 步骤2.3)初始化微博数据集中团购的相关信息: 步骤2.3.1)初始化微博数据集中的团购信息标志为I ; 步骤2.3.2)初始化微博数据集中的团购关键词匹配次数为O ; 步骤2.4)获取第一条微博数据信息; 步骤2.5)判断该微博数据是否包含团购语料库中的词语,如果包含,转步骤2.6),否则,转步骤2.8); 步骤2.6)计算微博数据匹配语料库关键词的次数; 步骤2.7)更新微博团购关键词匹配的次数; 步骤2.8)更新该微博数据的团购信息标志为O ; 步骤2.9)获取下一条微博数据信息; 步骤2.10)判断该微博数据信息是否到达微博数据集的末端,如果到达,转步骤`2.11),否则,转步骤2.5); 步骤2.11)删除团购信息标志为O的所有微博数据; 步骤2.12)更新微博数据集信息; 步骤3)对微博数据集进行分句: 步骤3.1)获取微博数据集中的第一条数据信息; 步骤3.2)获取该微博数据中的第一个字符信息; 步骤3.3)判断该字符是否为“;”,如果是,转步骤3.8),否则,转步骤3.4); 步骤3.4)判断该字符是否为' I如果是,转步骤3.8),否则,转步骤3.5); 步骤3.5)判断该字符是否为“ !”,如果是,转步骤3.8),否则,转步骤3.6); 步骤3.6)判断该字符是否为“,”,如果是,转步骤3.8),否则,转步骤3.7); 步骤3.7)判断该字符是否为“?”,如果是,转步骤3.8),否则,转步骤3.9); 步骤3.8)置换该字符为分句标识,用“/j”表示; 步骤3.9)获取下一个微博数据字符信息;步骤3.10)判断是否到达微博数据的末端,如果到达,转步骤3.11),否则,转步骤3.3); 步骤3.11)更新微博数据信息; 步骤3.12)获取下一条微博数据信息; 步骤3.13)判断该微博数据是否为微博数据集的末端,如果到达,转步骤3.14),否则,转步骤3.2); 步骤3.14)更新微博数据集信息; 步骤4)对微博数据集进行分词,并标注词性: 步骤4.1)获取微博数据集中第一条数据信息; 步骤4.2)获取该微博数据中的第一个字符信息; 步骤4.3)判断该字符是否为分句标识,如果是,转步骤4.4),否则,转步骤4.6); 步骤4.4)设置分词等级; 步骤4.5)根据分词函数,标注词性; 步骤4.6)获取下一个微博数据字符信息; 步骤4.7)判断是否到达微博数据的末端,如果到达,转步骤4.8),否则,转步骤4.3); 步骤4.8)存储分词后的数据信息; 步骤4.9)获取下一条微博数据信息; 步骤4.10)判断该微博数据是否为微博数据集的末端,如果到达,转步骤4.11),否则,转步骤4.2); 步骤4.11)更新微博数据集信息; 步骤5)抽取微博数据集中的团购事件: 步骤5.1)获取微博数据集中第一条数据信息; 步骤5.2)获取该微博数据中的第一个字符信息; 步骤5.3)判断该字符是否为分句标识,如果是,转步骤5.4),否则,转步骤5.14); 步骤5.4)根据该句子的句法,标注词性; 步骤5.5)分析事件的语义特征; 步骤5.6)映射事件的命题实体; 步骤5.7)映射事件的代指概念; 步骤5.8)识别该句子中的动词; 步骤5.9)分析事件的论元结构属性; 步骤5.10)映射论元; 步骤5.11)完成该句子的事件抽取; 步骤5.12)判断该事件是否为团购事件,如果是,转步骤5.13),否则,转步骤5.14); 步骤5.13)更新该微博数据的团购信息标志为2 ; 步骤5.14)获取下一个微博数据字符; 步骤5.15)判断该微博数据字符是否到达微博数据的末端,如果到达,转步骤5.16),否则,转步骤5.3);步骤5.16)获取下一条微博数据信息; 步骤5.17)判断该微博数据是否到达微博数据集的末端,如果到达,转步骤5.18),否则,转步骤5.2); 步骤5.18)更新微博数据集信息; 步骤5.19)完成团购事 件的抽取。
全文摘要
本发明是一种基于位置服务采集新浪微博团购信息的方法,为了使得商家用户能实时发布团购消息,普通用户也能实时看到不同位置的团购信息,商家用户通过新浪微博平台发布团购信息,首先,利用新浪微博提供的开放位置服务接口,抽取在该位置附近发布的所有的微博数据信息;然后,将抽取出来的微博数据存放在数据库中,针对这些微博数据进行语料模式匹配预处理操作;接着,初步筛选出所有包含团购信息特征的微博数据;其次,使用语义分析技术,确定该条数据是否为团购信息;最后,成功地将团购信息从某一位置发布大量的微博数据中采集出来。
文档编号H04L12/58GK103117919SQ20131002077
公开日2013年5月22日 申请日期2013年1月21日 优先权日2013年1月21日
发明者张卫丰, 王云, 周国强, 张迎周, 王子元, 周国富, 钱小燕, 许碧欢, 陆柳敏 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1