一种英文微博中地理兴趣点抽取和感知其时间趋势的方法

文档序号:6548588阅读:226来源:国知局
一种英文微博中地理兴趣点抽取和感知其时间趋势的方法
【专利摘要】本发明公开了一种抽取英文微博中地理兴趣点和感知其时间趋势的方法,本发明首先对一条英文微博进行扫描,确定其中包含的候选地理兴趣点;然后从微博中抽取词汇,语法和BILOU模式标记三类特征;基于三类特征,运用时间趋势地理兴趣点标记器,对微博中的候选地理兴趣点进行确定和感知其对应的时间趋势。依照本发明所提供自动确定英文微博中涉及的地理兴趣点以及其时间趋势的技术方法,可以基于精细度地理位置来进行个性化的服务和开展市场营销。由于地理兴趣点知识库的构建利用了位置社交网络,不需人工进行生成,而且三类特征信息具有普遍性,使本发明可以广泛应用于同类各种英文微博服务平台,具有广泛的实际意义和商业价值。
【专利说明】一种英文微博中地理兴趣点抽取和感知其时间趋势的方法
【技术领域】
[0001]本发明属于社交媒体数据挖掘和自然语言处理【技术领域】,特别涉及一种抽取英文微博中涉及的地理兴趣点以及感知对应的时间趋势的信息获取方法。
【背景技术】
[0002]作为社交网络的主要平台,微博服务平台(TwitteiNWeibo等等)已经成为人们表达思想、交换观点和分享事件的主流方式。在微博平台上,一条微博非常的简短,仅仅包含最多140个单词和标点(英文包含140个字符)。并且,用户发布微博的内容受到很少的限制。这种快捷方便的信息资讯发布和传播平台导致用户可以实时地访问和分享最新的故事,观点以及新闻。这种信息的实时性使其成为目前最活跃的社会信息资讯平台之一。在中国,据新华网报道,新浪微博平台的用户数已超过5亿。与此同时,在微博平台中,每个人都可以看做是一个独立的社会感应器。这些感应器独立地或者协同式地反映社会舆情。例如:在地震发生过程中,人们通过Twitter平台实时的交流地震发生的时间和地理位置。通过监听相关的微博信息,我们可以跟踪和预报地震所涉及的地区以及到达时间。研究人员发现基于微博平台的地震监测和预报快于传统的地震监测方式。另一方面,微博包含大量的有价值的语义信息。这些丰富的语义资源可以帮助我们高效并且快速地计算信息资讯之间的联系,以及获取社会舆情,网民的观点及其倾向性。同时,微博用户经常会透露许多商业机会。例如:用户可能在微博上抱怨空气质量的同时,表达出购买口罩或者空气净化器等意图。
[0003]特别的,随着移动互联网的迅猛发展,人们越来越多的通过移动终端来发布和分享资讯。具体来说,人们常常有意或者无意地通过微博来透露自己的地理信息。其中,地理兴趣点又在这类地理信息中占巨大部分。地理兴趣点是指一个特定的地理实体,比如区域,街道,或者是一个特定的地理地点,比如酒店,地标,学校,商店以及饭店等等。这些地理兴趣点往往反映着用户的当前地理位置或者是短期的活动计划。近年来,定位微博及其用户的地理位置变成一个热门的研究话题。挖掘这类地理信息,我们可以产生很多具有现实意思的商业价值,比如,个性化的广告或者是基于地理位置的市场营销。然而,大部分已有的研究成果主要依赖于包含GPS定位信息或者文本地理信息标注的微博内容。并且,这些技术只能在粗粒度层面(从国家,省份到具体所在城市)对微博或者其用户的地理位置进行推断。与此同时,在主题模型(Topic Model)研究方面,现有的工作主要专注于研究地理位置与用户兴趣主题的交互。然而,这些技术要么无法达到细粒度的地理位置识别,要么语义信息过于简单和粗糙,因此还远远无法支撑细粒度的地理位置个性化服务和市场营销。另一类研究主要针对具有地理位置标注的微博或者基于位置社交网络的内容来给用户推荐其他的地理兴趣点。这些技术往往基于明确的用户地理位置分享信息。然而,用户有意地分享的地理信息往往很少量,比如用户主动给微博增加GPS定位信息或者文本地理信息标注。这些困难同样使得细粒度的地理位置服务和市场行销无法取得预期的效果。
[0004]作为一个实时的社会信息资讯分享平台,微博用户常常有意或者无意地通过微博来透露自己当前的地理位置信息或者短期的行动计划。然而,一条英文微博非常的简短,仅仅包含最多140个字符,同时用户发布微博的内容受到很少的限制。这些特征使得英文微博中往往包含大量的口头习语(白话语),拼写错误以及语法错误(错误多发性)。同时,用户习惯在英文微博中运用各种正式或者非正式的缩写去表达地理兴趣点。在自然语言处理领域,命名实体检测是指自动识别文本中具有特定意义的实体,主要包括人名,地名,机构名,产品名以及专有名词等。然而,现有的命名实体检测技术在英文微博文本上效果不佳。其次,由于英文微博内容的随意性,其微博内容中的地理兴趣点的表述往往包含很多歧义,即同一个短语在不同的语义环境下可以表示不同的实体(地理名称的歧义性)。比如微博例子“soccer fever at mac now.! ”中提到的“mac”在很多场景下指的是一种美国Apple公司的电子产品。因此,简单地依据一个地理信息库对英文微博进行匹配是低效和不可行的。
[0005]准确地感知用户对于地理兴趣点的时间趋势具有非常重要的商业价值。与地理兴趣点相关联的时间趋势包括用户已经访问过,正在访问和即将访问该地理兴趣点三个类别。比如,对于英文微博,“just back from L’Artusi, wonderful dinner: >like to trythe smile tmr for lunch”(L,Artusi和The Smile分别是两个位于纽约的餐馆),用户更希望接收关于“The Smile”的促销信息,因为用户已经访问过“L’ Artusi”,同时表达了即将访问“The Smile”的意愿。然而,目前并没有基于英文微博内容感知用户地理兴趣点的时间趋势的相关工作。现有的获取事件的时间趋势的工作和工具都是针对正式的长文本来进行的,这些文本依照正式的日期和时间格式来表述事件的时间因素。由于英文微博内容的错误多发性和简短性,这些技术手段都无法直接应用于英文微博中的地理兴趣点的时间趋势感知。

【发明内容】

[0006]针对英文微博内容的简短性,随意性和错误多发性,以及地理兴趣点名称的歧义性,本发明旨在针对某一个特定的地理区域(比如一座城市),自动从英文位置社交网络来构建相应的地理兴趣点知识库,高效地识别英文微博(来自这个地理区域)中可能涉及到的地理兴趣点和感知地理兴趣点对应的时间趋势,基于条件随机场模型,从英文微薄的三组特征信息(词汇,词法和BILOU模式标记特征)出发,利用小规模的人工标记数据集训练出一个时间趋势地理兴趣点标记器,从而达到对候选地理兴趣点进行消歧义和感知地理兴趣点的时间趋势的目标。其感知的地理兴趣点的时间趋势有三个类别:用户已经访问过,正在访问和即将访问该地理兴趣点。
[0007]本发明所采用的技术方案是:一种英文微博中地理兴趣点抽取和感知其时间趋势的方法,其特征在于,包括以下步骤:
[0008]步骤1:针对给定的地理区域,利用英文社交网络,构建该地理区域的地理兴趣点知识库,使其每一个知识库中的词条都可以对应于至少一个该地理区域的地理兴趣点;
[0009] 步骤2:根据步骤I构建的地理兴趣点知识库,对来自该给定的地理区域的英文微博进行扫描匹配,获取所有包含有地理兴趣点知识库中的地理兴趣点表述的微博,这些匹配到的地理兴趣点表述成为候选地理兴趣点,从这些微博中随机采样一定数量的微博,对采样微博中各个候选地理兴趣点进行人工消歧义标注,然后对其中真实的地理兴趣点人工进行时间趋势标记,最后生成训练集合;
[0010]步骤3:根据步骤2生成的训练集合,对集合中的每条英文微博进行特征提取,基于训练集合,依据提取词汇特征、语法特征和BILOU模式标记特征,运用条件随机场模型,训练出英文微博的时间趋势地理兴趣点标记器;
[0011]步骤4:当对来自该给定的地理区域的新的英文微博要进行处理时,利用步骤3所述的方法对新的英文微博进行特征提取,然后运用步骤3生成的时间趋势地理兴趣点标记器来进行地理兴趣点的确定和感知其时间趋势。
[0012]作为优选,步骤I中所述的词条,是一个单词或由多个单词组成的一个短语。
[0013]作为优选,步骤I中所述针对给定的地理区域,利用英文社交网络,构建该地理区域的地理兴趣点知识库;其具体实现包括以下子步骤:
[0014]步骤1.1:根据英文社交网络提供的API服务或者网页爬虫抓取用户位置签到信息,基于用户的个人资料收集来自特定地理区域的用户位置签到记录,生成关于特定地理区域的签到记录集合;
[0015]步骤1.2:根据步骤1.1生成的签到记录集合,基于正则表达式,抽取签到记录中的地理兴趣点名称,这些抽取到的地理兴趣点名称作为地理兴趣点的全称存储在地理兴趣点知识库中;
[0016]步骤1.3:根据步骤1.2抽取到的地理兴趣点全称,生成地理兴趣点部分名称,并存储在地理兴趣点知识库中。
[0017]作为优选,步骤1.3的具体实 现过程为基于地理兴趣点全称,提取这个全称的所有长度不超过5个单词的子序列,在此过程中,英文停用词将作为产生子序列的分隔词,并且不会出现在子序列中,这些子序列将作为其地理兴趣点的部分名称存储在地理兴趣点知识库中。
[0018]作为优选,步骤2中所述的对来自该给定的地理区域的英文微博进行扫描匹配,在匹配地理兴趣点名称的过程中,优先选择更长的地理兴趣点名称以及位置靠前出现的名称。
[0019]作为优选,步骤3中所述的依据提取词汇特征、语法特征和BILOU模式标记特征,给定一条微博t, Wi表示微博中的第i个单词,Xi表示Wi的全小写形式,I表示微博中的某个候选地理兴趣点,具体词汇特征、语法特征和BILOU模式标记特征如下:
[0020]词汇特征:
[0021]Al:单词Wi和它的全小写形式Xi ;
[0022]A2:单词Wi的外形,包括是否全部大写,是否首字符大写,是否全是数字字符以及是否全是字母数字符号;
[0023]A3 =Xi的前缀和后缀,长度分别为1,2,3个字符;
[0024]A4 =Xi首字符为大写的先验概率,Xi为全大写形式的先验概率,这两类先验概率是基于全局的英文微博来进行估计得到的,概率值是一个连续变量值,值域为[0,1];
[0025]A5:Xi及其前后2个单词的上下文窗口的词袋XiI, X1-!, Xi, xi+1, xx+2 ;
[0026]A6 =Xi的前面两个单词词袋Xi_2,Xi^1 ;
[0027]A7 =Xi的后面两个单词词袋xi+1,xi+2 ;
[0028]语法特征:[0029]B1:词性标注,包括当前词Wi和其前后词Wi+ wi+1的词性标注;
[0030]B2:基于布朗聚类算法的单词聚类标号;3个基于不同路径长度的单词聚类标号被使用,分别是4,8,12个比特长度;
[0031]B3:计算微博t的时间趋势分值;本发明提供36个常用英文单词及其他们的时间趋势分值作为参考,称为时间趋势单词字典,记为P,时间趋势的分值为-1,0,1,分别代表过去、现在以及将来的时间趋势,依据时间趋势单词字典,计算微博t的时间趋势分值,值域为[-1,I];完整的时间趋势单词字典如表格I所示:
[0032]表格I完整的时间趋势单词字典
[0033]
【权利要求】
1.一种英文微博中地理兴趣点抽取和感知其时间趋势的方法,其特征在于,包括以下步骤: 步骤1:针对给定的地理区域,利用英文社交网络,构建该地理区域的地理兴趣点知识库,使其每一个知识库中的词条都可以对应于至少一个该地理区域的地理兴趣点; 步骤2:根据步骤I构建的地理兴趣点知识库,对来自该给定的地理区域的英文微博进行扫描匹配,获取所有包含有地理兴趣点知识库中的地理兴趣点表述的微博,这些匹配到的地理兴趣点表述成为候选地理兴趣点,从这些微博中随机采样一定数量的微博,对采样微博中各个候选地理兴趣点进行人工消歧义标注,然后对其中真实的地理兴趣点人工进行时间趋势标记,最后生成训练集合; 步骤3:根据步骤2生成的训练集合,对集合中的每条英文微博进行特征提取,基于训练集合,依据提取词汇特征、语法特征和BILOU模式标记特征,运用条件随机场模型,训练出英文微博的时间趋势地理兴趣点标记器; 步骤4:当对来自该给定的地理区域的新的英文微博要进行处理时,利用步骤3所述的方法对新的英文微博进行特征提取,然后运用步骤3生成的时间趋势地理兴趣点标记器来进行地理兴趣点的确定和感知其时间趋势。
2.根据权利要求1所述的英文微博中地理兴趣点抽取和感知其时间趋势的方法,其特征在于:步骤I中所述的词条,是一个单词或由多个单词组成的一个短语。
3.根据权利要求1或2所述的英文微博中地理兴趣点抽取和感知其时间趋势的方法,其特征在于:步骤I中所述针对给定的地理区域,利用英文社交网络,构建该地理区域的地理兴趣点知识库;其具 体实现包括以下子步骤: 步骤1.1:根据英文社交网络提供的API服务或者网页爬虫抓取用户位置签到信息,基于用户的个人资料收集来自特定地理区域的用户位置签到记录,生成关于特定地理区域的签到记录集合; 步骤1.2:根据步骤1.1生成的签到记录集合,基于正则表达式,抽取签到记录中的地理兴趣点名称,这些抽取到的地理兴趣点名称作为地理兴趣点的全称存储在地理兴趣点知识库中; 步骤1.3:根据步骤1.2抽取到的地理兴趣点全称,生成地理兴趣点部分名称,并存储在地理兴趣点知识库中。
4.根据权利要求3所述的英文微博中地理兴趣点抽取和感知其时间趋势的方法,其特征在于:步骤1.3的具体实现过程为基于地理兴趣点全称,提取这个全称的所有长度不超过5个单词的子序列,在此过程中,英文停用词将作为产生子序列的分隔词,并且不会出现在子序列中,这些子序列将作为其地理兴趣点的部分名称存储在地理兴趣点知识库中。
5.根据权利要求1所述的英文微博中地理兴趣点抽取和感知其时间趋势的方法,其特征在于:步骤2中所述的对来自该给定的地理区域的英文微博进行扫描匹配,在匹配地理兴趣点名称的过程中,优先选择更长的地理兴趣点名称以及位置靠前出现的名称。
6.根据权利要求1所述的英文微博中地理兴趣点抽取和感知其时间趋势的方法,其特征在于:步骤3中所述的依据提取词汇特征、语法特征和BILOU模式标记特征,给定一条微博t, Wi表示微博中的第i个单词,Xi表示Wi的全小写形式,I表示微博中的某个候选地理兴趣点,具体词汇特征、语法特征和BILOU模式标记特征如下:词汇特征: Al: 单词Wi和它的全小写形式Xi ; A2:单词Wi的外形,包括是否全部大写,是否首字符大写,是否全是数字字符以及是否全是字母数字符号; A3 =Xi的前缀和后缀,长度分别为1,2,3个字符; A4 =Xi首字符为大写的先验概率,Xi为全大写形式的先验概率,这两类先验概率是基于全局的英文微博来进行估计得到的,概率值是一个连续变量值,值域为[O,I]; A5 =Xi及其前后2个单词的上下文窗口的词袋Xi_2, X1-!, Xi, xi+1, xx+2 ; A6:Xi的前面两个单词词袋Xi_2, X1-!; A7:Xi的后面两个单词词袋xi+1, xi+2 ; 语法特征: B1:词性标注,包括当前词Wi和其前后词Wi_1; wi+1的词性标注; B2:基于布朗聚类算法的单词聚类标号;3个基于不同路径长度的单词聚类标号被使用,分别是4,8,12个比特长度; B3:计算微博t的时间趋势分值;本发明提供36个常用英文单词及其他们的时间趋势分值作为参考,称为时间趋势单词字典,记为D,时间趋势的分值为_1,0,I,分别代表过去、现在以及将来的时间趋势,依据时间趋势单词字典,计算微博t的时间趋势分值,值域为[-1,I];完整的时间趋势单词字典如表格I所示: 表格I完整的时间趋势单词字典 __
7.根据权利要求6所述的抽取英文微博中地理兴趣点和感知其时间趋势的信息获取方法, 其特征在于:基于时间趋势单词字典,计算微博t的时间趋势分值的步骤如下: 步骤3.1:如果单词w e t出现在时间趋势单词字典中,w的时间趋势分值为字典中设定的分值; 步骤3.2:如果单词w e t不属于时间趋势单词字典,获取w的路径长度为12个比特的布朗单词聚类结果,记为6如果时间趋势单词字典P和单词聚类结果氏《的交集P n Bw不为空,并且交集中的每个早词都在字典?中对应相同的时间趋势分值,设置该时间趋势分值为单词w的时间趋势分值;微博t中所有基于步骤3.1和3.2设置了时间趋势分值的单词记为Pt,这些单词均是基于时间趋势单词字典D直接或者间接匹配确定的; 步骤3.3:根据单词的词性标注,对微博中的所有动词设置时间趋势分值;过去分词和动词的过去时态的时间趋势分值为-1 ;第三人称单数,非第三人称单数,动名词,现在分词,动词基本形式的时间趋势分值为O ; 步骤3.4:根据步骤3.1,3.2和3.3设置了时间趋势分值的单词,其微博的时间趋势分值为这些单词的时间趋势分值的平均值,数值在-1和I之间;如果没有单词被设置了时间趋势分值,微博的时间趋势分值为O。到此计算出来的微博时间趋势分值是个连续值,值域为[-1,I]。
8.根据权利要求6所述的英文微博中地理兴趣点抽取和感知其时间趋势的方法,其特征在于:所述的步骤3中,在条件随机场模型训练阶段,训练集合的真实数据结果也按照BILOU模式进行标记。
【文档编号】G06F17/30GK103984771SQ201410243738
【公开日】2014年8月13日 申请日期:2014年6月4日 优先权日:2014年6月4日
【发明者】李晨亮, 孙爱欣 申请人:武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1