微博概括的制作方法

文档序号:6381145阅读:167来源:国知局
专利名称:微博概括的制作方法
微博概括技术领域
本公开涉及可应用于博客或微博以便以缩短的形式呈现被判定为有用的信息的概括技术。
背景技术
许多公众意见通过万维网(World Wide Web)来表达。常常,这些意见在所谓的博客或微博中表达。博客(网络日志(web log)的缩写)通常用来提供评论、事件描述或诸如图片或视频等其他材料。微博是博客形式的广播媒体,并且与传统博客的区别在于其内容在实际和总计的文件大小二者上通常更小。
博客或者微博通常能够包含许多信息。这些信息能够让许多不同的个人感兴趣。 然而,因为博客和微博的庞大数量,这些信息可能经常被混淆或者完全地丢失。发明内容
提供本发明内容是为了以简化形式来介绍选择的概念,下面在具体实施方式
中会进一步描述选择的概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征。
各实施例提供了可应用于博客或微博的以缩短的形式来呈现确定为有用的信息的概括技术。在一个或更多个实施例中,一种方法被用来从诸如免费文本等各种资源中来自动获取一组概念。这些所获取的概念然后用来指导聚类处理。通过合并情感和词的频率, 簇被排名并且随后被概括。


参考附图对具体实施方式
进行描述。图中,附图标记最左边的数字标识该附图标记首次出现的图。在说明书和附图中的不同实例中使用相同附图标记可表示相似或相同项。
图I示出根据一个或更多个实施例的示例性实施方式的环境。
图2更详细地示出图I所示的示例性实施方式的系统。
图3示出了根据一个或更多个实施例的示例性学习组件。
图4示出了根据一个或更多个实施例的示例性上位词树(hypernymtree)。
图5示出了根据一个或更多个实施例的示例性概括组件。
图6为描述根据一个或更多个实施例的方法中的步骤的流程图。
图7示出了可用来实施这里描述的各实施例的示例性计算装置。
具体实施方式


各实施例提供了可用于博客或微博的以缩短形式呈现被确定为有用的信息的概括技术。该技术可用于博客或任意大小的博客类型的入口。在至少一些实施例中,该技术可用于通常具有1000个或更少的字符的入口。在至少一些实施例中,该技术可用于具有140 个或更少的字符的微博。这包括可以只有几个句子长的微博。这样的微博的一个示例叫做 “推特(tweets)”。该概括技术可用于广泛的入口类型。
在一个或更多个实施例中,一种方法用来从诸如免费文本等各种资源中来自动获取一组概念。然后,这些所获取的概念用来指导聚类处理。通过合并情感和词的频率,簇被排名并且随后被概括。
为了说明该概括技术,利用了与公司相关的微博形式的入口类型。这些微博通常提及公司名称,并且可以包含与所提及的公司相关的意见的表达。经常,这些微博并不是有意的评论并且可包括从关于新闻文章的讨论到与特定公司相关的职位招聘和广告等各种观点。这使得自动判断微博中表达的情感更加困难。在该情况下,各种方法被用来获取一组商业概念,该商业概念然后被用于指导聚类处理(clustering process),其中,簇 (cluster)被排名并被概括。
在下述讨论中,首先描述可操作地使用这里描述的技术的示例性环境。然后描述可在该示例性环境以及其他环境中使用的各实施例的示例说明。相应地,该示例性环境并不限于执行所描述的实施例并且所描述的实施例也不限于在该示例性环境中实施。
示例件运行环塏
图I所示为可操作地使用本文档描述的技术的示例性实施方式中的环境100。所图示的环境100包括可以以多种方法配置的计算装置102的示例。比如,计算装置102可配置为例如关于图2而进一步描述的传统计算机(比如台式个人计算机和笔记本计算机等)、 移动站、娱乐装置、通信地耦合到电视机的机顶盒、无线电话、上网本(netbook)、游戏控制台和手持装置等。因此,计算装置102可以涉及从具有实质的存储器和处理器资源的完整资源装置(比如个人电脑、游戏操作台)到具有有限的存储器和/或处理资源的低资源装置 (比如传统置顶盒、手持游戏控制台)。计算装置102也包括使计算装置102执行下面描述的一个或更多个操作的软件。
计算装置102包括学习组件103和概括组件104。
学习组件103代表在一个或更多个实施例中,使得能够自动学习如商业概念等概念的功能。需要理解和明白的是,这里描述的技术可在包括(以举例方式且不作限制)运动团队、娱乐、科学研究、政治、公共事务问题和/或学生生活(这里仅提到了一些)的其他领域实施。在商业背景中,学习组件103能够预先学习通用的且与许多公司(如果不是绝大多数或全部的公司)相关的商业概念。这些概念然后用作可能的簇。微博随后映射到这些概念。 比如,与公司相关的概念可包括“人”、“产品”、“资产”和“事件”。这些概念的每一个能够用来对微博聚类。在下述方法中,所有的公司将具有同一组的可能的簇,但就特定日子的微博中哪些概念有更多的量来说是变化的。自动学习过程可在离线过程中进行,该离线过程利用如新闻文章(这里只是举例,而并非限制)等各种资源。使用该方法,与公司相关的概念可应用到所有类型的公司,而不考虑该公司是技术相关的公司还是零售业,这在下面的描述中将变得明显。
概括组件104代表使簇能够通过情感和熵(entropy)来排名的功能性。这使得讨论相同话题的簇比包括多样内容的簇能排名更高。比如,在公司CEO辞职的特定日子,许多用户可讨论该事件,且因此该公司的“人”簇会在该特定日子有同质的内容。这种同质性 (homogeneity)会与该公司产品簇形成对比,比如,人们可能正在谈论不同产品。此外,该簇的情感值(sentiment value)也被考虑在内。熵量度提供了判断同质性的途径。在所示出并描述的实施例中,情感与词语频度被合并,以计算熵量度,随后该熵量度被用来对簇排名,这在下面会变得明显。一旦簇已被排名,概括组件104可对簇进行概括。
计算装置102还包括姿势模块105,姿势模块105可通过一个或更多个手指来执行姿势识别,且使得执行对应于该姿势的操作。姿势可由模块105以多种不同的方式来识别。如,姿势模块105可配置为识别触摸输入,比如用户手106a的手指接近采用了触摸屏功能的计算装置102的显示装置108。模块105可用来识别单指姿势和底座姿势(bezel gesture)、多指/同一手的姿势和底座姿势和/或多指/不同手的姿势和底座姿势。
计算装置102还可配置为检测并区分触摸输入(比如由用户手106a的一个或更多个手指提供的)和触笔输入(比如由触笔116提供的)。可用多种方法执行该区分,比如相对于显示屏108被触笔116接触的量,检测显示装置108被用户的手106a的手指接触的量。
因此,通过识别和平衡(leverage)触笔和触摸输入之间的划分和不同类型的触摸输入,姿势模块105可支持多种不同的姿势技术。
图2示出了示例性系统200,该系统示出了学习组件103、概括组件104和姿势模块105,示例性系统200在多个装置通过中央计算装置互联的环境中实施。虽然图2示出了学习组件103和概括组件104位于计算装置102上,但是,要认识和理解的是,这些组件也可分布在其他计算装置之间(比如,如虚线所示,分布在平台210上,作为网络服务212的部分)。中央计算装置可在多个装置本地,或可位于远离多个装置的位置。在一个实施例中, 中央计算装置是“云”服务器农场(“cloud” server farm),其包括通过网络、互联网或其他方式连接到多个装置的一个或更多个服务器计算机。
在一个实施例中,该互联体系结构使得功能性能够在多个装置上传递,以向多个装置的使用者提供相同且无缝的体验。多个装置中的每一个可具有不同的物理要求和能力,且中央计算装置利用平台将是适应于该装置而又对所有装置共同的体验传递给该装置。在一个实施例中,目标装置的“类”被创建,且体验适应于装置的一般类。装置的类可由装置的物理性质、用法或其他普通特性来定义。比如,如前所述,计算装置102可以用针对诸如移动装置202、计算机204以及电视206使用的多种不同的方式而配置。这些配置的每一个通常具有相应的屏幕尺寸,并且因此,在该示例性系统200中,计算装置102可被配置为这些装置类中的一个。比如,计算装置102可采用包括移动电话、音乐播放器、游戏装置等装置的移动202类。计算装置102还可采用包括个人计算机、笔记本计算机、上网本等装置的计算机204类。电视206配置包括涉及在休闲的环境中的显示器(比如电视、机顶盒、游戏控制台等)的装置配置。因此,这里描述的技术可由这些不同的计算机装置102配置所支持,并且不限于下述的特定实施例。
云208被示出为包括用于网络服务212的平台210。平台210对云208的硬件(比如服务器)和软件资源的基本的功能性进行抽象,并因此可作为“云操作系统”。比如,平台 210可以对资源进行抽象以将计算装置102与其他计算装置连接。平台210还可用于对资源的缩放抽象,以便为所遇到的对经由平台210实施的网络服务212的需求提供相应的尺度级。还提出了多个其他示例,诸如对服务器农场中服务器的负载平衡和防止恶意方(比如垃圾信息、病毒以及其他恶意软件)的保护等。
这样,云208作为属于可为计算装置102通过因特网或其他网络而得到的软件和硬件资源的策略的一部分而被包括。比如,学习组件103和概括组件104可在计算装置102 上并且通过支持网络服务212的平台210来部分地实施。
由姿势模块支持的姿势技术可利用移动配置202中的触摸屏功能性、计算机204 配置的跟踪板功能性来检测,由作为支持不涉及与特定输入装置的接触的自然用户界面 (natural user interface, NUI)的一部分的照相机所检测,等等。进一步地,检测和识别标识特定姿势的输入操作的执行可分布于整个系统200,如由计算装置102和/或云208的平台210所支持的网络服务212执行。
通常这里所描述的任何功能可用软件、固件、硬件(比如固定逻辑电路)、手动处理或这些实施的组合而实施。这里所用的术语“模块”、“功能性”和“逻辑”通常代表软件、固件、硬件或其组合。在软件实施的情况下,当在处理器(比如CPU或多个CPU)上或由处理器执行时,模块、功能性或逻辑代表执行所指定的任务的程序代码。该程序代码可存储在一个或更多个计算机可读存储器装置中。下述姿势技术的特性与平台无关,意思是该技术可在具有多个处理器的多个商业计算平台上实施。
在下面的讨论中,各个部分描述了各示例性实施例。标题为“示例性学习组件”的部分描述根据一个或多个实施例的示例性学习组件。接着,标题为“示例性概括组件”的部分描述根据一个或多个实施例的示例性概括组件。接下来,标题为“示例性方法”的部分描述了根据一个或多个实施例的示例性方法。最后,标题为“示例性装置”的部分描述了可被用来实施一个或多个实施例的示例性装置的各方面。
已经描述了能够在其中对微博进行概括的示例性运行环境,现在考虑讨论根据一个或多个实施例的示例性实施方式。
示例件学习组件
图3描述了根据一个或更多个实施例的示例性学习组件103。在该示例中,学习组件103包括词查找组件300、词典302、词映射组件304和概念存储装置306。
词查找组件300代表处理多个资源并计算个体词与公司名称一起出现的频率的量度的功能性。这可以用任何适合的方式来执行,下面提供了适合方式的示例。这些词然后用来构建词典302。在一个或更多个实施例中,词典302包含被发现一般与公司相关的名ο
词典302代表包含由词查找组件300标识的词(如名词)的功能性。出现在词典 302中的词随后由词映射组件304处理。
词映射组件304代表处理或映射在词典302中出现的词以根据这些词来创建更广义的概念的功能性。任何适合的技术可用于将词典300中出现的词映射到更广义的概念, 下面提供其示例。
概念存储装置306被配置为存储所定义的用于如下所述的对微博进行概括的各概念。
在操作中,且与一个特定的实施示例相关地,学习组件103能够如下所述地运行。
如上面所指出的,由词查找组件300处理多个资源,以创建由词典302所表示的词列表。在该特定的实施示例中,词典包含一般与公司相关的名词。比如,公司通常有CEO、 执行者、办公室、职员、顾客和产品。由于公司经常在新闻中被讨论,因此,从新闻语料(news corpus)中自动学习这些名词和其他名词。
在一个示例中,全年的纽约时报新闻文章被用作分析。每一篇新闻文章可对应一个文件。文件被自动分配部分语言标签,并用例如人、组织和/或位置提及等命名实体来标记。出现在文章中的组织或公司提及被标签标记为“公司”,并用一般的记号“COMPANY”来替代。接下来,预定义的词窗被用来在所有公司提及之前和之后选择词,作为候选者wi,并为每个候选者计算关联量度。可采用任何适合大小的预定义的窗。在本实施方式示例中, 使用20个词的预定义窗。关联量度反映词与公司名称一起出现的频率。任何适合类型的技术可用来计算该关联量度。在所示出和描述的实施例中,称为互信息的技术被用来测量共现(co-occurrence)。在本示例中,特定词的互信息或关联量度可计算如下
MhwiXOMPANY) = log})(Wi)/;(( OMPAM)
这里Wi和COMPANY是两个离散随机变量,p (wi,COMPANY)是Wi和COMPANY的联合概率分布函数;P (Wi)和P (COMPANY)分别是Wi和COMPANY的边缘概率分布函数。
在该特定示例中,取该排名中前几千个名词,并且编辑公司词典(如词典302)。
接下来,如上面所指出的,根据在词典302中出现的词创建更广义的概念。这是通过使用词映射组件304完成的。在该具体的特别示例中,通过利用所谓的上位词路径来推导出更广义的概念。任何利用上位词路径的适合的方法可被使用。在一个特定示例中使用了 WordNet,—种在其中按层级来组织词的英语语言的词汇数据库。从WordNet中可获取词的更一般的概念。例如“执行者”是“人”以及“狗”是“动物”。在该示出和描述的实施例中,检查在词典302中的每个公司词的上位词路径,并记录在多个不同级出现的词。在至少某些实施例中,来自上位词路径的更高级的更一般的词被记录。作为示例,考虑图4。
在图4中,出现了两个名词“商业广告”和“传单”。这些名词被映射到出现在多个不同层级内的语义标签。在示出的示例中,这些名词映射到所示出的上位词树中的相同的选择级,并相应地,被分组在“通信-消息-促销”语义标签下。在不脱离所要求保护的主题的精神和范围下,可以利用任何合适数量的级。在该特定示例中,利用出现在如虚线矩形所示的级3、4和5处的语义标签。出现在该级的集合的语义标签构成比原始词更一般的概念。然而,更一般的概念并不过于一般。由于标签更一般,因此,多个词被映射到同一簇,从而形成随后存储在概念存储装置306中的“概念”。因此,概念由语义标签和映射到其的词来定义。
如上所述,对词典302中的名词的处理产生多个不同的概念。这些概念可相当地不同,且可被直观地理解为与业务相关。这些概念然后可被重命名,以给予其信息更丰富的名字。比如,(以举例的方式且不作限制)概念的示例包括“人”、“事件”、“资产”、“组织”和 “通信”等。在概念存储装置306中的每个概念还包括映射到该概念的词。比如,概念“人” 包含如“执行者”、“CE0”、“顾客”以及“分析者”等词。在示出的和描述的实施例中,上述处理可离线完成。
已经根据一个或更多个实施例考虑了示例性学习组件以及概念存储装置如何构建,现在考虑讨论根据一个或更多个实施例可利用该概念存储装置执行概括处理的示例性概括组件。
示例性概括组件
图5示出了根据一个或更多个实施例的示例性概括组件104。在该示例中,概括组件包括聚类组件500、情感预测组件502、簇排名组件504和簇概括组件506。
聚类组件500代表根据来自特定公司的微博和来自概念存储装置的概念二者的输入来形成各个簇的功能性。
情感预测组件502代表为各微博计算情感值的功能性。可以用任何适合的方式计算情感值,在下面提供其示例。
簇排名组件504代表使用由情感预测组件502计算的情感值对来自聚类组件500 的各个簇排名的功能性。下面仅提供了如何完成该功能的一个示例。
簇概括组件506代表提供对每个簇的精确的簇概括的功能性。下面仅提供了如何完成该功能的一个示例。
在操作中,概括组件104可如下操作。来自概念存储装置的每个概念代表微博的可能的簇。为了对来自一个特定公司的微博聚类,每条微博由聚类组件500分配给来自概念存储装置306的可能概念中的一个。作为第一步,针对每个概念为微博计算成员分数。这样,如果有10条微博和10个概念,则计算出总共100个成员分数。成员分数可以用任何适合的方式来计算。在示出和描述的实施例中,检查出现在微博中的词,并且记录作为簇中的任何先前词(prior word)的直接匹配(direct matches)的那些词。这些词被称为该簇的 “精确匹配(exact matches)”。在该特定示例WordNet中,然后,尝试将剩余的非精确匹配的词映射到该簇使用的语义标签。即剩余的非精确匹配的词通过使用上位词路径来抽象, 以确认所述非精确匹配的词中任一个在其上位词路径中是否具有簇的语义标签作为子字符串。这些词被称为“模糊匹配(fuzzy matches)”。针对 微博-簇对的成员分数(score) 由下式来计算
分数=λ · I精确匹配I+ (1-λ) · I模糊匹配
这里λ是O和I之间的值,并给予精确匹配更高的权重。接着,微博分配给具有最高分数的簇,从而将每条微博只分配给一个簇。来自微博的具有精确或模糊匹配的词被存储作为对应的所分配簇的“映射词”。对于多于一个簇,一个微博可能相同的成员分数。 在这些情况下,可使用任何适合的启发式方法来处理该关系,并将每条微博分配给特定簇, 如(举例且不做限制)将微博随机分配给簇中的一个,分配给当前形成的簇中较大的一个或分配给较小的一个。
利用如上所述的聚类组件500,已经用其相关的微博和映射词形成了簇,现在可由簇排名组件504对簇进行排名。可回忆,簇排名组件504利用有关由情感预测组件502所计算的所分配的微博的情感值和映射词的统计对各个簇进行排名。特别地,在本示例中,利用对每个簇的映射词的熵量度对簇进行排名。如果某些映射词在簇中有很高的概率,则其指示被广泛讨论的子话题。另一方面,如果映射词宽泛地变化而没有明显占多数的词,则其是包括多样的子话题的簇,且因此不太重要。进一步地,在运算中,具有情感的映射词与没有情感的映射词相比被给予更高的权重。这可以用适当的方式来执行。在示出和说明的实施例中,这可按以下来执行。
考虑具有某些映射词的簇Gp映射词Wi的概率由下式给出
权利要求
1.一种方法,该方法包括 处理(600)多个资源以构建词典,所述词典配置为使得能够概括多条微博; 使用(602)所述词典创建概念,至少一些个体概念包括含有多个词的语义标签; 将多条微博分配(604)给多个所述概念以有效地形成潜在簇; 计算(606)每个微博/簇对的成员分数;以及 使用(606)所述成员分数将微博分配给簇。
2.如权利要求I所述的方法,其中所述处理多个资源包括使用共现技术来构建所述词典。
3.如权利要求I所述的方法,其中所述微博包括与公司相关的微博。
4.如权利要求I所述的方法,其中处理多个资源以构建词典包括 构建含有与公司相关的名词的词典; 使用预定义的词窗口在与公司相关的提及之前和之后选词;以及 为至少一些个体词计算关联量度,所述关联量度反映所述词与公司提及一起出现的频率。
5.如权利要求I所述的方法,其中使用所述词典创建概念包括利用上位词路径,所述语义标签含有来自所述上位词路径的多个词,该多个词出现在所述上位词路径的不同层级。
6.—种或更多种计算机可读存储介质,所述计算机可读介质包含计算机可读指令,当被执行时,所述计算机指令实施包括以下的方法 利用与各簇相关的映射词上的熵量度来对各个簇排名(608),所述熵量度合并与所述映射词相关的情感值,所述簇与要被概括的微博相关;以及概括(610)每个簇的内容。
7.如权利要求6所述的一种或更多种计算机可读存储介质,其中所述概括包括根据概率量度选择一个或更多个句子,所述概率量度合并与所述一个或更多个句子中出现的词相关的情感度。
8.如权利要求6所述的一种或更多种计算机可读存储介质,其中所述微博与一个或更多个公司相关。
9.如权利要求6所述的一种或更多种计算机可读存储介质,其中所述排名包括计算映射词的概率,其中映射词的概率合并相关情感值,情感值与微博被分成肯定、否定或中性类别的分类相关。
10.如权利要求6所述的一种或更多种计算机可读存储介质,其中所述排名包括 计算映射词的概率,其中映射词的概率合并相关情感值;以及 计算将与簇的映射词相关的概率考虑在内的熵量度。
全文摘要
公开了微博概括。各实施例提供了概括技术,该概括技术可应用于博客或微博以便以缩短的形式呈现被判定为有用的信息。在一个或更多个实施例中,一种方法用来从诸如免费文本等各种资源中自动获取概念组。这些所获取的概念然后用来指导聚类处理。对簇进行排名,并随后通过合并词的频率和情感来概括簇。
文档编号G06F17/30GK102982124SQ20121045357
公开日2013年3月20日 申请日期2012年11月13日 优先权日2011年11月14日
发明者安妮·路易斯, 托德·纽曼 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1