根据社交媒体和其它数字轨迹对动作、结果和目标实现进行建模的制作方法

文档序号:11635591阅读:183来源:国知局
根据社交媒体和其它数字轨迹对动作、结果和目标实现进行建模的制造方法与工艺



背景技术:

技术辅助的决策制定在现代社会生活中变得越来越常见。用户依靠技术通过利用来自诸如社交媒体、博客、移动应用等的源的数据来按需研究产品和/或服务评论。这些现有的技术可以向用户提供非常特定的经验数据用于进行更明智的决策。然而,这些技术中的许多受限于在用户确切知道他们在寻找什么时向用户提供信息。特别地,社交媒体用作公共可用数据的巨大资源,用户借此经由社交媒体帖子来共享他们的个人经验。从社交媒体收集到的数据可以覆盖与特定事件、动作、目标、产品、服务或其它感兴趣主题相关的个人经验的广泛范围。然而,用户一般受限于基于感兴趣的关键词、利用简单的搜索查询来解析社交媒体数据,简单的搜索查询缩小了可用于评论的数据的范围。



技术实现要素:

提供该“发明内容”是为了以简化形式介绍在下文具体实施方式中进一步描述的构思的精华。该发明内容并不旨在标识所要求保护技术方案的关键特征或必要特征,也不旨在用作帮助确定所要求保护技术方案的范围。

本发明的实施例一般涉及分析社交媒体经验数据来影响决策制定运算。提取多个社交媒体用户的经验社交媒体帖子。为每个社交媒体用户生成事件时间线。基于特定的感兴趣事件,为经历过该特定事件的社交媒体用户构造相关数据模型。将相关数据模型应用于对应于该特定的感兴趣事件的决策制定运算。

附图说明

通过示例而非限制在附图中示出本发明,在附图中类似的参考标记表示类似的元件,并且其中:

图1是适于在实现本发明的实施例时使用的示例性计算环境的框图;

图2是可以采用本发明实施例的示例性系统架构的框图;

图3是示出用于分析来自大量社交媒体用户的大量社交媒体数据、并构建在发生于每个用户时间线内的一个或多个事件之间的相关数据模型的方法的流程图;以及

图4是示出用于分析来自大量社交媒体用户的大量社交媒体数据、并构建在发生于每个用户时间线内的一个或多个事件之间的相关数据模型的方法的流程图。

具体实施方式

结合本文的特异性描述了本发明的技术方案以满足法定要求。然而,描述本身不旨在限制本专利的范围。而是,发明人已经料想到结合其它当前或将来的技术,所要求保护的技术方案还可以以其它方式实现,以包括与本文档中描述的步骤不同的步骤或类似的步骤组合。此外,虽然术语“步骤”和/或“框”在本文中可以用于表示所采用方法的不同元素,但是所述术语不应该被解释为暗示在本文公开的各种步骤当中或之间的任何特定的次序,除非明确描述了个体步骤的次序。

为了帮助个人进行他们的决策制定,已经开发了基于用户观点和评论向好奇的个人提供经验数据的一些技术。在个人基于他人对特定事件或项目的经验来寻求决策制定帮助时,个人通常参考评论站点、博客、产品和服务网页等。一般而言,这些资源受限于特定事件、服务或项目本身。然而,社交媒体是持续增长的资源,其包括针对每天经验、所采取动作及其后果的大量未分类的特定于用户的经验数据。许多社交媒体用户一般几乎每天(有时一天多次)公布或“发布”第一手经验。通常,这些社交媒体用户持续发布进行的、与特定事件或者先前或最终采取的动作看起来相关或不相关的事件。

本发明的实施例一般针对分析来自大量社交媒体用户的大量社交媒体数据,并构建发生于每个用户时间线内的一个或多个事件之间的相关数据模型。通过分析单个用户经历的第一人称事件并使得事件与在所述单个用户生活中发生的其它事件相关,如发布在社交媒体上的,在大样本的社交媒体用户上收集到的这种数据可以用于构建决策制定模型,用以帮助可能对制定类似决策感兴趣或经历类似经验的用户。换句话说,社交媒体经验数据可以用于帮助人们进行更好的决策并采取更好的动作,以通过利用亿万社交媒体用户公布的经验数据来实现他们的目标,所述亿万社交媒体用户发布他们已经采取的动作以及之后在其生活中经历的结果。

因此,在一个方面,本发明的实施例针对存储计算机可用指令的非瞬态计算机存储介质,当被一个或多个计算设备使用时,所述指令使得所述一个或多个计算设备执行操作。所述操作包括提取与多个社交媒体用户相关联的多个经验社交媒体帖子。所述操作还包括至少基于多个经验社交媒体帖子的元数据生成多个事件时间线,每个事件时间线对多个社交媒体用户中的每一个是唯一的。所述操作还包括通过测量特定的感兴趣事件与多个经验社交媒体帖子中的至少一些帖子之间的相关性,来构建相关数据模型,所述至少一些帖子在多个事件时间线中的至少一些时间线内。所述操作还包括将相关数据模型应用于与特定的感兴趣事件对应的至少一个决策制定运算。

在本发明的另一实施例中,一个方面针对计算机实现的方法。所述方法包括提取与多个社交媒体用户相关联的多个经验社交媒体帖子。所述方法还包括至少基于多个经验社交媒体帖子的元数据生成多个事件时间线,每个事件时间线对多个社交媒体用户中的每个用户是唯一的。所述方法还包括:利用至少一个处理器,通过测量特定的感兴趣事件与多个经验社交媒体帖子中的至少一些帖子之间的相关性,来构建相关数据模型,所述至少一些帖子在多个事件时间线中的至少一些时间线内。所述方法还包括将相关数据模型应用于与特定的感兴趣事件对应的至少一个决策制定运算。

另一实施例针对计算机化的系统,其包括:一个或多个处理器;以及存储计算机可用指令的一个或多个计算机存储介质,当被一个或多个处理器使用时,所述指令使得一个或多个处理器用于:提取与多个社交媒体用户相关联的多个经验社交媒体帖子;至少基于多个经验社交媒体帖子的元数据和一些内容生成多个事件时间线,每个事件时间线对多个社交媒体用户中的每个用户是唯一的,并且其中所述内容包括至少一些时间描述;利用一个或多个处理器,通过测量特定的感兴趣事件与多个经验社交媒体帖子中的至少一些帖子之间的相关性,来构建相关数据模型,所述至少一些帖子在多个事件时间线中的至少一些时间线内,其中测量的相关性包括识别多个经验社交媒体帖子中的至少一些帖子对于特定的感兴趣事件的正价(positivevalence)和/或负价(negativevalence);以及将相关数据模型应用于与特定的感兴趣事件对应的至少一个决策制定运算。

在简述了本发明的实施例的概述之后,在下文描述可以实现本发明实施例的示例性操作环境,以便提供本发明的各个方面的一般上下文。通常参考附图,并且首先特别参考图1,示出了用于实现本发明的实施例的示例性操作环境,该示例性操作环境一般被指定为计算设备100。计算设备100仅仅是适当的计算环境的一个例子,并不旨在暗示对本发明实施例的使用或功能的范围的任何限制。计算设备100也不应该被解释为具有与所示的任何一个部件或任意部件组合有关的任何依赖性和要求。

可以在计算机代码或机器可用指令的一般上下文中描述本发明的实施例,包括计算机可用或计算机可执行指令(例如,程序模块),其由计算机或其它机器(例如,个人数据助理或其它手持设备)执行。一般而言,程序模块包括例程、程序、对象、部件、数据结构等,和/或指的是执行特定任务或实现特定抽象数据类型的代码。本发明的实施例可以实现在多种系统配置中,包括手持设备、消费电子产品、通用计算机、数据中心、更专用的计算设备等。本发明的实施例还可以被实现在分布式计算环境中,其中任务由通过通信网络链接的远程处理设备来执行。

继续参考图1,计算设备100包括总线110,其直接或间接地耦合下列设备:存储器112、一个或多个处理器114、一个或多个呈现部件116、一个或多个输入/输出(i/o)端口118、一个或多个i/o部件120、以及图示电源122。总线110表示一个或多个总线(例如,地址总线、数据总线或其组合)。虽然为了清晰的原因以线条示出图1中的各个框,但是事实上,这些框表示逻辑的而非实际的部件。例如,人们可以将呈现部件(例如,显示设备)看作是i/o部件。另外,处理器具有存储器。本文的发明人认识到这是本领域的本质,并重申图1的图仅用于说明可以结合本发明的一个或多个实施例使用的示例性计算设备。不区分例如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等的种类,因为所有这些都在图1的范围内被料想到,并指代“计算设备”。

计算设备100一般包括多种计算机可读介质。计算机可读介质可以是任意的可用介质,其可由计算设备100访问并包括易失性和非易失性介质、可移除和不可移除介质。计算机可读介质包括计算机存储介质和通信介质;计算机存储介质不包括信号本身。计算机存储介质包括易失性和非易失性、可移除和不可移除介质,其是以用于存储信息(例如,计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术来实现的。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其它存储器技术、cd-rom、数字通用盘(dvd)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备、或者能够用于存储期望信息并能够由计算设备100访问的任何其它介质。

在另一方面,通信介质具体体现计算机可读指令、数据结构、程序模块、或已调数据信号(例如,载波或其它传输机制)中的其它数据,并包括任何信息输送介质。术语“已调数据信号”表示其特性中的一个或多个以如下方式被设定或改变的信号:所述方式使得将信息编码在该信号中。通过例子而非限制,通信介质包括:有线介质,例如有线网络或直连线连接;以及无线介质,例如声、rf、红外以及其它无线介质。上述任意组合也应该包含于计算机可读介质的范围内。

存储器112包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移除的、不可移除的或其组合。示例性硬件设备包括固态存储器、硬驱动、光盘驱动等。计算设备100包括一个或多个处理器,其从各种实体(例如,存储器112或i/o部件120)处读取数据。呈现部件116向用户或其它设备呈现数据表示。示例性呈现部件包括显示设备、扬声器、打印部件、振动部件等。

i/o端口118允许计算设备100逻辑地耦合到其它设备(包括i/o部件120),其中的一些可以是嵌入式的。说明性的i/o部件包括麦克风、操纵杆、游戏垫、卫星盘、扫描仪、打印机、无线设备、控制器(例如,铁笔、键盘和鼠标)、自然用户界面(nui)等。

nui处理空中姿势(即,与用户的一只或两只手或用户身体的其它部分相关联的运动或移动)、语音或用户生成的其它生理输入。nui实现以下的任意组合:语音识别、触摸和铁笔识别、面部识别、生物识别、在屏幕上和邻近屏幕的姿势识别、空中手势、头部和眼部跟踪、以及与在计算设备100上的显示器相关联的触摸识别。计算设备100可以装备有一个或多个触摸数字转换器和/或深度摄像机,例如立体摄像机系统、红外摄像机系统、rgb摄像机系统和这些的组合,用于引导和/或悬停姿势检测和识别。另外,计算设备100可以装备有支持运动检测的加速度计或陀螺仪。可以将加速度计或陀螺仪的输出提供给计算设备100的显示器,以呈现浸入式增强现实或虚拟现实。

可以以计算设备执行的计算机可执行指令(例如,程序模块)的一般上下文描述本文所描述的技术方案的各方面。一般而言,程序模块包括例程、程序、对象、部件、数据结构等,其执行特定任务或实现特定抽象数据类型。本文所描述的技术方案的各方面还可以在分布式计算环境中实现,其中通过经由通信网络链接的远程处理设备执行任务。在分布式计算环境中,程序模块可以位于包括内存存储器设备的本地和远程计算机存储介质两者中。

现在转向图2,提供了示出可以采用本发明的一些实施例的示例性系统200的框图。应该理解的是,本文描述的这个和其它布置仅被阐述为例子。除了或替代所示的那些布置之外,还可以使用其它布置和元件(例如,机器、接口、功能、命令、和功能组等),并且可以一起省略一些元件。此外,本文描述的许多元件是功能实体,其可以被实现为分立的或分布式的部件或与其它部件结合,并且可以被实现在任意适当的组合和位置处。本文描述的由一个或多个实体执行的各种功能可以由硬件、固件和/或软件执行。例如,可以通过处理器执行存储于存储器内的指令来实现各种功能。

除了未示出的其它部件外,系统200可以包括多个社交网络服务202a、202b、202n、社交数据聚合器204、以及事件关系模块206。应该理解的是,图2中示出的系统200是一个适合的计算系统架构的例子。图2中示出的每个部件可以经由任意类型的计算设备(例如,参考图2描述的计算设备200)来实现。部件可以经由网络208彼此通信,所述网络可以包括但不限于一个或多个局域网(lan)和/或广域网(wan)。这种网络环境在办公室、企业范围计算机网络、内联网和互联网中是常见的。应该理解的是,在本发明的范围内,可以在系统200内采用任意数量的社交网络服务、社交数据聚合器和社交分析工具。每个可以包括单个设备或在分布式环境中协作的多个设备。例如,可以经由布置在分布式环境中的多个设备(其共同提供本文描述的功能)提供事件关系模块206。另外,未示出的其它部件也可以包含于网络环境中。

可以通过搜索引擎技术结合(仅通过示例)个人助理/指导者应用来采用事件关系模块206。此外,事件关系模块206操作以从社交网络服务202a、202b、202n收集社交数据。如图2中所示,可以从任意数量的社交网络服务收集社交数据。这些服务一般包括任意在线存在,其中用户可以与在用户的社交网络内的其他用户共享消息。在一些实例中,事件关系模块206可以直接从社交网络服务访问社交数据,或者提供事件关系模块206的实体可以从社交网络服务访问数据并将数据提供给模块206。例如,社交网络服务可以提供暴露所述数据的api。在其它实例中,事件关系模块206可以从第三方社交数据聚合器204访问社交数据,所述聚合器可以操作以从一个或多个社交网络服务访问数据,标准化所述数据并提供标准化的数据。任意和所有这些变型被料想到在本发明的实施例的范围内。

如图2所示,除了未示出的事物,事件关系模块206可以包括时间线提取部件210和分析部件212。时间线提取部件可以包括经验消息识别部件214、时间戳识别部件216、事件提取部件218、以及价(valence)识别部件220。分析部件212还可以包括因果分析部件222。在一些情况下,与感兴趣的动作、事件或项目相对应的输入查询224可以被传送到分析部件212用于处理,如将会描述的。

被传送到事件关系模块206的社交数据可以包括社交媒体消息或“帖子”(即,包括个人发布的原始微博文本的消息)的语料库。这样的消息包括由个人发布的原始文本通信。在一些实例中,消息可以包括非结构化的文本数据,通常看到的是具有如所述的原始文本通信。在一些其它实例中,消息可以包括结构化数据。例如,健身追踪器可以为用户自动发布锻炼和与其相关联的数据的非文本的结构化表示。在另一例子中,音乐流送服务可以为用户发布用户当前正在收听的歌曲的结构化表示。这样的结构化表示可以避免活动的简单文本描述,并相反使用描述用户动作的关键面元(facet)的一些预定的表示,而不需要指定这些面元应该被如何组合用于呈现给其他用户。在一些实施例中,除了结构化表示之外,消息一般还可以包括简单文本表示的组合。在一些其它实施例中,这些消息还可以至少包括用户标识符和时间戳,但是还可以包括其它元数据(例如,位置信息、生物信息、流行度统计、社交网络连接等)。

事件关系模块206利用时间线提取部件210执行对消息的语料库的分析。时间线提取部件210分析社交媒体消息的语料库,以生成事件发生的时间线的集合。集合中的每个时间线包括在单个个人(即,社交媒体用户)生活中发生的事件的时间线。在一些实例中,事件可以包括个人明确采取的动作。在其它实例中,事件可以描述作为特定动作的后果而发生的结果,或者甚至由于不相关原因而发生的背景事件。如所述,事件可以直接从每个个体社交媒体消息被提取,或者从语料库整体被推断。

更详细地,时间线提取部件210可以包括用于便于事件时间线提取的子部件。例如,经验消息识别部件214可以用于识别描述作者(即,社交媒体用户)的个人经验的经验消息,而不管该经验消息是作者用过去、当前或(期望的)将来形式来编写的。社交消息可能包括大量社交“噪声”,包括对话文本、传闻、到新闻报道和当前事件的指针,等等。经验消息识别部件214配置为利用机器学习技术将经验消息与其它社交媒体内容区分开,所述机器学习技术实现任意的学习技术,仅通过示例方式包括:线性回归、支持向量机、和/或深度神经网络。

时间线提取部件210还可以包括时间戳识别部件216,用于识别在经验消息中提及的时间段、或从多个经验消息推断出的时间段。实质上,虽然许多社交媒体消息原地提供个人经验的报告,但是对于作者而言也报告过去和/或预期的经验是不寻常的。这样,时间戳识别部件216利用基于规则的系统分析经验消息,所述基于规则的系统能够识别和解决相关偏移的基本表达(即,“昨天”或“下周末”),以及对附近的日子和日期的提及(即,“周二”和“2月10日”)。仅通过例子,记叙“我不能相信我的马拉松还有两天就开始了”的经验消息可以由时间戳识别部件216解释为在经验消息中描述的事件(例如,“马拉松”)在存储于该消息的元数据内的时间戳之后的两天发生。

时间线提取部件210还可以包括事件提取部件218,用于识别和标准化事件(即,识别动作和结果两者)。更详细地,为了便于根据消息的时间线生成“事件”的时间线,时间线提取部件210从社交媒体消息文本识别并提取事件。这些事件可以直接从消息的文本表示中被提取,或者从多个消息中被推断出。提取这种事件的任务可以类似于命名实体识别的任务,同时如本领域技术人员可以理解的,共享其许多挑战(即,包括候选识别、消歧和标准化)。在一个实施例中,消息的所有短语被提取为可能的事件,而不试图将其分类为动作、结果或任一种。统计短语分割用于识别候选,同时将上下文的分布用作比较以识别标准化。

在一些实施例中,由时间线提取部件210使用统计建模方法来在文本中推断隐藏的短语边界以用于短语分割。为了有效地定位短语,利用短语一元语法语言模型。简言之,短语一元语法语言模型中的每个标记包括一个或多个空格间隔开的词语。通过在单个一元语法内编码多个词语,短语语言模型能够捕捉长距离关系,而不需要高阶markov统计和伴随的大模型。短语一元语法语言模型本身是根据文本的大语料库、利用期望最大化(em)过程来训练的,所述em过程迭代地将语料库分割为可能的短语,然后重新训练新的短语一元语法语言模型。如本领域技术人员可以理解的,给定短语一元语法语言模型,在消息中识别短语分割是搜索分量一元语法的最可能组合的问题。为了便于标准化,一些实施例可以基于与每个分割的短语共同出现的单个词语标记的同现,而建立单个词语标记的概率的分布。凝聚层次聚类可以用于将位于彼此的距离阈值内的所有标记分组到一起,其中在两个标记之间的距离被测量为在两个特征向量之间的余弦相似度。

时间线提取部件210还可以包括价识别部件220,用于识别事件是否与正价或负价相关联。换句话说,价识别部件220能够检测与社交媒体消息中的词语相关联的情绪或感情。检测这些情绪或感情并将其与结果相关联可以帮助推理其重要性。在一些实施例中,领域无关的(domain-agnostic)影响提取器可以用于提取作者对事件的相关联情绪的级别(例如,愉悦、悲伤、疲劳、敌意等)。

如上简述,分析部件212接收输入查询224用于处理。输入查询224可以由两个事件(第一事件(e+)和第二事件(e-))定义。因果分析部件222可以配置为识别事件e+的前后关系,其将包含e+的社交媒体时间线与包括某个事件e-的时间线区分开。从语义上,e+和e-可以被认为是识别正和负结果,或者控制和处理类别。被定义为两类事件(e+和e-)的查询224用于识别和对齐从时间线提取部件210接收到的两个时间线集合。例如,将事件e的类别指定为某个特定观察或复杂匹配函数。如本文进一步描述的,可以经由分析部件212根据所选的特定查询,分析不同形式的高级问题。例如,如果选择查询使得e+选择执行某个特定动作(且e-选择不执行所述动作),则由分析部件212生成的结果将标识在采取指定的动作之后可能发生什么。在另一方面,如果选择查询使得e+选择实现特定目标(并且e-选择不实现所述目标),则由分析部件212识别出的先例将标识可能做了什么并区分实现目标和没实现目标的人。在一些实施例中,不管e+或e-的指定,在目标或动作的上下文中,都可以计算先前的和后续的事件。这样,可以分析导致采取特定动作的先前事件,以及跟随的、实现了特定目标的后续事件。

因果分析部件222可以在比较包含事件e+的时间线和包含事件e-的时间线时识别进行区分的先前和后续事件。在一个实施例中,可以利用简单相关分析来识别事件;而在另一实施例中,可以利用具有语义限制的相关分析来识别事件。在第一例子中,在目标事件与在其之前或之后的事件之间确定简单的相关性。目标是发现如下事件,与在e-之前或之后发生相比,所述事件与在e+之前或之后(而不是之前和之后两者)发生更相关。在另一例子中,语义相关性添加了限制,所述限制仅考虑被认为在语义上与感兴趣域密切相关的那些事件。语义相关性假设如果感兴趣事件与目标事件e+和e-相关,则至少一个人已经在目标域的可识别的上下文中清楚地提及了该感兴趣事件。这样,排序的感兴趣事件应该对噪声和混乱更健壮,虽然查询模型被扩展为包括感兴趣域的指定,但是期望的是所发现的将相关的事件更可能被人类容易地解释。

现在转向图3,提供了示出用于分析来自大量社交媒体用户的大量社交媒体数据、并构建发生于每个用户时间线内的一个或多个事件之间的相关数据模型的方法300的流程图。方法300和本文描述的其它方法的每个框包括:可以利用硬件、固件和/或软件的任意组合执行的计算过程。例如,可以通过执行存储于存储器中的指令的处理器执行各种功能。所述方法还可以体现为存储于计算机存储介质上的计算机可用指令。可以由独立应用、服务或托管服务(独立或结合另一托管服务)、或另一产品的插件等来提供所述方法。

如框302所示,(例如,通过图2的时间线提取部件210)提取与多个社交媒体用户相关联的多个经验社交媒体帖子。如本文描述的,例如,从通过图2的社交数据聚合器204接收到的多个未分类的社交媒体帖子识别和提取经验社交媒体帖子。每个社交媒体帖子(不管类型或种类)可以包括元数据,其包括关于帖子和/或创作用户的各种信息,例如创作用户的名称或用户名、地理位置、以及帖子提交的时间戳,等等。

将经验社交媒体帖子定义为包括传达创作用户的第一人称经验的内容的社交媒体帖子。为了在多个未分类社交媒体帖子中识别经验社交媒体帖子,可以使用利用各种机器学习技术的方法。在一些实施例中,可以使用简单的统计语言建模来从未分类的社交媒体帖子识别经验社交媒体帖子。统计语言建模可以包括从简单学习算法(例如,线性回归)到更复杂的过程(例如,支持向量机(svm)和深度神经网络)的广泛的机器学习技术。前述只是机器学习技术的例子,并不旨在限制范围,因为用于实现统计语言建模的任意机器学习技术都可以被认为落入本发明的范围内。

如框304所示,(例如,通过图2的时间线提取部件210)生成多个事件时间线。为每个唯一的用户生成事件时间线,从而多个社交媒体用户中的每个用户都与唯一的事件时间线相关联。事件时间线可以包括每个唯一个人的事件的时间线,其中利用个体用户的经验社交媒体帖子来描述事件。可以至少基于每个经验社交媒体帖子的元数据生成事件时间线。在一些实施例中,当经验社交媒体帖子包括事件的时间描述时,可以调整经验社交媒体帖子在事件时间线上的布置,以与所描述的时间描述对齐(例如,利用图2的时间戳识别部件216)。还可以基于社交媒体数据和其它非个人数据源的组合来生成事件时间线。例如,如果有人在帖子中说他们吃了汉堡和炸鸡,则一些实施例可以从政府和/或营养资源处寻找和获取营养信息,并创建“吃了不健康食物”的事件和/或专门将营养信息添加到事件本身中。在另一例子中,如果有人发布他们在特定日期处于特定位置,则一些实施例可以添加关于这个位置的上下文信息。例如,如果有人发布他们“今天在西雅图慢跑”,则实施例可以寻找和获取所述位置和日期的天气信息,以将作者“在雨中慢跑”的上下文添加到帖子中。

在一些实施例中,可以(例如,通过价识别部件220)分析每个经验社交媒体帖子,以识别每个经验社交媒体帖子的正价或负价。在一些实施例中,可以通过整体地分析多个社交媒体帖子来识别价。例如,如果有人发布“今天是个伟大的日子”,则一些实施例可以将正价分配给该人的时间线中、发生在所述特定日子中的所有事件。正价或负价还可以是多维的。例如,有人可能表达他们在一定程度上又高兴又疲惫。与单一的正/负值相比,该多面元的表示可能产生更多的洞察力,并更适当地表达事件的复杂性。

如框306所示,通过测量(例如,通过图2的输入查询224)接收到的特定的感兴趣事件和多个经验社交媒体帖子中的至少一些帖子之间的相关性,(例如,通过图2的分析部件212)构建相关数据模型,所述至少一些帖子在多个事件时间线的至少一些时间线中。例如,在输入查询中定义的事件也可能发生,或与在多个事件时间线中的零个、一些或所有中发现的一个或多个帖子有关。这样,分析部件212可以分析事件时间线,以确定时间线是否包括与输入查询相关的事件。相关数据模型可以包括相关分析或因果分析多样性的模型。可以考虑相关分析(例如,bayesian分析)或用于估计因果关系的更复杂的技术(例如,倾向分数匹配、结构方程建模、格兰杰因果以及路径分析等),用作本发明范围内的相关数据模型。这样,分析事件时间线以生成或构造相关数据模型,其包括在多个事件时间线内发生的任意或所有事件的相关性测量。在一些实施例中,包括相关性测量的相关数据模型可以在接收到输入查询时立即被生成、利用预定的输入查询集合被预先生成并被缓存、或随着时间的推移被生成并被缓存,使得每个输入查询立即生成相关性测量,其之后立即被缓存或被存储于存储器中。

在一些实施例中,相关数据模型可以用作对于系统或第三方系统(未示出)的服务,用于查询在一个或多个特定的感兴趣事件之间的关系。在其它实施例中,决策制定运算可以从相关数据模型请求数据,所述数据包括和或事件时间线与特定的感兴趣事件之间的、例如具有高于特定阈值的幅度的所有相关性。这样,相关数据模型可以应用于对应于特定的感兴趣事件的决策制定运算,以最终提供相关数据用于决策制定帮助。本领域普通技术人员可以认识到,在特定事件和大样本事件数据之间提供的相关数据可以在各种应用中传递决策制定的经验支持。在一些实施例中,相关测量的幅度可以表示特定关系的强度和/或可能的重要性。特别地,在已经观察到所有可能的因果因素并且观察到因果因素的一个或多个组合确定性地导致某个结果时,可以推断因果关系。在一些实例中,当因果因素的一个或多个组合可能导致特定结果时,可以建立因果关系。这样,执行因果分析的算法尝试对特定事件的发生分析出所有替代解释。实质上,算法可以确定特定的因素组合是否将导致特定结果,以及缺少所述因素组合是否导致特定结果的失败。在一些实施例中,用于确定因果关系的算法尝试在所有其它事件实质上相等时(由此对特定事件的发生分析出替代解释)确定是否存在因果关系。在这种实例中,事件关系模块206能够确定特定的感兴趣事件和事件时间线中的各种事件之间的因果关系,还将这种确定用于更主动的应用,如将要描述的。

可以通过系统以主动或被动方式进行相关数据模型的应用。当特定的感兴趣事件被提交或被记录为在特定应用中具有重要性时,模型的主动应用可以被设计为:例如在检测到具有达到阈值相关性的时间线事件、或者检测到因果关系被建立时,呈现警告。在一些实施例中,数据模型的主动应用可以包括在没有用户干预的情况下自主地采取预先定义的动作的计算设备或软件应用。例如,软件应用能够通过警告中断用户,自动购买票和/或安排事件,或者甚至主动地防止一些警告的呈现。在其它实例中,模型的被动应用可以被设计为:仅在被特定应用或用户查询时提供相关数据。在实施例中,相关数据模块还可以连同关系数据一起提供额外的信息,以用于便于解释相关数据。在这种实施例中,额外的信息可以包括来自已经达到阈值相关性的经验社交媒体帖子的内容。

现在转向图4,提供了示出用于分析来自大量社交媒体用户的大量社交媒体数据、并构建发生于每个用户时间线内的一个或多个事件之间的相关数据模型的方法400的流程图。首先,如框402所示,(例如,利用图2的时间线提取部件210)分析多个社交媒体帖子,以识别经验社交媒体帖子。如框404所示,将经验社交媒体帖子识别和提取为传递作者的第一人称经验,这与非经验帖子相反。例如,可以通过图2的经验消息识别部件214来进行经验社交媒体帖子的识别。如框406所示,为在多个社交媒体帖子中已经创作了帖子的每个社交媒体用户,(例如,利用图2的事件提取部件218)识别和提取所有的经验事件。此外,如框408所示,为时间线中的每个事件,(例如,利用图2的价识别部件220)确定事件的正价或负价或情绪。如框410所示,通过至少分析从其提取事件的每个社交媒体帖子的元数据和/或从其提取事件的社交媒体帖子的内容(例如,时间描述),来确定事件的时间戳。

虽然方法400以顺序次序示出了事件提取406、价识别408、以及适当的时间戳的确定410,但是前述事件不限于特定的次序,并且前述的任意次序可以被认为在本发明的范围内。在前述过程之后,生成用于负责创作通信的每个社交媒体用户的、对应于事件的事件时间线。这样,生成多个事件时间线,每个时间线对于特定社交媒体用户是唯一的。

在生成事件时间线之后,随后根据接收到的输入查询分析事件时间线,如框414、416和418所示。更具体地,(例如,通过图2的分析部件212)接收输入查询,并(例如,通过图2的时间线提取部件210)结合生成的事件时间线分析输入查询。如框416所示,所述分析基于输入查询在事件时间线中进行多个相关性测量。例如,输入查询可以包括特定的感兴趣事件,例如特定动作或目标。所述分析广泛地识别与特定的感兴趣事件的先后关系,其将包含特定的感兴趣事件的事件时间线与例如包括相反动作、特定事件的空动作、或未实现目标的时间线区分开。这样,如所述的,除了与相反、空或未实现事件相匹配的时间线的集合以外,还可以提取与特定的感兴趣事件匹配的时间线的集合。前述集合可以提供生成相关数据模型的框架,用于更灵活地查询数据。可以(例如,利用图2的分析部件212)构建相关数据模型。现在,数据模型可操作以接收特定的查询,仅通过例子例如:(1)查询特定动作来识别在采取指定动作之后可能发生什么;或(2)查询用于特定的目标实现的计划,以识别可能做什么以及区分实际实现该目标和未实现该目标的人。

如框418所示,相关数据模型可以被系统200的任意组件使用或者可用作对于第三方的服务。可以在各种使用情况中考虑相关模型的应用。仅通过例子,电子个人助理、搜索引擎技术、社交研究员、市场研究员、产品开发、针对其进行关于动作/后果关系的查询的任意应用等被认为落入本发明的范围内。

已经结合特定实施例描述了本发明,其在所有方面都旨在说明性的而非限制性的。对本发明所属领域的普通技术人员而言,替代实施例是显而易见的,而不背离其范围。

虽然本发明易受到各种修改和替代构造,但是在图中示出了且在上文详细描述了本发明的某些图示实施例。然而,应该理解的是,并不打算将本发明限制为所公开的特定形式;相反,意图是覆盖落入本发明的精神和范围内的所有修改、替代构造和等价形式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1