用于对来自应用程序数据文件的信息进行计算机辅助消费的方法和系统与流程

文档序号:15907156发布日期:2018-11-13 19:51阅读:178来源:国知局
用于对来自应用程序数据文件的信息进行计算机辅助消费的方法和系统与流程

本专利的申请是根据专利合作条约进行提交,并涉及在USPTO提交的三个现有临时专利申请:由本发明的发明人中的两位Indu M.Anand和Anurag Wakhlu于2011年5月24日提交的标题为“A Method and System for Computer-Aided Reading or Listening or Viewing Application Data Files”的申请序列号61/519578;由本发明的发明人中的三位Indu Anand、Anurag Wakhlu以及Pranav Anand于2011年7月23日提交的标题为“A Method and System for Computer-Aided Reading of documents and for Reading,Listening or Viewing Application Data Files”的申请序列号61/572,826;以及由本发明的所有四位发明人于2012年5月24日提交的标题为“A Method and System for Computer-Aided Reading,Listening or Viewing Application Data Files”的临时专利申请。所有现有临时申请的内容以引用的方式并入本文。

发明领域

本发明涉及一种在例如通过阅读、查看或收听来消费来自各种文档和数据文件的信息和内容方面辅助用户计算机化方法和系统,所述文档和数据文件采用了“基于群众的(crowd-based)”功能来用于消费,即阅读、查看、收听和编辑。本PCT专利申请汇编了所有三个现有临时申请中的公开内容。

发明背景

计算机的辅助遍及许多人类活动中,特别是在对互联网的访问普及以后,并且现在,计算机是一种用于创建新的“信息”和“基于群众的”问题解决方案的主要工具,其中某个问题的解决方案是根据通常提供在互联网上的许多用户的输入内容来获得。然而,与消费和吸收所述信息有关的如阅读、收听和查看的活动很大程度上仍是孤立的。本发明公开了方法和系统,所述方法和系统利用其他用户的努力和经验来对消费者、读者、听众或观众等的结果和经验进行源自群众的、计算机辅助的改进。

这样一种实体的基本实施例是一种通过以下来辅助文本文件的读者的方法和系统:提供由一位或多位先前的读者对他们视为重要的文本片段进行的“突显”。这个实施例中的读者然后可以特别注意所述文本的已突显片段,从而总体上节约阅读时间,并且如果先前的读者已经正确地突显了重要部分,那么所述读者会更好地理解所述文本的关键部分。如果所述读者同意依附于由其他读者所突显的部分的重要性,那么这将提供正面强化,但是无论如何都将会帮助学生读者更容易地攀爬学习曲线。

对于一般读者群来说,这通常是探讨复杂主题的书籍和文章所遇到的真实情况。例如,一篇关于新兴市场国家的工业化成果的文章可能在整篇文章的范围内散乱地出现关于人口动态和城市化的信息。查找那些工业化趋势的环境影响的环保专家可能会发现只有很少的片段值得阅读,但是学习经济学的大学生可能需要研读所述文章的更多内容来了解作用力(forces at work)在所述现象中起的作用。浏览专家认为有价值的内容可能使学生在自己阅读文章时确定思路,这可取决于学生的学识,根据信息的重要来更加有效地进行组织,而不通过从开头开始逐行地阅读所述文章来组织。

或者,在虚构文学的读者的情况下,先前读者的注释可以帮助读者快速地并且在整本书的上下文中发现与不同主题有关的部分。

这种标记素材的使用是“基于群众的智慧”的最简单形式的一个实施例。学术文本(academic text)的先前读者标记了文档的重要部分,这使得后来的读者利用它来更容易识别特定文本中的那些和其它的重要部分。一些读者可以选择忽略先前读者的记号,这是因为新的读者不同意突显或加下划线部分的重要性,或因为所述读者更关注文本中与所述读者在特定时间的特定兴趣更相关的另一个区域。然而,不管所述读者的兴趣或阅读文档的动机如何,由其他读者对重要部分进行的重复标记将会不断地识别所述文档中读者感兴趣的其它区域。持续的回顾和标记可以得到对文档的相同部分或区域的多次突显。由多位观众进行的多次标记又将会向读者指示文档的所述节段或区域对其他读者出于任何具体目的而言的重要性,并且可以使读者对理解所述部分进行更加接近地尝试。

基于群众的智慧的其它实施例比比皆是。例如,一些网站采用了基于群众的智慧来指导用户使用对网上购物的推荐进行决定、跟踪著名的公众人物或音乐的流行性,或甚至对在互联网上公布的文章或博客置顶(buzzing up)。早先用户对这些应用的观点共同地由某种形式的标引或描绘(通常使用如星号的图标)来指示。

称为“维基(wikis)”的互联网站点是一个稍微相关的实施例,其允许用户张贴并共同地编辑关于特定话题的信息。所张贴信息的有效性归功于群众的赞同和认知。使用维基和其它基于网页的内容整合器的经验证明:这种基于群众的方法大多都成功地提供了良好信息。

然而,虽然维基的基于群众的技术通过一大群主动使内容成形的贡献者来提供了文档的协同发展,但是仍需读者自己来阅读文档。另一方面,本发明的焦点是在智慧群众帮助下的内容消费。此外,与提供关于内容的信息的其它基于群众的实体和服务不同,本发明的方法将内容分解来帮助用户的实际消费。

本发明所采用的技术的一些机械方面是本领域中已知的,例如,通过包括字型、下划线或颜色的格式区分来突显文章的多个部分。文章的作者自己或读者可以出于他们的目的(例如,强调、强化或记忆内容)而使用对文章中他们认为重要的部分进行的突显或加下划线。

然而,与使用突显的那些情况不同,本发明公开了由许多用户对文件内容进行的突显或标记的新用途,其用于将所述内容综合成一种积极地在如阅读、收听、查看文件等的活动中辅助用户的形式。

本文中对文章或应用程序数据文件进行的突显或标记的使用还可辨别地区别于各种加有注释的出版物,例如文学、科学、医学、法律、政治和其它类型的季刊或期刊,在这些出版物中,批注不是“基于群众的智慧”的直接结果并且不是由来自许多用户的输入系统地集合而成。

如在本申请和相关申请中所公开的发明中所使用,“基于群众的智慧”模型形成方法和系统的主干,在所述方法和系统中,许多评论者能够突显、编辑并评论内容素材并且与其他用户分享他们的突显内容、评论以及编辑内容。这种方法和系统工作来使得随着更多用户识别重要文件部分,更多的后来用户受益于他们的集体的、综合的见解。

如本发明中所使用的突显还显著不同于在如“Google Sidewiki”和“Reframe-It”的程序中允许用户将评述张贴在网站内的内容上的网页注释。这些程序与网页浏览器结合运行,这样使得当用户访问任何网页的可视页面时,所述程序可以检索与所述网页相关联的评述。然后所述程序常常邀请或允许用户做出他或她自己的评述。

然而,这种类型的网页注释程序只是对网站添加更多内容,而不尝试整合来自众多用户的输入。因此,群众的智慧不如在本发明中一样得到充分利用。

指导并告知本发明的概念如下:如果大量用户输入最终至少在统计学方面组合成针对用户的“相关性”(或类似参数)的可测量标准,那么就实现了基于群众系统的真正优点。没有这种组合的情况下,用户被迫在没有帮助的情况下费力地通读许多单独输入的注释数据来确定最准确的、最相关的和最重要的内容。

此外,与其它流行的方法和系统不同,本发明显示可加何组合源自群众的输入以便辅助内容的消费者并将其导向所述内容的相关和重要的部分,因此,本发明的目的是在内容消费方面,无论是阅读还是收听或是查看内容文件都改进用户的认知、了解和体验。

发明概述

本发明公开方法和系统,所述方法和系统允许用户标记内容并与其他用户分享他们的标记内容、突显内容、评述以及注释,从而辅助所述内容的消费者;例如,本发明可以辅助读者来提高阅读速度、加强对文档文件内容的理解和记忆。

更一般地说,本发明允许用户以非线性方式,由其他用户的输入指导、但是符合所述用户的能力、兴趣以及优先顺序来消费内容,如阅读、收听或查看文档或其它数据文件。

为了提高阅读、收听或查看等的效率,将每个用户生成的突显或标记与早先创建的标记的集合进行综合。综合算法一般取决于内容的性质和读者的能力和偏好。可以通过设计来确定每个注释部分的相关性的算法、数学或统计学计算而将每个突显整合至现有标记中。综合的计算可以是通用的,或可以遵循由消费者所提供的标准定制生成。随着先前用户数量的增长,在对内容的同一部分进行每次的后继标记时,每个注释部分的相关性评级变得更准确且稳定。在本文中,“相关性”是参数的实例,可以就所述参数而言来综合“群众”输入。在本文中给出参数的其它实例。

使用群众的“才智”的另一个益处是:它提供不一定需要专门编辑者团队的可缩放体系结构。取而代之,所述系统依赖于其用户来生成内容又消费内容。

在阅读文档的情况下,所述方法利用“智慧的群众”来帮助另一位读者阅读文档,而所述构想被适当地修改和外推到消费呈其它格式(例如,音频或视频)的数据文件的情况。在本文中,“智慧的群众”是指早先已经阅读(或消费、收听或查看)同一文档(或数据文件)并且已经根据有用性的一个或多个给定定义识别出所述文档的各个片段的有用性的一群用户。在本文中,读者可以对文档或主题陌生或不陌生,并且可以是以下群众的一部分,所述群众的集体智慧有助于整体的群众生成标记文档或内容。

在例如阅读文档的特定情况下,所述方法和相应实现系统设想由许多早先用户对文档的片段进行分类,所述早先用户阅读了所述文档并且提供了用于综合的不同参数的值,所述参数可以基于标准,其包括每位用户自己在主题方面的熟悉度或专业知识以及她对所述片段对于一组指定目的的“重要性”的评估。这群“智慧的”用户共同地称为“编辑者”或“评论者”,并且可以包括人类用户以及机器、装置或程序,所述机器、装置或程序以其它方式满足相关标准并提供关于文档的片段对于指定目的的有用性的信息。用作编辑者或评论者的机器、装置或程序可由硬件或软件来操作。在本文中,“读者”可以对素材或文档陌生,或可以是早先快速浏览所述文档并返回深入阅读所述文档的人。基于群众的、集体化的突显或标记也可以包括他早先输入的片段的标记。

以下给出用于对文档的片段进行分类的标准的一些实施例,它们可以指导本发明的任何实际实现方式。

更一般地说,本发明公开新的、通用的、基于群众的方法和系统,其出于所需要的或想要利用其他消费者的输入的消费者确定的消费“效率”的目的,在片段水平上标记(例如,通过突显,或用于区分的其它格式化特征)文档或替代媒体(如,音频或视频)形式的数据文件。例如在文档的情况下,这些其他消费者是早先阅读同一文档的读者,或在其它媒体的情况下,这些其他消费者已经收听或查看数据文件,并类似地提供了他们的将要包括在综合的集体版本中的输入。

数据文件的片段是所述数据文件的可由编辑者、评论者或消费者原样引用的可识别部分。例如,在文档中,所述片段可以是所述文档中的单词、词组、句子或段落,甚至单一字母数字或特殊字符,或一页或多页长度。对于视频文件来说,所述片段可以是其中可以识别的单个帧或单帧或部分。对于音频文件来说,所述片段可以是歌曲的音符、音节或其一小部分、或一个或多个单词。其它实例是:对音频文件来说,来自合奏组中的单一乐器的声流;和对于视频文件来说,流中的单一对象。关键是应该有可能标记数据文件的这样一个片段,并且将所述标记传达至系统。

如以上所提及,一方面的摘要器(summarizer)和“整合器”程序与另一方面的本发明之间存在显著差异。本发明远远超过摘要器和整合器,覆盖了受用户控制的更广范围的参数,并且更重要地,可以用于积极地辅助有效地阅读文档或借助收听或查看其它媒体文件来消费内容。

然而,在如Google Sidewiki和Reframe-It的提供读者评述和突显的程序中,在读者评述的分级之外没有评述的组合。相比之下,本发明组合由每位用户所突显的片段,然后在需要时向用户/读者显示最相关的部分。此外,具有突显的另外的、附加说明的评述也可以加以评级并且分组在一起。

例如,如果100位Google Sidewiki用户都对网站中的同一句子进行评述,那么所述程序将会显示每一评述和其相关联的突显,或替代地,仅显示具有足够高等级的那些突显。在本发明中,在突显重叠的情况下,将会组合这些突显,并且可以基于“相关性”计算或评级或二者来更突出地显示这些突显。这允许对集体用户智慧的组合,以及一种显示大量标记的扼要方法。另外,与每个突显相关联的评述可以与其它类似评述分组在一起。这可以允许读者发现例如共同的主题和字符,并且任选地允许所述系统基于突显相关联的评述对所述突显进行分类。

针对评述的种类或类别设想一种非常灵活的方案:可以由编辑者/评论者创建并添加评述的种类或类别或突显的各种区分尺度,以便与广泛受众共享或由读者/听众/观众私人使用。所述系统的实现方式因此可以有组织地扩展,并且随着更多类别的添加,将会基于集体输入来发展所述类别/种类结构。例如,可以由用户在评论或阅读所关注的一篇或多篇文章时,将如“劳资关系的历史”的类别创建为一个标志,以便取决于他们的需要在法律、历史或经济的类别内进行突显或评述。所述系统应用程序将会维护这些标志的程序库。

所设想的是,随着给定文档的用户数量的增加,将会存在针对数据文件的各个部分所生成的“重要性(significance/importance)”的更多不同水平,以及消费者分类上的更大的多样性。用户兴趣将会允许类别的系统演进,并随着很少订阅的类别落入阶层结构而浮出更多类别。在详细说明中更详细地描述本发明的这些方面。

本发明的方法还可以用于其它用途,例如,内容以迄今为止未利用的方式协同发展。例如,所述方法可以允许将多个修订版综合成一个文档或数据文件。例如,在文档存在5个版本的情况下,所述文档的14位协同编辑者可以突显修订版本中的某个或某些片段,并且通过使用本发明的方法和系统,使用它们修订历史中的优选版本来自动地生成集体化的最终拷贝。

在本发明的上下文中构思一种根据多个步骤过程来进行突显的强大新方法:在第一遍,通过特殊标记命令广泛地识别具有重要性的页、段落或章节,然后在后一步骤,识别所识别的页、段落或章节内的的一个精确片段或多个精确片段。如以下所解释,这个多步骤突显过程为将要根据本发明的方法来处理的所有类型的数据文件、文本文档和呈其它媒体形式的数据文件提供重要优点。

另外,因为对数据文件进行突显/标记的活动是由本发明的系统所利用的主要功能,所以设想提供一种具有创建并传达“突显”能力的新型、丰富的工具箱。所述系统的专用部件可以执行数据维护和对“突显”功能性的处理。

附图简述

图1是本发明的基本结构的流程图。

图2是针对文档所示的评论过程的流程图;所述过程与用于替代媒体文件的过程相同。这允许编辑者标记片段并将评述添加至文档/数据文件。它还通过所存储的值或键入的值来处理编辑者的专业知识水平。

图3是图像的粗糙突显的图解。

图4是一种用于将新标记的文档整合至具有由早先编辑者所做的标记的文档中的过程的流程图。

图5是收听/查看过程的流程图。

图6是用于阅读文档的样本用户界面的截图。

图7是演示如何显示由多位用户进行的突显和它们相关联评述以用于阅读文档的情况的截图。

图8是描述在阅读文档的情况下用户如何与所述系统的后端程序进行交互的图。正在收听/查看的情况下,用户以密切并行方式与所述系统进行交互的流程。

图9是描绘所述系统的后端程序的一种布局的图。

图10是示出一种用于整合突显的图。

图11示出由两两整合对突显进行集体化的矩阵。

图12示出粗糙到更精细的标记,如“多遍”突显中所述。正好在图像内的外框是第1遍中的粗糙标记,而阴暗映像周围的内框是第2遍中的更精细标记。类似地,可以执行更多次的迭代。

图13示出评论者所存储配置文件(profile)的结构。

发明详述

本发明的实质是一种方法和系统,所述方法和系统用于提高例如通过阅读、收听或查看内容来消费信息的效率,并且用于通过利用群众资源来创建所需内容的最相关片段的准确映像来加强理解。在数据文件的每位编辑者突显(或标记)的片段添加至共同处理的文件中时,本发明的系统执行一项计算(可以是统计计算或概率计算)以确定所述片段的“重要性”或“相关性”。在本文中,重要性或相关性的含义可以取决于主题、读者和/或评论者偏好,或取决于影响重要性并且是本领域中众所周知的其它特定标准。随着添加更多突显,此过程造成更稳定且准确的结果。

将在相关临时专利申请序列号61/572,826中描述了与文本文件有关的方法和系统。在另一个相关临时专利申请中,所述方法和系统扩展到包含呈替代媒体(如音频或视频或视觉图像)形式的内容的数据文件的情况。所述方法以不言自明的方式扩展到不同文本的媒体。每当可以确定或指定“片段”、“突显或标记”以及“重要性”等的含义时并且在可以辨别或分配两个不相同片段的并集和交集的集合论概念时,核心概念实际上可扩展到替代媒体。然而,这些其它媒体与文本之间的一些差异值得详细论述,如本文中所提供。

可以多种多样的方式来突显视频片段。最简单形式是突显视频内的单一对象。视频的片段可以小至单一像素。单一对象可以存留遍及于所述视频的任何数量的帧。这允许对于用户和基于突显的任何计算二者来说更大的精确度。突显不必限制于视频文件的单一片段,而是可以在多个片段和文件上扩展。一旦多位编辑者突显同一片段,那么所述系统将会自动地组合输入。就文本来说,为视频或图形文件组合和综合多个突显允许许多个人确定最相关和/或准确的片段。一旦组合了突显,所述系统还可以产生由所有最相关部分组成的单独的视频。

本发明的方法在应用于图像时密切地遵循用于视频文件的模型。用户可以标记整个图像的任何部分,并且可以将所述图像的多个部分连接至单一突显中。突显可以跨越使用任何可用媒体的多张图像。

本发明可用于以针对视频或文本所描述的类似方式突显音频数据文件以便用户消费。音频是声音的电气或其它方式的表现。通过一些修改,要求保护的系统的指导原则对音频文件有效,并且允许用户突显所述系统然后将会针对相关性进行组合的数据的片段,从而允许用户更容易地消费信息。

象形文字语言呈现出有趣的类似情况,因为它共有图形和文本二者的特征。通过修改,所述方法可用于这种形式的语言,因为可以将自然含义分配给术语“片段”、“突显”以及“重要性”。

突显的形式

可以若干种方式来完成文件的突显或标记,并且人可以在适合允许分割、重要性以及标记的可传达定义的数据文件的媒体或格式的形式之间进行选择。

因此,例如,取决于数据文件的格式,可以下面几段中所描述的任何方式来完成标记/突显动作。

针对文本:

i.通过类似于给纸张上的片段加下划线的动作来识别片段,例如,通过使用触控笔在触摸屏上进行触摸、点击和/或拖拽鼠标等,经由功能键来标记所述片段的开头和结尾;

ii.通过以下来识别片段:通过使用特别命令指示片段的开头和结尾来,通过插入合适的图标来界定字符,或通过特定动作,例如在工作面上进行点击或用触控笔点击屏幕一定数量次数等;

iii.以多遍来识别片段,例如,在第一遍中,广泛地识别具有重要性的页、段落或章节,这经由在如此广泛识别的项目内放置特殊标记来进行;然后在后一遍时,识别其中具有重要性的精确片段;

iv.提供命令和动作的、且系统支持的工具箱,这允许用户快速地生成对具有重要性的页、段落或章节的粗糙(广泛水平)识别,或指定对片段的精确、“更精细水平”识别;这些命令/动作可以用图形图标来实现;

v.使得所述系统能够通过以下生成粗糙分割:通过根据单一命令、由用户进行点击或放置图标,自动地计算广泛片段的开头和结尾;粗糙分割的实施例包括图标或点击放置在其内的行、段落或页;

vi.提供包括以下各项的工具箱:“突显”命令,其尤其用于指示重要性的水平或层级、界定片段(例如,通过采用特殊字符而不是在长片段上拖拽鼠标来指示片段的开头或结尾);特殊工具/命令,其用于指示“私人”对比“共享”突显;特殊工具/命令,其用于指示或放置与或不与相应片段突显相关联的评述;特殊工具/命令,其用于指示评述的媒体(例如,文本/图形/音频/视频或其它媒体);特殊工具/命令,其用于指示评述的性质(例如,与所述评述有关的题目/主题,一般性评述,如“与突显片段无关”、“命中要点”等)。

vii.按阶段标记的优点:不会使读者减速、允许重述要点、系统可以在回顾时提出所识别的章节以便标记

viii.可以“颜色编码”或以其它方式区分粗糙页/段落/章节/等识别符,以表示参数区别,例如重要性水平、评述的性质等。

针对声着/音频:

(i)以指定开头和结尾的时间戳来识别音频片段;

(ii)指定所述音频中的单词/文本,如果与音频文件的伴随非语言部分相关联;

(iii)从所述音频文件中的合奏中识别特定乐器;

(iv)识别声音、音符或音节;

(v)通过方法i至iv中的任一种来指定“粗糙”分割,然后在随后多遍中更加详细地指定标记;

对于视觉图像/视频:

(vi)以指定开头和结尾的时间戳来识别视频片段;

(vii)指定所述视频中的单词/脚本或视频文件的伴随非语言部分;

(viii)识别可区别地辨别的对象;

(ix)识别可区别地识别的像素;

(x)通过方法i至iv中的任一种来指定“粗糙”分割,然后在随后多遍中详细地标记片段;

(xi)由方便放置的工具或图标来指定对片段的“粗糙”水平识别,例如,通过在所关注的区域周围绘画方框。

标记数据文件的处理和综合

本发明内含的中心思想是:信息的消费者(读者/听众/观众等)将会从所有早先用户的认知和专业知识受益;集体的“群众的智慧将会帮助将所述消费者引导到数据文件的最重要部分”,从而增大效率并增进理解,并且改善体验。

存在达到处理已突显/标记数据文件的目的的若干可能性。因此,在本发明的一个实施方案中,阅读给定文档或收听音频文件或查看图形或视频文件的编辑者可以标记重要片段,并且可以根据对编辑者、内容的消费者和其它用户公布的“重要的”或“显著的”的定义,与所有其它用户共享所述编辑者认为“重要”的东西。通过简单地选择适当素材并提交所述素材,或通过表达命令或含蓄地作为标记的结果,可以在一些实施方案中完成对数据文件的突显。编辑者还可以在共享或未共享已突显的片段的情况下有机会添加其它评述。

在另一个潜在实施方案中,除了突显片段以证明它是重要的之外,编辑者可以指示特定片段是不重要或不相关的。所述系统然后将会在其整体相关性计算中将此考虑在内。另外,可以给予用户(编辑者/评论者或读者/听众/观众)机会来通过利用图形或数字排名模型,

关于相关性或另一个独立标准对片段进行排名。

在另一个实施方案中,编辑者还可以对评述进行排名。这将会在计算评述相关性中得到考虑。另外,编辑者还可以对评述进行评述来达到其它递归级。

一旦做出并提交一个选择,那么将它与早先选择进行组合。如果两个选择重叠,那么可以使用一个或多个数学或统计公式或算法组合所述选择。

在一个可能的实施方案中,使用矩阵来进行组合。在这种方法中,当两位编辑者突显同一选择时,所述系统将会参考所存储的矩阵来确定所述突显将会如何呈现给读者。如果这两位编辑者等同地标记同一选择,那么所述矩阵计算可以告诉所述系统以他们共同的、预设方式显示突显。如果这两位编辑者在对已突显选择进行分类上意见不一致,那么所述矩阵将会计算将会显示(和如何显示)这两个不同突显中的哪一个,或计算并显示由这两个不同分类综合在的第三分类。这可以若干种方式来完成,包括对它们相应的突显提供不同权重,任选地结合来自图11中所示矩阵的反向对角(reverse-diagonal)计算。

本发明的系统可以如以上所提及的若干种方式来显示已突显/标记的数据文件,不论文本文档还是音频或图形或视频数据文件。在两位或更多位编辑者意见不一致的情况下,必须对如何以最有意义的方式来综合并显示已突显/标记数据文件做出决定。完成所述综合和显示的方式可以最佳地基于数据文件的媒体和基本主题来决定。当两位用户对已突显片段的相关性的意见不一致时,所述系统可以计算每位用户的选择的权重并且使用相关权重以用于关于将会如何向读者显示已突显材料的决定。权重例如可以基于用户的专业知识水平,用户在所述领域中具有更高专业知识水平的地方与由新手所做出的突显相比将会具有更好的权重。

使用权重的一般方法(作为特例)将会允许将一位编辑者的突显整合至由早先编辑者所创建的突显的集合中。集体化突显的权重与单一编辑者突显的权重相比一般将会更高,因为集体化突显的权重表现出许多人的集体看法。在大多数情况下,如果单一编辑者添加与集体意见一致的突显,那么集体的权重增大。如果编辑者意见不一致,那么所述权重减小。随着权重通过整合若干编辑者的突显而增大或减小,向用户的显示反映出突显的相关性或意义的变化。

设想到本领域的技术人员所周知的测量参数(如“相关性”)值的其它统计计算和概略计算方法。例如,可以采用贝叶斯模型(Bayesian model)或卡尔曼滤波(Kalman filtering)来排列与突显相关联的突显和/或评述。

对于文本文件的情况,另一个潜在实施方案可以基于片段中每个单词的突显的数量来组合突显。单词被突显的次数越多,按照与片段中的突显的总数量的比例,所述单词的排名变得越高。通过从计算中移除停止词,可以进一步改进这个过程。

本发明的方法可以扩展到非文本数据文件。对于音频文件,类似的计数可以得以保持,并且用于集体突显的综合和显示以及特定单词、音符、音节或声音(例如,合奏中的一个特定乐器的声音)在文件中出现或占主导地位的次数的综合和显示。对于图形或视频文件,计数对于视觉特征或对象出现在文件中的次数可以类似地保持,并且因此可以有利于集体突显。

在一个潜在实施方案中,编辑者的专业知识水平由所述编辑者他自己或她自己提供。所述系统可以包括登记系统,在所述登记系统处,编辑者进入他们的专业知识领域。这可以与编辑者正在标记的文档的类别进行比较。例如,如果所述编辑者的配置文件表示物理学博士(Ph.D),那么对于他们对物理学类别中的文章的编辑者,所述系统可以将他们辨识为专家。所述编辑者还可以表明他或她在所述文档的子领域(例如,核反应堆)方面的专业知识。因此,具有物理学博士学位的专家可以声称没有核反应堆方面的专业知识。

在实施方案中,当所述系统自动地生成编辑者的专业知识水平时,所述系统可以基于任何数量的参数。例如,所述系统可以看看所述编辑者的早先突显、允许读者对每个突显进行排名,并且然后为所述编辑者将所述排名组合成专家排名。所述系统还可以将给定类别中的早先突显或学术公共数据库中的引用的数量考虑在内。

所述系统不必要单独地从头开始依赖于群众提供信息来生成突显。文档可以在发布之前有人类在内部进行评论。文档突显的这种“接种”将会提供基础,编辑者可以在所述基础上开始他们自己的突显。一旦足够的外部编辑者突显文档,那么接种的部分将会变得稀少并且最终突显将会主要基于智慧群众。

在另一个潜在实施方案中,所述系统自身可以具有例如根据需求生成突显的能力。这可以通过与用户的具有类似内容和主题的早先历史的比较来完成。例如,所述系统可以使用当前读者的文档查看历史、或所述读者同早先编辑者相比的背景来突显文档,或可以使突显基于所述读者阅读文档的开始几节的行为。

除了确定文档作为整体的类别之外,所述系统还可以确定每个突显的类别。例如,如果文档主要是关于法律概念,但是还包括经济分析,那么所述系统将会将整个文档分类为“法律”,但是可以突显经济分析并且将其标注在“经济学”类别中。

另一个实施方案允许用户选择他们作为读者或编辑者的角色。在“阅读模式”中,用户充当读者并且查看具有伴随突显的文档。在所述模式中,读者可以出于他们自己的个人用途来添加他或她自己的评述或突显,但是可以选择不与其他人共享所述评述或突显。所述读者还可以在显示器的单独窗格中查看每个突显的所有评述的列表。可以允许读者随时切换到“编辑者/评论者模式”,其中他们可以用任何伴随评述添加突显,并且然后与其他人共享所述突显。

在没有明确切换模式的情况下,充当编辑者的用户还可以充当读者/听众/观众。在这样一个实施方案中,用户可以具有他或她可获得的所有潜在动作,不管作为编辑者还是读者。因此,作为编辑者,他可以共享突显或评述,但是还可以被给予仅出于个人用途而保持相同的突显或评述的机会。对于读者/听众/观众来说,切换到编辑者可能仅在一些实施方案中在满足对编辑者的要求(例如,完成配置文件)之后是可能的。

为帮助确定相关性排名或专家排名,所述系统将会存储用户过去活动数据并且将所述数据应用于这些计算。例如,如果编辑者通常突显来自先进物理公开物的片段,那么所述系统可以自动地提高他或她在物理学领域中的专家排名。对于读者,所述系统可以跟踪所述读者通常认为相关的突显的类型,并且相应地调整排名。

用户评述在数据文件的处理/综合中的作用

在用于综合突显的某些算法中,伴随突显的评述可以用于提供或修改权重;这种计算可以是除已突显片段的统计计算或概率计算之外。

用户排名是可以用于粗略的、“基于统计的”决定,但是其它潜在实施方案可以采用本领域中已知的更加复杂的统计方法。一种系统应用隐含狄利克雷分配(LDA)来比较并对比评述。

对于文档的情况,这种方法首先取得训练数据集并且将其分成预设数量的话题。将会需要调整话题的数量以找到所述系统的最准确表现。算法然后计算每个话题内的每个单词的概率分布。所述算法还计算每个话题出现在文档中的概率。一旦计算出这些概率,所述算法然后可以对新数据应用模型,并且输出给定单词呈现在给定文章或话题中的概率的矢量。

将LDA应用于本发明,当编辑者实现新评述时,所述系统将会为所述新评述创建概率性矢量。然后通过使矢量与已经存在的评述矢量相乘,所述系统可以比较评述的相似性。如果乘积是在一定阈值内,那么所述系统将会将评述分组在一起。分组的评述可以允许读者看见“群众”认为是已突显片段的重要性的东西。例如,如果多位编辑者将片段标注为“重要的”、“至关重要的”、“必不可少的”以及“基本的”,那么所述系统将会将这些编辑者分组在一起。这将会使得读者可立即辨识出突显的目的。这在已突显片段长、复杂或难处理时特别有用。

当基本数据文件是非文本但是评述是文本的(如一般希望它们是)时,可以类似方式编译评述,并且LDA可以用于对音频/视频/图像数据文件的评述进行分组。

对已突显部分的评述以及对其它评述的评述可以采取任何数据表示。因此,在一个实施方案中,突显结合可动态改变的评述可以产生消费内容并与内容交互的其它新方式。例如,教员可以插入问题或指令以生成可定制问题,以便文档的读者进行真正的自主学习。

在另一个实施方案中,编辑者可以在突显之间输入连接。这将会呈评述的形式,所述评述例如允许所述编辑者指定对多个突显的引用。例如,如果基本内容是法律案件,那么编辑者将会突显法院列举事实处的片段,并且然后使其连接至法院使那些事实适应于法规处的片段。这些连接还可以允许读者跟踪文档的某一方面,如特定字符或题目。

另外,在这个实施方案中,有可能允许在具有类似或相关内容的一个文档到另一个文档上进行评述和突显之间的连接,并且对于所述系统来支持或对于读者来菊花串连(daisy-chain)两个不同文档中的突显和评述之间的连接。

在本实施方案的变体中,在数据文件是音频、视频或图像文件等的情况下,有可能类似地允许编辑者在突显之间输入连接。编辑者同样有可能在呈不同媒体形式的文件之间指示连接,如当文件与可以插入在评述栏中的歌曲的录音和/或电影短片有关时。本发明的方法事实上可以在以此方式使用时提供丰富的交流形式。

显示标记数据文件

本发明内含的中心思想是:信息的消费者将会从相同或类似信息的所有早先消费者的认知和专业知识受益,由他们关于数据文件的最重要部分的集体智慧指导,从而提高消费效率并加强理解和用户体验。

值得注意的是,通过在使基本内容保留完整的情况下突显文档内的片段,本发明可以允许用户将相关部分放置在整个文档内容之内。这还允许用户通过识别具有一个或多个突显的部分来辨别文件的哪些大体区域是更重要的。

通过形象化地或由另一个可量化显示参数示出相继突显之间所跳过内容的比例,可以改进处于相关性或重要性的任何水平的已突显对比未突显部分的表示。因此,例如,在某一读者所关注的内容仅为十页文章约10%的情况下,这将会快速地允许所述读者看见所述内容而无需搜遍剩余90%,并且看见内容的重要的10%和不重要的90%位于何处。

在潜在实施方案中,用户可以从大范围的参数进行选择以适合他或她的个人需要。他或她仅挑选查看由具有一定专业知识水平的编辑者所进行的突显。读者可以是此领域中的专家,并且仅希望查看数据中其他专家认为重要的东西;或她/他可以选择查看涉及某一主题或在某一相关性阈值之上的突显。

参数还可以包括读者希望在文档上花费的时间的量或他希望阅读的单词数。也可以引入并采用其它此类参数。例如,读者可能希望看见一篇文档中相关性与由同一读者早先精读的另一个文档相比在指定水平之上的部分。

除了消费者键入他或她自己的参数之外,所述系统可以自动地生成所述参数作为选项。例如,所述系统可以基于他们的消费历史和/或突显,基于当前或早先类似数据文件这样做。另外,所述系统可以基于对读者喜欢或要求的相关性阈值的统计测定来生成参数的列表。

更一般地说,可以在本发明的范围之内利用显示文档的若干新范例。

在一个实施方案中,读者可以通过促进快速浏览文件的方式或形式来控制内容的呈现。例如,在文档中,替代给已突显部分加色,可以使除了已突显部分之外的一切淡出。这将会允许读者快速且有效地阅读进行最相关的内容。此外,显示可以从淡出的除了最相关内容部分之外的所有部分开始,这使得如果并且当读者指示准备就绪时,显示具有减小相关性的其它部分。

除了辅助理解并且加强阅读体验之外,通过所跳过部分的比例指示,对相关内容的这样的显示可以针对小的显示屏幕工作,如智能手机的那些显示屏幕。

内容按照重要性或相关性的水平对读者的展开可能特别有益于某些类别的学生,如具有阅读或学习障碍的特殊教育学生、第二语言学习者和返回学校的成人。

在一个可能的实施方案中,所述系统可基于相关性以不同颜色和明暗度来显示突显。例如,如上所述,一种可能的用于组合突显的方法是特定单词被突显次数的平均数。在这个实施方案中,所述系统可以较暗阴影来显示更频繁被突显的单词,并且以较浅阴影来显示不太频繁被突显的单词。

在另一个实施方案中,用户设置显示文档的速度。这允许所述系统自动地以用户选择的速度改变成下一页。所述设置还可以由所述系统基于文档的类别、用户的历史、专业知识或其它此类参数来确定。

本发明的一个潜在实施方案允许用户以视觉形式查看数据。这可以采取超图形式:这种超图将会使用已突显片段作为将会逻辑地连接的节点,以向读者示出一个或多个文档的不同区域如何有关。

在另一个潜在实施方案中,读者可以将文档的关键部分打印或以其它方式缩小成不同便携形式。例如,一个人可以打印出通过使用当前系统和方法来缩短的文档的一种形式。或者,在如智能手机、平板计算机或iPod的移动设备上下载若干文档的缩小版本。

在一个潜在实施方案中,所述系统可以向读者建议其它相关文档。这可以基于所述系统参数、读者的查看历史、突显、评述、专业知识水平或这些属性中的任何属性的组合。另外,读者可以请求所述系统基于专业知识的下一排序产生下一篇文章。在这个实现方式中,文档将会按照基于预设标准并且连同此类属性信息存储在所述系统中的专业知识来排序。

在另一个潜在实施方案中,所述系统可以允许用户标志除了突显之外的内容。标志是文档的片段的定性描述符。这将会允许编辑者来将片段描述为(例如)“关键历史事实”。读者然后可以使用这些标志来循环通过每个“关键历史事实”。所述系统还可以包括标志云,所述标签云将会显示常见标签并且允许读者从所述常见标签之间进行选择。

当数据文件的基本内容是声音时,编辑者可以类似于文本的方式来突显所述声音的相关部分。例如,在一首歌曲中,编辑者可以标志特别负载的音乐部分或具有特定意义的歌词。听众可以仅跳到所述歌曲的加标签部分。另一个实施例将会是其中编辑者突显最重要的部分的讲座的录音、或有声读物。

当基本内容是视频或其它视听作品时,编辑者可以在所述视频的仅包括单一帧的一小视觉部分的特定部分上突显并且评述。有意义的标志也可以替代地用于区别。

然而,在不包括文本的纯视觉作品(像绘画或艺术作品的汇编或全息图像和视频)的情况下,编辑者可以通过具有以上所论述修改的以上所概述的方法来突显所述作品的相关部分。

在本发明的一个潜在实施方案中,可以将具有物理地书写在其上的突显的纸质文档扫描至所述系统中。所述系统将会将扫描图像转换成所述系统可以阅读的一种格式,并且然后将这种格式转换成与类似文档相同的格式。同一概念可以应用于将音频、视觉或视听作品输入至所述系统中。

可以通过类似地扩展所述方法来处理其它特殊情况。例如,可以用相同的音乐描述符来标志歌曲的已突显部分。或者,可以用图形或图解来标志数学、统计或化学内容片段的突显。

与本发明的方法相关联的其它优点和担忧

本发明的突显方法的优点

本文所公开的数据文件的多步骤标记伴随着巨大优点。主要优点在于:在第一遍中,用户不需要在阅读、收听或查看原始数据时减速来突显具有重要性或有趣的片段。替代地,用户将会用单一动作来指示广泛/粗糙片段,使得所述系统维持对粗糙突显的记录,然后在更加适当的时间返回以更精确地描写突显。

这种方法使消费信息的效率最优化。通过不打断信息摄取流,这种方法允许用户在所消费的信息的综合上利用他或她的精神来源。在返回粗糙突显的部分时,用户获得机会以评论和加固材料,并且甚至可以决定返回在要突显的稍微不同的分割上的部分,或所述片段根本不显著。这些可能性中的任一个可以提高用户对信息的消费或所产生的突显的质量(如果所述用户是编辑者)。

对信息文件的多遍突显的另一个显著优点在于:本发明的计算机化系统可以更有效地为用户提供辅助。所述系统可以在要求时(或例如,例行地在退出程序时)呈现所有粗糙突显并且邀请用户来完成更精细水平的突显。

对于某些用户群,如那些具有学习挑战的人、或那些处理特别复杂的材料的人、或那些时间紧迫的人来说,这种辅助将是一种福音。

对数据文件的多遍标记设想硬件、软件或混合集成电路元件作为所述计算机化系统的实现方式。这样一个系统将会具有存储用户决定的存储单元,以及计算如以上在“突显的形式”中所描述的粗糙突显或更精细突显的机载处理能力。具体来说,这样一个部件的输入/输出子部件一般可以实施与上述突显功能相关联的特别命令。一个实施例是根据将点击或图标放置在粗糙突显的边界内,或可能地,根据对由两位或更多位不同编辑者所提供的突显进行综合的权重而对那些边界的计算。

所述系统还可以通过呈现“未处理”(粗糙)突显数据来辅助人类或机器人组合来自源自群众的矩阵的输入,以便最终综合。

“粗糙水平”突显对于视频突显来说是特别有用的,虽然可能没有在单一图像的情况下那么有用。精确突显可以采取非常精细的控制和非常长的中断,但是对所关注对象的粗糙识别(例如,通过在所关注对象的周围绘画矩形框)对于许多用户来说将会是迅速且有效的。

所述方法对于单一图像可能是有用的,其中明智的是通过示出所述图像根据重要性矩阵在部分中摆脱淡出,来显示图像的片段的重要性/相关性。

粗糙突显的机制对于音频文件来说将会有效(在粗糙突显的适合的意义下),从而减轻用户精确地标记片段的开头和结尾的需要。因为缺少视觉线索,所以粗糙突显对于音频与适当标记对于视频相比是一种更困难的运用。在通过在用户忙于精确突显的同时如实地重放粗糙片段而使得标记精确时,所述系统可以提供有价值的辅助以便在后续词组中标记。

在又一个潜在实施方案中,所述系统允许编辑者通过突显将两个或更多个文档进行比较。这种比较突显允许读者有效地查看所述文档的不同和相似之处。例如,如果呈现出来自不同手机公司的两个长的合同,那么这种比较突显可以是有用的。许多样板文件(boiler-plate)可能是相同的,但是比较突显允许读者快速地看见关键术语方面的不同之处,从而允许他或她在无需费力地通读复杂的法律术语的情况下做出更有根据的决定。这还可以由所述系统自动地完成。在这个实施方案的浓缩版本中,所述系统可以图表或电子表格形式产生关键不同之处的制表。

对有关片段的粗糙识别对于使数据文件之间的对象/片段有关可能是特别有用的。

担忧

存储用户信息的系统通常将会引发各种隐私担忧。为缓解这些担忧,若干实施方案是可能的。所述系统可以允许用户选择保持匿名,并且不存储关于他的某些关键数据或任何数据。替代地,所述系统可以将唯一用户ID分配给匿名用户。这将会允许所述系统跟踪并且保留用户历史而无需存储任何个人识别。另一种可能性是具有唯一用户名,并且登记而不公开显示唯一用户名。一个实施方案可以允许用户从这些选项进行选择或挑选根本不具有任何隐私控制。

然而,本发明的系统也可以具有其它的、有利的安全暗示。例如,所述系统可以拥有用实际解决方案来解决某些种类的文档和敏感供应商的安全担忧的优点。可以实施所述系统以允许直接在云端上阅读/查看等已标记文档,从而排除需要个人读者将文档从供应商的站点下载到消费者的机器。这样一种实施方式可以提供保护供应商系统或用户系统的安全的益处。安全负担将会转移至本发明的系统,在所述系统中,可以极好地、但是却以全面降低的安全保护成本来解决安全负担。

下文通过附图中所描绘的图解提供对所述方法的进一步解释。

附图详述

图1示出本发明的基本结构。当服务器检索到文档时,首先进行检查以确保所述文档是呈适当格式,并且相应地做出转换。然后,如果之前未评论过所述文档,那么将所述文档发送至评论过程。如果早先已经评论过所述文档,那么用户他们自己可以选择阅读或评论所述文档。读者还可以使用这两个过程的组合。在这个阅读/评论过程中,用户可以在编辑者和读者角色(在下文进行详细描述)之间进行无缝切换。

图2演示评论过程。当用户首先在10中检索文档时,他或她首先可以键入他们的专业知识水平等20,或直接进行编辑文档30。编辑者然后可以对所述文档标记片段并添加评述,这将会被保存并定期地发送至服务器40。询问用户他们是否想要提交所述文档以用于与集体文档进行整合50。取决于用户输入,所述系统可以进行至方框60:提交以进行整合;或70:评论或修订文档。在提交时,所述系统还可以基于文档类型和所做出的突显和评述来计算专家水平排名。在编辑者会话80结束时,突显和评述将会被上传并且可供所有其他用户使用。编辑者还可以在他或她的会话期间随时公布标记。

图3描绘图像的说明性“粗糙”突显。这里,假设用户尝试突显航天服的头盔。但是,用户不是放慢来精确地确定所述对象,而是放置包括所关注的对象(即,头盔)的“方框”。相关的图12示出用户如何可以在稍后时间返回以精确地描画方框内的头盔。

图4演示用于整合新标记文档的过程。在编辑者对文档添加突显和评述之后,所述文档然后与早先版本组合。在这个具体实施方案中,这使用矩阵计算来完成。然后输出被存储并且变成将会由下一位读者检索的已处理文档的新版本。

图5描绘阅读过程。通过用户界面控件为读者显示所要求的具有整合标记的文档。读者可以任选地键入他们的用户配置文件。读者可以出于他或她自己的个人用途做出标记和评述,但是不像编辑者的配置文件,这些将会与其他用户共享或整合至文档中。将会存储所做出的任何突显和评述,以便读者在稍后时间使用。

图6是样本用户界面的截图。它示出用户可以使用以改变成所显示的突显的按钮。用户可以示出仅由具有高专家水平的用户所做出的突显,并且可以键入他们自己的水平。他们还可以设置他们希望在阅读文档上花费的时间的量。例如,如果用户选择两分钟,这与如果他或她选择十分钟相比将会显示更好的突显。用户还可以切换至编辑者模式,并且键入他或她自己与其他用户共享的突显和评述。在其他实施方案中,不需要模式之间的切换,因为用户可以同时充当这两种角色。

图7演示在多位编辑者做出突显和评述时所述系统的用户界面。显示来自过去用户的突显。突显的颜色和/或阴影指示其相关性。在这个具体实施方案中,较暗阴影指示较高程度的相关性。如以上所论述,相关性的定义和计算可以是用户生成或机器生成的。

在这个实施方案中,当读者选择特定片段时,显示弹出式窗口。这个窗口包括来自过去用户的评述。在这个具体实施方案中,基于统计相似性自动地将评述分组在一起,并且然后针对相关性对每组进行排序。用户可以选择查看任何组或同时查看所有组。连同用户的专家水平显示每个用户评述。

图8是描述用户如何与所述系统的后端程序进行交互的图。用户通过选择他们希望查看或编辑的文档10开始。他们还可以任选地登陆进入所述系统11,从而允许他们使用所存储的参数和专家水平。文档请求和登记信息被发送12至服务器13。除了任何用户数据之外,服务器13检索所请求的数据(如图9中所示)并且向用户显示具有相关联突显和评述的文档16。

用户然后可以选择扮演编辑者或读者的角色17。所述系统不需要用户做出清楚的选择,并且替代地,可以简单地基于所采取的动作来确定用户所扮演的角色。例如,如果用户添加突显并且公布所述突显,那么他或她被辨识为编辑者,但是如果所述突显被存储而未被公布,那么他们可以被辨识为充当读者。

在编辑者模式中,所述系统向编辑者显示文档的来自早先用户的相关联突显和评述18。然后编辑者对认为相关的部分添加突显19。编辑者可以任选地对突显添加评述20。在另一个潜在实施方案中,用户可以添加完全独立于任何突显的评述。

下一步,编辑者将会将两个数据组发送至服务器。首先,发送新添加突显和评述21,其中所述系统后端程序将会使它们与早先版本整合(图9)。另外,将会更新编辑者的用户消息22,这包括关于所做出的突显和评述的信息。这两个数据组在编辑者正在工作时定期地、一旦自动地键入任何突显或评述、当编辑者按下“提交”按钮时或这三个事件的任何组合,被发送至服务器。在13,一旦在服务器整合了新突显和评述,那么在25,为用户显示更新的文档。

在读者模式下,所述系统显示所存储的具有其相关联突显和评述的文档25。然后在27,读者可以键入参数以自定所显示的标记。这可以仅包括来自在28处的指定专家水平阈值以上的用户的标记、来自特定主题29的突显和评述、或将会允许读者以特定速度或在设定在30处的单词计数内阅读文档的一定数量的标记。

除了键入参数以外,读者还可以改变显示的方法。在31,读者可以使用浏览模式,这隐藏未突显文本。他或她还可以设置所述系统以自动地以指定速度切换页32。另一个选项是以不同方式查看突显和评述33,如通过图形或其它这样的视觉表示。

作为读者,用户还可以添加突显和评述而无需与其他人共享所述突显和评述26。当读者这样做时,标记将会与用户数据一起存储以便稍后使用,并且然后每当用户查看文档时显示。

图9示意性地描绘本发明的示例性实施方案。它包括服务器100、数据存储装置101、102和103,以及标号为110和110n的多个用户的计算机。

用户计算机110使用通信网络111连接至服务器100。通信网络可以是互联网或任何大小的局域网。图8中详述用户与所述系统在后端程序上的交互。

系统后端程序提供存储和计算功能。当新文档上传至所述系统时,所述文档存储在文档数据库101中。所述系统然后在用户请求时检索所述文档。在另一个潜在实施方案中,不存在文档数据库并且文档存储在所述系统之外。例如,如果用户从另一个资源加载网站,并且可能计算并且然后加载来自所述系统的相关联突显和评述,从而要求所述系统覆盖外部内容上的这些标记。

当系统后端程序接收对文档的请求时,它自己除了检索文档之外,还从突显/评述数据库102获得相关联已整合突显和评述。所述突显和评述覆盖所述文档。这些标记可以是用户生成或系统生成的,并且然后被组合以允许阅读效率和理解。当用户提交新突显或评述时,在120和121处,它们通过集体化方法之一与现有突显和评述组合。因为突显和评述不同的性质,所以它们可以使用不同集体化方法来整合。

所述系统将来自每位用户的数据存储在用户数据库103中。如本详细说明中所论述,数据可以包括用于显示的所选择参数和在130查看和注释的文档的历史。用户数据库103还存储用户在特定主题方面的专家排名131。

图10演示一种用于整合来自不同编辑者的突显的方法。如果两位编辑者突显文档中的完全不同的片段,那么将会显示两个突显。

如果另一位编辑者然后突显与另一位用户相同的片段,那么将会给予重叠的部分更大相关性,并且因此以可区别的方式(如不同阴影或颜色)来显示。在图10中,由较暗阴影示出较大相关性。因此,仅由单一用户所突显的片段是与两位用户突显的片段相比较浅的阴影。阴影/相关性没有必要单独地取决于突显给定片段的用户的数量。阴影/相关性还可以将专家水平和详细说明中所论述的其它因素考虑在内。

所述系统还将以下事实考虑在内:编辑者可能意图指示完全相同片段的相关性,但是关于所述片段的开头和结尾可能稍微不同。在图10中,两个片段是“This doctrine would subvert the”和“doctrine would subvert”。两位编辑者都指示同一片段作为相关的,但是一位编辑者包括了单词“this”和“the”。这些称为停止词,它们是非常常见且不对短语添加意义的单词。在这个具体实施方案中,所述系统将会使用此类单词的列表将“this”和“the”识别为停止词,并且将它们从所述系统的重叠分析中移除。因此,结果是,准确地更新所述片段的相关性,其中“this”或“the”未被突显。

图11是两个用户的(编辑者的/评论者的)突显如何可以被综合成文档的集体突显的一个图示,并且描绘一个用户的突显到集体突显中的综合(一般将会是迭代的)。这个实施例采用突显相关性的四个水平,横向针对用户示出并且纵向针对集体示出。

在这种情况下,重叠突显的“相关性”水平由简单反向对角算法来确定。此外,这个实施例假设给予一个用户的突显与集体相等的权重系数(weightage),这一般不会是真的。

涉及不同权重、或不同于“相关性”的用于突显的标准的其它情况下,大于四的数量的区别水平和用于计算综合突显的不同算法等可以由所述系统以类似方式来操作。

图12示出粗糙突显可如何由对图像的更精细范围突显跟踪。所述附图示出对位于图3中所描绘方框内的航天服的头盔上的更精细突显、阴影。

图13描绘评论者所存储的配置文件的说明性结构。当用户登录进入所述系统时,服务器将会检索相关联用户数据并且开始会话。如上所述,除其它之外,用户的配置文件包括他们的专业知识水平、历史以及默认参数。在用户在所述系统中执行功能时,数据被存储在用户数据库中。

术语词汇表.

在本文中,术语“突显”和“标记”是指清楚地选择整体内容的一部分并然后向读者显示所述选择的任何方法。这包括加下划线、标志或强调或着重片段的重要性的任何方法。

术语“评述”是指可以针对文档的特定片段并且与一位或多位用户的意思相关联的单词、图片、图形、声音或类似表达的任意组合。评述可以与突显相关联。所述评述可以整体或部分地是指所述突显。所述评述还可以不与任何突显相关联。

术语“用户”是指与所述系统交互的实体。这可以包括充当编辑者、读者或同时充当二者的人。这还可以包括充当听众、观众或数据文件的内容的其他消费者的实体。

术语“编辑者”和“评论者”是指用户的“智慧群众”,他们早先已经阅读所述文档或消费了数据文件并且添加了突显或评述。他们可以是人类用户或机器。

术语“读者”是指感知所述系统的输出(具有突显的文档)的用户,并且可以包括适合的机器。

术语“文档”或“文章”是指表达的任何有形媒体。在众多媒体中,这尤其可以包括文本、音频和视频。这还可以是指以任何方式组合的多个个人作品。这个术语不限制于文件。它还可以呈馈送或数据流的形式。无论在何处在使用,术语“应用程序数据文件”和“数据文件”包括“文档”和“文章”,并且这些文件中的任一个内的实际数据是所述文件的“内容”。本发明的方法要求文档对于由所述系统进行的至少某一部分处理呈计算机可读格式。

数据文件的片段是所述数据文件的可由编辑者、评论者或消费者照此引用的可识别部分。例如,对于文档来说,所述片段可以是所述文档中的单词、词组、句子或段落,或甚至字符、字母数字或特殊字符,或一页或多页长度。对于视频文件来说,所述片段可以是其中可以识别的单个帧或单帧或部分。对于音频文件来说,所述片段可以是歌曲的音符、音节或其一小部分、或一个或多个单词。文件的分割是指所述文件到片段的划分和重新组合。

如本文中所使用,术语“效率”包括在以下情况下阅读文档:在指定量的时间内、在多达指定单词数量内、在指定水平的内容重要性内,以及标记达早先评论者专业知识的指定水平。

术语“群众资源”或“源自群众”是以下系统,所述系统使得终端用户有助于所述系统,从而提高所述系统的效用。

术语“标签”是指文档的片段的定性描述符。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1