引用解释的制作方法

文档序号:11530738阅读:317来源:国知局
引用解释的制造方法与工艺



背景技术:

在线教育系统和电子书已经开始占主要地位。读者可能检查引用来回顾关于被引用的术语的定义或获得关于被引用的术语的进一步解释。读者还可能想要确定参考材料是否以所声称的方式支持作者的论证,或者估计作者使用的材料的力量和有效性。

附图说明

以下详细描述参考附图,在所述附图中:

图1图示了根据示例的用于生成引用解释的系统的框图;

图2-3图示了根据示例的引用解释设备的框图;

图4-5图示了根据示例的用于提供引用解释的过程的流程图;

图6-7图示了根据示例的用于提取引用声明的过程的流程图;

图8-9图示了根据示例的用于提供被引用文档的候选片段的过程的流程图;以及

图10-12图示了根据示例的引用解释的示意图。

具体实施方式

以下详细描述涉及附图。每当可能时,在图和以下描述中使用相同的参考号码来指代相同或类似的部分。虽然在本文档中描述了若干示例,但是修改、改编和其他实现是可能的。相应地,以下详细描述不限制所公开的示例。代之以,所公开的示例的适当范围可以由所附权利要求书限定。

在线阅读和学习越来越流行并且提供许多优点。例如,在线文档可以包括到参考材料的链接,所述参考材料诸如被引用文档、定义和解释。引用可以包括单个引用和/或成列引用。第一示例包括一列引用,“关联规则不同于我们的优先级模式并且其对推荐与特定项(item)[9,16,27]相关的项有用”。第二示例包括单个引用,“查询个性化[34]”。伴随第一和第二示例的文本潜在地是方法或特征的概要、术语,其可能被定义在一个或多个引用和/或引述中。然而,在阅读和学习过程期间,参考材料还可能给读者提供干扰和打断。

示例涉及可以为独立的文档提供参考材料的引用解释。提供引用解释的过程包括分析原始文档以提取引用声明。该过程生成被引用文档的可能对应于引用声明的候选片段的集合。该过程还基于预定义标准来评价(evaluate)候选片段的集合。还可以通过该过程提供对引用解释的推荐。

如本文中使用的那样,“原始文档”指代读者正在查看的诸如文本和/或图片之类的内容。该内容可以包含支持作者在文档中呈现的文本和其他内容的引用。使用引用解释可以通过利用本文中提供的参考材料制作独立的文档来减少干扰和打断。

如本文中使用的那样,“引用”指代对在文档的主体中嵌入的来源的参考。引用可以以不同的形式出现。例如,引用可以是一列引用或单个引用。例如,引用可能伴随有可以是来自被引用文档的引述、释义、概要和/或定义的文本。引用可以以不同风格出现,诸如:“geo等人,[3]”、“[3]”、“[geo93]”等。

如本文中使用的那样,“被引用文档”指代参考的来源。来源可以是例如在引用中参考的文本或图像。所涉及的来源可以是书、文章、著名艺术作品、法律条款、判例法等。来源可能源于文档的物理副本,诸如书或出版物,或者来源可能源于文档的电子副本,诸如博客或在线文章。如本文中使用的被引用文档涉及至少一个来源。至少一个来源不限于仅一个被引用文档,而还设想使用多个被引用文档。

如本文中使用的那样,“引用声明”指代使用引用和/或提供引用的上下文(context)的文本。换言之,该文本要求使用特定引用。例如,“信息检索和信息过滤已经被称作“同一硬币的两面”(例如,[5])”。在该示例中,引述“同一硬币的两面”可以是提供引用(例如,“[5]”)的上下文的文本。

如本文中使用的那样,“候选片段”指代被引用文档的可以解释、定义、支持和/或一般地提供与引用声明相关的较多细节的部分。

如本文中使用的那样,“经修订(revised)的候选片段”指代被修改或调整的候选片段。例如,经修订的候选片段可以是合并在一起的两个候选片段,或被分成两个候选片段的一个候选片段。

现在参考各图,图1图示了根据示例的用于提供引用解释的系统的框图。可以在不背离所公开的示例的范围的情况下以多个不同的配置来实现系统100。在图1中,系统100可以包括引用解释设备120、文档设备140、数据库160和用于将引用解释设备120与数据库160和/或文档设备140连接的网络180。

引用解释设备120可以是执行与所公开的示例一致的各种功能的计算系统,所述各种功能诸如提供被引用文档的引用解释。例如,引用解释设备120可以是台式计算机、膝上型计算机、平板计算设备、移动电话、服务器和/或任何其他类型的计算设备。在一些示例中,引用解释设备120可以使用对原始文档的部分的句法分析而从原始文档提取引用声明。例如,引用声明可以包括来自被引用文档的引述、释义、概要和/或定义。引用解释设备120可以对引用声明执行预处理以提供引用声明的表示。引用声明的表示可以以单词的向量、引用声明的主题表示、引用的确切的单词或短语(即引述)的形式。引用解释设备120可以基于预定义分类的指派对引用声明和/或引用声明的表示进行分类。例如,可以通过“定义”、“概要”、“引述”、“方法”和/或“概要”对引用声明归类来确定分类。可以使用不同的方法来执行分类,所述方法诸如决策树、规则或更复杂的方法。可以训练模型来考虑声明的句法、语法和语言特征。

引用解释设备120还可以标识被引用文档的可能对应于引用声明的候选片段的集合。术语“可能对应”可以指代基于分析的关联和/或关系,即候选片段与引用声明之间的关联或关系。例如,可以将被引用文档和引用声明进行比较以生成匹配或解释引用声明的至少一个候选片段。可以选择被引用文档的该部分来表示至少一个候选片段。可以对候选片段的集合中的每个进行排名(rank)。排名可以包括基于至少一个标准给每个候选片段赋值,所述至少一个标准诸如关键术语的数目、术语的位置和/或片段在被引用文档中的位置。

在标识候选片段的集合时,引用解释设备120可以调整或修改候选片段以将片段与引用声明更好地对准。例如,可以合并候选片段中的至少两个以形成新的或经修订的候选片段。可以确定经修订的候选片段的更新的排名。可以执行合并候选片段中的至少两个以基于排名标准提供更好地捕捉原始文档与被引用文档之间的关系的候选片段。排名标准可以指代被引用文档的基准点测定(benchmarking)特性,诸如关键术语、关键术语的频率、结构数据、分类数据和候选片段在被引用文档中的位置。根据另一示例,候选片段还可以被分裂成两个候选片段。如果确定候选片段过大或包含无关信息,则可以分裂该片段。分裂可以将候选片段分成至少两个候选片段,其具有初始候选片段的所有片段。替代地,可以移除初始候选片段的至少一个部分并且可以创建至少两个经修订的候选片段以集中在仅相关片段上并且省略无关片段。下面关于例如图2-12来更详细地描述引用解释设备120的示例和可以由引用解释设备120执行的某些功能。

文档设备140可以是维持、接收或传送来自数据集合的数据的任何设备。例如,文档设备140可以是扫描设备或计算设备,诸如台式计算机、膝上型计算机、平板计算设备、移动电话、服务器或任何其他类型的计算设备。文档设备140可以接收、传送或否则访问数据集合,诸如文章和受控的数据集,用来为引用解释设备120收集数据。例如,文档设备140可以提供对文档的访问。文档设备140还可以收集、维持、查询和/或分析文档的数字版本。文档设备140可以包括处理器,并且可以经由处理器访问数据集合的数字版本,诸如原始文档和/或被引用文档。下面关于例如图4-5和8-9更详细地讨论原始文档、被引用文档、引用声明和候选片段的示例。

数据库160可以是促进对数据的存储的任何类型的存储系统配置。例如,数据库160可以促进对数据(例如,saas、sql、access等数据库、xml文件等)的定位、访问和检索。可以通过多个方法来填充数据库160。例如,引用解释设备120可以用由引用解释设备120生成的数据库条目来填充数据库160,并且将数据库条目存储在数据库160中。作为另一示例,引用解释设备120可以通过从另一组件、无线网络操作者和/或文档设备140的用户接收一组数据库条目并且将数据库条目存储在数据库160中来填充数据库160。在又一示例中,文档设备140可以通过例如传输数据或获得来自文档的数据来填充数据库160,所述文档即原始文档和被引用文档。

可以使用电子手段,诸如通过使用连接到文档设备140的扫描仪或扫描设备,来获得数据。数据库条目可以包含多个字段,其可以包括与原始文档、引用、引用的表示、被引用文档、被引用文档的索引(indexing)和结构数据、候选片段、经修订的候选片段、可解释性排名和得分以及片段推荐相关的信息。虽然在图1中示出的示例中数据库160是在组件120和140外部的单个组件,但是数据库160可以包括分离的数据库和/或可以是设备120、140和/或另一设备的部分。在一些实现中,可以由设备120和/或140的能够通过网络180远程地访问、创建、控制和/或以其他方式管理数据的组件来管理数据库160。

网络180可以是促进远程组件(诸如引用解释设备120和文档设备140)之间的通信的任何类型的网络。例如,网络180可以是局域网(lan)、广域网(wan)、虚拟私有网络、专用内部网、因特网和/或无线网络。

在图1中图示的布置仅是示例,并且系统100可以以多个不同的配置来实现。例如,虽然图1示出一个引用解释设备120、文档设备140、数据库160和网络180,但是系统100可以包括任何数目的组件120、140、160和180以及未在图1中描绘的其他组件。系统100还可以省略组件120、140、160和180中的任何。例如,引用解释设备120和文档设备140可以被直接连接而不是经由网络180连接。作为另一示例,引用解释设备120和文档设备140可以被组合成单个设备。

图2-3图示了根据示例的引用解释设备的框图。参考图2,图示了引用解释设备120。在某些方面,引用解释设备120可能对应于多个图1的引用解释设备120。可以以多种方式实现引用解释设备120。例如,引用解释设备120可以是专用计算机、服务器、大型计算机、执行接收和处理信息并提供响应的指令的计算设备,和/或任何其他类型的计算设备。在图2中示出的示例中,引用解释设备120可以包括机器可读存储介质250、处理器270和接口(interface)280。

处理器270可以是至少一个处理单元(cpu)、微处理器和/或执行用以实行操作的指令的另一硬件设备。例如,处理器270可以取出、解码和执行存储在机器可读存储介质250中的解释指令260(例如,指令262、264和/或266)以执行与本文中提供的示例相关的操作。

接口280可以是促进信息在引用解释设备120与其他组件之间的传送的任何设备,所述其他组件诸如文档设备140和/或数据库160。在一些示例中,接口280可以包括允许设备从网络180接收数据和向网络180发送数据的网络接口设备。例如,接口280可以经由网络180向数据库160检索与提供引用解释相关的数据并处理所述数据。

机器可读存储介质250可以是存储可执行指令的任何电子、磁、光学或其他物理存储设备。因此,机器可读存储介质250可以是例如存储器、存储驱动器、光盘和/或类似物。在一些实现中,机器可读存储介质250可以是非瞬时的,诸如非瞬时计算机可读存储介质,其中术语“非瞬时”不包括瞬时传播的信号。机器可读存储介质250可以被编码有指令,所述指令在被处理器270执行时实行与本文中的示例一致的操作。例如,机器可读存储介质250可以包括执行操作的指令,所述操作通过从原始文档提取引用声明而提供引用解释、生成来自被引用文档的片段候选以及评价片段候选。在图2中示出的示例中,机器可读存储介质250可以包括提取指令262、片段生成指令264和评价指令266。

提取指令262可以运行以使用对原始文档的部分的句法分析而从原始文档提取引用声明并且对所述引用声明分类。例如,当提取指令262由处理器270执行时,提取指令262可以使得引用解释设备120的处理器270和/或另一处理器提取引用并且对引用执行预处理以提供作为引用声明的引用的表示。引用声明可以包括从单词的向量、主题表示和确切的单词集合选择的至少一个结构。提取指令262的执行还可能使得引用解释设备120的处理器270和/或另一处理器基于预定义分类的指派而对引用声明进行分类。下面关于例如图4-5进一步详细地描述在提取中涉及的步骤的示例。

片段生成指令264可以运行以生成被引用文档的可能对应于引用声明的候选片段的集合。例如,当片段生成指令264由处理器270执行时,片段生成指令264可以使得引用解释设备120的处理器270和/或另一处理器标识被引用文档的可能对应于引用声明的候选片段的集合。下面关于例如图4-7进一步详细地描述在生成候选片段简档的集合中涉及的步骤的示例。

评价指令266可以运行以分析候选片段的集合,以便对候选片段的集合中的每个候选片段进行排名。例如,当评价指令266被处理器270执行时,评价指令266可以使得引用解释设备120的处理器270和/或另一处理器分析候选片段的集合。分析可以包括对候选片段的集合中的每个候选片段进行排名。可以使用用于排名的各种方法。例如,基于可解释性得分来选择候选片段的集合中的至少一个候选片段用于显示。可以通过评价从关键术语、关键术语的频率、结构数据、分类数据和候选片段在被引用文档中的位置选择的至少一个因素来确定可解释性得分。评价指令266可以进一步运行以合并候选片段中的至少两个以形成经修订的候选片段并且给经修订的候选片段提供更新的排名。下面关于例如图4-5和8-9进一步详细地描述在分析候选片段的集合中涉及的步骤的示例。

参考图3,引用解释设备120被图示包括提取引擎362、片段生成引擎364和评价引擎366。在某些方面中,引用解释设备120可能对应于图1-2的引用解释设备120。可以以多种方式实现引用解释设备120。例如,引用解释设备120可以是计算系统和/或提供引用解释的任何其他适合的组件或组件集合。

接口280可以是促进信息在引用解释设备120与外部组件之间的传送的任何设备。在一些示例中,接口280可以包括允许引用解释设备120从网络接收数据和向网络发送数据的网络接口设备。例如,接口280可以检索和处理与使用来自引用解释设备120、文档设备140和/或数据库160的数据来提供引用解释相关的数据。

引擎362、364和366可以是用于实现与所公开的示例一致的功能的电子电路。例如,引擎362、364和366可以表示用以实现与所公开的实现一致的功能的硬件设备和指令的组合。例如,用于引擎的指令可以是存储在非瞬时机器可读存储介质上的处理器可执行指令,并且用于引擎的硬件可以包括用于执行那些指令的处理器。在一些示例中,引擎362、364和366的功能可以对应于由图1-2的引用解释设备120执行的操作,所述操作诸如当解释指令260被处理器270执行时实行的操作。

在图3中,提取引擎362可以表示实行与当处理器270执行提取指令262时实行的那些操作类似的操作的硬件和指令的组合。类似地,片段生成引擎364可以表示实行与当处理器270执行片段生成指令264时实行的那些操作类似的操作的硬件和指令的组合,并且评价引擎366可以表示实行与当处理器270执行评价指令266时实行的那些操作类似的操作的硬件和指令的组合。

图4-5图示了根据示例的用于提供引用解释的过程的流程图。尽管下面参考系统100描述了过程400和500的执行,但是可以使用用于执行过程400和500的至少一个步骤的其他适合的系统和/或设备。例如,下面描述为被系统100执行的过程可以由引用解释设备120、文档设备140和/或任何其他适合的设备或系统执行。可以以存储在存储设备上的可执行指令的形式和/或以电子电路的形式来实现过程400和500,所述存储设备诸如机器可读存储介质。

参考图4,提供了用以提供引用解释的方法。过程400可以通过分析原始文档以提取引用声明(步骤404)而开始。可以使用多种分析方法来执行对原始文档的分析。例如,句法分析可以标识句子边界,并且包含引用的句子可以被视为引用声明。不同的示例是围绕引用本身的固定窗上下文分析(即,100单词的窗大小)。又一方法是不仅分析包含引用的句子而且分析后面的多个(例如,1-2个)句子以便看这些句子是否涉及同一引用。例如,引用“信息检索和信息过滤已经被称作“同一硬币的两面”(例如,[5])。本文解释了差异......”并且可以使用上面的方法中的一个来分析周围文本,所述方法即句法、固定窗上下文、围绕引用的句子。例如,系统100的引用解释设备120和/或文档设备140可以查询或以其他方式访问数据库160以确定存储在诸如数据库160之类的存储设备中的适当的分析方法。

过程400还可以包括标识被引用文档的可能对应于引用声明的候选片段的集合(步骤406)。例如,引用解释设备120和/或文档设备140可以将被引用文档与引用声明进行比较以生成匹配或解释引用声明的至少一个候选片段。可以选择被引用文档的该部分来表示至少一个候选片段。可以将候选片段的集合存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得候选片段。在另一示例中,引用解释设备120和/或文档设备140还可以分析被引用文档以提供被引用文档的结构或生成被引用文档的索引。可以将与结构和/或索引相关的数据存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得结构和/或索引数据。

过程400还可以包括基于预定义标准来评价候选片段的集合(步骤408)。例如,引用解释设备120和/或文档设备140可以向每个候选片段指派可解释性得分。可以使用从关键术语、关键术语的频率、结构数据、分类数据和候选片段在被引用文档中的位置选择的至少一个因素来确定每个候选片段的可解释性得分。可以将可解释性得分存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得可解释性得分。

在另一示例中,引用解释设备120和/或文档设备140可以合并候选片段的集合中的至少两个片段以形成经修订的候选片段。引用解释设备120和/或文档设备140然后可以提供经修订的候选片段的可解释性得分。可以将经修订的候选片段和可解释性得分存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得经修订的候选片段和可解释性得分。在已经完成对候选片段的评价之后,过程400可以结束。

参考图5,过程500以引用(步骤502)开始。过程500可以包括分析原始文档以提取引用声明(步骤504)。例如,引用解释设备120和/或文档设备140可以分析原始文档以标识和提取引用声明。可以将引用声明存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得引用声明。

过程500还可以包括对在步骤502中提取的引用声明进行分类(步骤505)。例如,引用解释设备120和/或文档设备140可以评价所提取的引用声明并且基于预定义分类的集合对声明进行分类,所述预定义分类诸如“定义”、“概要”、“引述”、“方法”和/或“结论”。可以使用不同的方法来执行分类,所述方法诸如决策树、规则或更复杂的方法。可以训练分类模型来考虑声明的句法、语法和语言特征。知道引用声明的可能分类可以被方法用作信息的附加来源,用以标识和评价匹配引用声明的候选片段。例如,知道引用声明是引述使得能够在被引用文档中搜索引用声明的确切匹配。可以将分类存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得分类和与其相关联的引用声明。

过程500还可以包括生成被引用文档的可能对应于引用声明的候选片段的集合(步骤506)。在生成候选片段之前,可以获得被引用文档(步骤520)。例如,引用解释设备120和/或文档设备140可以获得被引用文档。引用解释设备120和/或文档设备140然后可以将被引用文档与引用声明进行比较以生成匹配或解释引用声明的至少一个候选片段。可以将候选片段存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得候选片段。

过程500还可以检索或获得被引用文档(步骤520)。例如,引用解释设备120和/或文档设备140可以取得通过引用而引用的被引用文档。在作品的书目参考章节中提供的被引用文档的描述可以用来搜索web或查询数据库,诸如书目数据库,以便检索或获得被引用文档。替代地,读者可以将文档的位置或文档本身提供给系统。可以将被引用文档存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得被引用文档。

过程500还可以包括基于预定义标准来评价候选片段的集合(步骤508)。预定义标准可以包括用来确定排名或得分的因素。因素的示例可以包括关键术语的数目、术语的位置和/或片段在被引用文档中的位置。例如,引用解释设备120和/或文档设备140可以向每个候选片段指派可解释性排名或可解释性得分。可以将可解释性排名存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得可解释性排名和/或与其相关联的候选片段。在评价候选片段之后,过程500可以推荐被引用文档的要嵌入到原始文档供读者参考的片段(步骤510)。

图6-7图示了根据示例的用于提取引用声明的过程的流程图。图6-7是图4-5的子过程。尽管下面参考系统100描述了过程600和700的执行,但是可以使用用于执行过程600和700的至少一个步骤的其他适合的系统和/或设备。例如,下面描述为被系统100执行的过程可以由引用解释设备120、文档设备140和/或任何其他适合的设备或系统执行。可以以存储在存储设备上的可执行指令的形式和/或以电子电路的形式来实现过程600和700,所述存储设备诸如机器可读存储介质。

参考图6,过程600以引用(步骤602)开始。过程600可以包括句子分割(步骤604)。例如,引用解释设备120和/或文档设备140可以标识句子边界以提取针对引用的引用声明c。所提取的句子边界可以用在引用的分析中。可以将句子分割数据存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得句子分割数据。

过程600还可以包括引用的句法分析(步骤606)。例如,引用解释设备120和/或文档设备140可以标识被视为引用声明的包含引用的句子。可以将该句子存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以针对该句子而查询数据库160。

在通过句法分析(步骤606)标识该句子之后,过程600可以生成更简洁的表示,诸如该句子的确切表示或向量表示。例如,引用解释设备120和/或文档设备140可以以确切的顺序捕捉该句子的确切文本,即作为引述。该确切文本可以用来执行对被引用文档内的文本的确切匹配搜索,诸如分别用于图4和5的步骤406和506。确切匹配搜索在引述的情况下可以是有用的。

在另一示例中,引用解释设备120和/或文档设备140可以根据句子生成单词的向量。单词的向量可以用来执行对被引用文档内的文本的近似匹配搜索,诸如分别用于图4和5的步骤406和506。近似匹配搜索可以使用术语的向量来找到术语的近似匹配。

过程600还可以包括提供引用声明表示(步骤612)。例如,引用解释设备120和/或文档设备140可以提供引用声明表示,诸如所生成的确切表示和/或向量表示。可以将声明引用表示存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得引用声明表示。过程600将引用声明表示作为引用声明(步骤614)输出到引用解释设备120和/或文档设备140。

参考图7,过程700以引用(步骤702)开始。代替句法分析(图6的步骤606),过程700提供用以使用固定窗上下文(步骤704)来分析引用以提取引用声明的过程的示例。例如,引用解释设备120和/或文档设备140可以围绕引用本身考虑固定窗上下文,即单词的大小,诸如100。可以将固定窗上下文中的单词存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得固定窗上下文中的单词。

在标识固定窗之后,过程700还可以包括预处理(步骤706)。例如,引用解释设备120和/或文档设备140可以对固定窗应用预处理以移除停止词和其他噪声词。通过预处理,可以生成更简洁的表示。可以将预处理结果存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得预处理结果。

预处理(步骤706)可以提供主题模型(步骤708)以表示引用声明。例如,引用解释设备120和/或文档设备140可以生成固定窗的主题表示。主题模型可以用来执行对被引用文档内的文本的近似匹配搜索,诸如分别用于图4和5的步骤406和506。主题模型还可以用来在被引用文档上执行主题匹配搜索以找到主题匹配。

在另一示例中,过程700可以提供固定窗的向量表示(步骤710)。例如,引用解释设备120和/或文档设备140可以生成来自固定窗的单词的向量。单词的向量可以用来执行对被引用文档内的文本的近似匹配搜索,诸如分别用于图4和5的步骤406和506。近似匹配搜索可以使用来自固定窗的术语的向量。可以将主题模型和/或向量表示存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得主题模型和/或向量表示。过程700将在步骤708-710中生成的主题模型和/或向量表示作为引用声明(步骤714)输出到引用解释设备120和/或文档设备140。

图8-9图示了根据示例的用于提供被引用文档的候选片段的过程的流程图。图8-9是图4-5的子过程。尽管下面参考系统100描述了过程800和900的执行,但是可以使用用于执行过程800和900的至少一个步骤的其他适合的系统和/或设备。例如,下面描述为被系统100执行的过程可以由引用解释设备120、文档设备140和/或任何其他适合的设备或系统执行。可以以存储在存储设备上的可执行指令的形式和/或以电子电路的形式来实现过程800和900,所述存储设备诸如机器可读存储介质。

参考图8,过程800以引用(步骤802)开始。过程800可以包括引用声明搜索(步骤804)。例如,引用解释设备120和/或文档设备140可以将引用声明与被引用文档中的索引进行比较,以便找到将解释引用声明的可能位置。可以执行优化来修整候选。用以修整结果的一个方法可以包括确定引用声明是否被简单地参考,诸如是否是术语,其中在周围文本中没有用以解释引用声明的大量附加信息。可以将确定引用声明是否是术语计算为预处理步骤,诸如图7的步骤706。在术语示例中,可以针对每个元组<声明,doc,loc,expl-ranking>指派和存储排名,其中expl-ranking计及声明在给定“位置”(loc)和被引用文档(doc)中的“可解释性”。

在另一示例中,引用解释设备120和/或文档设备140可以接收引用声明,其提供关于引用或引用声明在其涉及的被引用文档中的位置的较多细节,诸如“blei等人,21页”。在提供了引用或引用声明的位置的实例中,可以分析引用以获得具体细节,例如页码、段落或行。引用的具体细节可能有助于在被引用文档中搜索引用声明的任务,用于将搜索限制在指定位置内或用以使来自该位置的片段排名较高而不排除也可能支持该声明的其他片段,诸如提供对引用声明的较好和/或较差的支持的部分。可以将引用声明搜索存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得引用声明搜索信息和/或结果。

过程800还可以包括生成被引用文档中的候选片段(步骤806)。例如,引用解释设备120和/或文档设备140可以生成被引用文档中的可以解释、定义、支持和/或一般提供关于声明的较多细节的候选片段。可以使用若干方法来生成可能匹配和解释引用声明的候选片段。一个方法是选择匹配引用声明的句子。替代地,基于窗的方法选择包含引用声明的术语的文本窗。通常,该窗包含引用术语中的一个或若干并且可以跨越句子。

还可以结合片段解释排名或评分来执行片段生成以提供被标识具有充分高的排名或得分的候选片段。例如,如果引用声明被发现为短语,则被引用文档中的短语的发生将被给予优先级。如果不,则将选择被引用文档内的包含多个查询术语的窗。评分模型可以组合位置因素与内容因素,所述位置因素例如偏爱(favor)文档的第一段落和段落的第一和最后一句。利用位置因素的评分模型可能着重具有关键术语的句子,其作为整体在数据集合中具有低的文档频率但具有跨特定被引用文档的高频率且好的分布。

另外,如果被引用文档的结构信息和引用声明的分类信息可用,则结构信息可以用来生成遵守被引用文档的结构和引用声明的分类的候选片段。例如,如果引用声明是“定义”,则片段生成可以仅观察被引用文档的定义。例如,可能在被图示为步骤的使用在引用声明搜索(步骤804)和/或被引用文档的索引(步骤822)期间分析的结构信息中涉及若干步骤。可以将与候选片段的生成相关联的步骤和/或数据存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得与候选片段的生成相关联的步骤和/或数据。

过程800还可以包括片段可解释性排名(步骤808)。例如,引用解释设备120和/或文档设备140可以计算可解释性排名或得分,其捕捉具体片段是对引用的好的解释的可能性。通过考虑若干因素来计算排名或得分,所述若干因素包括:1)内容因素,其着重具有关键术语的句子,所述句子作为整体在集合中具有低的文档频率,但具有跨被返回的特定文档的高频率且好的分布;2)结构和分类信息,其偏爱文档的匹配声明的分类的部分;3)位置或定位因素,例如,其偏爱文档的第一个和最后一个段落以及段落的第一句和最后一句;以及4)片段的信息价值,其捕捉片段显露和/或包含关于引用声明的多少信息。例如,该片段“定义”引用声明还是仅使用它?与通过引用声明本身已知的东西相比,该片段提供更多关于引用声明的信息吗?

如下是用以计算针对引用声明c的片段s的可解释性排名或得分的公式的示例:explainability(s,c)=m*(1/pos(s))*sim(c,s)+n*class_sim(c,s)+k*inf(s),m+n+k=1,其中pos(s)是片段的位置,sim(c,s)是(例如,使用余弦或杰卡德指数计算的)c与s之间的内容类似性,例如如果c和s属于同一结构分类,则class_sim(c,s)是1,并且否则是0,inf(s)是s的定义为|length(s)-length(c)|/length(c)的信息价值。针对信息价值的其他度量可以考虑信息增益和/或信息熵。最后,m、n、k是公式中的调整参数。可以将片段可解释性排名存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得片段可解释性排名。

在已经完成片段可解释性排名之后,过程800可以推荐被引用文档中的(一个或多个)片段(步骤810)。例如,引用解释设备120和/或文档设备140可以提供解释引用的最佳候选片段或头等候选片段。可以将(一个或多个)被推荐片段存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得(一个或多个)被推荐片段。可以将被引用文档的被推荐片段嵌入到原始文档中供读者参考。

过程800还可以包括获得被引用文档(步骤820)。例如,引用解释设备120和/或文档设备140可以使用对外部或内部来源的查询来获得被引用文档。可以将被引用文档存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得被引用文档。

过程800还可以包括索引被引用文档(步骤822)。例如,引用解释设备120和/或文档设备140可以分析被引用文档以生成将用于使声明与文档匹配的索引。索引保持关于在文档中找到的单词、发生统计以及文档中的单词位置的信息。索引可以使得能实现早期修整,诸如忽略文档的具有低解释性值的部分的确定,所述部分比如参考、摘要、标题和/或图形说明。可以将索引数据存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得索引数据。可以在引用声明搜索步骤804之前获得索引数据并将其用在引用声明搜索中以改善结果。参考图9,过程900以引用(步骤902)开始。过程900可以包括与上面在图8中讨论的引用声明搜索(步骤804)类似的引用声明搜索(步骤904),以及与上面在图8中讨论的被引用文档中的候选片段的生成(步骤806)类似的所述生成(步骤906)。过程900可以包括与在图8中讨论的被引用文档中的候选片段的生成(步骤806)类似的所述生成(步骤906)。过程900还可以包括与图8中的片段可解释性排名(步骤808)类似的片段可解释性排名(步骤908);然而,图9可以改善步骤908的片段可解释性排名。

过程900可以合并片段(步骤910)。例如,引用解释设备120和/或文档设备140可以将片段迭代地组合成具有较高可解释性得分的较大片段。例如,在所生成的片段部分地覆盖引用声明并且可能需要所提议的候选片段的组合来解释引用声明时,合并可能是必要的。在另一示例中,可能期望与一列引用相关的细节。在该实例中,可能需要针对所有被引用文档执行引用声明搜索(步骤904)、被引用文档中的候选片段的生成(步骤906)的步骤。在执行所述步骤之后,可以将来自被引用文档的候选片段组合成单个响应,经修订的候选片段。

过程900还可以包括片段可解释性重新排名(步骤912),其在经修订的候选片段上重复片段可解释性排名(步骤908)的过程。在需要来自一个或多个被引用文档的多于一个片段来生成好的解释时,合并片段和对片段重新排名是有用的。可以将得到的合并片段和片段可解释性重新排名数据存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得合并片段和片段可解释性重新排名。在已经完成片段可解释性重新排名之后,过程900可以推荐被引用文档中的(一个或多个)片段(步骤914)。可以将被引用文档的被推荐片段嵌入到原始文档中供读者参考。

过程900还可以包括获得被引用文档(步骤920)。例如,引用解释设备120和/或文档设备140可以使用对外部和/或内部来源的查询来获得被引用文档。可以将被引用文档存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得被引用文档。

过程900还可以包括索引被引用文档(步骤922),其类似于与在图8中对文档的索引(步骤822)。过程900可以进一步包括文档结构分析(步骤924)。例如,引用解释设备120和/或文档设备140可以在结构上分析被引用文档。步骤924步骤的输出是文档的结构表示,诸如捕捉例如章节、段落、句子、定义、定理和/或算法的文档对象模型(dom)树。文档的结构信息和声明的分类信息如果可用则可以用于生成候选片段和对候选片段进行排名。例如,如果声明是定义,则文档结构分析寻找文档的定义。可以将文档结构数据存储在诸如数据库160之类的存储设备中,并且引用解释设备120和/或文档设备140可以查询数据库160以获得文档结构数据。可以在引用声明搜索步骤904之前获得索引数据并将其用在引用声明搜索中以改善结果。

图10-12图示了根据示例的引用解释1000的示意图。图10示出了用以在用户当前阅读的引用文档内显示解释的可能方式。当用户选择例如点击原始文档1004中的引用1002或在停悬在其上时,出现显示被引用文档1006和该文档的部分的窗,所述部分表示根据片段的可解释性得分而高亮1008的被推荐片段。被引用文档1006中的高亮片段的数目是可调整的参数。可能的是仅高亮1008文档的包含具有最高得分的片段的部分,如图10中那样,或者高亮1008包含排名头等的片段的多个部分,如图11-12中那样。

参考图11,高亮1008被引用文档1006的多个部分。如果需要多于一个片段来解释或定义引用声明。图11示出示例,其中已经在可能跨越多个页面或被引用文档1006的多于一个部分中发现且高亮1008提供信息的片段或被推荐片段,所述页面诸如一个或多个文档中的页面、网站的web页面。除了使片段高亮之外,还可以通过书签1110来准确定位页面。在图11中图示的示例中,代替呈现跨文档页面的大量被推荐片段,可能的是仅示出撰写的片段概要,作为在图9的片段合并和重新排名(步骤910-912)期间准备的解释。

图12示出在引用1002由若干指示字组成时的示例接口,在本示例中如引用“[9,16,271”。在图12中,提供了被引用文档1006的列表1220的视觉表示。用户可以浏览选项并且选择一个引用1222来学习,诸如文档16。图12图示了包含关于被引用文档1006的信息的选项的示例列表1220,所述选项诸如标题、在文档中找到的声明及其可解释性得分、被引用文档1006的位置,诸如本地盘、web或云。列表1220可以包含其他属性,诸如文档性质和用于标识引用声明的分析的结果。如果文档包含放在各种页面上的多个片段,则可以组合图11-12的接口。此外,可以扩展接口以示出包含多于一个被高亮的部分1008的文档和/或示出对单个引用声明的解释跨越多个文档的情况,即列表1220。替代地,可以向用户示出根据所有文档撰写的概要。

所公开的示例可以包括系统、设备、计算机可读存储介质和用于提供引用解释的方法。出于解释的目的,参考图1-3中图示的组件描述了某些示例。然而,所图示的组件的功能可以重叠,并且可以存在于较小或较大数目的元件和组件中。进一步地,所图示的元件的功能的全部或部分可以共存或分布在若干地理上分散的位置之中。此外,可以在各种环境中实现所公开的示例并且其不限于所图示的示例。

此外,如在说明书和所附权利要求书中使用的那样,意图单数形式“一”、“一个”和“该”也包括复数形式,除非上下文另外指示。另外,尽管可以在本文中使用术语第一、第二等描述各种元件,但是这些元件不应该被该术语限制。代之以,这些术语用来将一个元件与另一个区分开。

进一步地,结合图1-12描述的操作的序列是示例并且不意图是限制性的。附加的或较少的操作或者操作的组合可以被使用或可以变化而不背离所公开的示例的范围。因此,本公开仅阐述了实现的可能示例,并且可以对所描述的示例做出许多变化和修改。意图使所有这样的修改和变化包括在本申请的范围内并且由以下权利要求书保护。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1