预测文本内容中的样式破坏的制作方法

文档序号:17723442发布日期:2019-05-22 02:20阅读:154来源:国知局
预测文本内容中的样式破坏的制作方法

通常,由不同作者创建的内容在单个文档中聚合在一起。然而,通常,由不同作者创建的内容部分包含不同的书写样式,诸如例如,单词、语法样式和/或标点样式的不同选择。例如,一位作者书写的文本在样式上可能与另一位作者书写的文本不同。因此,聚合由不同作者创建的内容部分经常导致在整个文档中使用不一致的样式并且从而导致拼凑的或难以阅读的内容。

在很多情况下,可能希望产生流畅阅读的多作者文档,即,在整个文档中保持一致的样式。为了保持文档中的样式一致性,用户可以手动检查内容以识别和校正任何标识的样式不一致。然而,这样的手动检测和校正是乏味且耗时的。此外,手动检测和校正样式破坏可能导致不准确和/或不完整的样式一致性。即使使用标识语法错误或难以阅读的句子的工具也不能检测样式不一致并且确保在整个文档中使用一致的样式。



技术实现要素:

本发明的实施例涉及用于支持文本内容中的样式破坏预测的方法、系统和计算机可读介质。也就是说,预测内容中的样式破坏或样式变化。有利地,检测样式破坏使得能够修改内容以获取一致的样式。为了预测样式破坏,本文中描述的实施例支持使用训练内容生成样式破坏预测模型。特别地,可以分析训练内容以自动标识与内容相关联的样式特征。另外,可以获取样式破坏注释(例如,由评估内容的个人提供)。基于样式特征和样式破坏注释,可以训练样式破坏预测模型。然后,可以使用这样的样式破坏预测模型来与新内容或目标内容相关联地预测样式破坏。例如,可以分析目标内容以标识样式特征。然后,样式破坏预测模型可以使用所标识的样式特征来预测内容中的各种样式破坏。

提供本“发明内容”是为了以简化的形式介绍一些概念,这些概念将在下面的“具体实施方式”中进一步描述。本“发明内容”不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。

附图说明

以下参考附图详细描述本发明,在附图中:

图1是根据本发明的实施例的用于支持样式破坏预测的系统的示意图;

图2是根据本发明的实施例的样式破坏检测引擎的描绘;

图3是根据本发明的实施例的示出各种输入内容选项的用户界面显示;

图4是根据示例实施例的示出样式破坏的表示的用户显示界面;

图5是示出根据本发明的实施例的用于支持样式破坏预测的方法的流程图;

图6是示出根据本发明的实施例的用于生成样式破坏预测模型的方法的流程图;

图7是示出根据本发明的实施例的用于预测样式破坏的方法的流程图;以及

图8是适于在实现本发明的实施例时使用的示例性计算环境的框图。

具体实施方式

本文中具体描述了本发明的主题以满足法定要求。然而,描述本身并不旨在限制本专利的范围。相反,发明人已经预期,所要求保护的主题还可以以其他方式实施,以结合其他现有或未来技术包括与本文档中描述的步骤不同的步骤或类似的步骤的组合。此外,尽管本文中可以使用术语“步骤”和/或“块”来表示所采用的方法的不同元素,但是除非和除了当明确地描述了各个步骤的顺序时,否则这些术语不应当被解释为暗示本文中公开的各个步骤之中或之间的任何特定顺序。

诸如电子文档等内容通常是经由由不同个人或作者创建和/或在不同时间点创建的内容部分组合而成的。作为示例,这样的多作者内容可以经由协作书写、来自不同作者的现有内容的组合、或在不同时间点生成的来自同一作者的内容的组合来创建。通常,由不同作者提供的内容部分包含不同的样式,诸如例如,单词、语法样式和/或标点样式的不同选择。例如,作为一个明显的示例,莎士比亚书写的文本通常与更为当代的作家书写的文本完全不同。即使在当代作家之间,写作样式仍然存在差异。因此,聚合由不同作者创建的内容部分经常导致使用不一致的样式并且从而导致拼凑的或难以阅读的内容。

为了保持内容中的样式一致性,用户可以手动检查内容以识别和校正任何标识的样式不一致。然而,这样的手动检测和校正是乏味且耗时的。随着作者数目的增加和/或内容量的增加,可能放大标识和校正样式不一致的时间量。此外,手动检测和校正样式破坏可能经常导致不准确和/或不完整的样式一致性。即使使用标识语法错误或难以阅读的句子的工具也不能检测样式不一致并且确保在整个文档中使用一致的样式。

已经尝试了一些与分析内容有关的自动化方法。例如,一种方法可以对不同作者书写的文档进行聚类。然而,这样的方法假定单个文档由一个作者书写。另一种内容分析方法可以基于话题变化来对句子进行聚类。然而,这样的内容分析方法未能检测诸如文档等内容中的样式破坏。

因此,本文中描述的实施例涉及自动检测内容、并且尤其是多作者内容中的样式破坏。如本文中使用的样式破坏通常是指文本内容中的样式的变化或样式的不同使用。当另一作者书写内容时,通常会发生样式破坏。检测内容中的样式破坏使得能够跨内容保持样式一致性。在这方面,从协作创作/编辑的各种文档和/或内容的多个片段组合而成的内容可以在整个内容中实现一致的样式。通常,如本文中使用的,样式或书写样式是指作者书写的技术或方式,例如,与句法、标点、单词选择、语法和/或音调的使用有关。为此,特定样式的内容通常是由单个作者创作的内容或看起来是由单个作者创作的内容。

为了检测内容中的样式破坏,可以分析内容以标识与内容相关联的样式特征。样式特征可以包括用于预测样式破坏的各种特征,诸如词汇特征和句法特征。有利地,在实施例中,可以利用句法特征来标识样式破坏,而不管内容的话题或主题如何。为此,单个话题或主题可以涵盖在单个多作者内容中,但仍然可以检测到样式破坏。所标识的样式特征可以与(多个)样式破坏预测模型相关联地使用以预测内容中的对应的样式破坏。

样式破坏预测模型可以使用训练内容来生成。特别地,可以分析训练内容以标识样式特征,诸如词汇特征和句法特征。内容还可以由个人(本文中称为注释者)进行分析,个人查看内容并且提供关于内容中的感知到的或已知的样式破坏的样式破坏注释或反馈。然后可以使用样式特征和提供的注释来生成样式破坏预测模型。利用这种样式破坏预测模型可以实现自动化和高效的样式破坏预测。

重要的是,因为在内容中检测到样式破坏,所以本文中描述的实施例以内容片段方式分析内容。为此,将内容解析或分成各种内容片段(例如,句子或内容的其他部分)并且在片段级别对内容进行分析。样式破坏预测模型可以从内容中的先前分析的片段学习样式,并且之后预测在特定内容片段处是否发生样式破坏。这样,有利地,当协作创作文档时,可以检测样式发生改变的片段,诸如句子或句子边界。

根据本文中描述的一些实施例,在检测到样式破坏时,可以在视觉上向用户呈现样式破坏,使得用户可以修改内容以产生始终一致的样式。在一些情况下,可以生成用于一个片段或片段集合的(多个)样式修改推荐并且将其提供给用户。例如,可以向用户提供应当被应用以确保一致性的样式改变类型的推荐。例如,可以提供“减小句子长度”的推荐。作为另一示例,可以建议要应用的特定样式改变的推荐。例如,可以建议去除特定短语(例如,介词短语)的推荐以减小句子长度。在其他情况下,可以自动实现样式推荐以生成始终具有一致的样式的内容。

现在转到图1,提供了示意图,其示出了其中可以采用本发明的一些实施例的示例性系统100。除了未示出的其他组件,环境100可以包括注释者设备102、用户设备104、样式破坏预测引擎106和数据存储库108。应当理解,图1所示的系统100是一个合适的计算系统的示例。图1所示的任何组件可以经由任何类型的计算设备来实现,例如,诸如参考图8描述的计算设备800。组件可以经由一个或多个网络110彼此通信,网络110可以包括但不限于一个或多个局域网(lan)和/或广域网(wan)。这种网络环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。

应当理解,本文中描述的这个和其他布置仅作为示例阐述。除了或代替所示的那些,可以使用其他布置和元素(例如,机器、接口、功能、顺序、功能分组等),并且可以完全省略一些元素。此外,本文中描述的很多元素是功能实体,这些功能实体可以实现为离散或分布式组件或者与其他组件相结合来实现,并且可以以任何合适的组合和位置来实现。本文中描述为由一个或多个实体执行的各种功能可以由硬件、固件和/或软件来执行。例如,各种功能可以由处理器执行存储在存储器中的指令来执行。

通常,系统100支持检测诸如多作者内容等文本内容中的样式破坏。如所描述的,内容或文本内容是指包括文本的至少一部分的电子内容,诸如文档、网页等。当多个个人或作者对内容中提供的文本做出贡献时,内容是多作者或协作的。样式破坏是指样式的破坏或差异。因此,当与一个作者相关联的文本样式改变为与对文档做出贡献的另一作者相关联的文本样式时,可以在多作者内容中检测样式破坏。

在高级别,为了检测内容中的样式破坏,分析文本内容以标识或检测各种样式特征。基于样式特征,可以生成样式破坏预测模型。然后,样式破坏预测模型可以用于评估目标内容或新内容(例如,文章或文档)以预测或检测与这样的内容相关联的样式破坏。在这方面,可以确定对样式破坏的程度、度量或存在的预测。因此,可以向诸如作者、营销商或发布者等用户提供与内容相关联的预测的样式破坏。此外,可以提供各种推荐或建议以努力实现或获取样式上一致的内容。以这种方式,可以提供修改文本的建议,从而导致内容中的文本的级别提高的一致性。

作为示例,并且简要参考图4,假定诸如发布者等用户输入用于样式破坏预测的文本内容430。在这种情况下,可以提供样式破坏的指示以反映与内容相关联的不同样式。如图4所示,第一内容部分432以第一颜色或阴影示出,以指示第一内容部分432被预测为以一种样式书写或准备。此外,第二内容部分434以第二颜色或阴影示出,以指示第二内容部分434被预测为以另一种样式书写或准备。用户(例如,发布者)可以利用这样的信息来理解反映不同样式的内容部分。此外,可以提供各种建议(未示出)来推荐或建议修改文本以提供一致的样式的(多种)方式。仅作为示例,可以提供各种建议来修改第二内容部分434以反映与第一内容部分432相同的样式,反之亦然。

返回图1,在操作中,注释者设备102和用户设备104可以通过网络110(例如,lan或因特网)访问样式破坏预测引擎106。例如,注释者设备102和用户设备104可以经由网络110从样式破坏预测引擎106提供和/或接收数据。网络110可以包括多个网络或多个网络的网络,但是以简单的形式示出以免模糊本公开的各方面。作为示例,网络110可以包括一个或多个广域网(wan)、一个或多个局域网(lan)、诸如因特网等一个或多个公共网络和/或一个或多个专用网络。网络环境在办公室、企业范围的计算机网络、内联网和因特网中很常见。因此,没有详细描述网络110。

诸如注释者设备102等注释者设备可以是能够例如经由安装在计算设备上的web浏览器或应用来向注释者呈现内容的任何计算设备。特别地,并且根据本文中描述的实施例,注释者设备102向注释者呈现训练内容以获取与训练内容相关联的样式破坏注释或标签。训练内容是指被分析并且用于训练(多个)样式破坏预测模型的文本内容。响应于在注释者设备102处查看训练内容,注释者可以提供与内容相关联的注释或标签以指示从内容感知的样式破坏。例如,注释者可以提供样式发生改变的内容中的位置或定位的指示。

样式破坏注释或标签可以以任何方式(例如,注释者选择或输入)提供。作为一个示例,多作者内容可以用针对特定内容部分的作者的指示(例如,作者的特定或一般标识)来标记。在这样的示例中,指示与多个作者相对应的内容的特定部分可以表示样式破坏。作为另一示例,注释者可以检查内容,标识样式变化,并且提供与所标识的样式变化相关联的标记或指示符(例如,经由用户选择)。样式破坏注释可以以任何数目的方式表示,诸如例如,文本的利用(例如,具有作者id或“样式破坏”的标签)、破坏得分(例如,在1到5之间的得分以指示由注释者检测到的破坏程度)、破坏级别(例如,所标识的特定的样式破坏的高/中/低级别)、指示作者和/或样式发生改变的点的数字或字符等。例如,用户可以选择内容上样式被标识为改变的各种点(例如,基于不同的样式或不同的作者)。

注释者设备102可以由注释与各种内容相关联的样式破坏的任何用户操作。虽然图1中仅示出了一个注释者设备102,但是可以利用与任何数目的注释者相关联的多个注释者设备来执行本文中描述的实施例。注释者设备102可以采用各种形式,诸如个人计算机(pc)、膝上型计算机、移动电话、平板计算机、可穿戴计算机、个人数字助理(pda)、mp3播放器、全球定位系统(gps)设备、视频播放器、数字视频记录器(dvr)、有线电视盒、机顶盒、手持通信设备、智能电话、智能手表、工作站、这些描绘的设备的任何组合、或任何其他合适的设备。此外,注释者设备102可以包括一个或多个处理器以及一个或多个计算机可读介质。计算机可读介质可以包括由一个或多个处理器可执行的计算机可读指令。

诸如用户设备104等用户设备可以是能够支持用户提供可以被分析以标识或预测与内容相关联的样式破坏的内容的任何计算设备。例如,用户可以经由安装在用户设备104上的浏览器或应用向样式破坏预测引擎106提供内容。用户设备104可以用于提供训练内容和/或目标内容。训练内容是用于训练样式破坏预测模型的内容。目标内容是需要进行样式破坏检测的内容。此外,可以使用任何类型的用户界面来提供这样的内容。在一些情况下,用户可以输入内容,例如,通过键入或复制/粘贴内容。在其他情况下,可以通过提供或输入对内容的引用(例如,到内容的链接、url或指针)来输入这样的内容。

在一些情况下,用户设备104经由在用户设备上可操作的web浏览器、终端或独立pc应用访问样式破坏检测引擎106。用户设备104可以由管理员操作,管理员可以是管理与文档、网站、应用等相关联的内容的个人。例如,用户可以是与发布内容的实体(例如,经由因特网)相关联的任何个人,诸如作者或发布者。虽然图1中仅示出了一个用户设备104,但是可以利用与任何数目的用户相关联的多个用户设备来执行本文中描述的实施例。用户设备104可以采用各种形式,诸如个人计算机(pc)、膝上型计算机、移动电话、平板计算机、可穿戴计算机、个人数字助理(pda)、mp3播放器、全球定位系统(gps)设备、视频播放器、数字视频记录器(dvr)、有线电视盒、机顶盒、手持通信设备、智能电话、智能手表、工作站、这些描绘的设备的任何组合、或任何其他合适的设备。此外,用户设备104可以包括一个或多个处理器以及一个或多个计算机可读介质。计算机可读介质可以包括由一个或多个处理器可执行的计算机可读指令。

数据存储库108包括用于支持样式破坏检测的数据。如下面更详细描述的,数据存储库108可以包括内容数据,诸如文本内容和/或与其相关联的元数据、和/或样式特征数据。数据存储库108还可以包括样式破坏数据,诸如样式破坏注释。这样的内容数据、样式特征数据和样式破坏数据可以存储在数据存储库108中并且可以被系统100的任何组件访问。数据也可以在任何时间更新。在实施例中,样式破坏数据或其一部分被动态地更新,或者当注释者检查附加训练内容时或在数据发生改变的任何时刻被实时地更新。

样式破坏预测引擎106通常被配置为检测和/或预测与内容相关联的样式破坏。在高级别,样式破坏预测引擎106使用训练内容生成样式破坏预测模型。特别地,样式破坏预测引擎106可以获取并且分析训练内容以生成一个或多个样式破坏预测模型。然后,(多个)样式破坏预测模型可以用来与目标内容相关联地预测或检测样式破坏。预测的样式破坏可以被提供给诸如作者或发布者等用户。

图2中提供了示例性样式破坏预测引擎。如图2所示,样式破坏预测引擎200包括训练管理器202和样式破坏预测管理器204。训练管理器202通常支持训练(多个)样式破坏预测模型,并且样式破坏预测管理器204利用(多个)样式破坏预测模型来预测样式破坏。尽管示出为样式破坏预测引擎200的单独组件,但是可以使用任何数目的组件来执行本文中描述的功能。此外,尽管被示出为样式破坏预测引擎的一部分,但是这些组件可以经由任何数目的设备来分发。例如,训练管理器可以经由一个设备、服务器或服务器集群来提供,而样式破坏预测管理器可以经由另一设备、服务器或服务器集群来提供。本文中标识的组件仅作为示例给出以简化或阐明对功能的讨论。除了或代替所示的布置和元素,可以使用其他布置和元素(例如,机器、接口、功能、顺序和功能分组等),并且可以完全省略一些元素。此外,本文中描述的很多元素是功能实体,这些功能实体可以实现为离散或分布式组件或者与其他组件相结合来实现,并且可以以任何合适的组合和位置来实现。本文中描述为由一个或多个组件执行的各种功能可以由硬件、固件和/或软件来执行。例如,各种功能可以由处理器执行存储在存储器中的指令来执行。

如所描述的,训练管理器202通常被配置为生成和训练样式破坏预测模型。训练管理器202可以包括内容收集器212、样式破坏注释器214、样式特征标识器216和模型生成器218。虽然被示出为训练管理器202的单独组件,但是可以使用任何数目的组件来执行本文中描述的功能。

内容收集器212被配置为收集或获取内容。特别地,内容收集器110收集训练内容。如所描述的,训练内容是指训练预测模型的内容,其通常是文本内容。训练内容并不排除目标内容,因为目标内容也可以用作训练内容。

可以以任何方式收集或获取内容。在一些情况下,训练内容由诸如作者或发布者等样式破坏预测引擎的用户提供。在这方面,一个作者或作者集合可以例如经由通过浏览器或应用可访问的网站来键入或输入内容。作为示例,作者可以经由连接到网络110的图1的用户设备104键入或选择内容。例如,作者可以从文档或网页中选择或提供内容。在一些情况下,收集的内容包括多作者内容。在其他情况下,内容排他地为多作者内容。

另外地或替代地,网络爬虫可以用于收集内容,诸如来自网站或网页的文章。在这方面,内容收集器212可以爬取或利用网络爬虫来爬取各种源以标识可以在训练样式破坏预测模型时使用的训练内容。这样的内容可以包括或仅包括多作者内容。所标识的内容可以存储在例如数据存储库(例如,图1的数据存储库108)中。

样式破坏注释器214被配置为收集与内容相关联的样式破坏注释。样式破坏注释器214可以与各种训练内容相关联地收集样式破坏注释。在一些情况下,人类注释者可以用于经由注释者设备(诸如图1的注释者设备102)来标记或注释训练内容。在这方面,注释者可以指示和/或评分给定内容或文档的所标识的样式破坏。例如,注释者可以将文档中的特定位置指示或标记为样式破坏。在这方面,注释者可以在句子之间或在句子内指示样式发生改变的地方。这种指示可以被注释或表示为指示样式变化的标签。注释或表示可以以任何数目的方式表示,诸如例如,经由一个字符位置或字符位置集合指示样式破坏位置。仅作为示例,假定注释者在内容中的第十字符之后标记第一样式破坏并且在内容中的第二十字符之后标记第二样式破坏。在这种情况下,可以生成包括与字符位置10相关联的第一标签和与字符位置20相关联的第二标签的样式破坏注释集合。作为另一示例,第一样式破坏注释可以指示字符1-10与第一样式相关联,并且第二样式破坏注释可以指示字符11-20与第二样式相关联。

可以理解,可以以任何数目的方式捕获样式破坏注释。在一些情况下,可以将样式破坏注释添加到原始内容以生成指示样式破坏的注释内容。在其他情况下,样式破坏注释可以与训练内容分开存储。例如,继续上述示例,与训练内容分开的文档可以将第一标签(例如,由第一数字表示)捕获为第一样式破坏并且将第二标签(例如,由第二数字表示)捕获为第二样式破坏。此外,如上所述,注释可以另外地或替代地指示与样式破坏确实是样式破坏的置信度相关联的得分或程度。例如,注释者可以使用诸如1到5的刻度等刻度来对每个标识的样式破坏进行评分。例如,得分“5”可以指示标识的特定样式破坏强烈地存在于内容中,而得分“1”可以指示样式破坏是可能的。由样式破坏注释器214获取或收集的样式破坏注释可以用作地面实况数据。

样式特征标识器216通常被配置为标识与内容相关联的样式特征。在这方面,在获取或引用诸如收集的训练内容等内容之后,可以分析内容以检测样式特征。例如,可以分析包括内容的网页或电子文档以检测与内容相关联的样式特征。在一些情况下,与内容片段(例如,句子)相关联地标识样式特征。为此,可以在内容中标识内容片段,并且此后,与内容片段相关联地标识(多个)样式特征。备选地,可以标识或确定与内容相关联的样式特征,并且此后,根据特定内容片段来对其进行解析。

样式特征是指与内容中的文本的样式相关联或指示内容中的文本的样式的任何特征或方面。样式特征可以由描述、表征或指示样式的一方面的单词或短语(关键字)表示。例如,样式特征可以是指与样式相对应的术语或短语。作为另一示例,样式特征可以由数值或指示样式特征的存在或不存在的其他值表示。作为又一示例,样式特征可以由特征的计数或频率表示。样式特征可以包括但不限于词汇特征和句法特征。可以理解,本文中可以使用指示文本样式的任何类型的特征。

词汇特征通常是指与词汇使用相关的特征集。在这方面,词汇特征与单词级别信息的词素有关。这样,在实施例中,词汇特征不考虑单词的上下文。示例性词汇特征包括平均单词长度、片段或句子长度、单词长度频率、可读性、非英语单词频率(例如,不在英语词典中的单词的频率)、单词复杂度(例如,honore索引、yule索引和形符比(tokenratio))、单词频率(例如,一次性罕用词(hapaxlegomena)、二次性罕用词(hapaxdislegomena))等。

平均单词长度特征是指诸如句子等内容片段中的每个单词的平均字符数目。片段或句子长度是指内容片段或句子中的字符数目。单词长度频率是指片段或句子中具有给定长度(例如,长度范围为1-15个字符)的单词数目。

可读性特征是指与诸如句子等内容片段相关联的可读性的度量或程度。因此,可读性可以基于文本中的单词、句子和/或音节的数量。可以用于标识可读性特征的一种方法使用flesh-kincaid可读性得分,其是指内容片段中的文本的可读性容易度或词汇级别,如下给出:

这样的等式是内容片段的单词中的音节数目相对于内容片段中的单词数目的函数。在这方面,假定句子包含具有很多音节的较少单词。在这种情况下,可读性得分较低。

非英语单词频率特征通常是指不在英语词典中的单词频率。在一个示例中,不在英语词典中的单词频率的单词频率特征是指不在英语词典中的内容片段(例如,句子)中的单词计数与在内容片段(例如,句子)中的单词总数的比率。以这种方式,针对片段中的单词总数,对句子中不存在于词典中的单词数目进行计数,并且非英语单词频率特征是这些数目之间的比率。可以理解,对于用非英语语言书写的文档,可以用对应的语言替换英语词典。

单词复杂度特征是指内容片段(例如,句子)中的单词的复杂度。在一个实施例中,使用honore索引来标识内容片段中的单词的复杂度。这样的索引计算内容片段中的单词的数目、内容片段中的最频繁单词的频率和内容片段中的独特单词的数目的函数。基于这三个因素作为输入,确定词汇的丰富度。这样,honore索引测量相同句子中非独特单词的利用,其是词汇丰富度的指示。honore索引r如下给出:

其中l是单词中的内容片段的长度,fmax是内容片段中的最频繁单词的频率,并且n是内容片段中的独特单词的数目。

作为另一示例,可以使用yule索引来标识内容片段中的单词的复杂度或词汇丰富度。这样的索引计算内容片段中的单词的数目和在内容中出现一定次数的单词的数目的函数。yule索引k可以表示为:

其中c=1,n是内容片段中的单词的数目,v(m,n)是文本中出现m次的单词的数目。

作为单词复杂度或词汇丰富度的又一示例,可以利用形符比。形符比可以是指内容片段(例如,句子)中的不同单词的数目与内容片段(例如,句子)中的单词的总数的比率。尽管honore索引、yule索引和形符比是分开描述的,但这些方法的任何组合可以用于标识内容片段中的单词的复杂度。

单词频率特征通常是指内容片段中的单词相对于内容的频率。例如,一次性罕用词和二次性罕用词可以用于表示单词频率特征。一次性罕用词是指在文档中的内容片段(诸如句子)中仅出现一次的单词的数目。类似地,二次性罕用词是指在文档中的句子中恰好出现两次的单词的数目。可以理解,可以使用指示在内容(文档)中的内容片段中出现任何特定次数(例如,3、4、5等)的单词的数目的这种特征。

句法特征通常是指与诸如句子等内容片段的结构相关的特征集。句法特征通常考虑句子中的单词的顺序。示例性句法特征包括功能词、标点计数、大写计数、posn元语法等。

功能词是指每个功能词的计数,其可以从字典或功能词集合中得到。功能词通常是指对句子的含义没有贡献的单词。例如,冠词和代词通常是对句子的含义没有贡献的单词。对于特定的功能词,可以标识特定单词在句子中出现的次数。在一些情况下,可以标识内容片段中的每个功能词的计数。在其他情况下,可以标识内容片段中的全部功能词的聚合计数。

标点计数是指每个标点的计数,其可以从字典或标点符号集合中得到。这样,可以参考标点符号列表或集合,并且对于每个标点符号,可以标识每个在内容片段中出现的次数。在一些情况下,可以标识内容片段中的每个标点符号的计数。在其他情况下,可以标识在内容片段中使用的全部标点符号的聚合计数。

大写计数是指内容片段中的大写字母的计数。大写计数可以是诸如名词等词性的指示。

posn元语法是指由词性(pos)标记形成的各种n元语法的计数。可以标识任何数目的n元语法的计数并且将其用作特征。在一些实施方案中,确定范围为1至4的n元语法的计数。为了获取posn元语法的计数,可以使用词性标记器。在这种情况下,可以将文本转换为标注(token)序列,例如,通过将文本传递通过标注器。可以使用词性(pos)标记器使用词性来标记每个标注。可以应用词性标记来将单词分类为词性并且相应地标记单词(例如,名词、专有名词、动词、形容词、代词、冠词等)。然后,可以使用词性标记来标识和计算posn元语法。

利用posn元语法使得能够分析文本而不管文本的主题如何。也就是说,posn元语法使得能够分析文本的句法结构,而不是文本中传达的话题。根据区分被并入在单个文档中的不同样式,posn元语法提供关于不同书写样式、而不是书写中涉及的不同话题的有价值的见解。

可以使用任何数目的方法来标识或收集样式特征。仅提供上述方法作为根据本发明的实施例可以采用的可能实现的示例。此外,可以理解,可以获取任何数目的样式特征。在一些情况下,可以选择被认为相关或超过阈值或相关性的数据,例如,诸如最有价值或最重要的特征。此外,获取样式数据可能随时发生。例如,在一些情况下,与内容相关联的样式数据可以在单个场合获取或者在由作者提供时更新。

模型生成器218通常被配置为生成或训练(多个)样式破坏预测模型。模型生成器218可以利用与内容相关联的所标识的样式特征和样式破坏注释来生成这样的样式破坏预测模型。为此,在获取样式特征和样式破坏注释之后,可以生成模型。

在一些情况下,为了生成样式破坏预测模型,可以使用所标识的特征来生成(多个)样式向量。可以将样式向量计算为如上所述的所标识的特征或所标识的特征的一部分的串联。在实施例中,为每个内容片段(诸如每个句子)生成样式向量。在一些情况下,可以在内容中标识内容片段(例如,句子),并且此后,使用如上所述的样式特征与句子相关联地生成样式向量。

在一些情况下,所有标识的样式特征可以用于生成特征向量或特征集。在其他情况下,可以选择样式特征以用于生成样式破坏预测模型。例如,可以基于预测的相关性或准确度来选择减少的样式特征集。以这种方式,可以应用降维以减少维数。在一个实现中,可以将形成的样式向量或向量集输入到主成分分析(pca)以减少维数。以这种方式,可以捕获样式特征的最大方差,同时减少维数。仅作为示例,数千个维度可以减少到200个维度。然后可以使用减小的特征向量训练模型。有利地,使用降维使得能够通过减少需要学习的权重的数目来减少对训练数据的需求。

除了生成样式向量之外,模型生成器218还可以生成指示样式破坏的向量输出。在这方面,模型生成器218可以使用样式破坏注释来生成向量输出。向量输出可以是任何数目的形式,包括例如二进制格式。仅作为示例,可以将0指派给内容片段,并且在识别出样式破坏(例如,经由样式破坏注释)时,可以将1指派给内容片段,直到识别出另一样式破坏。每次识别出样式破坏的情况下,向量输出可以在0和1之间切换。例如,假定内容包括五个句子。第一句子可以与0向量输出相关联。由于没有与第二句子相关联地标识样式破坏注释,所以第二句子可以与0向量输出相关联。现在假定与第三句子相关联地标识样式破坏注释。这样,第三句子可以与1向量输出相关联。由于没有与第四句子相关联地标识样式破坏注释,所以第四句子可以与1向量输出相关联。现在假定第五句子识别出样式破坏。在这种情况下,第五句子与0向量输出相关联。

样式向量和对应的向量输出可以用作训练数据来训练样式破坏预测模型。在实施例中,经由递归神经网络(rnn)来训练样式破坏预测模型,诸如长短期记忆(lstm)神经网络。可以存储经训练的样式破坏预测模型以用于随后的利用以预测样式破坏。尽管被描述为模型生成器218生成样式向量和对应的向量输出,但是可以理解,可以采用任何数目的组件来执行这样的功能。例如,样式向量和对应的向量输出可以经由样式特征标识器216确定并且作为输入提供给模型生成器218。

在一些情况下,在生成或训练样式破坏预测模型时,可以使用诸如样式向量和对应的向量输出等测试数据来评估模型。可以使用任何数目的度量来评估模型,诸如例如,windowdiff、winf、windowprecision和windowrecall。windowdiff可以如下计算:

其中k是用于评估的窗口大小,n是文档中的字符数目,ri,i+k是第i字符与第(i+k)字符之间的预测破坏数目,并且ci,i+k是第i字符与第(i+k)字符之间的实际破坏数目。

windowprecision、windowrecall和windowfscore从经修改的真阳性、真阴性、假阳性和假阴性值如下计算:

其中k是用于评估的窗口大小,n是文档中的字符数目,ri,i+k是第i字符与第(i+k)字符之间的预测破坏数目,并且ci,i+k是第i字符与第(i+k)字符之间的实际破坏数目。

如所描述的,样式破坏预测管理器204通常被配置为预测内容中的样式破坏。样式破坏预测管理器204可以包括内容获取器220、样式特征标识器222、样式破坏预测器224和样式建议器226。尽管被示出为样式破坏预测管理器204的单独组件,但是任何数目的组件可以用于执行本文中描述的功能。

内容获取器220被配置为获取用于样式破坏预测的内容,诸如目标内容。在这方面,获取了需要进行样式破坏的预测的内容。可以以任何方式收集或获取内容。在一些情况下,目标内容由诸如作者等样式破坏预测引擎的用户提供。在这方面,作者或发布者可以例如经由通过营销商设备104上的浏览器或应用可访问的网站来键入或输入内容。作为示例,营销商可以经由连接到网络110的图1的用户设备104键入或选择内容。例如,营销商可以例如从需要进行品牌个性预测的文档或网页中选择或复制内容。然后可以将内容粘贴或输入到与样式破坏预测相关联的网站或应用。

样式特征标识器222被配置为标识与诸如目标内容等内容相关联的样式特征。可以分析内容以获取内容特征。例如,样式特征标识器222可以用于标识目标内容中的样式特征,诸如词汇特征和句法特征。

可以以与上文中关于通常被描述为从训练内容标识样式特征的样式特征标识器216所描述的相同或相似的方式在目标内容中标识样式特征。因此,这里不再描述用于标识样式特征的各种方法。应当注意,尽管被描述为单独的组件,但是单个组件可以用于标识训练内容和目标内容两者的样式特征。出于解释的目的,这些组件仅在本文中单独示出。

样式破坏预测器224被配置为与内容相关联地预测样式破坏。为了预测与内容相关联的样式破坏,可以使用经训练的样式破坏预测模型。特别地,样式破坏预测器224可以利用与目标内容相关联地标识的样式特征和样式破坏预测模型来预测与内容相关联的(多个)样式破坏。在一些情况下,可以减少样式特征,例如,使用降维,如上所述。

在实施例中,提供与目标内容片段(诸如句子)相关联的样式特征(例如,以样式向量的形式)作为样式破坏预测模型的输入。然后,诸如长短期记忆模型等模型可以生成指示样式破坏的输出。在一些情况下,输出可以是二进制形式,表示为0或1。这样,对于作为输入提供的与内容片段相关联的每个样式向量,可以由模型输出0或1标签。lstm模型可以是有利的,因为它利用存储器,并且因此可以保留关于先前内容片段的信息(例如,样式的存储器),使得可以标识样式破坏。在一些实现中,样式破坏预测模型可以为具有相同样式的内容片段集合输出特定值,诸如0。当样式不同或被破坏时,样式破坏预测模型可以输出不同的值,诸如1。然后,输出值1可以继续,直到与新内容片段相关联的另一新样式向量指示不同的样式,此时可以再次输出0。尽管本文中描述的实施例一般地讨论了每次样式改变时在输出0和输出1之间的切换,但是可以利用任何数目的输出值。例如,每个新样式的第一片段可以用1标记,而所有其他片段或句子用0标记。

然后可以使用诸如0和1值等预测的输出向量来标识目标内容中的对应的样式破坏。仅作为示例,当输出值从0变为1时,可以在内容片段的开始处检测样式破坏。作为另一示例,与第一组相同值(例如,0)相关联的顺序内容片段可以被标识为与第一样式或作者相对应,并且与第二组相同值(例如,1)相关联的顺序内容片段可以被标识为与第二样式或作者相对应。

样式破坏预测可以以任何数目的方式表示。例如,样式破坏预测可以使用文本(例如,“样式破坏”的标识等)、数字(例如,样式破坏的可能性等)、符号(例如,在样式破坏位置处提供的符号或标点)、或强调(例如,与相同样式相关联的或用于指示样式破坏的内容片段的阴影、突出显示、颜色修改等)来表示。

样式破坏预测器224可以提供或输出样式破坏预测。在这方面,响应于接收到对样式破坏预测的请求,样式破坏预测器224可以例如向请求(多个)预测的用户设备提供一个或多个样式破坏预测。在一些情况下,可以与内容中的每个样式破坏相关联地提供样式破坏表示。此外,在一些实施例中,可以提供导致样式破坏的(多个)样式特征(例如,平均单词长度)的指示,例如,与样式破坏表示同时地。

样式建议器226可以提供修改与特定样式相关联的内容的推荐或建议。用于修改内容的建议或建议集可以基于指示样式破坏的(多个)特定样式特征。在一些情况下,可以自动提供修改建议,例如,与样式破坏预测表示一起。在其他情况下,可以基于用户请求来提供修改建议。作为一个示例,用户可以针对任何样式破坏或针对特定样式破坏请求样式建议。此外,在一些情况下,用户可以提供需要进行样式建议的程度的指示。

在一些情况下,可以向用户提供应当被应用以确保一致性的样式改变的类型的建议。例如,可以提供“减小句子长度”的建议。作为另一示例,可以建议应用特定样式改变的建议。例如,可以建议去除特定短语(例如,介词短语)以减小句子长度的推荐。在其他情况下,可以自动实现样式推荐以生成始终具有一致的样式的内容。

仅作为示例,并且参考图3和4,提供了用户界面,其中用户可以提供内容并且查看样式破坏预测和修改建议。如图3所示,可以向用户呈现各种竞争选项,诸如目标内容选项302-324。然后,用户可以输入或选择目标内容,诸如目标内容选项302。在实施例中,输入或选择目标内容的用户可以是与内容相关联的个人,诸如作者或发布者。在选择目标内容时,可以经由显示屏呈现目标内容430,如图4所示。现在假定用户选择查看“样式破坏”436。在这种情况下,可以修改目标内容430以提供预测的样式破坏的表示。例如,可以提供样式破坏的指示以反映与内容相关联的不同样式。如图4所示,第一内容部分432以第一颜色或阴影示出,以指示第一内容部分432被预测为以一种样式书写或准备。此外,第二内容部分434以第二颜色或阴影示出,以指示第二内容部分434被预测为以另一种样式书写或准备。用户(例如,发布者)可以利用这样的信息来理解反映不同样式的内容部分。此外,基于用户对“建议改变”438的选择,可以提供各种建议(未示出)来推荐或建议修改文本以提供一致的样式的(多种)方式。仅作为示例,可以提供各种建议来修改第二内容部分434以反映与第一内容部分432相同的样式,反之亦然。

现在转向图5,示出了根据本发明的实施例的示出预测样式破坏的示例性方法500的流程图。在实施例中,方法500由诸如图2的样式破坏预测引擎200等样式破坏预测引擎执行。最初,并且如框502所示,标识与训练内容相关联的样式特征。样式特征可以包括与文本内容的样式相关联或指示文本内容的样式的任何数目的特征。样式特征可以包括例如词汇特征和句法特征。在一些情况下,样式特征的维度可以降低。在框504处,获取与训练内容相关联的样式破坏注释。这样的样式破坏注释可以包括在内容中样式发生改变的指示(例如,由用户提供)。此后,在框506处,使用样式特征和样式破坏注释来生成或训练(多个)样式破坏预测模型。在一些实施例中,为了生成或训练样式破坏预测模型,诸如lstm模型,形成表示样式特征的样式向量并且将样式向量与样式破坏注释一起使用以生成与样式向量相关联的输出值。然后,可以使用与内容片段相关联的样式向量和对应的输出值来训练样式破坏预测模型。在框508处,获取目标内容。这样的目标内容可以由任何用户提供,诸如与目标内容相关联或相关的作者。在框510处,标识与目标内容相关联的样式特征。如框512所示,使用样式特征和(多个)样式破坏预测模型来预测目标内容中的样式破坏。

现在参考图6,流程图示出了根据本发明的实施例的用于生成样式破坏预测模型的方法600。最初,在框602处,收集训练内容。训练内容可以是可以用于训练样式破坏预测模型的任何类型的内容。在框604处,分析训练内容以标识与训练内容中的内容片段(例如,句子)相关联的样式特征。在框606处,使用对应的样式特征为每个内容片段形成样式向量。在一些实现中,样式向量的维度降低。在框608处,获取与训练内容相关联的样式破坏注释。如框610所示,使用样式破坏注释和样式向量来生成与每个内容片段相关联的输出值。例如,输出值可以是0或1,其在从一个值转换到另一值时指示样式破坏。如框612所示,使用(多个)样式向量和对应的(多个)输出值作为训练样本来训练样式破坏预测模型。

现在参考图7,流程图示出了根据本发明的实施例的用于预测多作者内容中的样式破坏的方法700。在框702处,获取目标内容。目标内容可以由用户提供。此后,在框704处,标识与目标内容相关联的样式特征。样式特征可以包括与文本内容的样式相关联或指示文本内容的样式的任何数目的特征。样式特征可以包括例如词汇特征和句法特征。在框706处,使用对应的样式特征为每个内容片段形成样式向量。如框708所示,使用样式向量以及样式破坏预测模型来预测目标内容中的样式破坏。在框710处,例如向请求样式破坏预测的用户提供预测的样式破坏。在框712处,标识修改与样式破坏相关联的内容片段的(多个)建议。例如,可以标识修改内容片段的长度的建议。在框714处,例如,向请求查看样式修改建议的用户提供(多个)建议。

已经描述了本发明的实施例,下面描述其中可以实现本发明的实施例的示例性操作环境,以便为本发明的各个方面提供一般上下文。首先特别地参考图8,示出了用于实现本发明的实施例的示例性操作环境,并且其一般地被指定为计算设备800。计算设备800仅是合适的计算环境的一个示例,并且不旨在对本发明的用途或功能的范围提出任何限制。计算设备800也不应当被解释为对所示组件中的任何一个或组合有任何依赖性或要求。

本发明可以在计算机代码或机器可用指令的一般上下文中描述,计算机代码或机器可用指令包括由计算机或其他机器(诸如个人数据助理或其他手持设备)执行的计算机可执行指令,诸如程序模块。通常,包括例程、程序、对象、组件、数据结构等的程序模块指代执行特定任务或实现特定抽象数据类型的代码。本发明可以在各种系统配置中实施,包括手持设备、消费电子产品、通用计算机、更专业的计算设备等。本发明还可以在分布式计算环境中实施,其中任务由通过通信网络链接的远程处理设备执行。

参考图8,计算设备800包括直接或间接耦合以下设备的总线810:存储器812、一个或多个处理器814、一个或多个呈现组件816、输入/输出(i/o)端口818、输入/输出组件820和说明性电源822。总线810表示可以是一个或多个总线(例如,地址总线、数据总线或其组合)的内容。尽管图8的各种框为了清楚起见而用线条示出,但是实际上,描绘各种组件并不是如此清楚,并且比喻地,线条将更准确地是灰色和模糊的。例如,可以将诸如显示设备等呈现组件视为i/o组件。此外,处理器具有存储器。发明人认识到,这是本领域的本质并且重申图8的图仅仅是可以结合本发明的一个或多个实施例来使用的示例性计算设备的说明。在诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等这样的类别之间没有进行区分,因为预期所有这些都在图8的范围内并且指代“计算设备”。

计算设备800通常包括各种计算机可读介质。计算机可读介质可以是可以由计算设备800访问的任何可用介质,并且包括易失性和非易失性介质以及可移除和不可移除介质。作为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字通用盘(dvd)或其他光盘存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储所需信息并且可以由计算设备800访问的任何其他介质。计算机存储介质不包括信号本身。通信介质通常以诸如载波或其他传输机制等调制数据信号来实施计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息传递介质。术语“调制数据信号”表示以能够在信号中对信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接有线连接等有线介质以及诸如声学、rf、红外和其他无线介质等无线介质。上述任何组合也应当被包括在计算机可读介质的范围内。

存储器812包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移除的、不可移除的或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备800包括从诸如存储器812或i/o组件820等各种实体读取数据的一个或多个处理器。(多个)呈现组件816向用户或其他设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等。

i/o端口818允许计算设备800在逻辑上耦合到包括i/o组件820的其他设备,其中一些组件可以内置。示例性组件包括麦克风、操纵杆、游戏手柄、卫星天线、扫描仪、打印机、无线设备等。i/o组件820可以提供处理由用户生成的空中手势、语音或其他生理输入的自然用户界面(nui)。在某些情况下,可以将输入传输到适当的网络元件用于进一步处理。nui可以实现与计算设备800的显示器相关联的语音识别、手写笔识别、面部识别、生物识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪和触摸识别(如下面更详细描述的)的任何组合。计算设备800可以配备有用于手势检测和识别的深度相机,诸如立体相机系统、红外相机系统、rgb相机系统、触摸屏技术及其组合。另外,计算设备800可以配备有能够检测运动的加速计或陀螺仪。加速计或陀螺仪的输出可以提供给计算设备800的显示器以呈现沉浸式增强现实或虚拟现实。

已经关于特定实施例描述了本发明,这些实施例在所有方面都旨在是说明性的而不是限制性的。在不脱离本发明的范围的情况下,替代实施例对于本发明所属领域的普通技术人员将变得很清楚。

从前述内容可以看出,本发明很好地适用于实现上述所有目的和目标、以及系统和方法明显且固有的其他优点。应当理解,某些特征和子组合是有用的,并且可以在不参考其他特征和子组合的情况下使用。这是预期的,并且在权利要求的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1