用于在线幻灯片组呈现的垃圾信息检测的制作方法

文档序号:11288731阅读:209来源:国知局
用于在线幻灯片组呈现的垃圾信息检测的制造方法与工艺

相关申请的交叉引用

本申请要求2014年11月19日提交且标题为“spamdetectionforonlineslidedeckpresentations”的美国专利申请号14/547,948和2014年8月29日提交且标题为“spamdetectionforonlineslidedeckpresentations”的美国专利申请号62/044,109的优先权的权益,所述美国专利申请的公开都被通过引用整体地结合于本文中。

本文中公开的主题一般地涉及用于检测在线幻灯片组(slidedeck)呈现中的垃圾信息(spam)、并且更特别地基于在线幻灯片组呈现的内容来确定其是否可能是垃圾信息。



背景技术:

电子呈现(例如,幻灯片组)可以包括用户发现有趣的信息。例如,电子呈现可以包括吸引用户的视听和/或文本内容。电子呈现可以从其他电子呈现的仓库可获得。例如,用户可以访问其中电子呈现被使得对用户可用的网站。使用用户图形接口,用户可以选择和观看通过图像用户接口而使得可用的电子呈现。

然而,当电子呈现可以由网站的其他用户提供时,恶意用户可能决定将电子呈现用作垃圾信息的媒介物,所述垃圾信息诸如主动提供的工作机会、营销方案、财富或财产的虚假承诺、对食用补充物的不实际的声称和其他这样的垃圾信息。对于恶意用户而言,电子呈现可能是垃圾信息的理想媒介物,由于恶意用户可以将垃圾信息埋藏在电子呈现的一个或多个幻灯片内,并且直到电子呈现的粗心观看者已经开始观看电子呈现时,该观看者才遇到垃圾信息。此外,电子呈现中的垃圾信息的存在劝阻用户使用网站,这导致损失声誉、观看者业务量和作为用于分享电子呈现的平台的可信性。

附图说明

在附图的各图中通过示例而非限制的方式图示出某些实施例。

图1是根据示例实施例的用于确定电子呈现是否包含垃圾信息的系统的框图。

图2是图示了被配置成交换消息的电子呈现服务器和社交联网服务器的根据示例实施例的布置的框图。

图3图示了根据示例实施例的图1中示出的电子呈现服务器。

图4图示了根据示例实施例的图1中示出的社交联网服务器。

图5图示了根据示例实施例的用于对电子呈现的单独的幻灯片进行分类和应用过滤器的示例方法。

图6图示了根据示例实施例的显示由电子呈现服务器主控的电子呈现的图形用户接口。

图7图示了根据示例实施例的用于确定电子呈现是否包含垃圾信息的方法。

图8a-8c图示了根据示例实施例的用于确定电子呈现是否包含垃圾信息的另一方法。

图9是图示了根据示例实施例的被配置成从机器可读介质读取指令的机器的组件的框图。

具体实施方式

示例方法和系统针对检测电子呈现中的垃圾信息和确定电子呈现是否应该被调节(moderate)。示例方法和系统可以采用一个或多个分类器以用于对电子呈现进行分类,并且如果电子呈现落在预定分类内,则可以针对垃圾信息的存在而进一步分析电子呈现。电子呈现的进一步分析可以包括调用一个或多个过滤器来确定电子呈现是否包括已知与垃圾信息相关联的单词和/或短语。在一个实施例中,将电子呈现作为整体进行分类。在另一实施例中,对电子呈现的每个幻灯片进行分类,并且根据幻灯片的检测到垃圾信息的数目或百分比来做出是否调节电子呈现的确定。示例方法和系统涉及各种技术,诸如自然语言处理、特征提取、机器学习和二元分离。此外,所公开的系统和方法具有减少在标识来自电子呈现的集合的哪些电子呈现包含垃圾信息中和在决定如何对待可能包含垃圾信息的那些电子呈现中花费的时间的技术效果。

除非另外明确地陈述,否则组件和功能是可选的并且可以被组合或细分,并且操作可以顺序地变化或者被组合或细分。在以下描述中,出于解释的目的,记载了众多特定细节以提供对示例实施例的透彻理解。然而,将对本领域技术人员明显的是,可以在没有这些特定细节的情况下实践本主题。

在一个实施例中,本公开提供了一种计算机实现方法,其包括接收电子呈现,电子呈现包括多个幻灯片,其中至少一个幻灯片包含用于供用户观看的内容;基于确定从所述多个幻灯片中选择的幻灯片包含内容而从所选幻灯片提取内容;基于从相应幻灯片提取的内容针对所述多个幻灯片中的每个幻灯片确定多个特征;基于针对相应幻灯片确定的特征向每个幻灯片指派分类,被指派的分类标识在相应幻灯片内包含的内容的类型;基于针对幻灯片确定的特征向每个幻灯片应用过滤器,所应用的过滤器标识幻灯片是否包含多个预定的字母数字字符;基于应用于幻灯片的过滤器和指派给幻灯片的分类,确定所述多个幻灯片中的每个幻灯片是否包含垃圾信息;基于相应幻灯片相对于电子呈现的所述多个幻灯片的位置来调整所述多个幻灯片中的每个幻灯片的垃圾信息确定;以及基于针对所述多个幻灯片中的每个幻灯片调整的垃圾信息确定来确定电子呈现是否是垃圾信息。

在计算机实现方法的另一实施例中,向每个幻灯片指派分类基于向每个幻灯片应用最大熵分类器。

在计算机实现方法的进一步实施例中,向每个幻灯片指派分类基于针对分类而训练的分类模式。

在计算机实现方法的又一实施例中,方法包括基于指派给相应幻灯片的分类而从多个过滤器选择应用于每个幻灯片的过滤器,其中所述多个过滤器中的第一过滤器与第一分类相关联,并且所述多个过滤器中的第二过滤器与第二分类相关联。

在计算机实现方法的又一实施例中,方法包括基于经调整的垃圾信息确定来修改电子呈现。

在计算机实现方法的另一实施例中,修改电子呈现包括移除电子呈现以免于可由应用于多个电子呈现的搜索查询发现。

在计算机实现方法的进一步实施例中,修改电子呈现包括基于针对所选幻灯片而调整的垃圾信息确定来移除从多个幻灯片中选择的幻灯片。

在计算机实现方法的又一实施例中,方法包括基于经修改的垃圾信息确定来标识电子呈现以用于调节。

本公开还提供了一种系统,所述系统包括:计算机可读介质的,所述计算机可读介质存储计算机可执行指令;一个或多个处理器,其与计算机可读介质通信,执行计算机可读指令,被配置成:接收电子呈现,电子呈现包含多个幻灯片,其中至少一个幻灯片包含用于供用户观看的内容;针对所述多个幻灯片中的每个幻灯片,针对相应幻灯片确定多个特征,所确定的特征基于从相应幻灯片提取的内容;基于针对相应幻灯片确定的特征而向所述多个幻灯片中的每个幻灯片指派至少一个分类;确定过滤器是否适宜于所述多个幻灯片中的每个幻灯片,过滤器标识给定幻灯片是否包括多个字母数字字符;针对所述多个幻灯片中的每个幻灯片确定垃圾信息值,垃圾信息值基于针对相应幻灯片指派的分类、过滤器是否适宜于相应幻灯片以及相应幻灯片相对于所述多个幻灯片的位置;以及针对电子呈现确定总垃圾信息值,总垃圾信息值基于针对所述多个幻灯片中的每个幻灯片确定的每个垃圾信息值。

在系统的另一实施例中,所述一个或多个处理器被进一步配置成基于向每个幻灯片应用最大熵分类器来向每个幻灯片指派分类。

在系统的进一步实施例中,所述一个或多个处理器被配置成基于针对分类而训练的分类模型来向每个幻灯片指派分类。

在系统的又一实施例中,所述一个或多个处理器被进一步配置成基于指派给相应幻灯片的分类而从多个过滤器选择应用于每个幻灯片的过滤器,其中所述多个过滤器中的第一过滤器与第一分类相关联,并且所述多个过滤器中的第二过滤器与第二分类相关联。

在系统的又一实施例中,所述一个或多个处理器被进一步配置成基于总垃圾信息值来修改电子呈现。

在系统的另一实施例中,所述一个或多个处理器被配置成通过移除电子呈现以免于可由应用于多个电子呈现的搜索查询发现来修改电子呈现。

在系统的进一步实施例中,所述一个或多个处理器被配置成通过基于针对从多个幻灯片中选择的幻灯片调整的垃圾信息确定而移除所选幻灯片来修改电子呈现。

在系统的又一实施例中,所述一个或多个处理器被进一步配置成基于总垃圾信息值来标识电子呈现以用于调节。

本公开进一步提供了一种计算机可读介质,其在其上存储计算机可执行指令,所述计算机可执行指令在被一个或多个处理器执行时使得所述一个或多个处理器执行方法,方法包括接收电子呈现,电子呈现包括多个幻灯片,其中至少一个幻灯片包含用于供用户观看的内容;基于确定从所述多个幻灯片中选择的幻灯片包含内容而从所选幻灯片提取内容;基于从相应幻灯片提取的内容针对所述多个幻灯片中的每个幻灯片确定多个特征;基于针对相应幻灯片确定的特征向每个幻灯片指派分类,被指派的分类标识在相应幻灯片内包含的内容的类型;基于针对幻灯片确定的特征向每个幻灯片应用过滤器,所应用的过滤器标识幻灯片是否包含多个预定的字母数字字符;基于应用于幻灯片的过滤器和指派给幻灯片的分类,确定所述多个幻灯片中的每个幻灯片是否包含垃圾信息;基于相应幻灯片相对于电子呈现的所述多个幻灯片的位置来调整所述多个幻灯片中的每个幻灯片的垃圾信息确定;以及基于针对所述多个幻灯片中的每个幻灯片调整的垃圾信息确定来确定电子呈现是否是垃圾信息。

在计算机可读介质的另一实施例中,向每个幻灯片指派分类基于向每个幻灯片应用最大熵分类器。

在计算机可读介质的进一步实施例中,方法进一步包括基于经调整的垃圾信息确定来修改电子呈现。

在计算机可读介质的又一实施例中,修改电子呈现包括移除电子呈现以免于可由应用于多个电子呈现的搜索查询发现。

图1是根据示例实施例的用于确定电子呈现是否包含垃圾信息的系统100的框图。在一个实施例中,系统100包括用户设备102、社交联网服务器104和电子呈现服务器116。特定类型的社交联网服务器可以称为商业网络服务器。用户设备102可以是个人计算机、上网本、电子笔记本或本领域中已知的被配置成显示web页面的任何电子设备。用户设备102可以包括通信地耦合到诸如因特网之类的广域网(“wan”)112的网络接口106。

社交联网服务器104可以被通信地耦合到网络112。服务器104可以是单独的服务器或服务器集群,并且可以被配置成执行与为社交网络服务相关的活动,诸如存储社交网络信息、根据脚本和软件应用来处理社交网络信息、将呈现社交网络信息的信息传输给社交网络的用户,以及从社交网络的用户接收信息。服务器104可以包括一个或多个电子数据存储设备110,诸如硬盘驱动器、光学驱动器、磁带驱动器或其他这样的非瞬时计算机可读介质,并且可以进一步包括一个或多个处理器108。

一个或多个处理器108可以是任何类型的商业上可获得的处理器,诸如可从英特尔公司、先进的微电子器件公司、德州仪器获得的处理器,或其他这样的处理器。此外,一个或多个处理器108可以具有处理器的任何组合,诸如布置成经由社交联网服务器104执行分布式计算的处理器。

社交联网服务器104可以将与社交网络的用户和/或成员相关的信息存储在电子数据存储设备110中,所述信息诸如以与社交网络的个体用户对应的用户特性的形式。例如,针对个体用户,用户的特性可以包括一个或多个简档数据点,其包括例如姓名、性别、职业、先前的工作历史或经验、教育成就、位置、公民身份、休闲活动、好恶等。用户的特性可以进一步包括在社交网络内的和不利用社交网络的行为或活动,以及用户的社交图。另外,用户和/或成员可以标识与组织(例如,公司、政府实体、非盈利组织等)的关联,并且社交联网服务器104可以被配置成根据关联的组织将用户简档和/或成员简档分组。

针对组织,关于组织的信息可以包括名称、提供的用于销售的产品、可用的工作公告、组织的利益、即将到来的活动等。针对特定的可用工作公告,工作公告可以包括工作简档,其包括一个或多个工作特性,诸如例如专长领域、先前的经验、工资等级、居民或移民身份等。

电子呈现服务器116可以被通信地耦合到网络112。电子呈现服务器116可以是单独的服务器或服务器集群,并且可以被配置成执行与向用户设备102提供一个或多个电子呈现相关相关的活动,诸如存储电子呈现、根据脚本和软件应用来处理电子呈现、将呈现电子呈现的信息传输给电子呈现服务器116的用户,以及经由用户设备102从用户接收电子呈现。呈现服务器116可以包括一个或多个电子数据存储设备120,诸如硬盘驱动器、光学驱动器、磁带驱动器或其他这样的非瞬时计算机可读介质,并且可以进一步包括一个或多个处理器108。

一个或多个处理器118可以是任何类型的商业上可获得的处理器,诸如可从英特尔公司、先进的微电子器件公司、德州仪器获得的处理器,或其他这样的处理器。此外,一个或多个处理器118可以具有处理器的任何组合,诸如被布置成经由电子呈现服务器116执行分布式计算的处理器。

电子呈现服务器116可以将与电子呈现服务器116的用户相关的信息和与电子呈现相关的信息存储在电子数据存储设备120中。关于电子呈现的信息可以包括电子呈现的内容、描述电子呈现的内容的元数据和/或其他主题信息、显示电子呈现的方式,以及其他这样的信息。与电子呈现服务器116的用户相关的信息可以包括行为信息,诸如用户已经选择给定电子呈现的次数、用户观看电子呈现的时间的量、用户观看的电子呈现的量、用户观看的电子呈现的类型,以及其他这样的行为信息。

此外,电子呈现服务器116可以经由网络114通信地耦合到社交联网服务器104,所述网络114可以是局域网(“lan”)、wan或lan和wan的组合。通过通信地耦合到社交联网服务器104,用户可以利用社交联网服务器104存储的简档来访问电子呈现服务器116。此外,具有关于社交联网服务器104的成员简档的用户可以向电子呈现服务器116提供电子呈现,并且然后可以经由用户的成员简档向所提供的电子呈现提供统一资源定位(“url”)。因此,观看成员简档的外部用户可以观看关于该用户的简档信息并且能够访问电子呈现。

另外,电子呈现服务器116可以结合社交联网服务器104操作以确定电子呈现中的任何是否包含垃圾信息。如下面讨论的那样,电子呈现服务器116可以向社交联网服务器104传送一个或多个类型的信息,并且继而,可以接收来自社交联网服务器104的垃圾信息确定。

为了支持其他和功能,电子呈现服务器116和社交联网服务器104可以包括消息传送引擎以发送消息和接收来自彼此的消息。在一个实例中,电子呈现服务器116可以是消息的产生者并且社交联网服务器104可以是那些消息的消费者。在另一实例中,社交联网服务器104可以是消息的产生者并且电子呈现服务器116可以是这样的消息的消费者。

图2是图示了被配置成交换消息的电子呈现服务器116和社交联网服务器104的根据示例实施例的布置200的框图。在一个实施例中,电子呈现服务器116可以包括消息传送引擎202,其被配置成向社交联网服务器104发送消息和从社交联网服务器104接收消息。类似地,社交联网服务器104可以包括消息传送引擎212,其被配置成向电子呈现服务器116发送消息和从电子呈现服务器116接收消息。尽管被示出容纳在电子呈现服务器116和社交联网服务器104内,但是消息传送引擎202和/或消息传送引擎212可以被容纳在不同物理结构内或跨多个服务器和/或计算机分布。在一个实施例中,消息传送引擎202和/或消息传送引擎212可以是apachekafka,其可以从apache软件基金会获得。

在一个实施例中,电子呈现服务器116经由消息传送引擎202将来自存储在电子数据贮存器120中的一个或多个电子呈现204的内容传送到社交联网服务器104。内容可以包括标识所述内容被提取自的电子呈现的标识信息。内容还可以包括指示所述内容被提取自的特定幻灯片的标识信息。

从电子呈现服务器116向社交联网服务器104传送数据可以基于各种条件而发生。例如,电子呈现服务器116可以以预定时间间隔(例如,每周、每日、每月等)传送电子呈现内容。在另一示例中,电子呈现116可以在社交联网服务器104的用户和/或成员访问电子呈现服务器116(例如,向电子呈现服务器116提供登录凭证)时与社交联网服务器104通信。

当社交联网服务器104接收呈现内容时,并且社交联网服务器104可以基于呈现内容而确定一个或多个电子呈现是否包含垃圾信息,并且如果这样,确定电子呈现服务器116应该如何对待相应的电子呈现。例如,社交联网服务器104可以向电子呈现服务器116指示电子呈现服务器116应该排除包含垃圾信息的电子呈现以免于可搜索(例如,没有被电子呈现服务器116索引使得在搜索期间未发现包含垃圾信息的电子呈现)。替代地或另外,包含垃圾信息的电子呈现仍可能可访问,但不可搜索。在另一示例中,多路复用可以向电子呈现服务器116指示应该从电子呈现204移除包含垃圾信息的电子呈现。更进一步地,社交联网服务器104可以向电子呈现服务器116提供指示电子呈现包含的垃圾信息的级别的垃圾信息得分,并且电子呈现服务器可以被配置成基于垃圾信息得分而采取动作(例如,从搜索排除、从电子呈现204移除等)。

在一个实施例中,社交联网服务器104可以从呈现内容提取呈现特征208并且将其存储在电子数据贮存器110中。社交联网服务器104可以基于所提取的特征来确定给定电子呈现的垃圾信息的量。一旦被确定,社交联网服务器104然后就可以经由消息传送引擎212将一个或多个垃圾信息确定206传送给电子呈现服务器116。电子呈现服务器116然后可以将垃圾信息确定206存储在电子数据贮存器120中。

图3图示了根据示例实施例的图1中示出的电子呈现服务器116。在一个实施例中,电子呈现服务器116可以包括一个或多个处理器118,一个或多个网络接口302、一个或多个应用304和存储在电子数据贮存器120中的由一个或多个应用304使用的数据306。

如相关计算机和因特网相关领域中的技术人员理解的那样,图3中示出的各种应用和/或引擎可以表示可执行软件指令的集合和用于执行指令的相应硬件(例如,存储器和处理器)。为了避免以不必要的细节使主题模糊,已经从图3省略了不与传达对发明的主题的理解密切相关的各种应用。然而,技术人员将容易地认识到,各种附加应用、引擎、模块等可以与电子呈现服务器116(诸如图3中图示的电子呈现服务器116)一起使用,以促进本文中未具体描述的附加功能。此外,图3中描绘的各种应用可以驻留在单个服务器计算机上,或者可以以各种布置跨若干服务器计算机分布。

电子呈现服务器116还可以包括数据306,其可以包括一个或多个数据库或支持应用304的功能的其他数据仓库。特别地,数据306可以包括电子呈现204和垃圾信息确定206。虽然被示出为容纳在与(一个或多个)应用304相同的箱中,但应该理解,数据306还可以被容纳在另一位置中或横跨位置(例如,在分布式计算环境中)。

电子呈现服务器116的可以由一个或多个用户接口应用310提供,其可以接收来自各种客户端计算设备的请求,并且可以向进行请求的客户端设备传送适当的响应。例如,(一个或多个)用户接口应用310可以接收以超文本传输协议(http)请求或者其他基于web的应用编程接口(api)请求的形式的请求。连同一个或多个用户接口应用310一起工作的应用服务器308可以利用存储在数据306中的从各种数据源检索的数据来生成各种用户接口(例如,web页面)。在一些实施例中,(一个或多个)单独的应用(例如,应用202、308-314)可以用来实现与系统100的各种服务和特征相关联的功能。例如,显示电子呈现或显示对电子呈现的推荐可以由呈现引擎312处理。作为另一示例,从电子呈现提取诸如图形、声音、文本和其他这样的内容之类的内容可以由内容提取引擎312处理。

在一个实施例中,内容提取引擎314可以从电子呈现提取内容,诸如来自标题、描述、抄本、作者身份、用来对电子呈现分类的一个或多个标签、关于电子呈现的评论的内容,以及其他这样的内容。内容提取引擎314可以采用对所提取的内容进行分类的一个或多个分类器。

电子呈现服务器116可以经由消息传送引擎202将信息中的一个或多个条目传送给社交联网服务器104。信息的这样的条目的示例包括但不限于从一个或多个电子呈现提取的内容、用户简档数据、电子呈现204(或其身份)以及其他这样的数据。

在一个实施例中,电子呈现服务器116从一个或多个电子呈现提取作者身份信息以用在确定电子呈现是否包含垃圾信息中。当作者身份指示特定的电子呈现由已知提供包含垃圾信息的电子呈现的作者做出的情况下,作者身份信息可以使给定电子呈现被表示为包含垃圾信息的可能性增加。另外,在给定电子呈现由在观看者的社交网络内的作者创作的情况下,作者在观看者的社交网络内的亲密程度可能影响给定电子呈现被标识为垃圾信息的可能性(例如,当该作者与用户连接时,可以推测用户不具有生成垃圾信息的关系)。例如,比起被连接到观看者的同事的(例如,具有与观看者的第二程度的关系的)作者做出的第二电子呈现,由被直接连接到观看者的(例如,是观看者的同事的)作者做出的第一电子呈现可能具有可允许的增加的可能性,即使所述第一电子呈现被标识为包含类垃圾信息的内容。

图4图示了根据示例实施例的社交联网服务器104。在一个实施例中,社交联网服务器104可以包括一个或多个处理器108,一个或多个网络接口402、一个或多个应用404和存储在电子数据贮存器110中的由一个或多个应用404使用的数据406。

如相关计算机和因特网相关领域中的技术人员理解的那样,图4中示出的各种应用和/或引擎可以表示可执行软件指令的集合和用于执行指令的相应硬件(例如,存储器和处理器)。为了避免以不必要的细节使主题模糊,已经从图4省略了不与传达对发明的主题的理解密切相关的各种应用。然而,技术人员将容易地认识到,各种附加应用、引擎、模块等可以与社交联网服务器104(诸如图4中图示的社交联网服务器104)一起使用,以促进本文中未具体描述的附加功能。此外,图4中描绘的各种应用可以驻留在单个服务器计算机上,或者可以以各种布置跨若干服务器计算机分布。

社交联网服务器104还可以包括数据406,其可以包括一个或多个数据库或支持应用404的功能的其他数据仓库。特别地,数据406可以包括用户简档数据、从电子呈现服务器116发送的电子呈现数据418、从电子呈现内容418提取的电子呈现特征208、用于基于其所提取的特征给给定电子呈现内容指派分类的分类模型420,以及在标识所提取的内容是否包含可以被表征为垃圾信息的单词、短语和/或字母数字字符中使用的一个或多个过滤器422。在社交联网服务器104已经基于分类模型420和/或过滤器制定(formulate)垃圾信息确定之后,社交联网服务器104可以经由消息传送引擎212将垃圾信息确定传送到电子呈现服务器116。

电子呈现服务器104的可以由一个或多个用户接口应用410提供,其可以接收来自各种客户端计算设备的请求,并且可以向进行请求的客户端设备传送适当的响应。例如,(一个或多个)用户接口应用410可以接收以超文本传输协议(http)请求或者其他基于web的应用编程接口(api)请求的形式的请求。连同一个或多个用户接口应用410一起工作的应用服务器408可以利用存储在数据406中的从各种数据源检索的数据来生成各种用户接口(例如,web页面)。在一些实施例中,(一个或多个)单独的应用(例如,应用212、408-416)可以用来实现与系统100的各种服务和特征相关联的功能。例如,从电子呈现内容提取一个或多个特征可以由特征提取引擎412处理。

在一个实施例中,特征提取引擎412通过对电子呈现内容418进行标识和分类而确定来自电子呈现内容418的电子呈现特征208。所确定的电子呈现特征208的示例包括(例如,经由分词器(tokenizer))从电子呈现内容418提取的令牌(token)、电子呈现的被检测到的语言(例如,英语、西班牙语、日语、德语等)、一个或多个指明的实体(例如,专有名词、名称、特定位置等)、与电子呈现相关联的一个或多个话题、与给定电子呈现相关联的一个或多个技能、一个或多个n元语法、各种样式特征(例如,字体、字型、背景、颜色、着重号(bullet)的使用、动画),以及给定电子呈现的质量。可以在计算尺(slidingscale)上来指示给定电子呈现的质量,其中质量可能与如下相关:电子呈现中的每个幻灯片如何构成(图形和文本的比例),在存在用在幻灯片和/或电子呈现中的公司名称的情况下(例如,该公司多么出名),到呈现作者的网站或用户简档的超链接,是否已经在给定阈值(例如,观看阈值)上观看电子呈现,一个或多个用户是否已经指示对电子呈现的优选(例如,“喜欢”电子呈现),以及其他这样的特征。

基于所确定特征,社交联网服务器104可以确定给定电子呈现的一个或多个分类。更进一步地,可以在每个幻灯片的基础上进行分类,使得电子呈现的每个幻灯片被指派分类。为此,社交联网服务器104可以包括分类引擎414和一个或多个分类模型420。分类引擎414可能是最大熵分类器,其中分类模型420中的每个被分类引擎414使用以确定电子呈现的给定幻灯片的分类。分类模型420可以包括用来确定幻灯片是否针对工作公告的工作公告模型、用来确定幻灯片是否针对促销(例如,广告)的促销模型,以及用来确定给定幻灯片是否针对事件或活动的事件分类模型。还可以使用其他分类模型或在前述分类模型上的变化。

使用分类引擎414,社交联网服务器104可以给电子呈现的给定幻灯片指派分类。指派给幻灯片的分类可以影响指派给幻灯片的垃圾信息得分。例如,在幻灯片被指派由分类模型420定义的分类中的一个或多个的情况下,指派给幻灯片的垃圾信息得分可能增加。替代地,幻灯片可能不被指派分类,在该情况下,幻灯片可能不与垃圾信息得分相关联或具有空的垃圾信息得分。

更进一步地,过滤器分类模型420中的每个可以与影响垃圾信息得分的不同值相关联。例如,工作公告分类模型可以被指派比事件分类模型(例如,0.2,0.4,0.6等)高的值(例如,1,2,4等)。此外,可以不同地应用所指派的分类的值。例如,与工作告示分类模型相关联的值可以是乘数,而与事件分类模型相关联的值可以是加数。以该方式,不同的分类模型可能不同地影响指派给给定幻灯片的垃圾信息得分。然而,如下面参考过滤器引擎416讨论的那样,电子呈现的幻灯片仍可以被指派垃圾信息得分,即使其未被指派分类。

社交联网服务器104还可以调用过滤器引擎416来确定给定幻灯片是否包含于垃圾信息相关联的单词或短语。为此,社交联网服务器104可以包括一个或多个过滤器422,其可以用来确定给定幻灯片是否包含垃圾信息或类垃圾信息的单词和/或短语。过滤器引擎416可以对所提取的内容418、所确定的特征208或其组合应用过滤器422中的一个或多个。

过滤器422可以被实现为正则表达式(regularexpression),并且过滤器422可以包括搜索单词和/或短语(例如,“现在购买”、“在家工作”等)的正则表达式、搜索统一资源定位(“url”)的正则表达式、搜索电子邮件地址的正则表达式、搜索电话号码的正则表达式,以及其他这样的过滤器或过滤器的组合。

过滤器引擎416可以被配置成使得基于分类将过滤器422的预定集合应用于给定幻灯片。因此,每个分类可以被指派过滤器的特定集合。例如,在幻灯片被指派“工作公告”分类的情况下,过滤器引擎416可以应用单词和短语过滤器以及url过滤器。作为另一示例,在幻灯片被指派“事件”分类的情况下,过滤器引擎416可以应用电话号码过滤器和url过滤器。替代地或另外,过滤器引擎416可以应用过滤器422,不管指派给给定幻灯片的分类如何或即使没有向给定幻灯片指派分类。

在过滤器引擎416确定给定幻灯片的内容和/或特征满足给定过滤器的情况下,指派给给定幻灯片的垃圾信息得分可能被影响。例如,每当幻灯片被确定满足给定过滤器时,指派给给定幻灯片的垃圾信息得分可能增加。更进一步地,过滤器422中的每个可以与影响垃圾信息得分的不同值相关联。例如,单词和短语过滤器可以被指派比url过滤器(例如,0.2,0.4,0.6等)高的值(例如,1,2,4等)。此外,可以不同地应用所应用的过滤器。例如,与单词和短语过滤器相关联的值可以是乘数,而与url过滤器相关联的值可以是加数。以该方式,不同的过滤器可以不同地影响指派给给定幻灯片的垃圾信息得分。

社交联网服务器104可以进一步包括向给定幻灯片指派垃圾信息得分的垃圾信息评分引擎418。垃圾信息得分可以基于多种因素,诸如指派给幻灯片的一个或多个分类的垃圾信息值、幻灯片是否满足了过滤器422中的一个或多个、幻灯片的作者身份、电子呈现内的幻灯片的相对位置、幻灯片是否是副本,以及其他这样的因素或因素的组合。

关于作者身份,在幻灯片由已知具有其他垃圾信息或类垃圾信息的电子呈现的作者做出的情况下,幻灯片评分引擎418可以给该幻灯片指派较高得分。相比之下,在幻灯片由显现为用使用户观看幻灯片的关系的作者做出的情况下,垃圾信息得分可能降低预定量(例如,百分比、数值等)。关于幻灯片的相对位置,指派给幻灯片的垃圾信息得分可能增加或将降低,取决于幻灯片出现在电子呈现内的何处。例如,在幻灯片作为第一或最后一个幻灯片出现的情况下,幻灯片评分引擎418可以使垃圾信息得分降低预定量。替代地,在幻灯片朝着电子呈现的中心出现的情况下,幻灯片评分引擎418可能使指派给幻灯片的垃圾信息得分增加或使其保持不变。更进一步地,电子呈现内的位置可以被指派一系列值(例如,以0开始,朝着中间增加、在中间之后降低,以0结束),并且可以基于该系列来影响指派给幻灯片的垃圾信息得分。在幻灯片被确定为是副本(例如,第一个幻灯片中的特征与第二个幻灯片的特征相同或接近相同)的情况下,指派给幻灯片的垃圾信息得分可能增加,由于很可能作者正在尝试通过具有副本幻灯片来增加垃圾信息内容的观看者的数目。以该方式,幻灯片评分引擎418是灵活机构,其基于一个或多个因素来指派或调整用于电子呈现的幻灯片的垃圾信息得分。

在已经确定单独的幻灯片得分的情况下,幻灯片评分引擎418可以基于指派给组成电子呈现的单独幻灯片的得分来确定给定电子呈现的总垃圾信息得分。社交联网服务器104然后可以将该总得分提供给电子呈现服务器116,用于诸如通过从索引服务省略该电子呈现或通过完全移除该电子呈现来采取关于该特定电子呈现的动作。替代地或另外,社交联网服务器104还可以像电子呈现服务器116提供单独幻灯片垃圾信息得分,使得电子呈现服务器116可以在给定幻灯片上进行动作。例如,电子呈现服务器116可以通过从电子呈现删除或移除具有(例如,在垃圾信息得分阈值处或上的)高垃圾信息得分的幻灯片来修改具有有着高垃圾信息得分的电子呈现。更进一步地,电子呈现可以被标记以用于调节,使得调节者回顾电子呈现和/或来自电子呈现的幻灯片以确定电子呈现和/或幻灯片是否应该对电子呈现服务器116的用户而言是可观看的和/或可搜索的。

图5图示了根据示例实施例的用于对电子呈现504的单独幻灯片506进行分类和应用过滤器的示例方法502。初始,电子呈现504可以被分解为单独幻灯片506。单独幻灯片506的内容可以被提取,并且所提取的内容的特征可以被确定。然后将内容和/或特征提供给分类引擎414。分类引擎414然后可以向所提取的内容和/或所确定的特征应用一个或多个分类模型508-512。指派给所提取的内容和/或所确定的特征的所得到的(一个或多个)分类可以与垃圾信息值相关联。

然后可以将所提取的内容和/或所确定的特征传递给过滤器引擎416,其可以向所提取的内容和/或所确定的特征应用一个或多个过滤器514-520。正如分类引擎414一样,过滤器514-520的使用可能导致一个或多个垃圾信息值与所提取的内容和/或所确定的特征相关联。例如,在过滤器514-520中的每个被满足时,所提取的内容和/或特征将被指派四个垃圾信息值。

然后可以将来自分类引擎414和过滤器引擎416的垃圾信息值传递给幻灯片评分引擎418。幻灯片评分引擎418然后可以基于所提供的垃圾信息值来确定给定幻灯片的垃圾信息得分。如先前讨论的那样,给定幻灯片的垃圾信息值可以进一步被其他因素影响,诸如幻灯片(或电子呈现)的作者,或幻灯片相对于其他幻灯片显现在电子呈现中的何处。

图6图示了根据示例实施例的显示由电子呈现服务器116主控的电子呈现602的图形用户接口。在一个实施例中,电子呈现602可以包括多个类型的内容,诸如图形内容606和文本内容604。电子呈现602还可以包括其他类型的内容,诸如声音、电影或其他视听内容。参考图3-4,内容提取引擎314可以配置成从电子呈现602提取图形内容606和文本内容604。例如,内容提取引擎314可以在文本内容604上执行光学字符识别并且在图形内容606上执行图像识别。一旦已经从电子呈现602提取了内容604,606,特征提取引擎412然后就可以从文本内容604和图形内容606提取特征。

图7图示了根据示例实施例的用于确定电子呈现是否包含垃圾信息的方法702。方法702可以由电子呈现服务器116和社交联网服务器104来实现,并且因此仅通过对其的引用来描述。方法702可以包括从电子呈现提取内容(操作704)。所提取的内容可以与一个或多个幻灯片相关联。所提取的内容然后可以被发送到社交联网服务器104(操作708)。社交联网服务器104然后可以基于所提取的内容来确定电子呈现是否包含垃圾信息(操作710)。社交联网服务器104然后可以将其确定的结果发送到电子呈现服务器116(操作712)。初始,电子呈现服务器116可以接收一个或多个电子呈现204(操作704)。例如,电子呈现服务器116可以从一个或多个用户设备102接收一个或多个电子呈现204。

图8a-8c图示了根据示例实施例的用于确定对电子呈现的推荐的方法802。方法802可以由电子呈现服务器116和社交联网服务器104来实现,并且因此仅通过对其的引用来描述。初始,电子呈现服务器116可以接收一个或多个电子呈现204(操作804)。例如,电子呈现服务器116可以从一个或多个用户设备102接收一个或多个电子呈现204。

电子呈现服务器116然后可以确定是否已经满足一个或多个条件(操作806)。如上面讨论的那样,条件可以是预定时间间隔的期满、用户登入或访问电子呈现服务器116,或条件的组合。

电子呈现服务器116然后可以从电子呈现中的一个或多个提取内容(操作808)。如上面讨论的那样,所提取的内容可以包括使用一个或多个图像识别技术提取的图形内容、使用一个或多个光学字符识别技术提取的文本内容、音频内容以及其他类型的内容。

所提取的内容然后可以被传送到社交联网服务器104(操作810)。使用一个或多个引擎,诸如特征提取引擎412,社交联网服务器104可以根据所提取的内容确定一个或多个特征(操作812)。如上面讨论的那样,特征可以包括(例如,经由分词器)来自电子呈现内容的令牌、电子呈现的被检测到的语言(例如,英语、西班牙语、日语、德语等)、一个或多个指明的实体(例如,专有名词、名称、特定位置等)、与电子呈现相关联的一个或多个话题、与给定电子呈现相关联的一个或多个技能、一个或多个n元语法、各种样式特征(例如,字体、字型、背景、颜色、着重号的使用、动画),以及给定电子呈现的质量。

在已经根据所提取的内容确定一个或多个特征的情况下,社交联网服务器104然后可以基于所确定的特征或所提取的内容来确定给定幻灯片的一个或多个分类(操作814)。可以基于指派给所确定的特征和/或所提取的内容的(一个或多个)分类来(共同地或单独地)向所确定特征和/或(共同地或单独地)向所提取的内容指派垃圾信息值。

然后可以关于指派给所提取的内容和/或所确定的特征的分类来做出确定(操作816)。例如,取决于指派给所提取的内容和/或所确定的特征的分类,可以将不同的过滤器应用于所提取的内容和/或所确定的特征(操作818)。在另一示例中,可以将所有过滤器应用于所提取的内容和/或所确定的特征,不管被指派的分类如何(操作818)。在又进一步示例中,当确定所提取的内容和/或所确定的特征尚未被指派垃圾信息分类时,不将过滤器应用于所提取的内容和/或所确定的特征。然后可以基于被指派的分类和所应用的过滤器将垃圾信息得分应用于给定幻灯片(操作820)。类似地,可以针对电子呈现基于指派给其组件幻灯片中的每个的垃圾信息得分来确定垃圾信息得分(操作822)。在电子呈现的垃圾信息得分超过移除阈值(操作824)时,可以标识电子呈现以用于从电子呈现服务器116移除(操作826)。替代地或另外,可以基于相同或不同的移除阈值来标识电子呈现的单独幻灯片以用于移除。

然后可以关于给定幻灯片和/或电子呈现的垃圾信息得分是否超过预定排除阈值来做出确定(操作828)。在指派给幻灯片和/或电子呈现的得分高于排除阈值的情况下,可以标识幻灯片和/或电子呈现以用于从(例如,同一电子呈现的)其他幻灯片或从(例如,电子呈现的集合的)其他电子呈现移除(操作830)。替代地,在指派给幻灯片和/或电子呈现的得分低于排除阈值的情况下,可以标记幻灯片和/或电子呈现以用于通过调节器进行调整(操作832)。幻灯片和/或电子呈现可能需要调节,因为可能幻灯片和/或电子呈现已经被标识为包含垃圾信息但潜在的垃圾信息与幻灯片和/或电子呈现的内容相关。

图9是图示了根据示例实施例的机器900的组件的框图,所述机器900被配置成从机器可读介质(例如,机器可读存储介质)读取指令并且执行在本文中讨论的方法中的任何一个或多个。具体地,图9示出以计算机系统的示例形式的机器900的图解表示,并且在其内可以执行用于使机器900实行在本文中讨论的方法中的任何一个或多个的指令924(例如,软件)。在替代的示例中,机器900作为独立的设备进行操作或者可以被连接(例如,被联网)到其他机器。在联网部署中,机器900可以以服务器-客户端网络环境中的服务器机器或客户端机器的身份或者作为对等(或分布式)网络环境中的对等机器进行操作。机器900可以是服务器计算机、客户端计算机、个人计算机(pc)、平板计算机、膝上型计算机、上网本、机顶盒(stb)、个人数字助理(pda)、蜂窝电话、智能电话、web器具、网络路由器、网络交换机、网桥或能够顺序地或以其他方式执行指定要由该机器采取的动作的指令924的任何机器。进一步地,虽然仅单个机器被图示,但是术语“机器”还将被理解成包括单独地或联合地执行指令924以实行在本文中讨论的方法中的任何一个或多个的机器的集合。

机器900包括处理器902(例如,中央处理器单元(cpu)、图形处理单元(gpu)、数字信号处理器(dsp)、专用集成电路(asic)、射频集成电路(rfic)或其任何适合的组合)、主存储器904和静态存储器906,其被配置成经由总线908与彼此通信。机器900可以进一步包括图形显示器910(例如,等离子体显示器面板(pdp)、发光二极管(led)显示器、液晶显示器(lcd)、投影仪或阴极射线管(crt))。机器900还可以包括字母数字输入设备912(例如,键盘)、光标控制设备914(例如,鼠标、触摸板、追踪球、操纵杆、运动传感器或其他定点仪器)、存储单元916、信号生成设备918(例如,扬声器)以及网络接口设备920。

存储单元916包括机器可读介质922,在其上存储了体现本文中描述的方法或功能中的任何一个或多个的指令924(例如,软件)。指令924在由机器900执行其期间还可以完全或至少部分地驻留在主存储器904内、在处理器902内(例如,在处理器的高速缓冲存储器内)或二者。因此,主存储器904和处理器902可以被视为机器可读介质。可以经由网络接口设备920通过网络926传输或接收指令924。

以该方式,访问由电子呈现服务器116主控的web站点的用户可以接收基于给定电子呈现而推荐的电子呈现。在所推荐的电子呈现对用户可用的情况下,用户较可能参与电子呈现web站点。此外,呈现给用户的电子呈现较可能与用户相关并且在必须找到可能对用户而言有趣的电子呈现中节省用户时间和努力。

如在本文中使用的那样,术语“存储器”指代能够临时地或永久地存储数据的机器可读介质,并且可以被理解成包括但不限于随机存取存储器(ram)、只读存储器(rom)、缓冲存储器、闪存和高速缓冲存储器。虽然机器可读介质722在示例中被示出是单个介质,但是术语“机器可读介质”应该被理解成包括能够存储指令的单个介质或多个介质(例如,集中式或分布式数据库或相关联的高速缓冲存储器和服务器)。术语“机器可读介质”还将被理解成包括任何介质或者多个介质的组合,其能够存储用于由机器(例如,机器900)执行的指令(例如,软件),使得指令在被机器的一个或多个处理器(例如,处理器902)执行时使机器实行在本文中描述的方法中的任何一个或多个。因此,“机器可读介质”指代单个存储装置或设备以及包括多个存储装置或设备的“基于云的”存储系统或存储网络。术语“机器可读介质”因此将被理解成包括但不限于以固态存储器、光学介质、磁介质或其任何适合的组合的形式的一个或多个数据仓库。机器可读介质还可以包括承载诸如信号(例如,电信号、光信号或电磁信号)之类的机器可读指令、承载计算机或通信网络上的代码的瞬态介质。

贯穿本说明书,复数实例可以将描述的组件、操作或结构实现为单个实例。尽管一个或多个方法中的单独操作被图示和描述为分离的操作,但是单独操作中的一个或多个可以被同时执行,并且没有什么要求以图示的顺序来执行操作。在示例配置中呈现为分离的组件的结构和功能可以被实现为组合的结构或组件。类似地,呈现为单个组件的结构和功能可以被实现为分离的组件。这些和其他变化、修改、添加和改进落在本文中的主题的范围内。

某些实施例在本文中被描述为包括逻辑或多个组件、模块或机构。模块可以构成软件模块(例如,体现在机器可读介质上或传输信号中的代码)或硬件模块。“硬件模块”是能够执行某些操作的有形单元并且可以被以某物理方式配置或布置。在各种示例实施例中,可以通过软件(例如,应用或应用部分)将一个或多个计算机系统(例如,独立的计算机系统、客户端计算机系统或服务器计算机系统)或者计算机系统的一个或多个硬件模块(例如,处理器或处理器组)配置为操作以执行如在本文中描述的某些操作的硬件模块。

在一些实施例中,可以机械地、电子地或其任何适合的组合来实现硬件模块。例如,硬件模块可以包括被永久地配置成执行某些操作的专用电路或逻辑。例如,硬件模块可以是专用处理器,诸如现场可编程门阵列(fpga)或asic。硬件模块还可以包括被通过软件临时配置成执行某些操作的可编程逻辑或电路。例如,硬件模块可以包括被包括在通用处理器或其他可编程处理器内的软件。将领会到,可以通过成本和时间考虑来驱动在专用且被永久配置的电路中或者在被临时配置(例如,被通过软件配置)的电路中机械地实现硬件模块的决定。

因此,短语“硬件模块”应该被理解成包括有形的实体,所述实体是被物理上构造、被永久地配置(例如,被硬接线)或者被临时地配置(例如,被编程)来以某方式操作或者来执行在本文中描述的某些操作的实体。如在本文中使用的那样,“硬件实现模块”指代硬件模块。考虑其中硬件模块被临时地配置(例如,被编程)的实施例,硬件模块中的每个在时间中的任一个实例处不需要被配置或例示。例如,在硬件模块包括被通过软件配置成变成专用处理器的通用处理器的情况下,可以在不同时间将该通用处理器配置为相应地不同的专用处理器(例如,包括不同的硬件模块)。软件可以因此例如在时间的一个实例处将处理器配置成构成特定硬件模块并且在时间的不同实例处将一个或多个处理器配置成构成不同的硬件模块。

硬件模块可以将信息提供到其他硬件模块和从其他硬件模块接收信息。因此,可以认为描述的硬件模块被通信地耦合。在多个硬件模块同时存在的情况下,可以通过在硬件模块中的两个或更多个间或之间的(例如,在适当的电路和总线上的)信号传输来实现通信。在其中多个硬件模块被在不同时间配置或例示的实施例中,可以例如通过在多个硬件模块能够访问的存储器结构中对信息的存储和检索来实现这样的硬件模块之间的通信。例如,一个硬件模块可以执行操作并且将该操作的输出存储在所述硬件模块被通信地耦合到的存储器设备中。进一步的硬件模块然后可以在稍后的时间处访问存储器设备以检索和处理所存储的输出。硬件模块还可以发起与输入或输出设备的通信,并且可以对资源(例如,信息的集合)进行操作。

在本文中描述的示例方法的各种操作可以至少部分由被(例如,通过软件)临时配置或者被永久配置成执行相关操作的一个或多个处理器来执行。无论是被临时地还是永久地配置,这样的处理器可以构成操作以执行在本文中描述的一个或多个操作或功能的处理器实现模块。如在本文中实现使用的那样,“处理器实现模块”指代使用一个或多个处理器实现的硬件模块。

类似地,在本文中描述的方法可以至少部分地被处理器实现,处理器是硬件的示例。例如,方法的操作中的至少一些可以由一个或多个处理器或处理器实现模块执行。此外,一个或多个处理器还可以操作以支持“云计算”环境中的相关操作的执行,或者作为“软件即服务”(saas)。例如,操作中的至少一些可以由(作为包括处理器的机器的示例的)计算机的组来执行,其中这些操作经由网络(例如,因特网)并且经由一个或多个适当的接口(例如,应用程序接口(api))可访问。

某些操作的执行可以分布在不仅驻留在单个机器内而且被跨多个机器部署的一个或多个处理器之间。在一些示例实施例中,一个或多个处理器或处理器实现模块可以位于单个地理位置中(例如,在家庭环境、办公环境或服务器机群内)。在其他示例实施例中,一个或多个处理器或处理器实现模块可以跨多个地理位置分布。

在操作的算法或符号表示方面将本说明书中的一些部分呈现在被存储为机器存储器(例如,计算机存储器)内的位或二进制数字信号的数据上。这些算法或符号表示是由数据处理领域中的那些普通技术人员使用以将他们的工作的主旨传达给本领域中的其他技术人员的技术的示例。如在本文中使用的那样,“算法”是引起期望的结果的操作或类似处理的自洽序列。在此上下文中,算法和操作涉及对物理量的物理操纵。典型地,但是不必要地,这样的量可以采取能够被机器存储、访问、传输、组合、比较或以其他方式操纵的电、磁或光学信号的形式。原则上出于通常使用的原因,使用诸如“数据”、“内容”、“位”、“值”、“元素”、“符号”、“字符”、“项”、“号码”、“数字”等的词来指代这样的信号有时是方便的。然而,这些词仅是方便的标签并且将与适当的物理量相关联。

除非另外具体地陈述,在本文中使用诸如“处理”、“计算”、“估计”、“确定”、“呈现”、“显示”等的词的讨论可以指代机器(例如,计算机)的动作或过程,所述机器操纵或变换被表示为在一个或多个存储器(例如,易失性存储器、非易失性存储器或其任何适合的组合),寄存器或接收、存储、传输或显示信息的其他机器组件内的物理(例如,电子的、磁的或光学的)量的数据。此外,除非另外具体地陈述,否则如在专利文档中常见的那样,在本文中使用术语“一”或“一个”以包括一个或多于一个实例。最后,如在本文中使用的那样,连词“或”指代非排他性的“或”,除非另外具体地陈述。

工业应用

所公开的发明具有宽范围的工业应用,包括但不限于光学字符识别、自然语言处理、图像识别和电子图形用户接口。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1