一种用户生成内容UGC重复次数确定方法及装置与流程

文档序号：16754971发布日期：2019-01-29 17:16阅读：241来源：国知局

本说明书涉及计算机软件
技术领域：
，尤其涉及一种用户生成内容ugc重复次数确定方法及装置。
背景技术：
：目前，用户通常会在互联网平台发布用户生成内容(usergeneratedcontent，ugc)，以此表达自己的观点。而在实际应用中，用户发布的ugc有可能违反互联网平台的发布规定，如，用户在互联网平台的评论区频繁发布广告，这样会扰乱互联网平台的秩序，破坏互联网平台的环境，给互联网平台内的其他用户造成不良体验，严重的会影响国家安全，因此，为了保证用户当前所发布的ugc符合互联网平台的发布规定，需要对用户当前所发布的ugc进行风险检测，做到必要的安全防控。进一步的，由于用户发布违规的ugc的目的通常都是为了能够传播这些违规的ugc，因此，用户会频繁重复的发送内容相关联的ugc，以用于对外传播。综上所述，可以通过确定用户当前所发布的ugc在过去被重复发布的次数，从而确定出用户当前所发布的ugc是否违反了互联网平台的发布规定。基于此，需要提供一种更有效的确定ugc重复次数的方法。技术实现要素：本说明书实施例提供一种用户生成内容ugc重复次数确定方法及装置，用以解决如下技术问题：为了保证用户当前所发布的ugc符合互联网平台的发布规定，需要提供一种更有效的确定ugc重复次数的方法。为解决上述技术问题，本说明书实施例是这样实现的：本说明书实施例提供的一种用户生成内容ugc重复次数确定方法，包括：接收用户所输入的第一ugc；根据所述第一ugc的属性从存储ugc的数据库中获取与第一ugc属性相匹配的第二ugc组；根据第一ugc的文本内容在所述用户的第二ugc组内确定满足预定条件的第二ugc元素；根据确定出的满足预定条件的第二ugc元素的数量，确定所述第一ugc的重复次数。本说明书实施例提供的一种用户生成内容ugc重复次数确定装置，包括：接收模块，用于接收用户所输入的第一ugc；获取模块，用于根据所述第一ugc的属性从存储ugc的数据库中获取与第一ugc属性相匹配的第二ugc组；确定模块，用于根据第一ugc的文本内容在所述用户的第二ugc组内确定满足预定条件的第二ugc元素；还用于根据确定出的满足预定条件的第二ugc元素的数量，确定所述第一ugc的重复次数。本说明书实施例提供的一种用户生成内容ugc重复次数确定设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：接收用户所输入的第一ugc；根据所述第一ugc的属性从存储ugc的数据库中获取与第一ugc属性相匹配的第二ugc组；根据第一ugc的文本内容在所述用户的第二ugc组内确定满足预定条件的第二ugc元素；根据确定出的满足预定条件的第二ugc元素的数量，确定所述第一ugc的重复次数。本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：根据第一ugc的文本内容，在用户历史所输入的第二ugc组内确定出满足预定条件的第二ugc元素的数量，从而有效的确定出第一ugc的重复次数。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图1为本说明书实施例提供的一种用户生成内容ugc重复次数确定方法的流程示意图；图2为本说明书实施例提供的一种确定满足预定条件的第二ugc元素的实施方式；图3为本说明书实施例提供的另一种确定满足预定条件的第二ugc元素的实施方式；图4为本说明书实施例提供的一种根据用户所输入的第一ugc进行安全防控的实施方式以及装置；图5为本说明书实施例提供的对应于图1的一种用户生成内容ugc重复次数确定装置的结构示意图。具体实施方式为了使本
技术领域：
的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。在实际应用中，为了保证用户当前所要发布的ugc符合互联网平台的发布规定，需要对用户当前所要发布的ugc进行风险检测，做到必要的安全防控。进一步的，由于用户发布违规的ugc的目的通常都是为了能够传播这些违规的ugc，因此，用户会频繁重复的发送内容相关联的ugc，以用于对外传播。基于此，在本说明书实施例中，可以通过确定用户当前所要发布的ugc在过去被重复发布的次数，也即，确定用户当前所要发布的ugc的重复次数，从而确定出用户当前所要发布的ugc是否违反了互联网平台的发布规定。进一步的，本说明书实施例可执行如图1所示的流程来确定用户当前所要发布的ugc的重复次数。图1为本说明书实施例提供的一种用户生成内容ugc重复次数确定的流程示意图，从程序角度而言，流程的执行主体可以为搭载于用户所使用的终端的应用客户端，比如，商品租赁应用的客户端、支付应用的客户端、即时通信应用的客户端等。终端比如是手机、平板电脑、智能手表、或者车机等。另外，也可以有第三方应用客户端协助流程的执行。图1中的流程可以包括以下步骤：s101：接收用户所输入的第一ugc。在本说明书实施例中，由于需要确定用户当前所要发布的ugc的重复次数，因此，需要知道用户当前所输入的ugc。在此需要说明的是，由于本说明书实施例在执行图1所示的流程中，针对同一用户，需要在步骤s101中使用该用户当前所输入的ugc，也需要在步骤s102中使用该用户在过去已发布的ugc，因此，为了更好的区分用户当前所输入的ugc以及用户在过去已发布的ugc，在本说明书实施例中，在以下的
发明内容中，将用户当前所输入的ugc定义为第一ugc，将用户在过去已发布的ugc定义为第二ugc。在此还需要说明的是，在本说明书实施例中，需要知道用户当前所输入的ugc也就是接收用户输入的第一ugc。例如，假设用户a当前在某文章的评论区输入想要发布的评论“代开发票，需要请私聊”(即，第一ugc)，服务器获取用户a所输入的第一ugc“代开发票，需要请私聊”。s102：根据所述第一ugc的属性从存储ugc的数据库中获取与第一ugc属性相匹配的第二ugc组。由于需要确定用户当前所要发布的ugc的重复次数，因此，在本说明书实施例中，不仅需要知道用户当前所输入的ugc，还需要知道用户在过去已发布的ugc，即，第二ugc。在此需要说明的是，在实际应用中，由于有可能存在为了能够传播违规的ugc，不同的用户均频繁重复对外发布内容相关联的ugc的情况，因此，在本说明书实施例中，需要获取所有用户在过去已发布的ugc，即，第二ugc，也就是说，不仅仅获取当前输入第一ugc的用户在过去已发布的ugc，还需要获取其他用户在过去已发布的ugc。进一步的，在本说明书实施例中，想要知道所有用户在过去已发布的ugc，可以根据用户所输入的第一ugc的属性，从存储ugc的数据库中获取与第一ugc属性相匹配的第二ugc组。在此需要说明的是，第二ugc组内包括了一个或多个第二ugc元素，另外，由于根据用户所输入的第一ugc的属性，从存储ugc的数据库中获取与第一ugc属性相匹配的第二ugc组，因此，在本说明书实施例中，在步骤s101所接收到的用户所输入的第一ugc是携带有属性的。在实际应用中，为了减少与第一ugc进行匹配的第二ugc的数量，从而降低匹配第一ugc与第二ugc的计算量，因此，在本说明书实施例，第一ugc的属性可以包括用户标识，可根据第一ugc的用户标识从存储ugc的数据库中获取与所述第一ugc的用户标识相匹配的第二ugc组。延续上例，假设用户a当前在某文章的评论区输入想要发布的评论“代开发票，需要请私聊”(即，第一ugc)，服务器获取用户a所输入的第一ugc“代开发票，需要请私聊”，其中，第一ugc的属性为：用户a标识“a1”。根据第一ugc的用户a标识“a1”，从存储ugc的数据库中获取与第一ugc的用户标识“a1”相匹配的第二ugc组，如表1所示：第二ugc组代开发票，需要请私聊帮开发票，需要请私聊这家饭店经济实惠代开发票，需要请联系我发票是报税的凭证世界杯很精彩北京都有哪些好玩的地方中国美食种类很丰富表1进一步的，在实际应用中，发布违规的ugc的用户为了达到更好的传播效果，通常会访问不同场景下的信息，并根据不同的场景发布不同的ugc，如，在访问美食场景下的信息时在评论区频繁发布“代开发票，需要请私聊”，在访问股票场景下的信息时在评论区频繁发布“股票操盘，需要请私聊”。因此，为了进一步减少与第一ugc进行匹配的第二ugc的数量，从而降低匹配第一ugc与第二ugc的计算量，在本说明书实施例中，用户输入的第一ugc的属性还包括：第一ugc所属的场景。在此需要说明的是，在本说明书实施例中，访问的场景可以根据实际需求进行划分，如，根据用户访问的业务种类划分成不同的业务场景，或根据用户访问的功能种类划分成不同的功能场景等。另外，场景是预先划分并存储的。基于属性还包括的第一ugc所属的场景，本说明书实施例在根据第一ugc的用户标识从存储ugc的数据库中获取与第一ugc的用户标识相匹配的第二ugc组的过程中，可以根据第一ugc的用户标识以及第一ugc所属的场景，从存储ugc的数据库中获取第一ugc所属的场景下的与第一ugc的用户标识相匹配的第二ugc组。延续上例，假设服务器还获取用户访问的场景“外卖”，根据第一ugc的用户标识“a1”以及第一ugc所属的场景“外卖”，从存储ugc的数据库中获取第一ugc所属的场景“外卖”下的与第一ugc的用户标识“a1”相匹配的第二ugc组，如表2所示：第二ugc组代开发票，需要请私聊帮开发票，需要请私聊这家饭店经济实惠代开发票，需要请联系我发票是报税的凭证中国美食种类很丰富表2为了进一步减少与第一ugc进行匹配的第二ugc的数量，从而降低匹配第一ugc与第二ugc的计算量，在本说明书实施例中，可根据第一ugc所属的场景，获取所述第一ugc所属的场景对应的配置参数，并根据配置参数对根据第一ugc的属性确定的第二ugc组进行修正，也即，配置参数作为对根据第一ugc的属性确定的第二ugc组进行修正的依据。在此需要说明的是，配置参数是预先根据每个所划分的场景设定的，也就是说，想要设定哪些配置参数，以及将配置参数的数值设置成多少都是预先根据场景进行设定的。进一步的，本说明书实施例给出了根据配置参数对根据第一ugc的属性确定的第二ugc组进行修正的两种实施方式，如下：第一种实施方式：根据第一ugc所属的场景，获取第一ugc所属的场景对应的配置参数包括时间间隔，并根据第一ugc的用户标识、第一ugc所属的场景以及时间间隔，从存储ugc的数据库中获取第一ugc所属的场景下的时间间隔的与所述第一ugc的用户标识相匹配的第二ugc组。延续上例，假设根据场景“外卖”设置配置参数包括：时间间隔“一小时”；服务器根据场景“外卖”，获取场景“外卖”对应的配置参数：时间间隔“一小时”，根据第一ugc的用户标识“a1”、第一ugc所属的场景“外卖”以及时间间隔“一小时”，从存储ugc的数据库中获取第一ugc所属的场景“外卖”下的时间间隔“一小时”的与所述第一ugc的用户标识“a1”相匹配的第二ugc组，如表3所示：第二ugc组代开发票，需要请私聊帮开发票，需要请私聊这家饭店经济实惠代开发票，需要请联系我发票是报税的凭证表3第二种实施方式：可以增加筛选阈值这一配置参数，即，根据第一ugc所属的场景，获取第一ugc所属的场景对应的配置参数包括筛选阈值，后续，在根据所述第一ugc的用户标识以及所述第一ugc所属的场景，从存储ugc的数据库中获取所述第一ugc所属的场景下的与所述第一ugc的用户标识相匹配的第二ugc组之后，根据所述筛选阈值，在获取到的与第一ugc的用户标识相匹配的第二ugc组内选取部分第二ugc组。延续上例，假设根据第一ugc所属的场景“外卖”设置配置参数包括：筛选阈值“4”；服务器根据表3，在获取到的与第一ugc的用户标识“a1”相匹配的第二ugc组内选取部分第二ugc组，如表4所示：第二ugc组代开发票，需要请私聊帮开发票，需要请私聊这家饭店经济实惠代开发票，需要请联系我表4在此需要说明的是，在本说明书实施例中，也可以将在第一种实施方式的基础之上结合第二种实施方式，也就是在根据所述第一ugc的用户标识以及所述第一ugc所属的场景，从存储ugc的数据库中获取所述第一ugc所属的场景下的与所述第一ugc的用户标识相匹配的第二ugc组之后，根据所述筛选阈值，在获取到的与所述第一ugc的用户标识相匹配的第二ugc组内选取部分第二ugc组。在此还需要说明的是，根据筛选阈值，在用户的第二ugc组内选取部分第二ugc组，可以是从第二ugc组内任意选取筛选阈值个第二ugc元素，也可以按第二ugc组内第二ugc元素的排序顺序选取筛选阈值个第二ugc元素。在本说明书实施例中，数据库可以使用hbase数据库，当然，也可以使用其他数据库存储用户的ugc，只要能够存储用户的ugc即可，并且，为了快速的在hbase数据库内查询出第二ugc组，可以通过scan的查询方式查询出第二ugc组。另外，通过scan的查询方式进行查询需要设计rowkey，在本说明书实施例中，rowkey设计为：用户的标识，也可以设计为：用户的标识+场景，还可以设计为：用户的标识+场景+时间间隔，当然，也可以根据实际情况对rowkey所包含的关键词进行增减，如，可以将rowkey设计为用户的标识+场景+时间间隔+内容类型，其中，内容类型指的是第二ugc元素的数据类型，如，视频，音频，文本等。在此需要说明的是，在本说明书实施例中，将rowkey设计为：用户的标识+场景+时间间隔时，需要设计startrowkey和endrowkey，其中，startrowkey设计为：用户的标识+场景+当前时刻，endrowkey设计为：用户的标识+场景+(当前时刻-时间间隔)。s103：根据第一ugc的文本内容在所述用户的第二ugc组内确定满足预定条件的第二ugc元素。在本说明书实施例中，在获取到与第一ugc属性相匹配的第二ugc组后，需要确定第二ugc组内哪些第二ugc元素是满足预设条件的。在此需要说明的是，预设条件描述了什么样的第二ugc元素是和所输入的第一ugc是重复的，可以根据实际需求来设定，如，动词是相同的词时，则认为第二ugc元素和所输入的第一ugc是重复的，又如，动词是预设的敏感词时，则认为第二ugc元素和所输入的第一ugc是重复的。另外，由于用户会频繁重复的发布内容相关联的ugc以达到传播的目的，也就是说，所发布的ugc在内容是相同或相近的，因此，在本说明书实施例中，可通过相似度算法，根据第一ugc的文本内容在用户的第二ugc组内确定满足预定条件的第二ugc元素。为此，本说明书实施例给出了两种通过相似度算法，根据第一ugc的文本内容在用户的第二ugc组内确定满足预定条件的第二ugc元素的实施方式。如图2所示的第一种实施方式：s201：根据第二ugc组中的第二ugc元素的文本内容以及第一ugc的文本内容，分别确定所述用户的第二ugc组内的第二ugc元素与所述第一ugc的哈希值。s202：根据所述第二ugc元素的哈希值与所述第一ugc的哈希值，确定所述第二ugc元素与所述第一ugc是否相似。在此需要说明的是，由于哈希值代表了唯一性，也就是说，不同ugc所产生的哈希值是不同的，因此，在本说明书实施例中，当第二ugc元素的哈希值与第一ugc的哈希值相等时，则确定第二ugc元素与第一ugc相似，当第二ugc元素的哈希值与第一ugc的哈希值不相等时，则确定第二ugc元素与第一ugc不相似。s203：将与所述第一ugc相似的第二ugc元素作为满足预定条件的第二ugc元素。在实际应用中，由于语言的变种特别的多和复杂，用户为了避免所发布的违规的ugc被识别并拦截，通常会将ugc的字符用其他表示同一个意思的字符代替，因此，为了提高识别并拦截ugc的准确率，本说明书实施例提供了如图3所示的第二种实施方式：s301：根据第二ugc组中的第二ugc元素的文本内容以及第一ugc的文本内容，确定所述第二ugc组中的第二ugc元素与所述第一ugc之间的最长公共子序列。s302：确定所述第二ugc元素与所述第一ugc中的长度最短的ugc。s303：确定所述最长公共子序列与所述长度最短的ugc的比值。s304：根据所述比值以及预设的第一阈值，确定所述第二ugc元素与所述第一ugc是否相似。在此需要说明的是，在本说明书实施例中，第一阈值可以是包括在配置参数内，需预先根据每个场景进行设定。另外，经过实际的数据分析和应用得出，针对不同长度的ugc分别设定不同的第一阈值，可以提高确定第二ugc元素与第一ugc是否相似的准确率，因此，在本说明书实施例中，可针对不同长度的ugc分别设定不同的第一阈值。进一步的，由于需要针对不同长度的ugc分别设定不同的第一阈值，因此，在本说明书实施例中，需要预先设定用来衡量用户所输入的ugc的长度的阈值，即，第二阈值，该第二阈值也可以包括在配置参数内，后续，基于该第二阈值，本说明书实施例给出了一种针对不同长度的ugc分别设定不同的第一阈值的方式，如下：当用户所输入的第一ugc的长度小于预设的第二阈值时，将第一阈值设定为第一子阈值；当用户所输入的第一ugc的长度不小于预设的第二阈值时，将第一阈值设定为第二子阈值。例如，当用户所输入的第一ugc的长度小于预设的10(即，第二阈值)时，将第一阈值设定为1(即，第一子阈值)；当用户所输入的第一ugc的长度不小于预设的10(即，第二阈值)时，将第一阈值设定为0.8(即，第二子阈值)。在此需要说明的是，在针对不同长度的ugc分别设定不同的第一阈值之后，配置参数内就包括了第一子阈值和第二子阈值。基于上述设定阈值的方式，本说明书实施例给出了一种根据所述比值以及所述第一阈值，确定第二ugc元素与第一ugc是否相似的方式，如下：判断所述第一ugc的长度是否小于预设的第二阈值；若是，则确定所述比值不小于所述第一子阈值的所述第二ugc元素与所述第一ugc，并将所确定出的所述第二ugc元素与所述第一ugc确定为相似；若否，则确定所述比值不小于所述第二子阈值的所述第二ugc与所述第一ugc，并将所确定出的所述第二ugc元素与所述第一ugc确定为相似。s305：将与所述第一ugc相似的第二ugc元素作为满足预定条件的第二ugc元素。s104：根据确定出的满足预定条件的第二ugc元素的数量，确定所述第一ugc的重复次数。在本说明书实施例中，将所确定出的满足预定条件的第二ugc元素的数量确定为第一ugc的重复次数。通过上述方法，根据第一ugc的文本内容，在用户历史所输入的第二ugc组内确定出满足预定条件的第二ugc元素的数量，从而有效的确定出第一ugc的重复次数。在实际应用中，由于用户发布违规的ugc的目的通常都是为了能够传播这些违规的ugc，因此，用户会频繁重复的发送内容相关联的ugc，以用于对外传播。因此，可以通过确定用户当前所发布的ugc在过去被重复发布的次数，从而确定出用户当前所发布的ugc是否违反了互联网平台的发布规定，也就是说，根据所确定出的第一ugc的重复次数，对所述第一ugc进行安全防控。在此需要说明的是，在本说明书实施例中，根据所确定出的第一ugc的重复次数，对所述第一ugc进行安全防控，可以预先设定防控阈值，该防控阈值可以包括在配置参数内，当所确定出的第一ugc的重复次数超过防控阈值时，则说明用户所输入的第一ugc存在异常，需要进行拦截，当所确定出的第一ugc的重复次数未超过防控阈值时，则说明用户所输入的第一ugc一切正常，发布用户所输入的第一ugc。在本说明书实施例中，需要将用户所输入的第一ugc存储到数据库内，用于下一次确定用户所输入的第一ugc的重复次数，后续，根据第一ugc的重复次数进行安全防控。为了清楚的阐述基于用户输入的第一ugc的重复次数所进行的安全防控，本说明书实施例提供了一种根据用户所输入的第一ugc进行安全防控的实施方式以及装置，如图4所示：s401：用户所输入的第一ugc以及所述第一ugc的属性。在此需要说明的是，属性包括：用户的标识和场景。s402：根据所述第一ugc所属的场景，获取所述第一ugc所属的场景对应的配置参数。在此需要说明的是，配置参数包括：时间间隔，筛选阈值，第一阈值，第二阈值以及防控阈值，其中，时间间隔、筛选阈值以及防控阈值组成了安全防控策略，即，在时间间隔内，筛选阈值数量的ugc的相似ugc大于防控阈值，则拦截用户所输入的第一ugc，如，半小时内，最近5条ugc的相似ugc大于2条，则拦截用户所输入的第一ugc。s403：第一ugc以及所述第一ugc的属性和配置参数。s404：ugc数据获取请求。在此需要说明的是，ugc数据获取请求中携带有第一ugc的属性和配置参数。s405：根据ugc数据获取请求构造查询键值。在此需要说明的是，查询键值是根据在存储ugc数据时所使用的键值来构造的，如，存储ugc数据时所使用的键值是：用户的标识+场景+时间间隔，那么构造成的查询键值也为：用户的标识+场景+时间间隔。s406：根据查询键值，获取用户的第二ugc组。s407：用户的第二ugc组。s408：配置参数、用户的第二ugc组以及用户所输入的第一ugc。s409：根据用户的第二ugc组和配置参数，确定与第一ugc重复的第二ugc元素的数量，并根据所述数量，确定第一ugc的重复次数。在此需要说明的是，在本步骤中用到了配置参数中的第一阈值和第二阈值。s410：第一ugc的重复次数。s411：根据配置参数和第一ugc的重复次数，确定第一ugc是否被命中。在此需要说明的是，在本步骤中用到了配置参数中的防控阈值，当第一ugc的重复次数超过防控阈值时，则被命中，当第一ugc的重复次数为超过防控阈值时，则没有被命中。s412：命中结果。s413：根据命中结果确定安全防控策略。s414：安全防控策略。s415：异步写入用户所输入的第一ugc。基于同样的思路，本说明书实施例还提供了上述图1所示的方法对应的装置，如图5所示。图5为本说明书实施例提供的对应于图1的一种用户生成内容ugc重复次数装置的结构示意图，所述装置包括：接收模块501，用于接收用户所输入的第一ugc；获取模块502，用于根据所述第一ugc的属性从存储ugc的数据库中获取与第一ugc属性相匹配的第二ugc组；确定模块503，用于根据第一ugc的文本内容在所述用户的第二ugc组内确定满足预定条件的第二ugc元素；还用于根据确定出的满足预定条件的第二ugc元素的数量，确定所述第一ugc的重复次数。所述第一ugc的属性包括：用户标识；所述获取模块502具体用于，根据所述第一ugc的用户标识从存储ugc的数据库中获取与所述第一ugc的用户标识相匹配的第二ugc组。所述第一ugc的属性还包括：所述第一ugc所属的场景；所述获取模块502具体用于，根据所述第一ugc的用户标识以及所述第一ugc所属的场景，从存储ugc的数据库中获取所述第一ugc所属的场景下的与所述第一ugc的用户标识相匹配的第二ugc组。所述接收模块501还用于，在所述获取模块502根据所述第一ugc的用户标识以及所述第一ugc所属的场景，从存储ugc的数据库中获取所述第一ugc所属的场景下的与所述第一ugc的用户标识相匹配的第二ugc组之前，根据所述第一ugc所属的场景，获取所述第一ugc所属的场景对应的配置参数，所述配置参数作为对根据第一ugc的属性确定的第二ugc组进行修正的依据。所述配置参数包括：时间间隔；所述获取模块502具体用于，根据所述第一ugc的用户标识、所述第一ugc所属的场景以及所述时间间隔，从存储ugc的数据库中获取所述第一ugc所属的场景下的所述时间间隔的与所述第一ugc的用户标识相匹配的第二ugc组。所述配置参数还包括：筛选阈值；所述装置还包括：筛选模块504，在所述获取模块根据所述第一ugc的用户标识以及所述第一ugc所属的场景，从存储ugc的数据库中获取所述第一ugc所属的场景下的与所述第一ugc的用户标识相匹配的第二ugc组之后，根据所述筛选阈值，在获取到的与所述第一ugc的用户标识相匹配的第二ugc组内选取部分第二ugc组。所述确定模块503具体用于，通过相似度算法，根据第一ugc的文本内容在所述用户的第二ugc组内确定满足预定条件的第二ugc元素。所述确定模块503具体用于，根据第二ugc组中的第二ugc元素的文本内容以及第一ugc的文本内容，确定所述第二ugc组中的第二ugc元素与所述第一ugc之间的最长公共子序列；确定所述第二ugc元素与所述第一ugc中的长度最短的ugc；确定所述最长公共子序列与所述长度最短的ugc的比值；根据所述比值以及预设的第一阈值，确定所述第二ugc元素与所述第一ugc是否相似；将与所述第一ugc相似的第二ugc元素作为满足预定条件的第二ugc元素。所述第一阈值包括第一子阈值和第二子阈值；所述确定模块503还用于，判断所述第一ugc的长度是否小于预设的第二阈值；若是，则确定所述比值不小于所述第一子阈值的所述第二ugc元素与所述第一ugc，并将所确定出的所述第二ugc元素与所述第一ugc确定为相似；若否，则确定所述比值不小于所述第二子阈值的所述第二ugc与所述第一ugc，并将所确定出的所述第二ugc元素与所述第一ugc确定为相似。所述确定模块503具体用于，根据第二ugc组中的第二ugc元素的文本内容以及第一ugc的文本内容，分别确定所述用户的第二ugc组内的第二ugc元素与所述第一ugc的哈希值；根据所述第二ugc元素的哈希值与所述第一ugc的哈希值，确定所述第二ugc元素与所述第一ugc是否相似；将与所述第一ugc相似的第二ugc元素作为满足预定条件的第二ugc元素。所述装置还包括：防控模块505，用于根据所述第一ugc的重复次数以及预设的防控阈值，对所述第一ugc进行安全防控。基于同样的思路，本说明书实施例还提供了上述方法对应的设备和非易失性计算机存储介质。本说明书实施例提供的对应于图1的一种用户生成内容ugc重复次数设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：接收用户所输入的第一ugc；根据所述第一ugc的属性从存储ugc的数据库中获取与第一ugc属性相匹配的第二ugc组；根据第一ugc的文本内容在所述用户的第二ugc组内确定满足预定条件的第二ugc元素；根据确定出的满足预定条件的第二ugc元素的数量，确定所述第一ugc的重复次数。本说明书实施例提供的对应于图1的一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：接收用户所输入的第一ugc；根据所述第一ugc的属性从存储ugc的数据库中获取与第一ugc属性相匹配的第二ugc组；根据第一ugc的文本内容在所述用户的第二ugc组内确定满足预定条件的第二ugc元素；根据确定出的满足预定条件的第二ugc元素的数量，确定所述第一ugc的重复次数。上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。本说明书实施例提供的装置、设备、非易失性计算机存储介质与方法是对应的，因此，装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、设备、非易失性计算机存储介质的有益技术效果。在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(programmablelogicdevice，pld)(例如现场可编程门阵列(fieldprogrammablegatearray，fpga))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(hardwaredescriptionlanguage，hdl)，而hdl也并非仅有一种，而是有许多种，如abel(advancedbooleanexpressionlanguage)、ahdl(alterahardwaredescriptionlanguage)、confluence、cupl(cornelluniversityprogramminglanguage)、hdcal、jhdl(javahardwaredescriptionlanguage)、lava、lola、myhdl、palasm、rhdl(rubyhardwaredescriptionlanguage)等，目前最普遍使用的是vhdl(very-high-speedintegratedcircuithardwaredescriptionlanguage)与verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit，asic)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。本领域技术人员应明白，本说明书实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。以上所述仅为本说明书实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李海亮
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：加速启播的P2P直播系统及方法与流程
上一篇：提高量子点尺寸均匀性的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。