异常用户的确定方法、电子设备和存储介质与流程

文档序号:23004238发布日期:2020-11-20 11:53阅读:169来源:国知局
异常用户的确定方法、电子设备和存储介质与流程

本发明实施例涉及互联网技术领域,特别涉及一种异常用户的确定方法、电子设备和存储介质。



背景技术:

目前,针对异常用户的识别,基本都是通过分析用户的操作行为(主要是指和登录相关的操作行为)进而识别出异常用户,比如,基于用户的操作频率、操作设备、操作地点等与登录相关的操作行为,与已有的异常用户的登录行为模式进行匹配,进而根据匹配结果识别出异常用户。

然而,发明人发现相关技术中至少存在如下问题:对于部分操作行为较少的用户,由于行为数据较少,不能准确判断用户是否异常;而且,通过已有的异常行为模式识别时,只能识别出与已有的异常行为模式匹配的异常用户,如果出现新的异常行为,则无法根据已有的异常行为模式匹配识别出异常用户,对于异常用户的识别存在滞后性,识别的准确性较低。



技术实现要素:

本发明实施方式的目的在于提供一种异常用户的确定方法、电子设备和存储介质,以提高对于异常用户识别的准确性。

为解决上述技术问题,本发明的实施方式提供了一种异常用户的确定方法,包括:获取用户发表的n条内容;其中,所述n为大于1的自然数;确定所述n条内容对应的特征值;其中,所述特征值包括以下至少一种:用于表征所述n条内容的个性化程度的个性化值、用于表征所述n条内容的主题的多样性程度的多样性值、用于表征所述n条内容的格式的统一性程度的统一性值;根据所述n条内容对应的特征值,确定所述用户是否为异常用户。

本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的异常用户的确定方法。

本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的异常用户的确定方法。

本发明实施方式相对于现有技术而言,可以通过获取用户发表的多条内容,确定多条内容对应的特征值,进而根据多条内容对应的特征值,确定用户是否为异常用户,这样,一方面可以避免现有技术中通过分析用户的操作行为识别异常用户时,由于操作行为较少,从而可能导致的识别准确定较低的问题;另一方面,可以避免现有技术中基于已有的异常用户行为模式进行匹配识别异常用户时,可能出现新的异常行为,从而导致采用现有技术无法识别,降低异常用户识别准确性的问题。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定。

图1是根据本发明第一实施方式中提到的异常用户的确定方法的流程图;

图2是根据本发明第一实施方式中提到的个性化值的确定方式的流程图;

图3是根据本发明第一实施方式中提到的多样性值的确定方式的流程图;

图4是根据本发明第一实施方式中提到的统一性值的确定方式的流程图;

图5是根据本发明第二实施方式中提到的异常用户的确定方法的流程图;

图6是根据本发明第三实施方式中提到的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种异常用户的确定方法,应用于电子设备;其中,该电子设备可以为终端也可以为服务器,本实施方式对此不做具体限定。为方便说明,本实施方式以及以下各实施方式中,电子设备均以服务器为例进行说明。服务器可以是应用平台的服务器,不同的应用平台对应不同的服务器,用户在不同类型的应用平台上可以发表不同类型的内容。比如,对于购物型应用平台,用户发表的内容可以是对所购买的商品的评价,对于社交言论型应用平台,用户发表的内容可以是对他人发表内容的评价,也可以自己发表的言论内容。服务器能获取到用户在应用平台中发表的内容,通过对用户发表的内容进行分析,从而确定该用户是否为异常用户。异常用户可以理解为,在应用平台上有组织的批量发表雷同内容的用户,比如刻意刷评论的用户,其中,刻意刷评论的用户可能是刻意刷好评或刻意刷恶评的用户。比如,对于购物型应用平台,异常用户可能是专门负责对某类商品进行好评或恶评的用户。下面对本实施方式的异常用户的确定方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。

本实施方式中的异常用户的确定方法的流程图,如图1所示,具体包括:

步骤101:获取用户发表的n条内容。

其中,n为大于1的自然数,用于表征获取的用户发表的内容数量。

在一种可选的实施方式中,n可以是服务器在预设时间段内获取的用户在该服务器对应的应用平台上发表的所有内容数量。可以理解的是,用户发表的内容可以是一句话,也可以是多句话,本实施方式对此不做具体限定。其中,预设时间段可以根据实际需要进行设置,本实施方式对此不做具体限定。

在另一个例子中,服务器可以采取抽样的方式,获取预设时间段内,用户在该服务器对应的应用平台上发表的部分内容,即n可以为用户在预设时间段内发表过的部分内容的数量。其中,抽样的方式可以为根据实际需要进行设置,比如可以根据关键词抽样、根据时间点抽样,本实施方式对此不做具体限定。

步骤102:确定n条内容对应的特征值。

可选的,本实施方式中特征值可以包括以下至少一种:用于表征n条内容的个性化程度的个性化值、用于表征n条内容的主题的多样性程度的多样性值、用于表征n条内容的格式的统一性程度的统一性值。

以下将针对确定内容对应的特征值的方式进行说明。

在一种可选地实施方式中,考虑到正常用户发表的内容中出现口头语言,以及人称词语的比率可能较大,即个性化程度可能较高;而异常用户发表的内容中通常出现口头语言以及人称词语的比率也较小,比较书面化(也即个性化程度较低),因此,本实施方式中可以考虑将用于表征用户发表内容的个性化程度的个性化值确定为内容对应的特征值。

其中,个性化值的确定方式可以参考图2,包括以下步骤201~步骤203:

步骤201:计算n条内容中出现口头语言的第一比率。

其中,口头语言可以理解为口语化的语言,与书面语言相对立。比如,口头语言可以为“嗯嗯”、“哦哦”、“呀”、“啊”等人们在日常生活中经常会用到的语气词。需要说明的是,上述列举的口头语言仅是本发明实施例的一种示例性说明,并不对本发明实施例造成任何限定。

在一种可选地实施方式中,服务器可以先计算每条内容中出现口头语言的比率,然后,根据每条内容中出现口头语言的比率,计算n条内容中出现口头语言的第一比率。

在一个例子中,假设获取的用户u发表的内容为xu={x1,x2,…,xn},则可以先通过公式fc(xi)=c/lxi可以计算每条内容中出现口头语言的比率;其中,fc(xi)表示内容xi中的出现口头语言的比率,c表示内容xi中出现的口头语言的个数,lxi表示内容xi中词语的总数。计算得到每条内容中出现口头语言的比率之后,可以按照如下公式,计算n条内容中出现口头语言的第一比率puc:

步骤202:计算n条内容中出现人称词语的第二比率。

其中,根据实际需要,人称词语可以包括以下至少一种:表示第一人称的词语、表示第二人称的词语、表示第三人称的词语。

在一种可选的实施方式中,服务器可以先计算每条内容中出现人称词语的比率,然后,根据每条内容中出现人称词语的比率,计算n条内容中出现人称词语的第二比率。

例如,可以先通过公式fu(xi)=u/lxi计算得到每条内容中出现人称词语的比率;其中,fu(xi)表示内容xi中的出现人称词语的比率,u为内容xi中出现的人称词语的个数,lxi表示内容xi中词语的总数。计算得到每条内容中出现人称词语的比率之后,可以通过如下公式,计算n条内容中出现人称词语的第二比率puu:

需要说明的是,本实施方式中只是以先执行步骤201再执行步骤202为例,在具体实现中步骤201与步骤202的执行顺序并不以此为限。

步骤203:根据第一比率和/或第二比率,确定个性化值。

在一个例子中,服务器可以根据第一比率,确定个性化值。在具体实现中,可以直接将第一比率作为个性化值。

在另一个例子中,服务器可以根据第二比率,确定个性化值。在具体实现中,可以直接将第二比率作为个性化值。

在一个例子中,服务器可以根据第一比率和第二比率,确定个性化值。比如,可以将第一比率和第二比率的和作为个性化值。或者还可以基于第一比率和第二比率,按照以下公式计算个性化值:

其中,pu为个性化值,puc为第一比率,puu为第二比率。

以上内容即以特征为用于表征n条内容的个性化程度的个性化值为例,对确定特征值的方式进行的相关说明。

采用上述方式时,由于可以考虑到用户发表的内容的个性化程度,并将用于表征用户发表内容的个性化程度的个性化值确定为内容对应的特征值,这样,有利于准确的确定用于表征n条内容的个性化程度的个性化值。

在一种可选地实施方式中,考虑到正常用户发表的内容的主题可能比较丰富多样;而异常用户发表的内容的主题比较单一,因此,本实施方式中还可以考虑将用于表征用户发表内容的主题的多样性程度的多样性值确定为内容对应的特征值。

在一个例子中,多样性值的确定方式可以参考图3,包括:

步骤301:分别获取每条内容的主题分布向量。

具体的说,服务器可以利用潜在狄利克雷分配(latentdirichletallocation,简称:lda)主题模型,计算每条内容的主题分布向量,内容xi的主题分布向量可以表示为:txi={ti1,ti2,…,tip}。

步骤302:根据每条内容的主题分布向量,计算n条内容相互之间的相似度。

具体的说,可以通过余弦向量计算n条内容相互之间的相似度。在具体实现中,可以通过如下公式计算第i条内容xi与第j条内容xj之间的相似度:

步骤303:根据n条内容相互之间的相似度,确定多样性值。

在一个例子中,可以通过如下公式计算多样性值:

其中,所述et为所述多样性值,所述sij为第i条内容与第j条内容之间的相似度。

在具体实现中,通过获取每条内容的主题分布向量,根据每条内容的主题分布向量,计算n条内容相互之间的相似度,使得计算的该相似度可以体现出各条内容的主题之间的相似度,从而根据n条内容相互之间的相似度,方便了确定用于表征n条内容的主题的多样性程度的多样性值。

在一种可选地实施方式中,考虑到正常用户发表的内容的格式可能不拘一格;而异常用户发表的内容的格式比较统一,因此,本实施方式中还可以考虑将用于表征用户发表内容的格式的统一性程度的统一性值确定为内容对应的特征值。

其中,统一性值的确定方式可以参考图4,包括:

步骤401:确定每条内容的长度。

具体的说,服务器可以分别统计每条内容的字节数,将每条内容的字节数作为每条内容的长度。或者,统计每条内容中的汉字数,将每条内容中的汉字数作为每条内容的长度,本实施方式对此不做具体限定。

步骤402:根据每条内容的长度,计算用于表征n条内容的长度的集中程度的集中值。

具体的说,服务器可以根据每条内容的长度,计算n条内容的平均长度,记为μ。然后,分别计算每条内容的长度相对于平均长度的偏移程度值,记为f(xi)。接着,根据偏移程度值,计算用于表征n条内容的长度的集中程度的集中值,记为h。

在一个例子中,可以通过如下公式计算f(xi):

其中,lxi表示内容xi的长度。

在一个例子中,可以通过如下公式计算h:

步骤403:确定n条内容中带有统一标识的内容的数量。

在一个例子中,可以通过如下方式确定n条内容中带有统一标识的内容的数量:统计n条内容中,具有相同的开始标识符号的内容数量,假设统计的数量为m,则确定n条内容中带有统一标识的内容的数量为m。其中,具有相同的开始标识符号的内容可以理解为:带有相同话题,以相同话题开始的内容。比如,n等于30,其中8条带有话题a,9条带有话题b,那么带有统一标识的内容数量可以为17。或者,还可以统计n条内容中,包含相同表情符号的内容的数量,将包含相同表情符号的内容的数量作为n条内容中带有统一标识的内容的数量。

在另一个例子中,可以通过如下方式确定n条内容中带有统一标识的内容的数量:对比n条内容之间的相同语句,计算各个内容之间的语句重复度,将语句重复度大于预设重复度的内容确定为带有统一标识的内容,最终,统计n条内容中带有统一标识的内容的数量。其中,预设重复度的大小可以根据实际需要进行设置,本实施方式对此不做具体限定。在具体实现中语句重复度计算方式可以如下:对于两条内容,长度分别为x,y,其中重复使用的词语数为z,则语句重复度可以表示为z/(x+y)。

步骤404:根据集中值和带有统一标识的内容的数量,确定统一性值。

在一个例子中,可以通过如下公式计算统一性值:

其中,m为带有统一标识的内容的数量,h为集中程度值,es为统一性值。

需要说明的是,本实施方式中只是以通过上述公式计算统一性值为例,在具体实现中并不以此为限。

在具体实现中,考虑到,用于表征n条内容的长度的集中程度的集中值和带有统一标识的内容的数量,在一定程度上可以表征n条内容在格式上的统一性程度,因此,通过集中值和带有统一标识的内容的数量,有利于提高确定的统一性值的准确性和合理性。

步骤103:根据n条内容对应的特征值,确定用户是否为异常用户。

在一个例子中,特征值包括个性化值。在实际应用中,正常用户个人发表的内容中口头语言和人称词语的数量较多,因此,正常用户发表的内容对应的个性化值较大,异常用户发表的内容对应的个性化值较小。服务器中可以预存有预设的个性化阈值,如果个性化值大于预设的个性化阈值,则可以确定用户为正常用户,如果个性化值小于或等于预设的个性化阈值,则可以确定用户为异常用户。其中,预设的个性化阈值可以根据实际需要进行设置,本实施方式对此不做具体限定。

在一个例子中,特征值包括多样性值。在实际应用中,正常用户个人发表的内容偏好程度不同,发表的内容的主题具有多样性,比如发表的内容,有的可能跟体育相关,有的跟娱乐相关,通常不会局限于特定主题。而异常用户发表的内容的主题通常比较单一,可能局限于特定的主题。因此,正常用户发表的内容对应的多样性值较大,异常用户发表的内容对应的多样性值较小。服务器中可以预存有预设的多样性阈值,如果多样性值大于预设的多样性阈值,则可以确定用户为正常用户,如果多样性值小于或等于预设的多样性阈值,则可以确定用户为异常用户。其中,预设的多样性阈值可以根据实际需要进行设置,本实施方式对此不做具体限定。

在一个例子中,特征值包括统一性值。在实际应用中,正常用户个人发表的内容的格式多变,统一性较低,统一性值较小。而异常用户发表的内容的格式通常比较固定,即格式较统一,统一性较高,统一性值较大。服务器中可以预存有预设的统一性阈值,如果统一性值大于预设的统一性阈值,则可以确定用户为异常用户,如果统一性值小于或等于预设的统一性阈值,则可以确定用户为正常用户。其中,预设的统一性阈值可以根据实际需要进行设置,本实施方式对此不做具体限定。

在一个例子中,特征值的数量也可以为多个,比如包括以下任意两个或三个:个性化值、统一性值、多样性值,则多个特征值均满足其对应的预设条件时,可以确定用户为异常用户。其中,个性化值对应的预设条件可以为:个性化值小于或等于预设的个性化阈值;多样性值对应的预设条件可以为:多样性值小于或等于预设的多样性阈值;统一性值对应的预设条件可以为:统一性值大于预设的统一性阈值。

在具体实现中,如果确定用户为异常用户,可以对该用户进行警告或提醒,还可以暂时对该异常用户发表内容所使用的账号进行封号,即暂时禁止该异常用户使用该账号登录应用平台发表内容。然而,本实施方式对确定用户为异常用户之后,需要执行的步骤不做具体限定。

需要说明的是,本实施方式中的上述各示例均为为方便理解进行的举例说明,并不对本发明的技术方案构成限定。

与现有技术相比,本实施方式,通过获取用户发表的多条内容,确定多条内容对应的特征值,特征值至少包括以下任意之一:用于表征多条内容的个性化程度的个性化值、用于表征多条内容的主题的多样性程度的多样性值、用于表征多条内容的格式的统一性程度的统一性值。考虑到,异常用户发表的内容通常个性化程度较低、主题的多样性程度较低、格式的统一性程度较高,因此,从内容个性化、主题多样化、格式统一化等至少一个角度对用户发表的内容进行分析,从而参考多条内容对应的特征值,有利于提高对于异常用户识别的准确性。通常,即使异常用户的操作行为较少,其发表的内容的数量还是相对较多,比如用户在一次登录行为中,可能发表很多内容,因此,在用户操作行为少的情况下,本发明实施方式也可以基于用户发表的内容准确的识别出该用户是否为异常用户。而且,本发明实施方式中,在确定用户是否为异常用户时,避免了通过已有的异常行为模式进行匹配的方式,有利于对异常用户进行准且及时的识别。本实施方式中的异常用户的确定方法,一方面可以避免现有技术中通过分析用户的操作行为识别异常用户时,由于操作行为较少,从而可能导致的识别准确定较低的问题;另一方面,可以避免现有技术中基于已有的异常用户行为模式进行匹配识别异常用户时,可能出现新的异常行为,从而导致采用现有技术无法识别,降低异常用户识别准确性的问题。

本发明的第二实施方式涉及一种异常用户的确定方法。下面对本实施方式的异常用户的确定方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。

本实施方式中的异常用户的确定方法的流程图,如图5所示,具体包括:

步骤501:获取用户发表的n条内容。

其中,步骤501与第一实施方式中步骤101大致相同,为避免重复,本实施方式对此不再赘述。

步骤502:确定n条内容对应的特征值。

其中,特征值包括:用于表征n条内容的个性化程度的个性化值、用于表征n条内容的主题的多样性程度的多样性值、用于表征n条内容的格式的统一性程度的统一性值。具体的,个性化值、多样性值、统一性值的确定方式,可以参考第一实施方式中的相关描述,为避免重复本实施方式对此不再赘述。

步骤503:根据个性化值、多样性值和统一性值,计算评价值。

在一个例子中,个性化值、多样性值和统一性值可以分别对应有预设的权重,服务器可以根据个性化值、多样性值和统一性值,以及个性化值、多样性值和统一性值可以分别对应有预设的权重,计算评价值。比如,可以通过如下公式,计算评价值:

p=a*pu+b*et+c*(-es);其中a+b+c=1,a、b、c分别为个性化值、多样性值、统一性值对应的权重。

考虑到,相比于异常用户,正常用户的个性化值pu和多样性值et较大、统一性值es较小。为了使三种特征值的大小趋势相同,以方便后续直接通过计算的评价值确定用户是否为异常用户,上述公式中对统一性值取了相反数即表示为-es。如此,对于正常用户pu较大、et较大、-es较大;对于异常用户pu较小、et较小、-es较小。

步骤504:判断评价值是否大于预设的评价阈值;如果是,则执行步骤505,否则执行步骤506。

其中,评价阈值的大小可以根据实际需要进行设置,本实施方式对此不做具体限定。

步骤505:确定用户为正常用户。

步骤506:确定用户为异常用户。

可以理解的是,评价值p越大,表明pu、et、-es可能越大,用户更可能为正常用户,因此,当评价值大于预设的评价阈值,可以确定用户为正常用户,否则可以确定用户为异常用户。

与现有技术相比,本实施方式中,特征值包括:个性化值、多样性值、统一性值;根据个性化值、多样性值和统一性值,计算评价值;若评价值小于或等于预设的评价阈值,确用户为异常用户。即从内容个性化、主题多样化、格式统一化,三个角度对用户发表的内容进行分析,从而得到评价值,基于该评价值与预设的评价阈值的大小关系,确定用户是否为异常用户,有利于进一步提高对于异常用户识别的准确性。

上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种电子设备,如图6所示,包括至少一个处理器601;以及,与至少一个处理器601通信连接的存储器602;其中,存储器602存储有可被至少一个处理器601执行的指令,指令被至少一个处理器601执行,以使至少一个处理器601能够执行第一、或第二实施方式中的异常用户的确定方法。

其中,存储器602和处理器601采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器601和存储器602的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器601处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器601。

处理器601负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器602可以被用于存储处理器601在执行操作时所使用的数据。

本发明第四实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1