异常信息确定装置和方法以及电子设备的制造方法_3

文档序号:8258520阅读:来源:国知局
小于所述第二阈值的情况下,基于所述回帖相似度来确定所述异常帖子候选。
[0068]根据本公开的优选实施例,可以在所述主帖回帖比小于所述第二阈值、但该作者的回帖之间的回帖相似度大于第三阈值且其回帖相似度大于第三阈值的回帖数量大于第四阈值的情况下,将该作者在所述搜索步骤S520搜索到的帖子中的所有主帖确定为异常帖子候选。
[0069]例如,可以通过执行例如参照图2-图3描述的标题查询子单元201、回帖提取子单元202以及异常帖子候选确定子单元203的处理来实现异常信息确定步骤S5301、S5302、S5303,在此省略其描述。
[0070]回到图5,在异常信息确定步骤S540中,基于异常信息候选构建异常信息分类器,并使用异常信息分类器在异常信息候选中确定异常信息。
[0071]根据本公开的一个实施例,异常信息确定步骤S540可以包括:将所述异常帖子候选的作者作为异常用户,将所述搜索步骤S520搜索到的所有主帖的作者中、除所述异常用户之外的其他作者作为正常用户,并且分别针对所述异常用户和所述正常用户的主帖,提取用户文本特征和用户行为特征;基于所述异常用户和所述正常用户的用户文本特征和用户行为特征,利用正例-未标注样本分类方法,构建所述异常信息分类器;以及使用所述异常信息分类器,在所述异常帖子候选中确定异常帖子。
[0072]例如,可以通过执行例如参照图1和图4描述的异常信息确定单元30的处理来实现异常信息确定步骤S540,在此省略其描述。然后执行S550。
[0073]处理流程500结束于S550。
[0074]与现有技术中相比,根据本公开的异常信息确定装置和异常信息确定方法具有至少以下一个优点:利用了异常信息的传播规律来确定异常信息候选,从而能够更准确、可靠地确定异常信息,有利于提高甄别异常用户的准确率,并且能够大大提高异常信息监控的效率。
[0075]此外,本公开的实施例还提供了一种电子设备,该电子设备被配置包括如上所述的异常信息确定装置I。该电子设备例如可以是以下设备中的任意一种:手机;计算机;平板电脑;以及个人数字助理等。相应地,该电子设备能够拥有如上所述的异常信息确定装置的有益效果和优点。
[0076]上述根据本公开的实施例的异常信息确定装置中的各个组成单元、子单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成单元、子单元的各种功能。
[0077]图7是示出了可用来实现根据本公开的实施例的是异常信息确定装置和方法的一种可能的信息处理设备的硬件配置的结构简图。
[0078]在图7中,中央处理单元(CPU) 701根据只读存储器(ROM) 702中存储的程序或从存储部分708加载到随机存取存储器(RAM) 703的程序执行各种处理。在RAM703中,还根据需要存储当CPU701执行各种处理等等时所需的数据。CPU701、R0M702和RAM703经由总线704彼此连接。输入/输出接口 705也连接到总线704。
[0079]下述部件也连接到输入/输出接口 705:输入部分706 (包括键盘、鼠标等等)、输出部分707 (包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分708 (包括硬盘等)、通信部分709 (包括网络接口卡例如LAN卡、调制解调器等)。通信部分709经由网络例如因特网执行通信处理。根据需要,驱动器710也可连接到输入/输出接口 705。可拆卸介质711例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器710上,使得从中读出的计算机程序可根据需要被安装到存储部分708中。
[0080]在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质711安装构成软件的程序。
[0081]本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(⑶-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是R0M702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
[0082]此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本公开的实施例的异常信息确定方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。
[0083]在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
[0084]此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。
[0085]此外,显然,根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
[0086]而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
[0087]此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
[0088]上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
[0089]另外,客户信息处理终端通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序,也可以实现本公开的各实施例。
[0090]综上,在根据本公开的实施例中,本公开提供了如下方案,但不限于此:
[0091]方案1、一种异常信息确定装置,包括:
[0092]搜索单元,用于在预定信息源中搜索与特定关键词相关的信息;
[0093]异常信息候选确定单元,用于根据异常信息的传播规律,确定所述搜索单元搜索至IJ的信息中的异常信息候选;以及
[0094]异常信息确定单元,用于基于所述异常信息候选构建异常信息分类器,并使用所述异常信息分类器在所述异常信息候选中确定异常信息。
[0095]方案2、根据方案I所述的异常信息确定装置,其中所述搜索单元被配置为在网络中搜索与特定关键词相关的帖子。
[0096]方案3、根据方案2所述的异常信息确定装置,其中所述异常信息候选确定单元用于根据异常帖子的传播规律,确定所述搜索单元搜索到的帖子中的异常帖子候选,所述异常信息候选确定单元包括:
[0097]标题查询子单元,用于针对搜索单元搜索到的每个帖子,查询在预定时间段内、以该帖子的标题为标题的所有帖子,并确定该所有帖子的帖子数量是否大于第一阈值;
[0098]回帖提取子单元,用于在所述标题查询子单元确定所述帖子数量大于第一阈值的情况下,确定该所有帖子中主帖的作者,并提取每个作者的回帖;以及
[0099]异常帖子候选确定子单元,用于基于所述每个作者的主帖与回帖之间的关系,确定作为所述异常信息候选的异常帖子候选。
[0100]方案4、根据方案3所述的异常信息确定装置,其中所述异常帖子候选确定子单元包括:
[0101]主帖回帖比计算模块,用于针对每个作者,计算该作者的主帖与回帖之间的主帖回帖比,并且确定所述主帖回帖比是否大于等于第二阈值;
[0102]回帖相似度确定模块,用于在所述主帖回帖比计算模块确定所述主帖回帖比小于第二阈值的情况下,确定该作者的回帖之间的回帖相似度;以及
[0103]异常帖子候选确定模块,用于在所述主帖回帖比计算模块确定所述主帖回帖比大于等于所述第二阈值的情况下,将该作者在所述搜索单元搜索到的帖子中的所有主帖确定为异常帖子候选,并且在所述主帖回帖比小于所述第二阈值的情况下,基于所述回帖相似度来确定所述异常帖子候选。
[0104]方案5、根据方案4所述的异常信息确定装置,其中所述异常帖子候选确定模块被配置为在所述主帖回帖比小于所述第二阈值、但该作者的回帖之间的回帖相似度大于第三阈值且其回帖相似度大于第三阈值的回帖数量大于第四阈值的情况下,将该作者在所述搜索单元搜索到的帖子中的所有主帖确定为异常帖子候选。
[0105]方案6、根据方案3-5中任一项所述的异常信息确定装置,其中所述异常信息确定单元包括:
[0106]特征提取子单元,用于将所述异常帖子候选的作者作为异常用户,将所述搜索单元搜索到的所有主帖的作者中、除所述异常用户之外的其他作者作为正常用户,并且分别针对所述异常用户和所述正常用户的主帖,提取用户文本特征和用户行为特征;
[0107]分类器构建子单元,用于基于所述异常用户和所述正常用户的用户文本特征和用户行为特征,利用正例-未标注样本分类方法,构建所述异常信息分类器;以及
[0108]异常帖子确定子单元,用于使用所述异常信息分类器,在所述异常帖子候选中确定异常帖子。
[0109]方案7、一种异常信息确定方法,包括:
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1