异常信息确定装置和方法以及电子设备的制造方法_4

文档序号:8258520阅读:来源:国知局
[0110]搜索步骤,用于在预定信息源中搜索与特定关键词相关的信息;
[0111]异常信息候选确定步骤,用于根据异常信息的传播规律,确定所述搜索步骤搜索至IJ的信息中的异常信息候选;以及
[0112]异常信息确定步骤,用于基于所述异常信息候选构建异常信息分类器,并使用所述异常信息分类器在所述异常信息候选中确定异常信息。
[0113]方案8、根据方案7所述的异常信息确定方法,其中所述搜索步骤用于在网络中搜索与特定关键词相关的帖子。
[0114]方案9、根据方案8所述的异常信息确定方法,其中所述异常信息候选确定步骤用于根据异常帖子的传播规律,确定所述搜索步骤搜索到的帖子中的异常帖子候选,所述异常信息候选确定步骤包括:
[0115]标题查询子步骤,用于针对搜索步骤搜索到的每个帖子,查询在预定时间段内、以该帖子的标题为标题的所有帖子,并确定该所有帖子的帖子数量是否大于第一阈值;
[0116]回帖提取子步骤,用于在所述标题查询子步骤确定所述帖子数量大于第一阈值的情况下,确定该所有帖子中主帖的作者,并提取每个作者的回帖;以及
[0117]异常信息候选确定子步骤,用于基于所述每个作者的主帖与回帖之间的关系,确定作为所述异常信息候选的异常帖子候选。
[0118]方案10、根据方案9所述的异常信息确定方法,其中所述异常信息候选确定子步骤包括:
[0119]针对每个作者,计算该作者的主帖与回帖之间的主帖回帖比,并且确定所述主帖回帖比是否大于等于第二阈值;
[0120]在确定所述主帖回帖比小于第二阈值的情况下,确定该作者的回帖之间的回帖相似度;
[0121]在确定所述主帖回帖比大于等于所述第二阈值的情况下,将该作者在所述搜索步骤搜索到的帖子中的所有主帖确定为异常帖子候选,并且在所述主帖回帖比小于所述第二阈值的情况下,基于所述回帖相似度来确定所述异常帖子候选。
[0122]方案11、根据权利要求10所述的异常信息确定方法,其中确定异常帖子候选包括在所述主帖回帖比小于所述第二阈值、但该作者的回帖之间的回帖相似度大于第三阈值且其回帖相似度大于第三阈值的回帖数量大于第四阈值的情况下,将该作者在所述搜索步骤搜索到的帖子中的所有主帖确定为异常帖子候选。
[0123]方案12、根据权利要求9-11中任一项所述的异常信息确定方法,其中所述异常信息确定步骤包括:
[0124]特征提取子步骤,用于将所述异常帖子候选的作者作为异常用户,将所述搜索步骤搜索到的所有主帖的作者中、除所述异常用户之外的其他作者作为正常用户,并且分别针对所述异常用户和所述正常用户的主帖,提取用户文本特征和用户行为特征;
[0125]分类器构建子步骤,用于基于所述异常用户和所述正常用户的用户文本特征和用户行为特征,利用正例-未标注样本分类方法,构建所述异常信息分类器;以及
[0126]异常信息确定子步骤,用于使用所述异常信息分类器,在所述异常帖子候选中确定异常帖子。
[0127]方案13、一种电子设备,包括根据方案1-6中任一项所述的异常信息确定装置。
[0128]方案14、根据方案13所述的电子设备,其中电子设备是手机、计算机、平板电脑、或个人数字助理。
[0129]方案15、一种使得计算机用作如方案1-6中任一项所述的异常信息确定装置的程序。
[0130]方案16、一种计算机可读存储介质,其上存储有能够由计算设备执行的计算机程序,该程序使得计算机用作如方案1-6中任一项所述的异常信息确定装置。
[0131]最后,还需要说明的是,在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0132]尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。
【主权项】
1.一种异常信息确定装置,包括: 搜索单元,用于在预定信息源中搜索与特定关键词相关的信息; 异常信息候选确定单元,用于根据异常信息的传播规律,确定所述搜索单元搜索到的信息中的异常信息候选;以及 异常信息确定单元,用于基于所述异常信息候选构建异常信息分类器,并使用所述异常信息分类器在所述异常信息候选中确定异常信息。
2.根据权利要求1所述的异常信息确定装置,其中所述搜索单元被配置为在网络中搜索与特定关键词相关的帖子。
3.根据权利要求2所述的异常信息确定装置,其中所述异常信息候选确定单元用于根据异常帖子的传播规律,确定所述搜索单元搜索到的帖子中的异常帖子候选,所述异常信息候选确定单元包括: 标题查询子单元,用于针对搜索单元搜索到的每个帖子,查询在预定时间段内、以该帖子的标题为标题的所有帖子,并确定该所有帖子的帖子数量是否大于第一阈值; 回帖提取子单元,用于在所述标题查询子单元确定所述帖子数量大于第一阈值的情况下,确定该所有帖子中主帖的作者,并提取每个作者的回帖;以及 异常帖子候选确定子单元,用于基于所述每个作者的主帖与回帖之间的关系,确定作为所述异常信息候选的异常帖子候选。
4.根据权利要求3所述的异常信息确定装置,其中所述异常帖子候选确定子单元包括: 主帖回帖比计算模块,用于针对每个作者,计算该作者的主帖与回帖之间的主帖回帖t匕,并且确定所述主帖回帖比是否大于等于第二阈值; 回帖相似度确定模块,用于在所述主帖回帖比计算模块确定所述主帖回帖比小于第二阈值的情况下,确定该作者的回帖之间的回帖相似度;以及 异常帖子候选确定模块,用于在所述主帖回帖比计算模块确定所述主帖回帖比大于等于所述第二阈值的情况下,将该作者在所述搜索单元搜索到的帖子中的所有主帖确定为异常帖子候选,并且在所述主帖回帖比小于所述第二阈值的情况下,基于所述回帖相似度来确定所述异常帖子候选。
5.根据权利要求4所述的异常信息确定装置,其中所述异常帖子候选确定模块被配置为在所述主帖回帖比小于所述第二阈值、但该作者的回帖之间的回帖相似度大于第三阈值且其回帖相似度大于第三阈值的回帖数量大于第四阈值的情况下,将该作者在所述搜索单元搜索到的帖子中的所有主帖确定为异常帖子候选。
6.根据权利要求3-5中任一项所述的异常信息确定装置,其中所述异常信息确定单元包括: 特征提取子单元,用于将所述异常帖子候选的作者作为异常用户,将所述搜索单元搜索到的所有主帖的作者中、除所述异常用户之外的其他作者作为正常用户,并且分别针对所述异常用户和所述正常用户的主帖,提取用户文本特征和用户行为特征; 分类器构建子单元,用于基于所述异常用户和所述正常用户的用户文本特征和用户行为特征,利用正例-未标注样本分类方法,构建所述异常信息分类器;以及 异常帖子确定子单元,用于使用所述异常信息分类器,在所述异常帖子候选中确定异常帖子。
7.一种异常信息确定方法,包括: 搜索步骤,用于在预定信息源中搜索与特定关键词相关的信息; 异常信息候选确定步骤,用于根据异常信息的传播规律,确定所述搜索步骤搜索到的信息中的异常信息候选;以及 异常信息确定步骤,用于基于所述异常信息候选构建异常信息分类器,并使用所述异常信息分类器在所述异常信息候选中确定异常信息。
8.根据权利要求7所述的异常信息确定方法,其中所述搜索步骤用于在网络中搜索与特定关键词相关的帖子。
9.根据权利要求8所述的异常信息确定方法,其中所述异常信息候选确定步骤用于根据异常帖子的传播规律,确定所述搜索步骤搜索到的帖子中的异常帖子候选,所述异常信息候选确定步骤包括: 标题查询子步骤,用于针对搜索步骤搜索到的每个帖子,查询在预定时间段内、以该帖子的标题为标题的所有帖子,并确定该所有帖子的帖子数量是否大于第一阈值; 回帖提取子步骤,用于在所述标题查询子步骤确定所述帖子数量大于第一阈值的情况下,确定该所有帖子中主帖的作者,并提取每个作者的回帖;以及 异常信息候选确定子步骤,用于基于所述每个作者的主帖与回帖之间的关系,确定作为所述异常信息候选的异常帖子候选。
10.一种电子设备,包括根据权利要求1-6中任一项所述的异常信息确定装置,所述电子设备尤其是手机、计算机、平板电脑、以及个人数字助理。
【专利摘要】本公开提供一种异常信息确定装置和方法以及电子设备。该异常信息确定装置包括:搜索单元,用于在预定信息源中搜索与特定关键词相关的信息;异常信息候选确定单元,用于根据异常信息的传播规律,确定搜索单元搜索到的信息中的异常信息候选;以及异常信息确定单元,用于基于异常信息候选构建异常信息分类器,并使用异常信息分类器在异常信息候选中确定异常信息。根据本公开的异常信息确定装置和方法以及电子设备能够更准确、可靠地确定诸如网络的信息源中的异常信息。
【IPC分类】G06F17-30
【公开号】CN104572646
【申请号】CN201310473243
【发明人】张波, 孟遥, 孙俊
【申请人】富士通株式会社
【公开日】2015年4月29日
【申请日】2013年10月11日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1