发掘可疑帐号的分身群组的方法与系统的制作方法

文档序号:6489681阅读:146来源:国知局
发掘可疑帐号的分身群组的方法与系统的制作方法
【专利摘要】发掘可疑帐号的分身群组的方法与系统,该发掘可疑帐号的分身群组的方法根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立此帐号的一语言模型来描述此帐号的语言风格,并且比较此第一组帐号的多个语言模型的相似度,以将此第一组帐号分群;以及针对在一第二时间区间内新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,并且将此多重变异词汇更新至一第二组帐号的多个语言模型,进而汇整此第一组帐号与此第二组帐号,并且将一组汇整后的帐号重新分群。
【专利说明】发掘可疑帐号的分身群组的方法与系统
【技术领域】
[0001]本公开涉及一种发掘可疑帐号的分身群组(account group)的方法与系统。
【背景技术】
[0002]社群网络(social network)的普及引发了许多网络犯罪(network crime)的行为,例如在网络上利用多重分身(multiple accounts)来散布色情(pornography)讯息或是进行网络诈欺(network dec印tion)等行为。网民为了规避追缉,会更改帐号及上网发文、或是逐渐改变所使用的关键词用语。这些网络犯罪的行为会在各式的社群网络上留下蛛丝马迹(traces)。
[0003]现有的追缉技术,例如警用网络侦搜系统,在进行案件的通联分析前,先厘清帐号分身群组的特性;在犯罪信息的系统领域(system domain)里,根据两个词的词汇特征的同义词(common synonym)来辨识帐号之间的互动关联。例如,可提取两个词之间最长的共同子字串,来计算此子字串的长度与此两词中较长词的长度的比例,以确认比例是否大于一第一阈值。再计算此两词的编辑距离(edit-distance)是否大于一第二阈值。当上述两条件成立时,确定此两词属于同义词。
[0004]图1所示是一种决定语句的主题(theme)的内文处理系统,主要包含一主题向量处理器(theme vector processor) 110来决定输入语句112的主题。其技术是先分析输入语句112中每一词汇的词性,再利用知识库(Ontology)分析此语句,包括找出每一词汇的语意以组成语意主题向量、以及比对此语句的语意主题向量和训练语料120中的语意主题向量,来决定此语句的主题及类别。
[0005]有一种监听与分析犯罪相关信息的技术是利用事件识别码(event identifier)或词汇搜寻(word search)的方法来标记警方关注的犯罪相关信息区段,以提醒调查员监听此区段的原始语音数据。此事件识别码例如是警方关注事件的书签(bookmark),包含此关注事件的关键词汇或是特定人物的语音数据等。
[0006]有一种将数据集合(dataset)结构化的技术是根据使用者提供的个人数据来分群,再利用一连串事先定义的问题题库,找出疑似包含诈欺行为的通联纪录的群组。其中,作为分群依据的使用者的结构化的属性数据可包括如姓名、电话号码、或地址等。有一种网络犯罪侦防技术是利用使用者上网时,其上网装置的来源辨识码,同步在犯罪侦防网站中与使用者上网装置的电话号码及授权码进行比对,以确认使用者的真实身份。
[0007]有一种寻找犯罪者的多重身份的技术是利用个人的基本特征数据如姓名、性别、身高、体重等,来比对多重分身,再根据个人在犯罪数据库中的角色和之间的连结关系,来比对犯罪者的多重分身。有一种检测犯罪群体的技术是从文件中通过人名辨识及关联法则分析,找出频繁且共同出现的人名群(共犯)。
[0008]揭示寻找或检测多重身份的技术还有针对著作者身份的辨识(authorshipidentification)、线上书写辨识(online Writeprint identification)、著作者身份属性的辨识(authorship attribution identification)等文献。其中,有一种针对著作者身份的辨识技术是利用个人书写文字中的Ngram特征来比对多重分身;有一种针对著作者身份属性的辨识技术是通过可变长度的Ngram特征来比对多重分身。有一种针对著作者身份属性的辨识技术是通过以局部的统计图(local histogram)调整N-gram特征权重来比对多重分身。
[0009]在时下以及未来的网络上,一个良好的可疑的帐号群组的发掘技术须具有变异词扩充的语言模型调适功能,来分析帐号发文内容的语言风格的相似程度,进而找出语言风格同质性高的可疑帐号分身群组。并且,找出帐号分身之后,此技术也能结合通联分析技术,检视帐号之间的互动关联。此类可疑的帐号群组的发掘技术是一个待被深入探索的议题。

【发明内容】

[0010]本公开实施例可提供一种发掘可疑帐号的分身群组的方法与系统。
[0011]所公开的一实施例是关于一种发掘可疑帐号的分身群组的方法。此方法包含:在至少一硬件处理器的控制下,根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立此帐号的一语言模型(language model)来描述此帐号的语言风格,并且比较此第一组帐号的多个语言模型的相似度,以将此第一组帐号分群;以及针对在一第二时间区间内新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,并且将此多重变异词汇更新至一第二组帐号的多个语言模型,进而汇整此第一组帐号与此第二组帐号,并且将一组汇整后的帐号重新分群。
[0012]所公开的另一实施例是关于一种发掘可疑帐号的分身群组的系统。此系统包含:一语言模型训练装置(language model training device)、一帐号分群装置(accountclustering device) >一变异词辨识器(changed word identification device)、以及一渐进式帐号分群装置(incremental account clustering device)。此语言模型训练装置根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立此帐号的一语言模型来描述此帐号的语言风格。此帐号分群装置根据此第一组帐号所属的一第一组语言模型的相似度,将此第一组帐号分群。此变异词辨识器针对在一第二时间区间内,新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,并且将此多重变异词汇更新至一第二组帐号所属的一第二组语言模型。此渐进式帐号分群装置汇整此第一组帐号与此第二组帐号,并且将一组汇整后的帐号重新分群。
[0013]现在配合下列图示、实施例的详细说明及申请专利范围,将上述及本发明的其他优点详述于后。
【专利附图】

【附图说明】
[0014]图1是一种决定语句的主题的内文处理系统。
[0015]图2是根据本公开一实施例,说明一种发掘可疑帐号的分身群组的方法。
[0016]图3是根据本公开一实施例,从监控网站中下载的一组帐号及每一帐号各自对应的发文内容的范例。
[0017]图4是根据本公开一实施例的帐号分身群组的发文范例。
[0018]图5是根据本公开一实施例,分别从一目标视窗及一候选视窗取出其关键词汇序列模式的范例。
[0019]图6是根据本公开一实施例,采用机率式上下文无关的概念文法剖析的范例。
[0020]图7是根据本公开一实施例,通过双弯曲函数的转换,来计算变异词的权重的范例。
[0021]图8是根据本公开一实施例,说明渐进式分群算法的流程。
[0022]图9是根据本公开一实施例,说明一种发掘可疑帐号的分身群组的系统。[0023]【主要元件符号说明】
[0024]110主题向量处理器112输入语句
[0025]120训练语料
[0026]210根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立此帐号的一语言模型来描述此帐号的语言风格
[0027]220比较此第一组帐号的多个语言模型的相似度,以将此第一组帐号分群
[0028]230针对在一第二时间区间内,新增的多笔数据,挖掘出至少一监控词组的多重变异词汇
[0029]240将此多重变异词汇更新至一第二组帐号的多个语言模型,进而汇整此第一组帐号与此第二组帐号,并且将一组汇整后的帐号重新分群
[0030]600文法树610目标视窗T的发文
[0031]711~714四个双弯曲函数
[0032]810从一组帐号中取出第一笔帐号数据xl,并设定群组数目m等于I且Xl为群组Cl的一中心帐号
[0033]820从尚未分群的帐号中取出任一未分群的帐号xi,计算xi与目前所有群组(Cb-Cm)的中心帐号的相似度
[0034]830当xi与群组Cwin的中心帐号的相似度大于等于一阈值时,2 = win = m,则将xi归类为群组Cwin,并重新计算Cwin群组的中心帐号
[0035]840当xi与群组Cwin的中心帐号的相似度小于此阈值时,则设定群组数目m=m+l,以及xi为一新群组Cm的中心帐号。
[0036]900发掘可疑帐号的分身群组的系统
[0037]910语言模型训练装置920帐号分群装置
[0038]930变异词辨识器940渐进式帐号分群装置
[0039]932新增的多笔数据
【具体实施方式】
[0040]本公开实施例在信息传播及沟通媒介,如网络社群中,将可疑的帐号群组发掘出来。本公开实施例提出一种具有变异词扩充的语言模型调适技术,能够分析这些描述帐号的发文内容的语言风格的相似程度。此技术根据在一时间区间内一组帐号的每一帐号的发文内容,建立此帐号的一语言模型来描述此帐号的语言风格,以将此组帐号分群,并且在另一时间区间内,针对新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,以判断这些变异词汇的特征及其重要程度,再更新此另一时间区间内另一组帐号的每一帐号的语言模型,进一步更新帐号的分身群组的结果。[0041]承上述,图2是根据本公开一实施例,说明一种发掘可疑帐号的分身群组的方法。参考图2,此方法可在至少一硬件处理器的控制下,根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立此帐号的一语言模型来描述此帐号的语言风格(步骤210),并且比较此第一组帐号的多个语言模型的相似度,以将此第一组帐号分群(步骤220)。此方法针对在一第二时间区间内新增的多笔数据,挖掘出至少一监控词组的多重变异词汇(步骤230),并且将此多重变异词汇更新至一第二组帐号的多个语言模型,进而汇整此第一组帐号与此第二组帐号,并且将一组汇整后的帐号重新分群(步骤240)。
[0042]对于每一更新的时间区间,此方法可重复执行前述步骤230至步骤240,以持续发掘可疑帐号的分身群组。也就是说,此方法可针对在每一更新时间区间内新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,并且将此多重变异词汇更新至一个不同组帐号的多个语言模型,进而将此不同组帐号与其前一组帐号汇整后,重新分群,以持续发掘可疑帐号的分身群组。
[0043]承接上述,在步骤220中,此方法对于此第一组帐号的每一帐号,可计算及比较此第一组帐号所对应的此多个语言模型的相似度,并根据此相似度的比较结果来将此第一组帐号分群。在步骤230中,此方法可在此第一时间区间内,从一或多个监控网站中下载多笔新增数据,从其中的新增数据来挖掘至少一监控词组的多重变异词汇。对于每一更新时间区间,此方法可将多重变异词汇更新于既有的语言模型中,并且,针对此不同组帐号中与其前一组帐号不同的每一新帐号,重新建立此新帐号的一语言模型来描述其发文内容。然后,重新计算及比较此不同组帐号的多个语言模型的相似度,并根据重新比较的相似度结果,汇整此不同组帐号与其前一组帐号,并将一组汇整后的帐号重新分群。
[0044]上述步骤的一应用情境与细节说明如下。可先从一或多个网站来接收一监控网站列表及一指定时间,并取得一监控词组,此监控词组包含了多个词汇(phrase)。监控词组的范例如一组有关色情援交的关键词,例如是做援、兼差、援助、援交、兼职等。再根据此监控词组及此指定时间,从监控网站中下载此指定时间区间内的所有帐号及每一帐号对应的发文内容。根据一监控词组,从监控网站中下载的一组帐号(例如包括有帐号A与帐号B)及每一帐号各自对应的发文内容的范例如图3所示。
[0045]有了每一帐号对应的发文内容后,根据其发文内容来建立此发文内容对应的一语言模型,此语言模型可描述此帐号的语言风格。每一帐号对应的发文内容例如可先经过内文正规化处理后,再通过断词处理、以及语言风格特征提取后,即可训练出一语言模型。内文正规化处理是指针对一发文内容,将其统一资源定位符(Universal Resource Locator,URL)、电话、即时通(Windows Live Messenger,MSN)、电子邮件(Email)等进行正规化处理。将一发文内容进行正规化的范例如下。
[0046]正规化前的发文内容:…哥哥安安我是小薇34d/6k援交请洽0910220021…。
[0047]正规化后的发文内容:…哥哥安安我是小薇34d//6k援交请洽0910220021 (TEL)…。
[0048]一发文内容的断词处理例如可使用一词库长词优先断词方法。此断词方法是指利用一词库长词优先法断词器,将启始数据所属发文、以及候选存储库中的发文分别断词。例如,将上述正规化前的发文内容进行断词后的发文内容如下。哥哥□安安□我□是□小薇□ 34DdD/D6Dk □援交□请洽口 0910220021 …。[0049]词库长词优先法断词方法的范例简述如下。先将输入的句子从左至右取出η个字元,η为一预定的长度,并设定一起始索引(start index)的值为1、以及一结束索引(endindex)的值为η。然后将取出的η个字元进行词库索引搜寻,其搜寻深度为η ;当在词库索引中找到配对时,则传回(return)此η个字元,并设定此起始索引的值为1+η,结束索引的值为1+η+η;当无法找到配对时,则索引回到上一层,直到可以找到配对为止。找到时则设定此起始索引的值为Ι+k,结束索引的值为l+k+η,其中k表示索引深度为k时,找到配对的词汇。依此,重复执行前述步骤,直到此起始索引的值为-1,也就是输入的句子的都已经处理过了,此时即结束处理。
[0050]语言风格特征提取是指针对起始数据中每一帐号所属文章,通过特征提取如n-gram特征提取,提取出所属语言风格;将进行断词后的一发文内容通过n-gram特征提取的范例如下。
[0051]帐号A的发文内容:...安□我□叫□雪□儿□清纯□水□水□学生□妹□初次口兼职口 ! □...[0052]则帐号A的发文内容通过n-gram特征提取,n=5,所提取的n-gram如下:
[0053]安□我□叫、□我□叫□、我□叫□雪、□叫□雪□、叫□雪□儿、…。
[0054]然后利用所提取的n-gram,训练一语言模型。此语言模型的范例可以下列公式来表不。
【权利要求】
1.一种发掘可疑帐号的分身群组的方法,包含: 在至少一硬件处理器的控制下,; 根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立该帐号的一语言模型来描述该帐号的语言风格,并且比较该第一组帐号的多个语言模型的相似度,以将该第一组帐号分群;以及 针对在一第二时间区间内,新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,并且将该多重变异词汇更新至一第二组帐号的多个语言模型,进而汇整该第一组帐号与该第二组帐号,并且将一组汇整后的帐号重新分群。
2.如权利要求1所述的方法,该方法还包括: 针对在多个更新时间区间的每一更新时间区间内新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,并且将该多重变异词汇更新至或重建于一不同组帐号的多个语言模型,进而将该不同组帐号与其前一组帐号汇整后,重新分群,以持续发掘可疑帐号的分身群组。
3.如权利要求2所述的方法,该方法还包括: 针对在该每一更新时间区间内,将该多重变异词汇更新于既有的语言模型中,并且对该每一更新时间区 间中与与其前一组帐号不同的每一新帐号,重新建立该新帐号的一语言模型来描述其发文内容。
4.如权利要求1所述的方法,该方法还包括: 对于该第一组帐号的每一帐号,计算及比较该第一组帐号所对应的该多个语言模型的相似度,并根据该相似度的比较结果来将该第一组帐号分群。
5.如权利要求4所述的方法,该方法还包括: 重新计算及比较该第二组帐号的多个语言模型的相似度,并根据重新比较的相似度结果,汇整该第一组帐号与该第二组帐号,并将该组汇整后的帐号重新分群。
6.如权利要求1所述的方法,其中挖掘出该至少一监控词组的多重变异词汇通过该至少一监控词组中每一监控词的前后特征视窗,提取一或多个特征,来判断该新增的多笔数据中一或多个新词汇是否属于该监控词的变异词汇。
7.如权利要求6所述的方法,其中该一或多个特征是一关键词汇序列模式、一词性序列模式、一概念序列模式、以及一词汇字串相似度,之前述特征的其中一或两种以上的特征。
8.如权利要求1所述的方法,其中建立该帐号的该语言模型还包括: 将该帐号对应的发文内容通过断词处理、以及语言风格特征提取,来训练出该语言模型。
9.如权利要求1所述的方法,该方法还包括: 建立一词汇配对表,该词汇配对表中每一配对包含一第一词汇与一第二词汇,该第一词汇是该至少一监控词组中的一监控词汇,而该第二词汇是一候选变异词汇。
10.如权利要求9所述的方法,该方法还包括: 建立该配对的一目标视窗与一候选视窗,并分别从该目标视窗与该候选视窗提取一或多个特征;以及 整合该第一词汇与该第二词汇之间的一词汇距离和该一或多个不同特征的距离,并根据该整合的距离来计算该第一词汇与该第二词汇之间的相似度。
11.如权利要求1所述的方法,该方法还包括: 通过转换该至少一监控词组中每一词汇的一第一权重,得到该多重变异词汇中每一变异词汇的一第二权重,以将该多重变异词汇更新至该第二组帐号的该多个语言模型。
12.如权利要求1所述的方法,该方法还包括: 通过一渐进式分群算法,根据该第二组帐号的多个语言模型将该组汇整后的帐号重新分群,找出一或多个新的帐号分身群组。
13.一种发掘可疑帐号的分身群组的系统,包含: 一语言模型训练装置,根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立该帐号的一语言模型来描述该帐号的语言风格; 一帐号分群装置,根据建立的该第一组帐号的一第一组语言模型的相似度,来将该第一组帐号分群; 一变异词辨识器,针对在一第二时间区间内新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,该多重变异词汇被更新至一第二组帐号所属的一第二组语言模型;以及 一渐进式帐号分群装置,根据该第二组语言模型的相似度,汇整该第一组帐号与该第二组帐号,并将一组汇整后的帐号重新分群。
14.如权利要求13所述的系统,其中在多个更新时间区间的每一更新时间区间内,该变异词辨识器将该多重变异词汇更新于既有的语言模型中,并且对该每一更新时间区间中与其前一组帐号不同的每一新帐号,重新建立该新帐号的一语言模型来描述其发文内容。
15.如权利要求13所述的系统,其中该变异词辨识器通过该至少一监控词组中每一监控词的前后特征视窗,从中提取一或多个特征,来判断新增的该多笔数据中一或多个新词汇是否属于该监控词的变异词汇。
16.如权利要求15所述的系统,其中该一或多个特征是一关键词汇序列模式、一词性序列模式、一概念序列模式、以及一词汇字串相似度的前述特征的其中一或两种以上的特征。
17.如权利要求13所述的系统,该系统还包括: 一词汇配对表,该词汇配对表中每一配对包含该至少一监控词组中的一监控词汇,以及该监控词汇的一候选变异词汇。
18.如权利要求17所述的系统,其中该变异词辨识器针对该词汇配对表中每一配对中的该监控词汇与该候选变异词,分别取其所属发文中的部分词汇并分别存成一目标视窗及一候选视窗。
19.如权利要求18所述的系统,其中该变异词辨识器从该目标视窗与该候选视窗提取一或多个特征。
【文档编号】G06F17/30GK103631834SQ201210379865
【公开日】2014年3月12日 申请日期:2012年10月9日 优先权日:2012年8月21日
【发明者】沈民新, 李青宪, 邱中人 申请人:财团法人工业技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1