一种基于大数据的网络文章转发识别方法与流程

文档序号:12063795阅读:来源:国知局

技术特征:

1.一种基于大数据的网络文章转发识别方法,其特征在于:通过搜索引擎定时且不间断的在互联网上采集各种类型文章,依据所集文章建立文章数据仓库,而后,确认需要识别的文章及其转发类型,若转发文章标出文章来源,则为显式转发文章,若转发文章未标出文章的来源,则为隐式转发文章;

对于显式转发文章,其转发识别方法包括如下步骤:

步骤A1:设置初始集合S为空集,将待识别的文章A的链接放入集合S;

步骤A2:设置一个临时集合C为空集;

步骤A3:取出集合S中的元素,与数据仓库中的其他文章的传播链接进行逐一匹配,若匹配成功,则将该匹配成功的文章P的链接加入集合C,反之,若匹配失败,则继续与数据仓库中的下一篇文章的传播链接进行匹配;

步骤A4:清空集合S中的元素,将C中所有元素加入S,清空集合C;

步骤A5:重复步骤A2至A4,直到集合S为空集;

步骤A6:根据步骤A3所获传播链接的传播时间的先后重新排列链接;

对于隐式转发文章,其转发识别方法包括如下步骤:

步骤B1:提取数据仓库中的所有文章的关键信息,并根据各自的关键信息计算得到各自的64位模糊Hash值;

步骤B2:设置初始集合S1,将待识别文章A的64位模糊Hash值与数据仓库中所有文章的模糊Hash值的逐一比对,找到与文章A有关联的文章Pm的模糊Hash值,并进一步查找出该类文章的具体内容,放入集合S1:

S1{P1、P2、P3……Pm}

步骤B3:依次提取集合S1中的文章Pm,将文章A与取出的文章Pm分别对应分解为两个字序列X,Y,其长度分别对应为N、T,其中N≥T,定义序列X到序列Y中的点到点的距离函数为:

其中 表示序列X中序号为i的字, 表示序列Y中序号为j的字,若 则表示两个字相同,距离为0,若 则表示两个字不同,距离为1;

步骤B4:定义X序列的字与Y序列的字之间的对应关系 ,根据对应关系计算得到两篇文章序列之间的的累计距离 ,其中:

的可能值为1到N, 的可能值为1到T, 即解出T个从序列X到序列Y的对应关系, 即解出T个累计距离,若 ,则表明X序列的第一个点与Y序列的第一个点就是一个对应关系;

步骤B5:设定初始空集S2,设定转发判定阈值H,将计算得到的T个距离累计值 放入集合S2,并从中筛选出最小的累计距离值 ,若最小距离值 ≦H,则文章A与文章Pm之间为转发关系,若最小距离值 ﹥H,则两文章之间不存在转发的关系;

步骤B6:设定初始空集S3,重复步骤B3至B5,直至集合S1为空集,并将找到的与A存在转发关系的文章Pe(0≦e≦m)放入集合S3;

步骤B7:根据文章Pe传播时间的先后重新排列,该排列的首篇文章即为源文章。

2.根据权利要求1所述的网络文章转发识别方法,其特征在于:所述步骤B2进一步包括:

步骤B21:建立倒排索引表,针对待识别的文章A,将其的64位模糊Hash值分为4块,每块16位,根据每个块值分别查询4张倒排索引表,得到与A的模糊Hash值的汉明距离在3以内的文章Pm的模糊Hash值;

步骤B22:根据步骤B21所得模糊Hash值,查询出该类文章的ID,通过按域搜索,查找出所有这些文章的的具体内容,放入集合S1。

3.根据权利要求1所述的网络文章转发识别方法,其特征在于:所述步骤B1中的文章关键信息包括,文章作者、文章链接、文章标题、文章发表时间、文章内容、传播链接、文章关键词、文章摘要。

4.根据权利要求1所述的网络文章转发识别方法,其特征在于:所述判定阈值H优选为0.15T。

5.根据权利要求1所述的网络文章转发识别方法,其特征在于:所述步骤B6中的e的值为0的时候,P0仅为结果值,文章P0不存在,即文章A未存在有转发关系的文章。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1