一种基于大数据的网络文章转发识别方法与流程

文档序号：12063795阅读：来源：国知局

技术特征：

1.一种基于大数据的网络文章转发识别方法，其特征在于：通过搜索引擎定时且不间断的在互联网上采集各种类型文章，依据所集文章建立文章数据仓库，而后，确认需要识别的文章及其转发类型，若转发文章标出文章来源，则为显式转发文章，若转发文章未标出文章的来源，则为隐式转发文章；

对于显式转发文章，其转发识别方法包括如下步骤：

步骤A1：设置初始集合S为空集，将待识别的文章A的链接放入集合S；

步骤A2：设置一个临时集合C为空集；

步骤A3：取出集合S中的元素，与数据仓库中的其他文章的传播链接进行逐一匹配，若匹配成功，则将该匹配成功的文章P的链接加入集合C，反之，若匹配失败，则继续与数据仓库中的下一篇文章的传播链接进行匹配；

步骤A4：清空集合S中的元素，将C中所有元素加入S，清空集合C；

步骤A5：重复步骤A2至A4，直到集合S为空集；

步骤A6：根据步骤A3所获传播链接的传播时间的先后重新排列链接；

对于隐式转发文章，其转发识别方法包括如下步骤：

步骤B1：提取数据仓库中的所有文章的关键信息，并根据各自的关键信息计算得到各自的64位模糊Hash值；

步骤B2：设置初始集合S1，将待识别文章A的64位模糊Hash值与数据仓库中所有文章的模糊Hash值的逐一比对，找到与文章A有关联的文章Pm的模糊Hash值，并进一步查找出该类文章的具体内容，放入集合S1：

S1{P1、P2、P3……Pm}

步骤B3：依次提取集合S1中的文章Pm，将文章A与取出的文章Pm分别对应分解为两个字序列X，Y，其长度分别对应为N、T，其中N≥T，定义序列X到序列Y中的点到点的距离函数为：

其中表示序列X中序号为i的字，表示序列Y中序号为j的字，若则表示两个字相同，距离为0，若则表示两个字不同，距离为1；

步骤B4：定义X序列的字与Y序列的字之间的对应关系，根据对应关系计算得到两篇文章序列之间的的累计距离，其中：

的可能值为1到N，的可能值为1到T，即解出T个从序列X到序列Y的对应关系，即解出T个累计距离，若，则表明X序列的第一个点与Y序列的第一个点就是一个对应关系；

步骤B5：设定初始空集S2，设定转发判定阈值H，将计算得到的T个距离累计值放入集合S2，并从中筛选出最小的累计距离值，若最小距离值 ≦H，则文章A与文章Pm之间为转发关系，若最小距离值 ﹥H，则两文章之间不存在转发的关系；

步骤B6：设定初始空集S3，重复步骤B3至B5，直至集合S1为空集，并将找到的与A存在转发关系的文章Pe（0≦e≦m）放入集合S3；

步骤B7：根据文章Pe传播时间的先后重新排列，该排列的首篇文章即为源文章。

2.根据权利要求1所述的网络文章转发识别方法，其特征在于：所述步骤B2进一步包括：

步骤B21：建立倒排索引表，针对待识别的文章A，将其的64位模糊Hash值分为4块，每块16位，根据每个块值分别查询4张倒排索引表，得到与A的模糊Hash值的汉明距离在3以内的文章Pm的模糊Hash值；

步骤B22：根据步骤B21所得模糊Hash值，查询出该类文章的ID，通过按域搜索，查找出所有这些文章的的具体内容，放入集合S1。

3.根据权利要求1所述的网络文章转发识别方法，其特征在于：所述步骤B1中的文章关键信息包括，文章作者、文章链接、文章标题、文章发表时间、文章内容、传播链接、文章关键词、文章摘要。

4.根据权利要求1所述的网络文章转发识别方法，其特征在于：所述判定阈值H优选为0.15T。

5.根据权利要求1所述的网络文章转发识别方法，其特征在于：所述步骤B6中的e的值为0的时候，P₀仅为结果值，文章P₀不存在，即文章A未存在有转发关系的文章。

完整全部详细技术资料下载

当前第2页1 2 3