一种数据处理的方法及装置与流程

文档序号:12120905阅读:来源:国知局

技术特征:

1.一种数据处理的方法,其特征在于,包括:

获取至少一个目标地址;

从每个所述目标地址对应的网页中,抽取每个所述目标地址对应的目标数据;

对各个所述目标地址对应的目标数据进行排重处理。

2.根据权利要求1所述的方法,其特征在于,

所述对各个所述目标地址对应的目标数据进行排重处理,包括:

针对每个目标地址对应的目标数据,从当前目标数据中抽取预设数量个出现次数最多的关键词,确定每个所述关键词的出现次数;

计算每个所述关键词的哈希值;

根据公式一确定所述当前目标数据的每个所述关键词的关键词相似参数,其中,所述公式一为:

<mrow> <msub> <mi>W</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <msub> <mi>X</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> </msup> <msub> <mi>N</mi> <mi>j</mi> </msub> <mo>,</mo> </mrow>

其中,Wi为所述当前目标数据的第j个关键词的第i个关键词相似参数,Xj,i为所述当前目标数据的所述第j个关键词的哈希值从右开始的第i位的值,Nj为所述当前目标数据的所述第j个关键词的出现次数;

根据公式二确定所述当前目标数据的每个目标数据相似参数,其中,所述公式二为:

<mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>W</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>,</mo> </mrow>

其中,Ai为所述当前目标数据的第i个目标数据相似参数,n为所述预设数量;

根据公式三,确定所述当前目标数据的最终相似参数,其中,所述公式三为:

<mrow> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>&gt;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>&le;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>

其中,Bi为所述当前目标数据的最终相似参数从右开始的第i位的值;

根据公式四,确定每两个所述目标地址对应的目标数据的综合相似参数,其中,所述公式四为:

C=D xor F,

其中,D为第一目标数据的最终相似参数,F为第二目标数据的最终相似参数,C为所述第一目标数据和所述第二目标数据的综合相似参数;

判断每两个目标数据的综合相似参数中1的个数是否小于等于预设个数,如果是,确定当前两个目标数据相似,否则,确定当前两个目标数据不相似;

排除每两个相似的目标数据中的任意一个目标数据。

3.根据权利要求1所述的方法,其特征在于,

在所述获取至少一个目标地址之前,进一步包括:

预先设置目标网站对应的地址解析规则;

所述获取至少一个目标地址,包括:

根据所述地址解析规则,确定所述目标网站对应的至少一个目标地址。

4.根据权利要求3所述的方法,其特征在于,

所述预先设置目标网站对应的地址解析规则,包括:

确定所述目标网站的地址构建规则;

根据所述地址构建规则,设置所述地址解析规则。

5.根据权利要求3或4所述的方法,其特征在于,

所述根据所述地址解析规则,确定所述目标网站对应的至少一个目标地址,包括:

根据所述地址解析规则,解析出所述目标网址对应的至少一个待处理地址;

对所述至少一个待处理地址进行排重处理,将排重处理后剩余的待处理地址作为所述目标地址。

6.一种数据处理的装置,其特征在于,包括:

获取单元,用于获取至少一个目标地址;

抽取单元,用于从每个所述目标地址对应的网页中,抽取每个所述目标地址对应的目标数据;

排重单元,用于对各个所述目标地址对应的目标数据进行排重处理。

7.根据权利要求6所述的装置,其特征在于,

所述排重单元,具体用于:

针对每个目标地址对应的目标数据,从当前目标数据中抽取预设数量个出现次数最多的关键词,确定每个所述关键词的出现次数;

计算每个所述关键词的哈希值;

根据公式一确定所述当前目标数据的每个所述关键词的关键词相似参数,其中,所述公式一为:

<mrow> <msub> <mi>W</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <msub> <mi>X</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> </msup> <msub> <mi>N</mi> <mi>j</mi> </msub> <mo>,</mo> </mrow>

其中,Wi为所述当前目标数据的第j个关键词的第i个关键词相似参数,Xj,i为所述当前目标数据的所述第j个关键词的哈希值从右开始的第i位的值,Nj为所述当前目标数据的所述第j个关键词的出现次数;

根据公式二确定所述当前目标数据的每个目标数据相似参数,其中,所述公式二为:

<mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>W</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>,</mo> </mrow>

其中,Ai为所述当前目标数据的第i个目标数据相似参数,n为所述预设数量;

根据公式三,确定所述当前目标数据的最终相似参数,其中,所述公式三为:

<mrow> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>&gt;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>&le;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>

其中,Bi为所述当前目标数据的最终相似参数从右开始的第i位的值;

根据公式四,确定每两个所述目标地址对应的目标数据的综合相似参数,其中,所述公式四为:

C=D xor F,

其中,D为第一目标数据的最终相似参数,F为第二目标数据的最终相似参数,C为所述第一目标数据和所述第二目标数据的综合相似参数;

判断每两个目标数据的综合相似参数中1的个数是否小于等于预设个数,如果是,确定当前两个目标数据相似,否则,确定当前两个目标数据不相似;

排除每两个相似的目标数据中的任意一个目标数据。

8.根据权利要求6所述的装置,其特征在于,

进一步包括:设置单元,用于设置目标网站对应的地址解析规则;

所述获取单元,用于根据所述地址解析规则,确定所述目标网站对应的至少一个目标地址。

9.根据权利要求8所述的装置,其特征在于,

所述设置单元,用于确定所述目标网站的地址构建规则,根据所述地址构建规则,设置所述地址解析规则。

10.根据权利要求8或9所述的装置,其特征在于,

所述所述获取单元,用于根据所述地址解析规则,解析出所述目标网址对应的至少一个待处理地址,对所述至少一个待处理地址进行排重处理,将排重处理后剩余的待处理地址作为所述目标地址。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1