一种中文文本相似度的检测方法及检测装置与流程

文档序号:12120894阅读:来源:国知局

技术特征:

1.一种中文文本相似度的检测方法,其特征在于,所述检测方法包括:

步骤一:对中文本中的各个高频字进行拆分,获得多个部件及各部件之间的关联频次;

步骤二:根据所述多个部件及各部件之间的关联频次,绘制对应中文文本的部件关联图;

步骤三:基于所述中文文本的部件关联图,计算待检测文本与参照文本的相似度。

2.根据权利要求1所述的中文文本相似度的检测方法,其特征在于,在步骤一之前,所述检测方法包括:

对中文文本进行预处理,获取高频字。

3.根据权利要求2所述的中文文本相似度的检测方法,其特征在于,所述获取高频字的方法包括:

删除所述中文文本中的停用字、无用字;

从删除后的文本中抽取中文文字;

统计各所述中文文字的出现频率;

按照设定的频率比例,从所述中文文字中筛选高频字。

4.根据权利要求1所述的中文文本相似度的检测方法,其特征在于,所述获得多个部件及各部件之间的关联频次的方法包括:

根据汉子数学表达式将中文本中的各个高频字拆分,分别获得关于部件的集合;

根据各部件的集合中确定不同部件出现的频次,并对各不同的部件依次进行编号;

根据部件的集合确定各部件之间的关联频次。

5.根据权利要求1所述的中文文本相似度的检测方法,其特征在于,所述部件关联图的包括单个部件的部件关联簇图和整个文本的部件关联全图;

其中,所述基于所述中文文本的部件关联图,计算待检测文本与参照文本的相似度的方法包括:

步骤31:根据以下公式确定待检测文本B与参照文本A中相同部件i的部件关联簇图的相似度sim(Ci,C′i):

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mi>C</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mfrac> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;W</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>&times;</mo> <mn>1</mn> <mo>{</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>=</mo> <msubsup> <mi>C</mi> <mi>k</mi> <mo>&prime;</mo> </msubsup> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中,i、k分别表示中文文本中部件号,i=1,...,n、k=1,...,n、i≠k,Ci表示参照文本A中第i号部件,C′i表示待检测文本B中第i号部件,Wik表示参照文本A中第i号部件与第k号的关联频次,W′ik表示待检测文本B中第i号部件与第k号的关联频次,min(Wik,W′ik)表示待检测文本B与参照文本A中分别第i号部件与第k号部件关联频次的最小值,∑Wi表示参照文本A中所有第i号部件关联频次的总和,×1{Ck=C′k}表示若待检测文本B与参照文本A中第i号部件都同时与第k号部件关联,则将关联度加入第i号部件的关联簇结果中,否则忽略;

步骤32:根据以下公式确定待检测文本B中全部部件的部件关联簇图相似度的比例和sim(C,C'):

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>,</mo> <msup> <mi>C</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>F</mi> <msubsup> <mi>C</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> </msub> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mi>C</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中,表示在待检测文本B与参照文本A中第i号部件的部件关联簇图的相似度占待检测文本B中部件关联簇图相似度的比例;

步骤33:根据以下公式确定待检测文本B与参照文本A中的部件关联全图的相似度sim(CRM(A),CRM(B)):

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mo>(</mo> <mi>A</mi> <mo>)</mo> <mo>,</mo> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mo>(</mo> <mi>B</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mfrac> <mrow> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>&cap;</mo> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>&cup;</mo> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>&cap;</mo> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&Sigma;</mi> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>D</mi> <msub> <mi>c</mi> <mi>i</mi> </msub> </msub> <mo>,</mo> <msub> <mi>D</mi> <msubsup> <mi>c</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>i</mi> <mo>&times;</mo> <mn>1</mn> <mo>{</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>=</mo> <msubsup> <mi>C</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>&cup;</mo> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&Sigma;</mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>D</mi> <msub> <mi>c</mi> <mi>i</mi> </msub> </msub> <mo>,</mo> <msub> <mi>D</mi> <msubsup> <mi>c</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>i</mi> <mo>&times;</mo> <mn>1</mn> <mo>{</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>=</mo> <msubsup> <mi>C</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>}</mo> <mo>+</mo> <msub> <mi>&Sigma;D</mi> <msub> <mi>C</mi> <mi>j</mi> </msub> </msub> <mo>&times;</mo> <mi>j</mi> <mo>+</mo> <msub> <mi>&Sigma;D</mi> <msubsup> <mi>C</mi> <mi>k</mi> <mo>&prime;</mo> </msubsup> </msub> <mo>&times;</mo> <mi>k</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中,CRM(A)∩CRM(B)表示待检测文本B与参照文本A中部件关联的相同部分,CRM(A)∪CRM(B)表示待检测文本B与参照文本A中部件关联的总和,表示待检测文本B与参照文本A分别第i号部件关联与其他部件的关联频次之和的最小值,表示待检测文本B与参照文本A中分别第i号部件关联与其他部件的关联频次之和的最大值,×1{Ci=Ci'}表示若待检测文本B与参照文本A中都有第i号部件才对其进行计算,否则忽略,表示所有在参照文本A中出现但在待检测文本B中不出现的部件j与其他部件的关联频次之和,乘以部件号,再求和,表示所有在待检测文本B中出现但在参照文本A中不出现的部件j与其他部件的关联频次之和,乘以部件号,再求和;

步骤34:根据以下公式确定计算待检测文本B与参照文本A的相似度sim(A,B):

sim(A,B)=α×sim(C,C′)+(1-α)×sim(CRM(A),CRM(B))---------(6);

其中,α为系统参考系数。

6.根据权利要求5所述的中文文本相似度的检测方法,其特征在于,α的初始值为0.5,之后按照设定比例增减以计算相似度sim(A,B),根据相似度sim(A,B)调整α的数值。

7.根据权利要求1-6中任一项所述的中文文本相似度的检测方法,其特征在于,所述检测方法还包括:

根据各部件出现频次绘制部件直方图。

8.一种中文文本相似度的检测装置,其特征在于,所述检测装置包括:

拆分单元,用于对中文本中的各个高频字进行拆分,获得多个部件及各部件之间的关联频次;

绘图单元,用于根据所述多个部件及各部件之间的关联频次,绘制对应中文文本的部件关联图;

计算单元,用于基于所述中文文本的部件关联图,计算待检测文本与参照文本的相似度。

9.根据权利要求8所述的中文文本相似度的检测装置,其特征在于,所述检测装置还包括:

预处理单元,与所述拆分单元连接,用于对中文文本进行预处理,获取高频字。

10.根据权利要求8所述的中文文本相似度的检测装置,其特征在于,所述,所述部件关联图的包括单个部件的部件关联簇图和整个文本的部件关联全图;

其中,计算单元包括:

关联簇图计算模块,用于根据以下公式确定待检测文本B与参照文本A中相同部件i的部件关联簇图的相似度sim(Ci,C′i):

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mi>C</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mfrac> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;W</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>&times;</mo> <mn>1</mn> <mo>{</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>=</mo> <msubsup> <mi>C</mi> <mi>k</mi> <mo>&prime;</mo> </msubsup> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中,i、k分别表示中文文本中部件号,i=1,...,n、k=1,...,n、i≠k,Ci表示参照文本A中第i号部件,C′i表示待检测文本B中第i号部件,Wik表示参照文本A中第i号部件与第k号的关联频次,W′ik表示待检测文本B中第i号部件与第k号的关联频次,min(Wik,W′ik)表示待检测文本B与参照文本A中分别第i号部件与第k号部件关联频次的最小值,∑Wi表示参照文本A中所有第i号部件关联频次的总和,×1{Ck=C′k}表示若待检测文本B与参照文本A中第i号部件都同时与第k号部件关联,则将关联度加入第i号部件的关联簇结果中,否则忽略;

比例计算模块,用于根据以下公式确定待检测文本B中全部部件的部件关联簇图相似度的比例和sim(C,C'):

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>,</mo> <msup> <mi>C</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>F</mi> <msubsup> <mi>C</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> </msub> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mi>C</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中,表示在待检测文本B与参照文本A中第i号部件的部件关联簇图的相似度占待检测文本B中部件关联簇图相似度的比例;

关联全图计算模块,用于根据以下公式确定待检测文本B与参照文本A中的部件关联全图的相似度sim(CRM(A),CRM(B)):

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mo>(</mo> <mi>A</mi> <mo>)</mo> <mo>,</mo> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mo>(</mo> <mi>B</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mfrac> <mrow> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>&cap;</mo> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>&cup;</mo> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>&cap;</mo> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&Sigma;</mi> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>D</mi> <msub> <mi>c</mi> <mi>i</mi> </msub> </msub> <mo>,</mo> <msub> <mi>D</mi> <msubsup> <mi>c</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>i</mi> <mo>&times;</mo> <mn>1</mn> <mo>{</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>=</mo> <msubsup> <mi>C</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>&cup;</mo> <mi>C</mi> <mi>R</mi> <mi>M</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&Sigma;</mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>D</mi> <msub> <mi>c</mi> <mi>i</mi> </msub> </msub> <mo>,</mo> <msub> <mi>D</mi> <msubsup> <mi>c</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>i</mi> <mo>&times;</mo> <mn>1</mn> <mo>{</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>=</mo> <msubsup> <mi>C</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>}</mo> <mo>+</mo> <msub> <mi>&Sigma;D</mi> <msub> <mi>C</mi> <mi>j</mi> </msub> </msub> <mo>&times;</mo> <mi>j</mi> <mo>+</mo> <msub> <mi>&Sigma;D</mi> <msubsup> <mi>C</mi> <mi>k</mi> <mo>&prime;</mo> </msubsup> </msub> <mo>&times;</mo> <mi>k</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中,CRM(A)∩CRM(B)表示待检测文本B与参照文本A中部件关联的相同部分,CRM(A)∪CRM(B)表示待检测文本B与参照文本A中部件关联的总和,表示待检测文本B与参照文本A分别第i号部件关联与其他部件的关联频次之和的最小值,表示待检测文本B与参照文本A中分别第i号部件关联与其他部件的关联频次之和的最大值,×1{Ci=Ci'}表示若待检测文本B与参照文本A中都有第i号部件才对其进行计算,否则忽略,表示所有在参照文本A中出现但在待检测文本B中不出现的部件j与其他部件的关联频次之和,乘以部件号,再求和,表示所有在待检测文本B中出现但在参照文本A中不出现的部件j与其他部件的关联频次之和,乘以部件号,再求和;

相似度计算模块,分别与比例计算模块和关联全图计算模块连接,用于根据以下公式确定计算待检测文本B与参照文本A的相似度sim(A,B):

sim(A,B)=α×sim(C,C′)+(1-α)×sim(CRM(A),CRM(B))---------(6);

其中,α为系统参考系数。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1