基于多个语义摘要的内容相似性分析方法

文档序号：10687112阅读：203来源：国知局

基于多个语义摘要的内容相似性分析方法
【专利摘要】本发明公开了一种基于多个语义摘要的内容相似性分析方法，包括以下步骤：1）将输入资讯切分成为若干片段；2）在输入资讯的若干片段中选择出若干关键片段；3）分别在每个关键片段中获取若干语义摘要并转换成为摘要向量；4）根据输入资讯的摘要向量组召回候选资讯；5）将输入资讯与候选资讯进行比对，并且判断输入资讯与候选资讯是否相似。采用上述技术方案，能够准确地对资讯内容的语义进行判断，通过多个语义摘要而非标题对资讯内容进行归集，从而将相同或近似的资讯内容归集在一簇搜索结果集中，便于资讯内容的存储和再加工使用。
【专利说明】
基于多个语义摘要的内容相似性分析方法
技术领域
[0001]本发明涉及一种基于多个语义摘要的内容相似性分析方法，属于互联网信息采集技术领域。
【背景技术】
[0002]互联网上传播的资讯内容在传播过程中通常会经过修改、再次编辑等业务操作，从而导致原始资讯内容和修改后的资讯内容存在一些差异;但其主要内容又相近或相似。现有技术中对于这种相似内容的识别，主要还是依靠标题相似度来识别，例如搜索引擎中常用的新闻标题搜索功能，通常是根据标题相同的资讯内容归集在一簇搜索结果集中，而实际上同一内容的资讯在传播过程中往往会被不同媒体或平台的编辑修改为多个不同的标题，此时标题修改的操作就会导致相同或相似资讯内容被识别为不同，进而分散在多簇搜索结果集中。现有技术仅靠标题进行识别的方法，一方面会导致存储资源的过度占用，另一方面也容易使针对于同一资讯内容的搜索结果无法得到充分利用。而现有技术中所公开的诸多判断内容相似性的分析方法，也并未解决上述技术问题，同时在相似性分析中对全文所有词语进行分析，耗费资源也较多。例如中国专利文献CN1470047A公开了一种用于文档的向量分析方法，用于从一给定的文档抽取重要句子和确定两个文档的相似性，具体地，监测在每个输入文档中出现的词语，将每个输入文档分割为文档段，生成文档段向量，每个向量包含所述词语在各个所述文档段中的出现频率作为其元素值，多两个输入文档中的每个计算包含于各个输入文档中的所述文档段向量的所有两两组合的内积的平方，以及根据所述内积的平方的和确定这两个输入文档间的所述相似性。再如中国专利文献CN1959671A也公开了一种基于文档结构的文档相似性度量方法，对于待比较的两个文档利用文档结构分析方法分别得到两个文档的子主题序列，对其中一个文档的子主题序列中的每一个子主题分别与另一文档子主题序列中的每一子主题利用相似性度量方法计算相似度值，而后建立带权二部图并求解最优匹配，对最优匹配的总权值进行规范化处理，即得到两个文档的相似度值。再如中国专利文献CN103389987A也公开了一种文本相似性比较方法，通过提取各待分析文件的各特征向量及各特征向量的值并将各特征向量的值与待比较稳健的各特征向量的值进行比较，得到各待分析文件间的相似度。诸如此类的相似性分析方法还有很多，但均未解决上述技术问题。

【发明内容】

[0003]因此，本发明的目的在于提供一种基于多个语义摘要的内容相似性分析方法，既能够克服现有技术中通过标题进行识别的方法容易使针对于同一资讯内容的搜索结果无法得到充分利用的缺陷，又能够克服全文识别造成耗费资源较多的缺陷。
[0004]为了实现上述目的，本发明的一种基于多个语义摘要的内容相似性分析方法，包括以下步骤:
[0005]I)将输入资讯切分成为若干片段；
[0006]2)在输入资讯的若干片段中选择出若干关键片段；
[0007]3)分别在每个关键片段中获取若干语义摘要并转换成为摘要向量；
[0008]4)根据输入资讯的摘要向量组召回候选资讯；
[0009]5)将输入资讯与候选资讯进行比对，并且判断输入资讯与候选资讯是否相似。
[0010]所述步骤5包括以下步骤:
[0011]51)将候选咨询切分成为若干片段;在候选咨询的若干片段中选择出若干关键片段;分别在每个候选咨询的关键片段中获取若干语义摘要并转换成为摘要向量；
[0012]52)将输入资讯的关键片段中的摘要向量与对应的候选资讯的关键片段中的摘要向量进行比对，并且获得进行比对的关键片段的相似度，当相似度大于指定阈值时则判定为进行比对的关键片段相似；
[0013]53)获得输入资讯与候选资讯的相似度，当相似度大于指定阈值时则判定为输入资讯与候选资讯相似。
[0014]所述步骤52中，获得进行比对的关键片段的相似度包括以下步骤:将输入资讯的关键片段与对应的候选资讯的关键片段中的两个向量转换成为元素集合A和B，进行比对的关键片段的相似度则为元素集合A与元素集合B的交集元素个数与并集元素个数之比；
[0015]所述步骤53中，获得输入资讯与候选资讯的相似度包括以下步骤:
[0016]531)获取输入资讯与候选资讯中，关键片段的总数量，相似关键片段的数量，并且计算去重后的关键片段的剩余数量；
[0017]532)计算相似关键片段的数量与去重后的关键片段的剩余数量的比值，得到输入资讯与候选资讯的相似度。
[0018]所述步骤I或步骤51中，基于语法规则将输入资讯或候选资讯切分为完整的中文语句，每一中文语句为一所述片段。
[0019]所述步骤2或步骤51中，参考片断在段落中或文章中出现的位置、片段内容的长度、以及结合语法分析的结果，并将这些因素设置成不同的权重，计算每个片断的权重和，从而选择关键片断。
[0020]所述步骤3包括以下步骤:对关键片断进行分词后，基于短语、权重高的实体词组成的语义摘要，转换成该内容片断的摘要向量，用短语、实体词的crc32进行表示。
[0021 ]采用上述技术方案，本发明的基于多个语义摘要的内容相似性分析方法，能够准确地对资讯内容的语义进行判断，通过多个语义摘要而非标题对资讯内容进行归集，从而将相同或近似的资讯内容归集在一簇搜索结果集中，便于资讯内容的存储和再加工使用。
【具体实施方式】
[0022]以下通过【具体实施方式】对本发明作进一步的详细说明。
[0023]本实施例提供一种基于多个语义摘要的内容相似性分析方法，包括以下步骤:
[0024]I)将输入资讯切分成为若干片段；
[0025]资讯内容作为网站发布的内容页正文，一般符合中文语法规则.为此该步骤中可以基于语法规则将输入资讯或候选资讯切分为完整的中文语句，每一中文语句为一所述片段。切分时尽量把资讯内容文本切分为完整的中文语句，例如基于标点符号来切分，如问号、句号等，在切分过程中需要考虑标点符号的全半角形式。
[0026]2)在输入资讯的若干片段中选择出若干关键片段；
[0027]参考片断在段落中或文章中出现的位置、片段内容的长度、以及结合语法分析的结果，并将这些因素设置成不同的权重，计算每个片断的权重和，从而选择关键片断。按照“文章头部或尾部〉段落头部或尾部〉段落中间”的规则的来调整位置权重。句子成分是由词或者短语充当的，其中短语的权重高于词的权重;对于各种类型的词，其实体词，如地名、人名、名词等，权重也比较高；文本片断长度影响词数，从而影响权重计算。计算各文本内容片断的权重，并根据内容的长度选择关键片段，通常关键片段数为总片段数的1/5?1/3。
[0028]3)分别在每个关键片段中获取若干语义摘要并转换成为摘要向量；
[0029]对关键片断进行分词后，基于短语、权重高的实体词组成的语义摘要，转换成该内容片断的摘要向量，用短语、实体词的crc32进行表示，这样对于一个内容片断，则通过一个向量(al，a2，a3...)来表示。这样对于一个单篇资讯，则可以通过多个关键内容片断的向量组来表示，例如:
[0030]关键片断&:(31，&2，33...);
[0031]关键片断b:(bl，b2，b3 …);
[0032]关键片断c:(cl，c2，c3...)。
[0033]4)根据输入资讯的摘要向量组召回候选资讯；
[0034]5)将输入资讯与候选资讯进行比对，并且判断输入资讯与候选资讯是否相似。
[0035]所述步骤5包括以下步骤:
[0036]51)将候选咨询切分成为若干片段;在候选咨询的若干片段中选择出若干关键片段;分别在每个候选咨询的关键片段中获取若干语义摘要并转换成为摘要向量；
[0037]52)将输入资讯的关键片段中的摘要向量与对应的候选资讯的关键片段中的摘要向量进行比对，并且获得进行比对的关键片段的相似度，当相似度大于指定阈值时则判定为进行比对的关键片段相似；
[0038]53)获得输入资讯与候选资讯的相似度，当相似度大于指定阈值时则判定为输入资讯与候选资讯相似。
[0039]所述步骤52中，获得进行比对的关键片段的相似度包括以下步骤:将输入资讯的关键片段与对应的候选资讯的关键片段中的两个向量转换成为元素集合A和B，进行比对的关键片段的相似度则为元素集合A与元素集合B的交集元素个数与并集元素个数之比值；
[0040]所述步骤53中，获得输入资讯与候选资讯的相似度包括以下步骤:
[0041]531)获取输入资讯与候选资讯中，关键片段的总数量，相似关键片段的数量，并且计算去重后的关键片段的剩余数量；
[0042]532)计算相似关键片段的数量与去重后的关键片段的剩余数量的比值，得到输入资讯与候选资讯的相似度。
[0043]对于关键片断的相似阀值，主要根据并集元素个数来调整。如对于两个各包含10个元素的关键片断，通常设置其相似阀值为0.65，则至少需要8个元素相同，即计算公式为交集元素个数8与并集元素个数12比值，等于0.67。
[0044]对于资讯的相似阀值，主要根据关键片断数来调整。对于关键片断数较少的资讯，其阀值高，例如关键片断数为6时，通常设置其阀值为0.7，则至少需要5个关键片断相似;片断较多的资讯，其阀值较低，例如关键片断数为10时，通常设置其阀值为0.4，则至少需要6个关键片断相似。
[0045]需要基于大批语料分析结果来进行调整片断数与资讯相似阀值的对应关系。
[0046]采用上述技术方案，本发明的基于多个语义摘要的内容相似性分析方法，能够准确地对资讯内容的语义进行判断，通过多个语义摘要而非标题对资讯内容进行归集，从而将相同或近似的资讯内容归集在一簇搜索结果集中，便于资讯内容的存储和再加工使用。
[0047]显然，上述实施例仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
【主权项】
1.一种基于多个语义摘要的内容相似性分析方法，其特征在于，包括以下步骤: 1)将输入资讯切分成为若干片段； 2)在输入资讯的若干片段中选择出若干关键片段； 3)分别在每个关键片段中获取若干语义摘要并转换成为摘要向量； 4)根据输入资讯的摘要向量组召回候选资讯； 5)将输入资讯与候选资讯进行比对，并且判断输入资讯与候选资讯是否相似。2.如权利要求1所述的基于多个语义摘要的内容相似性分析方法，其特征在于，所述步骤5包括以下步骤: 51)将候选咨询切分成为若干片段;在候选咨询的若干片段中选择出若干关键片段;分别在每个候选咨询的关键片段中获取若干语义摘要并转换成为摘要向量； 52)将输入资讯的关键片段中的摘要向量与对应的候选资讯的关键片段中的摘要向量进行比对，并且获得进行比对的关键片段的相似度，当相似度大于指定阈值时则判定为进行比对的关键片段相似； 53)获得输入资讯与候选资讯的相似度，当相似度大于指定阈值时则判定为输入资讯与候选资讯相似。3.如权利要求2所述的基于多个语义摘要的内容相似性分析方法，其特征在于，所述步骤52中，获得进行比对的关键片段的相似度包括以下步骤:将输入资讯的关键片段与对应的候选资讯的关键片段中的两个向量转换成为元素集合A和B，进行比对的关键片段的相似度则为元素集合A与元素集合B的交集元素个数与并集元素个数之比。4.如权利要求2或3所述的基于多个语义摘要的内容相似性分析方法，其特征在于，所述步骤53中，获得输入资讯与候选资讯的相似度包括以下步骤: 531)获取输入资讯与候选资讯中，关键片段的总数量，相似关键片段的数量，并且计算去重后的关键片段的剩余数量； 532)计算相似关键片段的数量与去重后的关键片段的剩余数量的比值，得到输入资讯与候选资讯的相似度。5.如权利要求2或3所述的基于多个语义摘要的内容相似性分析方法，其特征在于，所述步骤I或步骤51中，基于语法规则将输入资讯或候选资讯切分为完整的中文语句，每一中文语句为一所述片段。6.如权利要求2或3所述的基于多个语义摘要的内容相似性分析方法，其特征在于，所述步骤2或步骤51中，参考片断在段落中或文章中出现的位置、片段内容的长度、以及结合语法分析的结果，并将这些因素设置成不同的权重，计算每个片断的权重和，从而选择关键片断。7.如权利要求1任一项所述的基于多个语义摘要的内容相似性分析方法，其特征在于，所述步骤3包括以下步骤:对关键片断进行分词后，基于短语、权重高的实体词组成的语义摘要，转换成该内容片断的摘要向量，用短语、实体词的crc32进行表示。
【文档编号】G06F17/30GK106055614SQ201610356867
【公开日】2016年10月26日
【申请日】2016年5月26日
【发明人】李红全
【申请人】天津海量信息技术股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李红全;
技术所有人：天津海量信息技术股份有限公司;
我是此专利的发明人

上一篇：一种获取歌曲信息的方法、装置和系统的制作方法
上一篇：一种基于混合范数的数据分类训练数据库清洗方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。