一种基于信息同源特征的互联网中信息实体同源判断方法

文档序号:33562321发布日期:2023-03-22 18:39阅读:11309来源:国知局
一种基于信息同源特征的互联网中信息实体同源判断方法

1.本发明涉及互联网信息同源判断领域,尤其涉及一种基于信息同源特征的互联网中信息实体同源判断方法。


背景技术:

2.以互联网为代表的信息技术改变了信息的传播模式,相较于传统媒体,信息传播渠道呈现了开放性和虚拟化的典型特点。信息在互联网中的传播速度更快、影响范围更广、传播渠道也更加多样。但是,在开放的互联网中,网络谣言传播、数字知识产权剽窃、信息的不当引用等问题导致虚假和不实信息的蔓延和泛滥,给互联网上信息内容的监管带来严峻挑战,因此,研究基于信息特征的互联网信息同源判断具有重要的现实意义。
3.在互联网信息传播溯源的研究领域中,传统方法主要使用信息发布时间、发布地址、引用(转载或转述)时间等关键特征构建信息传播链,但是,这种方式通常忽略对信息内容的理解,导致对信息内容的不当引用或剽窃难以被溯源。开放的互联网中,信息的传播往往不是独立的个体行为,传播环境的开放性、复杂性,特别是信息传播过程中受其它相关信息融合、引用、评述等因素的影响,这都给信息内容的传播及演化过程追溯带来困难。
4.在开放的互联网中,研究信息的同源判断面临如下三个方面的挑战:
5.(1)互联网上信息的传播渠道多样,信息在复杂多样的传播渠道流转过程中,元数据变化或信息内容发生演化使得同源信息的追溯变得困难;
6.(2)信息在融合传播过程中不仅受多个前置信息内容的影响,而且还受与这些前置信息之间传播渠道多样性的影响,这都给信息传播及演化过程追溯带来挑战;
7.(3)信息在传播过程中发生“变异”后,传统使用串匹配、距离向量法等同源信息相似度检测方法精确率低,难以适用。


技术实现要素:

8.本发明的目的是提供一种基于信息同源特征的互联网中信息实体同源判断方法,能够基于信息同源特征进行信息实体的同源判断,有效地解决了开放互联网中的信息内容传播和演化追溯问题,实现了信息内容的可追溯。
9.本发明采用下述技术方案:
10.一种基于信息同源特征的互联网中信息实体同源判断方法,依次包括以下步骤:
11.a:获取互联网上所传播的信息实体的特征集d,特征集d由内容集合dc和元数据集合dm组成,d=dm∪dc;
12.其中,内容集合指信息实体中所表达的信息内容,元数据指表征信息实体的特征;
13.b:对步骤a中得到的特征集d进行预处理,预处理包括利用文本语料库对信息实体的特征集d进行文本分词和段落加权;
14.c:通过tf-idf方法,对预处理后的特征集d进行多维关键特征的抽取,根据得到的多维关键特征构建信息实体的多维关键特征集d


15.d:对得到的信息实体的多维关键特征集d

进行数据抽取转换和加载,得到信息实体的经规则化处理后的多维关键特征集d


16.e:对经规则化处理后的多维关键特征集d

,使用平行语料库q进行多语言系统扩展,得到信息实体的平行语料增强关键特征集d
t

17.f:对信息实体的平行语料增强关键特征集d
t
,使用框架语义表示方法抽取信息实体的语义信息g;
18.g:通过lsh哈希函数计算出信息实体的标识符d
id
,并得到信息实体的信息同源特征;设信息实体特征集d={di},i∈|d|,信息实体的信息同源特征表示为d
信息同源特征
:={d
id
,g
id
,d
t
};其中,d
id
表示信息实体的标识符,g
id
表示信息实体的语义信息,d
t
表示信息实体的平行语料增强关键特征集;
19.h:将待判定是否同源的信息实体a和b,通过步骤a至步骤g构建信息实体a和b的信息同源特征,经过lsh哈希函数的投影映射后,若信息实体a和b的信息同源特征a
信息同源特征
和b
信息同源特征
,在lsh哈希函数中的距离小于等于设定的判断阈值k
特征
,则判定信息实体a和b为同源信息,否则为非同源信息。
20.所述的步骤a中:表征信息实体的特征包含信息实体的发布时间、发布者和转发引用数量。
21.所述的步骤c中,多维关键特征的抽取的方法为:
[0022][0023]
其中,tf
ij
表示信息实体j中分词i的词频,idfi表示分词i的逆向文档频率,n
ij
表示分词i在信息实体j中出现的频次,∑kn
kj
表示信息实体j中所包含分词的总数,k表示信息实体j中共有k个分词,|d|表示信息实体j所在信息集中的信息实体总数,|di|表示信息实体j所在信息集中包含分词i的信息实体的个数;信息集包含信息实体j在内的多个信息实体,每个信息实体包含多个分词。
[0024]
所述的步骤d中,数据抽取转换和加载的方法为:
[0025]d″
=f(d

,rule);
[0026]
其中,rule为规则化集,由领域专家确定。
[0027]
所述的步骤e中,平行语料库q中存在多种相似语料qi,采用余弦相似度计算多维关键特征集d

与相似语料qi的相似性,余弦相似度计算方法为:
[0028][0029]
其中,d'i表示多维关键特征集d

中的元素,qi表示平行语料库q中的相似语料,∑d'iqi表示两元素之间乘积的求和;
[0030]
若cosθ》k,则将平行语料库q中的相似语料qi添加到平行语料集q

,平行语料增强关键特征集d
t
=d

∪q

,|d
t
|》|d

|,k为设定的余弦相似度阈值,k由领域专家根据具体场景设定;
[0031]
若cosθ≤k,则不对平行语料集q

进行扩充;此时d
t
=d


[0032]
所述的步骤e中,采用向量填充法,使经过填充后的多维关键特征集d

与平行语料库q内相似语料qi中的向量长度相同,填充的长度为|d
″‑
qi|。
[0033]
所述的步骤h包括以下具体步骤:
[0034]
h1:通过步骤a至步骤g,分别获取信息实体a和b的标识符d
id
、语义信息g
id
和平行语料增强关键词集d
t
,得到信息实体a和b的信息同源特征a
信息同源特征
和b
信息同源特征

[0035]
h2:使用lsh哈希函数对d
t
中每个关键词进行投影映射,并将映射的桶号作为该信息实体对象的编号来建立哈希索引表,并将哈希索引表向量存储到对应的哈希桶中;
[0036]
h3:对待判定的信息实体a和b,进行是否为同源信息的判断;
[0037]
(a)若d(a
信息同源特征
,b
信息同源特征
)≤k
信息同源特征
,则判断信息实体a和b为同源信息,即信息实体b受信息实体a的影响;
[0038]
(b)若d(a
信息同源特征
,b
信息同源特征
)》k
信息同源特征
,则判断信息实体a和b不是同源信息,即信息实体b不受信息实体a的影响;
[0039]
其中,k
信息同源特征
为同源信息的判断阈值,由领域专家设定。
[0040]
本发明首先构建信息实体的特征集d,再从信息实体的特征集d中抽取多维关键特征建立信息实体的多维关键特征集,再对多维关键特征集进行处理构建信息同源特征,将信息同源特征作为信息传播及演化过程的同源判定标志。在构建信息同源特征时,本发明通过信息实体的标识符d
id
、语义信息g
id
和平行语料增强关键特征集d
t
,使得信息同源特征同时具备追溯信息传播过程中元数据和及其内容双重变化的能力,并引入局部敏感哈希的方法,通过同源信息的判断阈值判断信息实体是否为同源信息,能有效地解决信息实体在互联网传播过程中元数据缺失、差异化表述、内容剽窃、不恰当引用等情况下的追溯问题。
[0041]
本发明在对特征集d进行预处理时,利用文本语料库对信息实体的特征集d进行文本分词,能够对信息实体进行依语料库划分,便于分析信息实体的特征;并通过段落加权对信息实体的特征进行优化表示,突出信息实体中相对重要的特征。
[0042]
本发明在构建信息实体的多维关键特征集d

时,通过tf-idf对预处理后的特征集d进行多维关键特征的抽取,能有效地避免维度灾难。
[0043]
本发明还对得到的信息实体的多维关键特征集d

进行数据抽取转换和加载,有效解决了信息实体在互联网上传播过程的不确定性问题。
[0044]
本发明在信息实体的平行语料增强关键特征集d
t
时,通过使用平行语料库q对多维关键特征集d

进行平行扩充,实现对信息实体的平行语料信息增强,实现了从词、语句乃至篇章级语料中自动抽取平行语句对的功能。本发明还通过余弦相似度计算进行平行语料库q中的相似语料qi的选择,能有效应对并解决信息在互联网传播过程中因元数据的变化、缺失以及信息内容“变异”等所导致的难以追溯的问题。
附图说明
[0045]
图1为本发明的流程示意图。
具体实施方式
[0046]
以下结合附图和实施例对本发明作以详细的描述:
[0047]
如图1所示,本发明所述的基于信息同源特征的互联网中信息实体同源判断方法,包括以下步骤:
[0048]
a:获取互联网上所传播的信息实体的特征集d,特征集d由内容集合dc和元数据集合dm组成,d=dm∪dc;
[0049]
内容集合是指信息实体中所表达的信息内容,元数据是指表征信息实体的特征,特征包含信息实体的发布时间、发布者和转发引用数量。
[0050]
b:对步骤a中得到的特征集d进行预处理,预处理包括利用文本语料库对信息实体的特征集d进行文本分词和段落加权;
[0051]
利用文本语料库w对息实体的特征集d进行文本分词,能够对信息实体进行依语料库划分,便于分析信息实体的特征;段落加权能够对信息实体的特征进行优化表示,突出信息实体中相对重要的特征。利用文本语料库w对息实体的特征集d进行文本分词及段落加权均属于本领域的常规技术,在此不再赘述。
[0052]
c:通过tf-idf(词频(term frequency)-逆向文档频率(inverse document frequency)方法,对预处理后的特征集d进行多维关键特征的抽取,根据得到的多维关键特征构建信息实体的多维关键特征集d


[0053]
多维关键特征的抽取的方法为:
[0054][0055]
其中,tf
ij
表示信息实体j中分词i的词频,idfi表示分词i的逆向文档频率,n
ij
表示分词i在信息实体j中出现的频次,∑kn
kj
表示信息实体j中所包含分词的总数,k表示信息实体j中共有k个分词,|d|表示信息实体j所在信息集中的信息实体总数,|di|表示信息实体j所在信息集中包含分词i的信息实体的个数;信息集包含信息实体j在内的多个信息实体,每个信息实体包含多个分词;
[0056]
本发明所述的信息同源特征,是互联网上所传播信息实体的标识,为衡量信息传播及演化过程中是否为同源信息的标识符。设互联网上所传播的信息实体的特征集d,由内容集合dc和元数据集合dm两部分组成,首先从信息实体的特征集d中抽取多维关键特征构建信息实体的多维关键特征集,再对多维关键特征集进行处理构建信息同源特征,作为信息传播及演化过程的同源判定标志。
[0057]
现有的提取信息特征集的过程,即为如何使用语料库描述信息内容及其元数据的过程,但是现有技术中,在以“词”为最小单位构建语料库的方法中,很多高频词(如虚词)对信息内容没有实际意义,且需要较高维度的张量才能完整表达出信息实体特征集d的内容,这将会导致严重的维度灾难,继而给信息传播路径识别与追溯带来技术上的挑战。
[0058]
为了解决维度灾难的问题,本发明中采用tf-idf(词频(term frequency,tf)-逆向文档频率(inverse document frequency,idf)方法,该方法注重衡量每个“特征词”对信息内容的贡献程度。对信息实体中分词出现的次数进行“全局”归一化处理后,再使用tf-idf方法能有效地避免维度灾难。信息实体的多维关键特征的抽取过程如上文式(1)所示。
[0059]
由于信息同源特征应具备对信息实体内容理解及形式变异后的追踪和识别能力,作为其数据基础的多维关键特征集应包含以下两个方面:
[0060]
(1)信息元数据的标识符,是信息实体全体属性的集合;
[0061]
(2)对信息实体内容的理解,即采用自然语言理解技术对信息实体的内容进行分析处理。
[0062]
本发明中,经过多维关键特征的抽取,所得到的信息实体的多维关键特征集d

,剔除了对信息特征无贡献的特征,使得|d

|《《d,同时也使得信息同源特征具备了信息变异后的理解能力,为追溯信息演化及变异传播提供基础依据。
[0063]
d:对得到的信息实体的多维关键特征集d

进行数据抽取转换和加载,得到信息实体的经规则化处理后的多维关键特征集d

,数据抽取转换和加载的方法为:
[0064]d″
=f(d

,rule);
ꢀꢀꢀꢀꢀꢀ
(2)
[0065]
其中,rule为规则化集,由领域专家确定;
[0066]
由于信息实体在互联网上传播过程的不确定性,如元数据的缺失、表示方法或格式不一等现象,步骤c中单纯抽取的信息实体的多维关键特征集仅仅是对当前信息实体的描述。但信息在传播过程中可能发生变化,如时间元数据可能由“2021年1月3日”变成“2021/1/3”,地理元数据可能由“上海”变成“中国上海”或“沪”等。为解决上述问题,需要对信息实体的多维关键特征集d

进行规则化,即数据抽取转换和加载(extract-transform-load,etl),针对特定的信息实体通过一系列规则模型将d

进行规格化处理并将其更新得到d

,信息数据抽取转换和加载的更新过程如上文式(2)所示。
[0067]
e:对经规则化处理后的多维关键特征集d

,使用平行语料库q进行多语言系统扩展,得到信息实体的平行语料增强关键特征集d
t

[0068]
目前,开放互联网实现了信息跨地域、跨语种的传播、交流与共享,如不同语种新闻之间的转载评论、学术论文的跨语种引用等普遍存在。为了提升本文方法的适用性,使得基于信息同源特征的互联网信息同源判断方法能够支持信息实体的跨语种传播,本技术中使用多语言模型库对经规则化处理后的多维关键特征集d

进行多语言系统扩展,本实施例中使用平行语料库q对多维关键特征集d

进行平行扩充,实现对信息实体的平行语料信息增强。
[0069]
本实施例中,平行语料库q采用包含多种相似语料qi、支持多语种语言的平行语料库,将多维关键特征集d

扩充得到平行语料增强关键特征集d
t
,实现从词、语句乃至篇章级语料中自动抽取平行语句对的功能。
[0070]
由于平行语料库q中存在多种相似语料qi,为提高平行语料信息增强的准确性,本发明在平行语料库q中相似语料qi的选择上,采用余弦相似度计算多维关键特征集d

与相似语料qi的相似性,余弦相似度通过两个向量之间夹角的余弦值评估语料之间的相似度,两个向量的夹角越小,余弦值越接近于1,语料相似度也就越高。此外,为了解决多维关键特征集d

与相似语料qi中向量长度不一致的问题,本发明采用传统的向量填充法,使得经过填充后的多维关键特征集d

与平行语料库q内相似语料qi中的向量长度相同,填充的长度为|d
″‑
qi|,余弦相似度计算方法如式(3)所示。
[0071]
[0072]
其中,d'i表示多维关键特征集d

中的元素,qi表示平行语料库q中的相似语料,∑d'iqi表示两元素之间乘积的求和。
[0073]
若cosθ》k,k为设定的余弦相似度阈值,k由领域专家根据具体场景设定,则将平行语料库q中的相似语料qi添加到平行语料集q

,因此,平行语料增强关键特征集d
t
=d

∪q

,|d
t
|》|d

|,从语义层面对多维关键特征集d

进行了扩充,具有更强的泛化表现能力,能有效应对并解决信息在互联网传播过程中因元数据的变化、缺失以及信息内容“变异”等所导致的难以追溯的问题。
[0074]
若cosθ≤k,则不对平行语料集q

进行扩充;此时d
t
=d


[0075]
f:对信息实体的平行语料增强关键特征集d
t
,使用框架语义表示方法抽取信息实体的语义信息g;
[0076]
如前文所述,信息同源特征要同时具备追溯信息传播过程中元数据和及其内容双重变化的能力,因此,信息同源特征还要包含信息实体的语义,需要提取信息实体的语义信息。
[0077]
信息实体语义的理解通常有分布式语义表示、模型论语义表示和框架语义表示等三种基本方法,前两种方法通常将信息实体的词或句子用高维向量表示,这导致在技术上信息特征集提取变得困难,特别是互联网上信息传播的碎片化,使得上述前两种方法难以适用于碎片化的互联网信息实体语义理解。由于采用了分层的思路,框架语义方法对信息实体的语义碎片化有较强的表示能力,因此,本文使用框架语义表示方法分析信息实体的语义,把整个信息实体分成三个层次:信息领域(domain)、信息意图(intent)和语义槽(slots),针对具体领域的信息实体,由领域专家将信息实体划分成其它表示形式,通过框架语义表示方法抽取信息实体的语义信息并用g表示。
[0078]
使用框架语义表示方法抽取信息实体的语义信息为本领域的常规技术,在此不再赘述。
[0079]
g:通过局部敏感哈希(locality sensitive hashing,lsh)方法计算出信息实体的标识符d
id
,并得到信息实体的信息同源特征;设信息实体特征集d={di},i∈|d|,信息实体的信息同源特征表示为d
信息同源特征
:={d
id
,g
id
,d
t
};其中,d
id
表示信息实体的标识符,g
id
表示信息实体的语义信息,d
t
表示信息实体的平行语料增强关键特征集d
t

[0080]
本发明中,由于信息实体在互联网传播的过程中,信息实体元数据及其内容的变化具有随机性和不确定性,因此,信息同源特征要能容忍并追溯信息传播的变化,本发明中引入局部敏感哈希的方法,以构建信息内容传播及演化过程中的“遗传物质”,即信息同源特征。
[0081]
构建信息同源特征的思路是,使用信息实体的平行语料增强关键特征集d
t
构建出描述信息内容的唯一标志,信息同源特征要能容忍信息实体的元数据及其内容在一定范围内的变异,是追溯互联网上信息传播的线索。传统的哈希算法不具备这种“容忍”信息内容或形式上变化的能力,信息元数据或内容在形式上的任何微小变化都会导致其哈希值的巨大变化。因此无法将信息元数据或内容的哈希值作为其传播过程中的“遗传物质”用于追溯传播及演化路径。
[0082]
为了应对上述问题,本发明引入局部敏感哈希(locality sensitive hashing,lsh)哈希函数,lsh哈希函数不仅在高维空间中有优异的性能表现,而且在克服维度灾难的
同时,还能保持可接受的时间和空间复杂度。根据lsh哈希函数的思想,在原空间中很近(相似)的两个点,经过lsh哈希函数的映射后,哈希值有很大的概率是相同的,而两个距离很远的点(相似性弱)映射后,哈希值相等的概率很小,即lsh哈希函数f
lsh
满足如下性质:
[0083]
对于在f
lsh
高维空间的任意两点x和y,则满足:
[0084]
(a)如果d(x,y)≤r,则p(h(x)=h(y))≥p1;
[0085]
(b)如果d(x,y)≥cr,则p(h(x)=h(y))≤p2;
[0086]
其中c》1,p1》p2。
[0087]
其中,x和y分别表示lsh中的两个点,d(x,y)表示x和y之间的距离,h(x)和h(y)分别表示x和y两个点之间的概率,p(h(x)=h(y))表示x和y的概率相同,r、c、p1和p2分别为设定的距离阈值、倍数值、第一概率阈值和第二概率阈值,均由领域专家根据具体应用环境设定。
[0088]
通过上述对lsh哈希函数的分析,从信息实体中选择适当的参数,再采用lsh哈希函数构建信息内容传播的信息同源特征,能在一定程度范围内容忍信息元数据或内容的变化。设信息实体a和信息实体b的信息同源特征分别表示为a
信息同源特征
和b
信息同源特征
,在信息a向信息b的传播过程中,当相似度发生变化时,d(a
信息同源特征
,b
信息同源特征
《r,则有h(a
信息同源特征
)与h(b
信息同源特征
)相等的概率大于p1,则可判断信息实体a和信息实体b为同源信息,即可以使用p1作为判断信息实体之间是否为同源信息的阈值。
[0089]
根据上述分析,本发明中,设信息实体特征集d={di},i∈|d|,信息实体的信息同源特征表示为d
信息同源特征
:={d
id
,g
id
,d
t
};d
id
表示信息实体的标识符,通过计算信息实体的哈希值得出;g
id
表示信息实体的语义信息,通过步骤f得到;d
t
为信息实体的平行语料增强关键特征集,通过步骤e得到;
[0090]
步骤g中利用lsh哈希函数计算信息实体的标识符,并构建信息实体的信息同源特征,能有效地解决信息实体在互联网传播过程中元数据缺失、差异化表述、内容剽窃、不恰当引用等情况下的追溯问题。
[0091]
h:将待判定是否同源的信息实体a和b,通过步骤a至步骤g构建信息实体a和b的信息同源特征,经过lsh哈希函数的投影映射后,若信息实体a和b的信息同源特征a
信息同源特征
和b
信息同源特征
,在lsh哈希函数中的距离小于等于设定的判断阈值k
特征
,则判定信息实体a和b为同源信息,否则为非同源信息。
[0092]
所述的步骤h包括以下具体步骤:
[0093]
h1:通过步骤a至步骤g,分别获取信息实体a和b的标识符d
id
、语义信息g
id
和平行语料增强关键词集d
t
,得到信息实体a和b的信息同源特征a
信息同源特征
和b
信息同源特征
;1
[0094]
h2:使用lsh哈希函数对d
t
中每个关键词进行投影映射,并将映射的桶号作为该信息实体对象的编号来建立哈希索引表,并将哈希索引表向量存储到对应的哈希桶中;
[0095]
h3:对待判定的信息实体a和b,进行是否为同源信息的判断;
[0096]
(a)若d(a
信息同源特征
,b
信息同源特征
)≤k
信息同源特征
,则判断信息实体a和b为同源信息,即信息实体b受信息实体a的影响;
[0097]
(b)若d(a
信息同源特征
,b
信息同源特征
)》k
信息同源特征
,则判断信息实体a和b不是同源信息,即信息实体b不受信息实体a的影响。
[0098]
其中,k
信息同源特征
为同源信息的判断阈值,由领域专家根据不同的应用环境和应用场
合综合分析后设定。
[0099]
在信息内容传播及演化追溯研究领域,传统方法采用信息内容相似性分析与度量为主要手段,本文使用的信息同源特征突破了这种相对“刚硬”的思路。本文通过引入lsh哈希函数有效地解决了信息实体在互联网传播过程中各种不确定性的问题,并能支持信息实体是否为同源信息的判断。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1