一种基于实体属性的真值发现方法与流程

文档序号:13084411阅读:935来源:国知局
技术领域本发明涉及一种基于实体属性的真值发现方法,属于分布式计算和数据挖掘交叉技术领域。

背景技术:
互联网的高速发展使得Web访问量迅速增加,互联网显然已经成为了一个巨型数据集,其数据量正在飞速地增长着,Web数据显然已经成为了人们获取信息的重要来源。互联网给人们生活和工作带来便利的同时,其提供的数据质量问题也日益突出,微博、论坛、博客、贴吧等网络媒介极大地降低了互联网用户发布与传播信息的门槛,再加上信息的时效性、传播性以及信息发布者的主观故意性和恶意导向性等因素,使得大量过时、虚假、片面、重复、错误等数据充斥着互联网,这些恶意数据从很大程度上干扰了用户对网络信息的访问,使用户得到错误的、多条相似的以及过时的信息等。为了确保数据的质量,为用户提供最为准确的数据值,众多学者对真值发现问题进行了深入的研究。针对真值发现问题,学者们通过考虑影响真值发现判断的各种因素进行了一系列相关研究。Yin等人提出了TruthFinder算法,利用类似Authority-Hub方法的迭代机制来联合推导数据源的可靠性和数据源所提供事实的准确性;Dong等人应用贝叶斯法则(BayesTheorem)来推理数据源之间的依赖性;考明军等人基于投票思想提出的迭代投票算法(IterationVote,IVote)、信誉度投票迭代算法(Iteration-ReputationVote,IRVote)和信誉度与复制投票迭代算法(Iteration-Reputation-DuplicattionVote,IRDVote)。除此之外还有基于信息检索、Web链接分析和半监督学习(Semi-SupervisedLearning,SSL)等方法来提高真值发现的准确性和计算效率的算法。真值发现问题,即给定一个数据源集合(例如不同的图书网站)以及各数据源针对某个实体属性(如一本书的作者信息)所给出的事实(即针对实体属性的描述)集合,现要从这些事实集合中发现真值(即正确的事实)。针对这一问题,最简单直观的解决方法是采用投票机制,各数据源分别对这一事实进行投票,根据得票数来判断各事实的准确性。但投票机制将各个数据源同等对待,没有考虑到数据源之间的差异,即数据源本身的可靠性不同,所以投票结果与现实相比往往存在着较大的差异。众多学者在投票算法基础上提出了很多更有效的改进算法,例如Yin提出了TruthFinder算法,它将信息检索技术InkAnalysis思想应用于真值发现中来计算数据源的可靠性,同时考虑数据源所提供的信息的准确性,将两者结合起来,利用迭代算法最终形成完整的真值发现算法。TruthFinder依据“不同数据源对同一实体属性提供的正确描述具有一致性而提供的错误描述形式不一”这一原则,因此一个数据源提供的正确描述越多,则其可靠性越大;反过来,当一个数据源可靠性越大,则其提供的描述的正确性就越高。当一个描述被多个可靠性较高的数据源提供时,它的正确性将会很高。TruthFinder对数据源可靠性的判断并不依赖于其提供描述的数量,而是取决于描述的准确性。更为重要的是,TruthFinder还考虑了不同描述之间的相互支持度对描述准确性判断的影响。然而TruthFinder对描述之间的相互支持度的计算仅仅采用基于编辑距离的字符串相似度代替,因此严重影响了算法的准确性,对复杂文本信息的真值发现准确性更是不理想。此外TruthFinder也没有考虑到数据源之间的复制关系对描述准确性的影响。考明军等人提出了迭代投票算法(IterationVote,IVote)以及改进的信誉度投票迭代算法(Iteration-ReputationVote,IRVote)和信誉度与复制投票迭代算法(Iteration-Reputation-DuplicattionVote,IRDVote)。IVote算法根据数据源本身可靠性和其提供的事实的准确性之间的关系,采用概率投票的方式进行迭代计算,选择投票结果最高的描述作为最终结果。IRVote在此基础之上进一步考虑数据源的权威性,即数据源的投票比重,数据源的权威性越重,其在投票过程中的权重越大。IRDVote在IRVote算法基础上加入了贝叶斯公式来充分考虑互联网中各数据源存在的相互传播和拷贝信息的情况。现有的真值发现方法大多将各种数据源同等对待,过多或片面地考虑方法的影响因素而导致其不够准确。在真值计算的时候,往往用基于编辑距离的字符串相似度来代替事实相互支持度,严重地影响了真值发现算法的准确性。

技术实现要素:
本发明所要解决的技术问题是提供一种采用全新设计思想,解决现有真值发现算法复杂难懂、准确性不高问题,能够有效提高真值发现准确性的基于实体属性的真值发现方法。本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于实体属性的真值发现方法,用于在各个数据源分别为各个实体属性提供事实的情况下,确定各个实体属性分别所对应的真值事实,包括如下步骤:步骤001.所有数据源构成全局数据源集合,随机初始化其可靠性t(sn),然后进入步骤002;其中,n={1、…、N
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1