词条同步方法及词条同步装置的制作方法

文档序号:7753953阅读:226来源:国知局
专利名称:词条同步方法及词条同步装置的制作方法
技术领域
本发明涉及一种网络数据库数据更新方法,特别是涉及词条的同步方法及词条同
步装置。
背景技术
词条联盟以联盟主站为中心,集合了众多以联盟主站提供的建站软件搭建的站 点,形成一个数据共享的网状组织。Wikipedia 维基百科是一个基于Wiki技术的多语言百科全书协作计划,也是一 部用不同语言写成的网络百科全书,其目标及宗旨是为全人类提供自由的百科全书——用 他们所选择的语言来书写而成的,是一个动态的、可自由访问和编辑的全球知识体。Mediaffiki =Mediaffiki是全球最著名的维基程序,运行于PHP+MySQL环境。是 Wikipedia网站开发的维基建站软件。然而,Wikipedia站点和MediaWiki搭建的站点之间,并没有形成联盟关系,相互 独立;也就是说联盟成员站点和联盟主站之间没有形成数据的共享机制。导致联盟成员站 点和联盟主站之间存在着大量数据的重复建设、版本繁多,而且缺乏统一整理,其参考价值 和可用性大大减弱。

发明内容
本发明的目的在于解决以上现有技术的不足,而提出词条的同步方法及词条同步 装置。以使得联盟主站与联盟成员站点之间形成联盟组织,彼此之间通过同步法共享数据 而不发生冲突,并通过联盟成员站点不断丰富和积累高质量的词条数据。并且当联盟成员 站点和联盟主站的数据发生冲突时,通过分析装置判断数据的有效性和可用性。本发明的技术方案如下一种词条同步装置,该装置位于联盟主站内,包括接收装置,接收来自联盟成员站的基本信息,存储在词条同步数据库中,标识为未 处理数据项;监听装置,用于监控词条同步数据库,当监听存在未处理数据项时,通过联盟成员 站提供的数据接口获取完整的词条数据,并触发分析装置;分析装置,用于接收并分析所述监听装置传输过来的词条数据,形成一系列分析 报告,触发处理装置并传送所述分析报告;处理装置,用于接收所述分析报告并根据不同的分析报告,对词条数据进行处 理;所述的分析装置包括锁定词条单元,当词条进行同步操作时,必须同时锁定联盟主站的相应词条,防止 同步过程中其他用户的操作产生中间版本;版本时间比较单元,比较联盟成员站与联盟主站的相应词条的版本时间,决定是否进行同步操作;链接分析单元,解析联盟成员站的词条数据,将所有的超链接转换为联盟主站的 内部链接;图片分析单元,解析联盟成员站的词条数据,将所有的图片资源转换为联盟主站 的图片资源;所述的处理装置包括更新数据单元,更新联盟主站的词条数据,同时生成最新的词条版本;解除词条锁定单元,同步操作完成,解除对相应词条的锁定,其他用户可以正常操 作。一种词条同步方法,包括以下步骤接收装置接收联盟成员站词条的基本信息,存储于词条同步数据库中,标识为未 处理数据项;监听装置监控词条同步数据库,当监听存在未处理数据项时,通过联盟成员站提 供的数据接口获取完整的词条数据,并触发分析装置;分析装置接收并分析所述监听装置传输过来的数据,形成一系列分析报告,触发 处理装置并传送所述分析报告;处理装置接收所述分析报告并根据不同的分析报告,对词条数据进行处理;所述分析装置分析监听装置传输过来的数据时,包括以下步骤1)分析装置锁定联盟主站的相应数据,不允许用户操作;2)分析装置比较传输装置传输过来的数据版本的时间,如果早于联盟主站该数据 版本的最后编辑时间,忽略此版本数据的同步;3)如果第2)步中的数据版本时间不早于联盟主站该数据版本的最后编辑时间, 则进入链接转换,提取所有文本中的链接,按照规则转换成联盟主站的内部链接;4)进行图片处理,提取文本中所有图片,获取图片资源,分析图片地址,判断是否 获取此图片,转化为联盟主站的内部图片,并更新图片链接地址。本发明的优点通过词条同步装置及同步方法,增加了联盟主站的数据量,拓展了词条内容的领 域,使得联盟主站的内容更加全面。通过词条同步装置及同步方法,完善了联盟主站的数据质量,使联盟主站的数据 更加具有权威性和可用性。


图1为本发明的结构原理示意图;图2为本发明的分析和处理流程图。
具体实施例方式如图1所示,本发明的词条同步装置,包括接收装置,用于接收联盟成员站的词 条基本信息;监听装置,用于监控词条同步数据库,当监听存在未处理数据项时,通过联盟 成员站提供的数据接口获取完整的词条数据,并触发分析装置;分析装置,用于接收并分析所述监听装置传输过来的数据,形成一系列分析报告,触发处理装置并传送所述分析报告; 处理装置,用于接收所述分析报告并根据不同的分析报告,对词条数据进行处理。其中分析 装置包括锁定词条单元,版本时间比较单元,连接分析单元,图片分析单元。如图2所示,本发明的词条同步装置在进行词条同步时,监听装置监控词条同步 数据库中未处理的数据,根据词条数据项的基本信息,通过联盟成员站点提供的数据接口 获取完整词条数据信息后触发分析装置,之后的分析装置和处理装置将对此数据信息进行 处理。所述的分析装置首先锁定联盟主站的相应数据,不允许用户操作;其次分析装置比 较数据版本的时间,即联盟成员站与联盟主站的相应词条的最新版本时间,如果联盟成员 站的词条版本时间早于联盟主站的词条的最新版本时间,表明联盟主站的词条内容更新, 忽略此版本数据的同步,否则进入第三个环节,链接转换;链接转换提取词条内容文本中的 所有链接,按照规则转换成联盟主站的内部链接;第四步进行图片处理,提取文本中所有图 片,获取图片资源,分析图片地址,判断是否获取此图片,转化为联盟主站的内部图片,并更 新图片链接地址。每一个环节的出错都会导致此版本数据的同步失败。假设数据已经通过 分析装置的分析,返回处理后的数据,触发处理装置。处理装置生成新的历史版本的同时, 更新数据内容,解除联盟主站的数据操作锁定。本发明以一个例子来详细说明整个流程。联盟主站拥有大量的、分类比较完整的数据。联盟成员站点A 建站系统搭建的站点,并已加入联盟。站点A的用户创建词条“北京”,打开编辑器时,如果联盟主站已经有词条“北京”, 编辑器从联盟主站下载最新版本的内容,充分体现了数据共享机制,站点A通过链接转换 和图片本地化程序,将联盟主站的数据完全转给为站点A的数据。用户在联盟主站的版本 基础上编辑完善。假设用户发现“北京”的词条中有一个错别字,将其它改正,或者完善内 容后发布。这就是站点A创建或者编辑的所有操作。站点A在发布“北京”这个词条时,后台将这个信息传送给联盟主站的接收装置, 告知联盟主站,“北京”这个词条在站点A上有最新内容。接收装置将这个信息记录在词条 同步数据库中,标识为未处理状态。站点A传送给接收装置的信息量很小,只有词条名称以 及站点A的基本信息,并没有传送词条内容,站点A的用户在创建编辑操作词条时,将不会 觉察出延迟。监听装置开始工作,它扫描词条同步数据库,取出未处理数据,根据数据项,例如 词条名称“北京”、站点A的基本信息,基本信息包括站点A的域名、联盟认证码、站长信息 等,并通过站点A提供的数据接口取得词条“北京”数据项的完整数据,包括词条“北京”的 内容,编辑时间,编辑者等。监听装置将词条详细数据交付于分析装置后,继续扫描词条同 步数据库。分析装置开始工作,如果联盟主站不存在词条“北京”,则直接进行第三步操作。反 之,首先锁定联盟主站的词条“北京”,不允许用户操作,避免数据在同步处理过程又产生新 版本。其次进行版本比较。如果联盟主站已经有词条“北京”,比较站点A的词条“北京”的 版本时间与联盟主站的“北京”最新版本时间,如果早于联盟主站的最新版本时间,说明在 监听并获取同步数据的过程中,联盟主站已经产生过新的版本,为了避免破坏联盟主站的 数据,停止词条“北京”的数据同步操作,并进行下一条记录的处理。如果晚于联盟主站的
5最新版本时间,就可以进行同步操作。第三步是链接转换,因为站点A在同步时,已将链接 和图片本地化,产生的版本,其链接和图片资源也是站点A的本地化地址。在同步到联盟主 站时,也需要逆处理。分析词条“北京”的所以链接,按照一定规则将其转换联盟主站的链 接。第四步进行图片处理,提取文本中所有图片,获取图片资源,分析图片地址,判断是否获 取此图片,转化为联盟主站的内部图片,并更新图片链接地址。无论哪一个环节出错,同步 操作就立即停止。假设数据已经通过分析装置的分析,返回处理后的数据,触发处理装置生 成新的版本数据。 处理装置更新词条同步数据库,“北京”词条的状态置为已处理;更新词条“北京” 的内容;以及生成新的历史版本。数据处理完毕后,解除锁定。
权利要求
一种词条同步装置,其特征在于,该装置位于联盟主站内,包括接收装置,接收来自联盟成员站的基本信息,存储在词条同步数据库中,标识为未处理数据项;监听装置,用于监控词条同步数据库,当监听存在未处理数据项时,通过联盟成员站提供的数据接口获取完整的词条数据,并触发分析装置;分析装置,用于接收并分析所述监听装置传输过来的词条数据,形成一系列分析报告,触发处理装置并传送所述分析报告;处理装置,用于接收所述分析报告并根据不同的分析报告,对词条数据进行处理。
2.如权利要去1所述的词条同步方法的四个装置,其特征在于,所述的分析装置包括 锁定词条单元,当词条进行同步操作时,必须同时锁定联盟主站的相应词条,防止同步过程中其他用户的操作产生中间版本;版本时间比较单元,比较联盟成员站与联盟主站的相应词条的版本时间,决定是否进 行同步操作;链接分析单元,解析联盟成员站的词条数据,将所有的超链接转换为联盟主站的内部 链接;图片分析单元,解析联盟成员站的词条数据,将所有的图片资源转换为联盟主站的图 片资源。
3.如权利要去1所述的词条同步方法的四个装置,其特征在于,所述的处理装置包括 更新数据单元,更新联盟主站的词条数据,同时生成最新的词条版本;解除词条锁定单元,同步操作完成,解除对相应词条的锁定,其他用户可以正常操作。
4.一种词条同步方法,其特征在于,包括以下步骤接收装置接收联盟成员站词条的基本信息,存储于词条同步数据库中,标识为未处理 数据项;监听装置监控词条同步数据库,当监听存在未处理数据项时,通过联盟成员站提供的 数据接口获取完整的词条数据,并触发分析装置;分析装置接收并分析所述监听装置传输过来的数据,形成一系列分析报告,触发处理 装置并传送所述分析报告;处理装置接收所述分析报告并根据不同的分析报告,对词条数据进行处理。
5.如权利要求4所述的词条同步方法,其特征在于,所述分析装置分析监听装置传输 过来的数据时,包括以下步骤1)分析装置锁定联盟主站的相应数据,不允许用户操作;2)分析装置比较传输装置传输过来的数据版本的时间,如果早于联盟主站该数据版本 的最后编辑时间,忽略此版本数据的同步;3)如果第2)步中的数据版本时间不早于联盟主站该数据版本的最后编辑时间,则进 入链接转换,提取所有文本中的链接,按照规则转换成联盟主站的内部链接;4)进行图片处理,提取文本中所有图片,获取图片资源,分析图片地址,判断是否获取 此图片,转化为联盟主站的内部图片,并更新图片链接地址。
全文摘要
本发明涉及一种词条同步方法及词条同步装置,该装置位于联盟主站内,包括接收装置,监听装置,分析装置,处理装置。所述的词条同步方法以一个联盟主站为中心,多个联盟成员站点围绕形成联盟关系,联盟内部可以共享词条数据,各个联盟成员站的基础数据来自联盟主站的共享。各个联盟成员站点对基础数据进行补充和编辑产生新内容,通过联盟的词条同步法,使处在中心点的联盟主站的词条得到不断更新和丰富,同时也让成员站点在联盟的数据共享机制中得到帮助。
文档编号H04L29/08GK101908061SQ201010223999
公开日2010年12月8日 申请日期2010年7月2日 优先权日2010年7月2日
发明者曾正阳, 梅春, 潘海东 申请人:互动在线(北京)科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1