一种大规模协同知识处理方法和系统的制作方法

文档序号:6430923阅读:158来源:国知局
专利名称:一种大规模协同知识处理方法和系统的制作方法
技术领域
本发明涉及知识工程领域,具体涉及一种基于面向大规模协同知识处理的数据模型的知识处理方法和系统。
背景技术
知识处理是知识工程中的一个重要环节,协同知识处理又分为“大规模协同知识处理”与“小规模协同知识处理”。“大规模协同知识处理”与“小规模协同知识处理”的区别在于协同知识处理范围是否在开放环境中进行,是否延伸至知识链的长尾(The Long Tail)。如果协同知识处理范围仅限于封闭式环境中,或仅限于知识链的头部,那么称之为 “小规模协同知识处理”,反之称为“大规模协同知识处理”。“大规模协同知识处理”易于推动“知识涌现”,具有开放性、自组织性、不确定性、演化性、涌现性等特点,可以更好地支持知识生态系统。大规模协同知识处理过程的基本步骤如图1所示1)组织知识链的头部主体向长尾主体公布“问题”及其“背景信息”,包括相关知识、原始数据和限制条件。2)长尾主体可以学习、使用、评分或更新“问题”及其“背景信息”。同时,组织知识管理系统应把长尾主体的评分和更新内容实时地存入组织知识库中,并且保证长尾主体操作的透明性、可跟踪性和回溯性,从而在长尾主体之间建立信任关系,保证组织知识的积累。幻组织采取适当的激励措施鼓励长尾主体积极参与“问题”研讨活动。4)长尾主体在参与研讨过程中,相互启发、相互激励,能更加积极地参与组织知识处理过程,共享自己的知识和创造新知识。 长尾主体共享或创新的知识自动存入组织知识库之中,成为组织知识的一部分。幻头部主体不仅可以直接参与研讨活动,而且还可以引导、协调和监督研讨活动。6)当长尾主体共享和创新的知识大于或接近于头部主体时,组织知识生态环境将发生根本性的变化组织在长尾主体中可以发现更适合组织发展的高端人才;组织内部知识型员工会因为来自长尾主体的压力,主动共享自己的知识,更加积极参与组织知识处理过程。目前,对于数据模型构建方法可以分为两个层次概念层次和数据层次。所谓概念层次的数据模型构建方法,就是按用户观点对数据和信息进行建模,是现实世界到信息世界的第一层抽象。所谓数据层次的数据模型构建方法,就是按计算机系统的观点对数据进行建模,是现实世界数据特征的抽象。概念层次的数据模型以及构建模型的现有方法包括实体联系模型(Entity Relationship Model, ERM)、语义对象模型(Semantic Object Modeling, S0M)、对象角色模型(Object Role Modeling,0RM)、面向对象模型 (Object-Oriented Modeling, 00T)、Fedora 内容模型架构(The Fedora Content Model Architecture, Fedora CMA)和数字空间(DSpace)数据模型构建方法。图2表示了实体联系模型的组成要素及其图示方法。实体联系模型的特点是以 “实体”、“联系”、“属性”为三个基本要素来刻画客观世界。实体联系模型构建方法的优点是简单明了,可以较好地满足关系数据库设计的需要,其缺点是无法表示大规模协同知识处理中的主体交互与内容演化过程。语义对象模型类似于实体联系模型,主要区别在于语义对象模型中并不包括“联系”,所有的“联系”由语义对象链接属性(Semantic Object Link, SOL)来表示。语义对象模型构建方法的优点在于“联系”和“属性”的表示方法的统一,但其缺点仍为无法表示大规模协同知识处理中的主体交互与内容演化过程。对象角色模型强调的是对象的“角色”,而不是其“属性”。在这种方法构建模型时, 每个对象均配有一个或多个角色。对象角色模型方法的优点是符合从事具体业务非技术人员的认知规律,方便了业务人员参与数据模型的设计和修改工作,但是其缺点是无法表示大规模协同知识处理中的“问题”、“答案”、“证据”、“背景信息”的演化过程。面向对象模型构建方法强调采用人类在认识客观世界的过程中普遍运用的思维方法,直观、自然地描述客观世界中的有关事物,其基本特征主要有抽象性、封装性、继承性和多态性,具有易于理解、维护方便、重用性好等优点。面向对象建模方法的缺点是针对性不强,没有明确规定大规模协同知识处理中的组成要素、主体交互、内容演化过程。Fedora内容模型架构的特点是定义了四种类型数字对象,即内容模型对象 (Content Model Object)、数据对象(Data Object)、服务定义对象(Service Definition Object)和服务部署对象(Service Deployment Object)。其中,内容模型对象是数据对象所对应的“类”;服务定义对象对内容模型对象中的服务进行了定义,但不提供具体实现;服务部署对象中提供了服务定义对象的具体实现方式。Fedora内容模型架构较好地满足了数字资源长期保存的需要,但无法表示大规模协同知识处理的组成要素、主体交互和内容演化过程。DSpace 数据模型以社区(Communities)、馆藏(Collections)、条目(Items)、比特流包(Bundles of Bitstreams)、比特流(Bitstreams)为单位对机构数字资源进行建模,对机构数字资源长期保存提供了简单、实用、高效的解决方案。DSpace数据模型构建方法的缺点是不易于实现大规模协同知识处理的要素、交互和演化过程的表示。尽管上述方法各自有其自身的优缺点,并且各自在不同的情况下有成功运用的案例,但是它们无法满足大规模协同知识处理过程的特殊需要首先,大规模协同知识处理是 “问题导向”的,由发起人提出一个“问题”,并提供其相关知识、原始数据和限制条件等背景信息,所有主题围绕该“问题”展开深入讨论,但是上述方法均为“数据”导向的数据模型构建方法。其次,大规模协同知识处理强调的是人机互补,数据模型不仅要针对计算机主体而且也要针对人类主体,但是上述方法均为面向计算机主体的数据模型构建方法。再次,大规模协同知识处理强调的是演化和涌现,需要的是一种“数据在先,模式在后”的方式,但是上述方法均为“模式在先,数据在后”的数据模式。最后,大规模协同知识处理强调的是一种 “pay-as-you-go (现收现付),,的设计模式,只有当用户认为必要时候,才会纳入知识库中, 但是上述方法均为“pay-before-you-go (先行支付),,的设计模式。

发明内容
本发明所要解决的技术问题是需要提供一种大规模协同知识处理方法和系统,以表示大规模协同知识处理的组成要素、主体交互和内容演化过程。为了解决上述技术问题,本发明提供了一种协同知识处理方法,其特征在于,包括以下步骤步骤1,接收问题信息和与所述问题信息相关的背景信息;步骤2,接收参与者针对所述问题信息给出的答案信息和证据信息;步骤3,接收对所述答案信息、证据信息和/或背景信息进行的补充和/或修改,以形成不同版本的答案信息、证据信息和/或背景信息;步骤4,根据所述不同版本的答案信息、证据信息和背景信息的评分值和所述评分值的评分者的可信度值计算所述不同版本的答案信息、证据信息和背景信息的可信度值,根据所述不同版本的答案信息的可信度值和评分值以及证据信息的可信度值选出最优答案信息;步骤5,根据所述不同版本的答案信息的可信度值更新提供所述答案信息的参与者的可信度值。本发明还提供了一种协同知识处理系统,其特征在于,包括以下模块发起模块, 其接收问题信息和与所述问题信息相关的背景信息;参与模块,其接收参与者针对所述问题信息给出的答案信息和证据信息;修改补充模块,其接收对所述答案信息、证据信息和/ 或背景信息进行的补充和/或修改,以形成不同版本的答案信息、证据信息和/或背景信息;最优答案信息选择模块,其根据所述不同版本的答案信息、证据信息和背景信息的评分值和所述评分值的评分者的可信度值计算所述不同版本的答案信息、证据信息和背景信息的可信度值,根据所述不同版本的答案信息的可信度值和评分值以及证据信息的可信度值选出最优答案信息;可信度值更新模块,其根据所述不同版本的答案信息的可信度值更新提供所述答案信息的参与者的可信度值。综上,本发明的主要优点在于1)突破了 “数据导向”的数据模型构建方法,提出了一种“问题导向”数据建模新方法,能够较好地满足以“问题为中心”的数据建模过程的需要,以“问题”为中心组织相关知识、原始数据、限制条件、答案、答案证据、参与者、日志等数据。2、充分考虑了在知识处理过程中的人机互补性,其知识表示采用两种不同的形式。 3)采取一种“数据在先,模式在后”的方式,对问题、答案和证据的具体表现形式不做任何限制,可以更好地适应现代信息技术的发展模式。4)采取一种pay-as-you-go的设计模式,改变了目前数据模型构建中的pay-before-you-go的设计模式,更加符合现代知识库建设的规律。因此,与前述数据模型构建方法相比,本发明可以更好地满足大规模协同知识处理的需要。本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。


附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中图1是现有技术中的大规模协同知识处理过程的示意图;图2是现有技术中的实体联系模型的三个要素及其表示方法示意图;图3是根据本发明实施例一的面向大规模协同知识处理的数据模型的示意图;图4是根据本发明实施例一的面向大规模协同知识处理数据模型中的‘话题’示意图;图5是根据本发明实施例一的面向大规模协同知识处理数据模型中的‘参与者’ 示意图;图6是根据本发明实施例一的面向大规模协同知识处理数据模型中的‘问题’示意图;图7是根据本发明实施例一的面向大规模协同知识处理数据模型中的‘背景信息’示意图;图8是根据本发明实施例一的面向大规模协同知识处理数据模型中的‘答案’示意图;图9是根据本发明实施例一的面向大规模协同知识处理数据模型中的‘证明’示意图;图10是根据本发明实施例一的面向大规模协同知识处理数据模型中的‘日志’示意图;图11根据本发明实施例一的协同知识处理方法的流程图;图12根据本发明实施例二的协同知识处理系统的结构示意图。
具体实施例方式以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合, 所形成的技术方案均在本发明的保护范围之内。另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。实施例一首先参照图3至图10来说明本实施例中的面向大规模协同知识处理的数据模型, 图3为本实施例中的面向大规模协同知识处理的数据模型示意图,如图3所示,该模型包括“话题信息、领域本体、参与者、问题信息、背景信息、答案信息、证据信息和日志信息”八个要素(在下文中简称为“话题、领域本体、参与者、问题、背景信息、答案、证据和日志”)。 “话题”可以是领域本体中的类名或实例名称,例如学术术语、生活用语、社会现象或一则新闻等。“话题”与“领域本体”之间的关联不仅可以避免话题的歧义性,而且还可以更好地支持话题聚类分析。“参与者”代表的是参与大规模协同知识处理的主体,可以是计算机,也可以是人类用户。“问题”是指针对话题提出的具体问题,可以归为七类,S卩‘为什么’、‘什么是’、‘如何’、‘什么时候’、‘什么地方’、‘谁’和‘是否’类问题。“问题”的分类是提高数据挖掘和检索效率的重要基础。“背景信息”是指问题发起人提供的回答问题所需要的相关知识、原始数据和限制条件。“背景信息”是提供大规模协同知识处理的效率和效果的重要依据。“答案^录的是大规模协同知识处理中针对某个问题提出的答案的信息。“答案”可以由某个参与者提出,其他参与者协助补充和完善。“证据”是针对特定“答案”的,由该“答案”的提出者、修改者、评分者提供的相关证据。“日志”用于记录“答案”和“证据”的访问、 添加、更新、评分等行为,支持版本回溯和行为挖掘。一个“问题”不仅可以有多个“背景信息”、“答案”或“证据”,而且同一个“背景信息”、“答案”或“证据”也可以有多个不同版本。图4为本实施例中面向大规模协同知识处理数据模型中的“话题”示意图,如图4 所示,“话题”是大规模协同知识处理中“问题”所指向的客体,对应领域本体中的一个类名或实例名。“话题”中需要定义的关键属性有三个话题URI (通用资源标志符)、话题名称、 语义关联。话题URI用于唯一标识一个话题。话题名称为可以是一个关键词或短语,只要体现“话题”的特征即可。语义关联是指“话题”与领域本体之间的关联关系,可以用OffL语言(Web Ontology Language)表不。‘话题URI’的生成可采用相对URI或绝对URI,也可以采用统一资源定位符 (URL)来代替URI。‘话题名称’只要定义为字符串型数据类型即可,也可以采用正则表达式进行统一验证。OffL语言可以表示多种‘语义关联’,包括类之间的继承、等同、交叉关系(<rdfssubclassOf >、<owlequivalentClass>> <owldisjointffith > 属性之间的继承、等同、互逆关系(<rdfs: subPropertyOf >、<owl equivalentProperty〉、 <owl inverseOf > )、属性与类之间关系 rdfs domain〉、<rdfs range 、类与实例之间关系(<rdf description〉、<rdf: type 、概念间的传递、对称、函数和反函数关系(owlTransitiveProperty, owlSymmetricProperty> owl FunctionalProperty 禾口 owlInverseFunctionalProperty)、 _既念间的集合运算关系(<owl:unionOf >> <owl:intersectionOf >> <owl compIementOf > )> M it 1 ]白勺片反 * # 胃 (<0Wl:pri0rVersi0n>)。利用“话题”与“领域本体”之间的语义关联不仅可以消除“话题” 的歧义性,而且利用这种语义关联可以深度挖掘话题数据,如话题聚类分析等。图5是本实施例中面向大规模协同知识处理数据模型中的“参与者”示意图,如图5所示,“参与者”中需要记录参与者的URI、参与者名称、可信度和FOAF连接信息。‘参与者URI’用来唯一标识参与者,可采用相对URI或绝对URI,也可以采用统一资源定位符(URL)来代替URI。‘参与者名称’中记录参与者在参与本次大规模协同知识处理过程时所采用的昵称。‘F0AF连接信息’中记录指向用户FOAF信息的指针,可以采用<foaf: PersonalftOfileDocument〉元素标记参与者的个人简历文件地址。‘参与者的可信度’采用量化表示,具体数值可以根据参与者在每次参与大规模协同知识处理过程中可信度来计算。具体公式如下Cp (i, j) = Cp(i, j-l)+Cq(i, j)(1)其中,Cp(i,j)表示第i个参与者参与第j次大规模协同知识处理过程之后的累计可信度,Cp (i,j-1)表示该参与者在第j_l次参与大规模协同知识处理之前的可信度, Cq(i, j)表示该参与者在第j次大规模协同知识处理过程中得到的可信度。Cq (i, j)的计算公式如下
权利要求
1.一种协同知识处理方法,其特征在于,包括以下步骤步骤1,接收问题信息和与所述问题信息相关的背景信息;步骤2,接收参与者针对所述问题信息给出的答案信息和证据信息;步骤3,接收对所述答案信息、证据信息和/或背景信息进行的补充和/或修改,以形成不同版本的答案信息、证据信息和/或背景信息;步骤4,根据所述不同版本的答案信息、证据信息和背景信息的评分值和所述评分值的评分者的可信度值计算所述不同版本的答案信息、证据信息和背景信息的可信度值,根据所述不同版本的答案信息的可信度值和评分值以及证据信息的可信度值选出最优答案信息;步骤5,根据所述不同版本的答案信息的可信度值更新提供所述答案信息的参与者的可信度值。
2.根据权利要求1所述的方法,其特征在于,所述背景信息包括相关知识、原始数据和 /或限制条件,所述问题包括多个子问题。
3.根据权利要求1所述的方法,其特征在于,根据所述答案信息的可信度值计算出对应的参与者参与本次知识处理过程的得分值,根据所述得分值更新参与者的可信度值。
4.根据权利要求3所述的方法,其特征在于,根据所述得分值得出参与者参与本次知识处理过程的可信度值,更新参与者的可信度值的公式为Cp (i, j) = Cp (i, j-1)与 Cq (i, j)其中,Cp (i, j)表示第i个参与者参与第j次知识处理过程之后的累计可信度,Cp (i, j-1)表示该参与者在第j-Ι次参与知识处理过程之前的可信度,Cq(i, j)表示该参与者在第j次知识处理过程中得到的可信度;其中Cq(i,j)的计算公式如下
5.根据权利要求1所述的方法,其特征在于,计算所述背景信息的可信度值的公式为
6.根据权利要求1所述的方法,其特征在于,计算所述答案信息的可信度值得公式为
7.根据权利要求1所述的方法,其特征在于,计算所述证据信息的可信度值得公式为
8.根据权利要求1所述的方法,其特征在于,所述步骤4中,根据所述不同版本的答案信息的可信度值和评分值以及证据信息的可信度值计算出每个版本的答案信息的推荐程度值,并按照推荐程度值进行排序,将推荐程度值最高的答案信息作为最优答案信息; 计算答案信息的推荐程度值的公式如下 D(i,j) = Ca(i, j) XV(a)+Ce (i, j) XV(e)+Cs(i, j) XV(s)其中,D(i,j)表示第i个答案信息的第j个版本的推荐程度值,Ca(i, j)表示第i个答案信息的第j个版本的可信度值,Ce(i, j)和Cs(i,j)分别表示第i个答案信息的第j 个版本所对应证据的可信度值和第i个答案信息的第j个版本的评分值,"100 ^ Ca(i, j) ( 100,-100 ( Ce(i,j) ( 100,-100 ( Cs(i,j) ( 100,V(a)、V(e)和 V(s)分别表示答案信息的可信度值、证据信息的可信度值和答案信息评分值的权重,V(a) ( 1, O 彡 V(e)彡 1,0 彡 V(S)彡 1,且 V(a)+V(e)+V(s) = 1。
9.根据权利要求1所述的方法,其特征在于,所述问题、背景信息、答案信息和/或证据信息的表示形式为面向计算机知识处理的语义Web形式或面向人类阅读的非语义Web形式。
10.一种协同知识处理系统,其特征在于,包括以下模块 发起模块,其接收问题信息和与所述问题信息相关的背景信息;参与模块,其接收参与者针对所述问题信息给出的答案信息和证据信息; 修改补充模块,其接收对所述答案信息、证据信息和/或背景信息进行的补充和/或修改,以形成不同版本的答案信息、证据信息和/或背景信息;最优答案信息选择模块,其根据所述不同版本的答案信息、证据信息和背景信息的评分值和所述评分值的评分者的可信度值计算所述不同版本的答案信息、证据信息和背景信息的可信度值,根据所述不同版本的答案信息的可信度值和评分值以及证据信息的可信度值选出最优答案信息;可信度值更新模块,其根据所述不同版本的答案信息的可信度值更新提供所述答案信息的参与者的可信度值。
全文摘要
本发明公开了一种大规模协同知识处理方法和系统,该方法包括以下步骤接收问题信息和背景信息;接收参与者给出的答案信息和证据信息;接收对所述答案信息、证据信息和/或背景信息进行的补充和/或修改,以形成不同版本的答案信息、证据信息和/或背景信息;根据所述不同版本的答案信息、证据信息和背景信息的评分值和所述评分值的评分者的可信度值计算所述不同版本的答案信息、证据信息和背景信息的可信度值,选出最优答案信息;更新提供所述答案信息的参与者的可信度值。根据本发明的方法和系统,能够较好地满足以“问题为中心”的数据建模过程的需要,更好地适应现代信息技术的发展模式,更加符合现代知识库建设的规律。
文档编号G06F17/30GK102411604SQ20111023536
公开日2012年4月11日 申请日期2011年8月16日 优先权日2011年8月16日
发明者张勇, 朝乐门, 邢春晓 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1