问答社区内回答评价方法和系统的制作方法

文档序号:6525062阅读:198来源:国知局
问答社区内回答评价方法和系统的制作方法
【专利摘要】本发明提供了一种问答社区内回答评价方法,该方法包括:获取问题及所述问题下对应的所有回答内容及与所述回答内容相关的多维信息;基于对各维信息进行独立加权的方式计算每个回答内容的基本权重;综合各维信息的相互影响,确定相应的调权机制调节所述获取的基本权重,得到每个回答内容的最终权重;基于所述最终权重对所述所有回答内容进行综合评价。相应地还提供了一种问答社区内回答评价系统。本发明提供的方法和系统可以有效甄别对问题有价值的回答,提升问答平台的用户体验。
【专利说明】问答社区内回答评价方法和系统
【技术领域】
[0001]本发明涉及计算机网络领域,尤其涉及一种问答社区内回答评价方法和系统。
【背景技术】
[0002]目前,通过搜索平台搜索相关的信息是用户获取信息的重要途径,尤其在问答社区内搜索问题、提出问题、回答问题、浏览问题或追加问题等,这已成为用户间进行互动信息交流的重要方式。其中,常见的问答社区有百度知道、搜搜问问、新浪爱问等。
[0003]通常,问答社区内各问题下回答内容的展示顺序主要基于以下两种方式:1)仅按照回答问题的时间进行排序,即排名靠前展示的回答在时间上更靠近当前搜索的时间;2)按照回答获得的好评数进行排序,即同一问题下的回答获得用户的赞同数越多,其越靠前展示在问答社区。但是,这两种方式各有其不足,对于第一种方式而言,由于靠前展示的回答不一定是最匹配该问题的回答,因此,用户通常需要花费较长时间寻找所需要的回答,并且,这种方式随着回答个数的递增,其不足越明显;对于第二种方式而言,基于赞同数对回答进行排序,这很容易遭到spam (电子垃圾)用户的攻击,使得那些对spam用户直接有益的广告内容顶到靠前的展示位置,从而造成对浏览该回答的用户的误导。

【发明内容】

[0004]本发明的目的是提供一种问答社区内回答评价方法和系统,可以有效提升问答平台的用户体验。
[0005]根据本发明的一个方面,提供了一种问答社区内回答评价方法,该方法包括:
[0006]获取问题及所述问题下对应的所有回答内容及与所述回答内容相关的多维信息;
[0007]通过纳入回归模型,基于对各维信息进行独立加权的方式计算每个回答内容的基本权重;
[0008]综合各维信息的相互影响,确定相应的调权机制调节所述获取的基本权重,得到每个回答内容的最终权重;
[0009]基于所述最终权重对所述所有回答内容进行综合评价。
[0010]根据本发明的另一个方面,还提供了一种问答社区内回答评价系统,包括:
[0011]信息获取单元,用于获取问题及所述问题下对应的所有回答内容及与所述回答内容相关的多维信息;
[0012]基本权重计算单元,通过纳入回归模型,基于对各维信息进行独立加权的方式计算每个回答内容的基本权重;
[0013]权重调节单元,用于综合各维信息的相互影响,确定相应的调权机制调节所述获取的基本权重,得到每个回答内容的最终权重;
[0014]回答评价单元,基于所述最终权重对所述所有回答内容进行综合评价。
[0015]与现有技术相比,本发明具有以下优点:[0016]I)本发明通过对回答信息的评估,有效甄别对问题有价值的回答,并将该回答优先展现给浏览者和提问者,提升了问答平台的用户体验;
[0017]2)本发明可以有效地防止垃圾信息(spam)用户的攻击,避免该类信息对浏览用户造成误导。
【专利附图】

【附图说明】
[0018]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0019]图1为根据本发明一个优选实施例的问答社区内回答评价方法流程图;
[0020]图2为本实施例所示的回答内容的长度与对应调权系数的曲线图;
[0021]图3为根据本发明优选实施例的用户等级和回答内容的质量的关系曲线图;
[0022]图4为本发明另一个优选实施例的回答社区内回答评价系统的示意性框图。
【具体实施方式】
[0023]下面结合附图对本发明作进一步详细描述。
[0024]根据本发明的一个方面,提供了一种问答社区内回答评价方法。需要说明的是,下文提到的权重和回答信息的质量成正向关系,权重越高,代表回答信息的质量越优。所述回答信息的质量主要从回答内容、提交所述回答的用户行为特征、浏览所述回答的用户特征等信息进行综合衡量。
[0025]请参考图1,图1为根据本发明一个优选实施例的问答社区内回答评价方法流程图。
[0026]如图1所示,本发明所提供的方法包括以下步骤:
[0027]步骤S101,获取问题及所述问题下对应的所有回答内容及与所述回答内容相关的
多维信息。
[0028]具体地,为了更好地对问答社区内的回答信息的价值进行评价,基于网络获取问答社区内所有问题及所述问题下对应的所有回答内容及相关信息,具体获取的方式在此不作限制。
[0029]与所述回答内容相关的多维信息主要包括:所述回答自身的特征信息、提交所述回答内容的用户特征信息、浏览所述问题及回答的用户行为特征信息。其中,所述回答自身的特征信息包括非文本特性信息和文本特征信息;所述提交所述回答内容的用户特征信息包括用户等级和用户采纳率;所述浏览所述问题及回答的用户行为特征主要指该用户对回答的评价性信息,例如常见的回答好评数、回答中的致谢语以及追问追答中的致谢语等,该信息可以刻画该用户对该回答的反馈信息。
[0030]其中,所述回答自身的特征信息中的文本特征信息主要包括:特殊标记特征、核心表意词特征、疑问倾向特征和无意义特征、致谢倾向性特征。
[0031]其中,所述回答自身的特征信息中的非文本特征信息主要包括:所述回答内容的长度信息、所述回答内容的段落数目、富媒体特征信息或/和追问追答信息。其中,富媒体特征信息主要指回答内容中诸如图片、地图等特征信息。
[0032]步骤S102,通过纳入回归模型,基于对各维信息进行独立加权的方式计算每个回答内容的基本权重。
[0033]具体地,获取上述多维信息后,基于上述多维信息衡量每个回答内容的质量。更具体地,通过下述计算公式计算每个回答内容的基本权重,即纳入回归模型,对所述各维信息进行线性加权计算。计算公式如下:
[0034]score^^radio! X (Iimesion1+*** Tadioi X (Iimesioni+*** radionX dimesionn
[0035]其中,radiop radio^ radion分别代表各维信息的调权因子,dimesion^(Iimesioni^dimesionn分别代表各维信息的权重,Scoreini表示基本权重。其中,所述调权因子和权重可以通过对各维信息中所包括的特征及主特征信息的穷举、选择、固化参数等方法予以确定。
[0036]所述各维信息主要指:所述回答自身的特征信息、提交所述回答内容的用户特征信息、浏览所述问题及回答的用户行为特征信息。
[0037]通过上述公式的计算,可以获取每一个回答内容的基本权重,通过下文的调权处理,即可以获取每一个回答内容的最终权重。
[0038]步骤S103,综合各维信息的相互影响,确定相应的调权机制调节所述获取的基本权重,得到每个回答内容的最终权重。
[0039]具体地,所述各维信息的相互影响主要指各维信息对回答内容的质量所产生正面或负面的影响。所述调权机制则根据所述影响的正负面、影响力度进行加权或降权,即在每个回答内容的基本权重上确定相应的调权系数,包括加权或降权系数,两者的乘积即为最终获得的权重。具体的计算公式可以参照下文:
[0040]Score=W1XwWmXscoreini
[0041]其中,Wp Wm表示调权系数,Scoreini表示基本权重,score表示最终权重。
`[0042]其中,所述加权或降权系数与各维信息中的具体特征相关,下文将进行详述。
[0043]就上述回答自身的特征信息中的非文本特征信息而言,其中影响加权或降权系数的特征主要包括回答内容的长度和回答内容的段落。
[0044]分别而言,由于问答社区内回答内容的长度一般都是中等长度的内容其质量较高,过短长度的内容通常包含的信息较片面,其质量较低,过长的内容则通常因为冗长而缺乏重点信息,因此,回答内容的长度对回答内容质量的贡献呈现出先增长后减少的趋势。为了更好地体现长度与回答内容质量之间的关系,可以将所述关系曲线划分为多个档位来表示,并可以采用如下公式来计算所述回答内容的长度所对应的调权系数:
[0045]
【权利要求】
1.一种问答社区内的回答评价方法,该方法包括: a)获取问题及所述问题下对应的所有回答内容及与所述回答内容相关的多维信息; b)基于对各维信息进行独立加权的方式计算每个回答内容的基本权重; c)综合各维信息的相互影响,确定相应的调权机制调节所述获取的基本权重,得到每个回答内容的最终权重; d)基于所述最终权重对所述所有回答内容进行综合评价。
2.根据权利要求1所述的回答评价方法,其中,所述多维信息主要包括:所述回答自身的特征信息、提交所述回答内容的用户特征信息、浏览所述问题及回答的用户行为特征信息。
3.根据权利要求2所述的回答评价方法,其中,所述回答自身的特征信息包括回答内容的长度和回答内容的段落数。
4.根据权利要求3所述的回答评价方法,其中,所述调权机制具体包括: 针对回答内容的长度,采用多个档位的线性加权确定所对应的调权系数; 针对回答内容的段落数,采用线性增加的形式计算所对应的调权系数。
5.根据权利要求2所述的回答评价方法,其中,所述提交所述回答内容的用户特征信息包括用户等级和用户采纳率。
6.根据权利要求5所述的回答评价方法,其中,所述调权机制具体包括: 针对用户等级和用户采纳率,分别采用相应的对数计算形式计算所对应的调权系数。
7.根据权利要求2所述的回答评价方法,其中,所述回答自身的特征信息包括特殊标记特征、核心表意词特征、疑问倾向特征和无意义特征、致谢倾向性特征。
8.根据权利要求7所述的回答评价方法,其中,所述调权机制具体包括: 针对所述特殊标记特征,直接进行加权处理; 针对所述核心表意词特征,则通过生成核心词表和匹配核心词确定相应调权系数;针对所述疑问倾向特征和无意义特征,通过词表匹配的形式,在有限的回答长度范围内,命中关键词串,进行相关的降权处理; 针对所述致谢倾向性特征,通过获取表征评价信息的倾向性词典以及将回答内容与所述倾向性词典进行匹配,进行相应的加权处理。
9.根据权利要求2-8任一项所述的回答评价方法,其中,所述调权机制还包括: 若所述回答自身的特征信息的权重过低,降权; 若提交所述回答内容的用户特征信息的权重过低,降权; 若回答是推荐回答、最佳回答等,加权; 若短回答内容包含特殊标记的词汇或者短语,加权; 对于追问追答情况,根据不同的比例进行不同的加权。
10.根据权利要求2-8任一项所述的回答评价方法,其中,所述步骤b)具体包括: 通过纳入回归模型,基于对各维信息进行独立加权的方式计算每个回答内容的基本权重。
11.一种问答社区内的回答评价系统,包括: 信息获取单元,用于获取问题及所述问题下对应的所有回答内容及与所述回答内容相关的多维信息;基本权重计算单元,基于对各维信息进行独立加权的方式计算每个回答内容的基本权重; 权重调节单元,用于综合各维信息的相互影响,确定相应的调权机制调节所述获取的基本权重,得到每个回答内容的最终权重; 回答评价单元,基于所述最终权重对所述所有回答内容进行综合评价。
12.根据权利要求11所述的回答评价系统,其中,所述多维信息主要包括:所述回答自身的特征信息、提交所述回答内容的用户特征信息、浏览所述问题及回答的用户行为特征信息。
13.根据权利要求12所述的回答评价系统,其中,所述回答自身的特征信息包括回答内容的长度和回答内容的段落数。
14.根据权利要求13所述的回答评价系统,其中,所述权重调节单元所确定的调权机制具体包括: 针对回答内容的长度,采用多个档位的线性加权确定所对应的调权系数; 针对回答内容的段落数,采用线性增加的形式计算所对应的调权系数。
15.根据权利要求12所述的回答评价系统,其中,所述提交所述回答内容的用户特征信息包括用户等级和用户采纳率。
16.根据权利要求15所述的回答评价系统,其中,所述调权机制具体包括: 针对用户等级和用户采纳率,分别采用相应的对数计算形式计算所对应的调权系数。
17.根据权利要求12所述的回答评价系统,其中,所述回答自身的特征信息包括特殊标记特征、核心表意词特征、疑问倾向特征和无意义特征、致谢倾向性特征。
18.根据权利要求17所述的回答评价系统,其中,所述调权机制具体包括: 针对所述特殊标记特征,直接进行加权处理; 针对所述核心表意词特征,则通过生成核心词表和匹配核心词确定相应调权系数;针对所述疑问倾向特征和无意义特征,通过词表匹配的形式,在有限的回答长度范围内,命中关键词串,进行相关的降权处理; 针对所述致谢倾向性特征,通过获取表征评价信息的倾向性词典以及将回答内容与所述倾向性词典进行匹配,进行相应的加权处理。
19.根据权利要求12-18任一项所述的回答评价系统,其中,所述调权机制还包括: 若所述回答自身的特征信息的权重过低,降权; 若提交所述回答内容的用户特征信息的权重过低,降权; 若回答是推荐回答、最佳回答等,加权; 若短回答内容包含特殊标记的词汇或者短语,加权; 对于追问追答情况,根据不同的比例进行不同的加权。
20.根据权利要求12-18任一项所述的回答评价系统,其中,所述基本权重计算单元通过纳入回归模型,基于对各维信息进行独立加权的方式计算每个回答内容的基本权重。
【文档编号】G06F17/30GK103729424SQ201310714726
【公开日】2014年4月16日 申请日期:2013年12月20日 优先权日:2013年12月20日
【发明者】姚晔, 陈庆轩, 宁华丽, 郭宇霆 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1