法律数据检索的评价方法、评价装置和电子设备与流程

文档序号:22073703发布日期:2020-09-01 18:58阅读:242来源:国知局
法律数据检索的评价方法、评价装置和电子设备与流程

本申请涉及法律数据检索,更具体地涉及一种法律数据检索的评价方法、评价装置和电子设备。



背景技术:

法律数据(例如,司法公开信息、裁判文书等)数据量大、时效性强,方便、有效、实时的法律数据检索功能,是影响法律数据检索(引擎、应用或服务)可用性的重要因素之一。因此,需要对法律数据检索进行针对性地评价,以提供法律数据检索是否满足用户需求的客观指标。

同时,法律数据检索任务复杂,又具有用户检索需求范围广且难以把握的特性,因此,需要一种针对于法律数据检索的客观评价方案。



技术实现要素:

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种法律数据检索的评价方法、评价装置和电子设备,其适于对法律数据检索进行针对性地评价,以提供法律数据检索是否满足用户需求的客观指标。

根据本申请的一方面,提供了一种法律数据检索的评价方法,其包括:

获取多个用户使用法律数据检索的检索数据;

基于所述检索数据的信息数量、信息质量和可靠性,对所述法律数据检索进行检索便利性评价;

基于所述检索数据中检索结果和与所述检索结果对应的检索查询的子主题之间的相关性,对所述法律数据检索进行多样化检索评价;

基于所述检索数据的用户数据生成对应用户的检索需求,判断所述所述检索数据的检索结果是否匹配所述检索需求,以对所述法律数据检索进行用户满意度评价;以及

基于聚类算法对所述检索数据中的法律数据进行分类;以每一类别的法律数据分别训练一个点击率预测模型;以训练完成的多个点击率预测模型共同对点击率进行预测,以对所述法律数据检索进行点击率预测评价。

在上述法律数据检索的评价方法中,基于所述检索数据的信息数量、信息质量和可靠性,对所述法律数据检索进行检索便利性评价,包括:获取部分所述检索数据的检索结果;以及,基于部分所述检索结果的查全率和查准率,获得所述检索数据的信息数量、信息质量和可靠性。

在上述法律数据检索的评价方法中,基于所述检索数据中检索结果和与所述检索结果对应的检索查询的子主题之间的相关性,对所述法律数据检索进行多样化检索评价,包括:基于所述检索数据中检索结果和与所述检索结果对应的检索查询的子主题之间的相关性,获得如下评价指标至少之一:p-ia指标、erp-ia@k指标、α-ndcg指标、nrbp指标和排序相关性测度。

在上述法律数据检索的评价方法中,基于所述检索数据的用户数据生成对应用户的检索需求,判断所述所述检索数据的检索结果是否匹配所述检索需求,以对所述法律数据检索进行用户满意度评价,包括:基于用户数据中的身份、地域和兴趣,生成所述用户的检索需求。

在上述法律数据检索的评价方法中,用于评价所述法律数据检索的用户满意度的评价指标体系,包括可用性、互动性、信息质量和系统质量四个一级指标,所述可行性包括易浏览性、易理解性、易使用性和界面设计四个二级指标;所述交互性包括人机交互和用户交互二个二级指标;所述信息质量包括准确性、完整性、权威型和完备性四个二级指标;所述系统质量包括高并发访问、稳定性、安全性和响应性四个二级指标。

在上述法律数据检索的评价方法中,以每一类别的法律数据分别训练一个点击率预测模型,包括:以梯度提升决策树模型挖掘特征之间的非线性关系。

在上述法律数据检索的评价方法中,获取多个用户在法律数据检索的检索数据,包括:识别所述多个用户中的异常用户;以及,删除异常用户的检索数据。

在上述法律数据检索的评价方法中,识别所述多个用户中的异常用户,包括:以训练完成的异常用户识别模型,识别所述多个用户中的异常用户,其中,异常用户识别模型的训练过程,包括:对获取的用户在所述法律数据检索的流量数据进行预处理,以获得部分标记的训练样本;使用多数类分布的样本处理方法对所述部分标记的训练样本进行处理,以生成多个训练样本子集;使用混合扰动技术生成多个成员分类器;使用训练样本子集分别对所述成员分类器进行训练;以及,选择至少一部分训练完成的成员分类器,构建集成分类器,其中,所述集成分类器为异常用户识别模型。

根据本申请另一方面,还提供一种法律数据检索的评价装置,其包括:

检索数据获取单元,用于获取多个用户使用法律数据检索的检索数据;

第一评价单元,用于基于所述检索数据的信息数量、信息质量和可靠性,对所述法律数据检索进行检索便利性评价;

第二评价单元,用于基于所述检索数据中检索结果和与所述检索结果对应的检索查询的子主题之间的相关性,对所述法律数据检索进行多样化检索评价;

第三评价单元,用于基于所述检索数据的用户数据生成对应用户的检索需求,判断所述所述检索数据的检索结果是否匹配所述检索需求,以对所述法律数据检索进行用户满意度评价;以及

第四评价单元,用于基于聚类算法对所述检索数据中的法律数据进行分类;以每一类别的法律数据分别训练一个点击率预测模型;以训练完成的多个点击率预测模型共同对点击率进行预测,以对所述法律数据检索进行点击率预测评价。

在上述法律数据检索的评价装置中,所述检索数据获取单元,进一步用于:识别所述多个用户中的异常用户;以及,删除异常用户的检索数据。

根据本申请的又一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的法律数据检索的评价方法。

根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的法律数据检索的评价方法。

根据本申请实施例的法律数据检索的评价方法、评价装置和电子设备,其适于对法律数据检索进行针对性地评价,以提供法律数据检索是否满足用户需求的客观指标。

附图说明

通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的法律数据检索的评价方法的流程图。

图2图示了根据本申请实施例的用户满意度的评价指标体系的示意图。

图3图示了根据本申请实施例的梯度提升决策树模型的示意图。

图4图示了根据本申请实施例的异常用户识别的流程图。

图5图示了根据本申请实施例的异常用户识别模型的训练过程的流程图。

图6图示了根据本申请实施例的法律数据检索的评价装置的框图。

图7图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。

示例性方法

图1图示了根据本申请实施例的法律数据检索的评价方法的流程图。如图1所示,根据本申请实施例的所述法律数据检索的评价方法,包括:s110,获取多个用户使用法律数据检索的检索数据;s120,基于所述检索数据的信息数量、信息质量和可靠性,对所述法律数据检索进行检索便利性评价;s130,基于所述检索数据中检索结果和与所述检索结果对应的检索查询的子主题之间的相关性,对所述法律数据检索进行多样化检索评价;s140,基于所述检索数据的用户数据生成对应用户的检索需求,判断所述所述检索数据的检索结果是否匹配所述检索需求,以对所述法律数据检索进行用户满意度评价;以及,s150,基于聚类算法对所述检索数据中的法律数据进行分类;以每一类别的法律数据分别训练一个点击率预测模型;以训练完成的多个点击率预测模型共同对点击率进行预测,以对所述法律数据检索进行点击率预测评价。

也就是说,根据本申请实施例的所述法律数据检索的评价方法,其通过分析用户使用所述法律数据检索的检索数据,对所述法律数据检索进行检索便利性评价、多样化检索评价、用户满意度评价和点击率预测评价,并且,检索便利性评价、多样化检索评价、用户满意度评价和点击率预测评价中所采用的评价指标为客观指标(是通过计算获得的指标,而非人为定义的指标),通过这样的方式,为所述法律数据检索是否满足用户需求提供客观参考标准。

更具体地,在步骤s110中,获取多个用户使用法律数据检索的检索数据。这里,所述用户的检索数据,包括与用户使用所述法律数据检索的行为相关的数据、检索结果、用户数据等。并且,用户使用所述法律数据检索,包括用户使用任何具有法律数据检索功能的实体,例如,法律数据检索引擎、包装出来的法律数据检索服务平台、具有法律数据检索功能的应用等,对此,并不为本申请所局限。

在步骤s120中,基于所述检索数据的信息数量、信息质量和可靠性,对所述法律数据检索进行检索便利性评价。特别地,在本申请实施例中,所述评价方法基于统计原理和统计方法评价所述法律数据检索的检索便利性。

具体来说,用统计分析方法评价所述法律数据检索的检索便利性的过程,包括:首先,确定评价目标,即,检索便利性;接着,确定与评价目标相关的评价项目,即,根据评价检索便利性的要求,确定分析评价的项目和需要采集的统计项目,并制作调查表单;然后,收集不同用户使用所述法律数据检索的检索数据,优选地,用户的类型分布应尽可能地广和均匀,例如,选择预设样本量的当事人、案外人、律师和法官作为样本集;接着,选择所述检索数据中的关键数据:检索查询和与所述检索查询匹配的检索结果,并对检索结果进行统计分析;接着,计算统计结果,根据统计结果计算查全率和查准率;然后,汇总分析结果,得出结论:对统计结果进行分析,进而分析所述法律数据检索的信息数量、信息质量和可靠性,以对所述法律数据检索进行检索便利性评价。

值得一提的是,在统计时,不可能对所有的检索数据进行统计分析,在本申请实施例中,采用抽样调查的方式选取部分检索查询,对该部分检索查询对应的检索结果进行统计分析。也就是,在本申请实施例中,基于所述检索数据的信息数量、信息质量和可靠性,对所述法律数据检索进行检索便利性评价,包括:获取部分所述检索数据的检索结果;以及,基于部分所述检索结果的查全率和查准率,获得所述检索数据的信息数量、信息质量和可靠性。

在步骤s130中,基于所述检索数据中检索结果和与所述检索结果对应的检索查询的子主题之间的相关性,对所述法律数据检索进行多样化检索评价。应可以理解,在法律数据检索中,用户的检索需求通常很难把握,因此,法律数据检索不仅需要保证返回的检索结果高度相关,而且,还需要确保能够满足不同类型用户的检索需求。实际上,现有的法律数据检索平台大多无法准确地反应用户的查询意图,即便其采用了模糊查询和多方面查询等技术手段。相应地,为了更好地应对这些查询,一些法律数据检索服务采用结果多样化的策略:通过提供覆盖多方面的检索结果(例如,法律文书)来增加用户找到切合自身需求的信息的可能性。

结果多样化评价策略的实现一般需要两个步骤:首先,对于给定的检索查询,搜索引擎基于相关性排序函数(例如,page-rank排序函数)获得初始文档列表;然后,应用多样化策略调整初始列表的次序,以满足用户的多样化需求。这里,重点是第二步,理想的重排效果应在最大程度上满足相关度高、覆盖面广且相似度低的条件。但是,由于多样化问题复杂性高,故调整策略大多基于贪心算法,即,不断从初始检索结果中选出局部最优的法律数据,迭代多次后产生重排结果。然后,现有的评价指标并不支持结果多样化。

针对于现有的评价指标不支持结果多样化的不足,根据本申请实施例的所述评价方法将所述检索数据中检索结果和与所述检索结果对应的检索查询的子主题之间的相关性作为重点,提出了一些评价指标,其包括但不限于:p-ia指标、erp-ia@k指标、α-ndcg指标、nrbp指标和排序相关性测度。

具体来说,p-ia(intent-awareprecision)指标的计算过程,包括:假设给定检索查询q,它包含n个子主题(q1,q2,…,qn)。如果检索返回结果的第j个位置处的文档与查询q的第i个子主题相关,ri,j=1,否则,ri,j=0。则截断系数为k的p-ia(intent-awareprecision)指标定义如下:

err-ia@k(intent-awareexpectedreciprocalrank)指标是一种基于分用户模型的评价指标,对文档的判断不再局限于二值(相关/不相关),而是可以根据文档的具体相关程度生成多值的判断信息。

α-ndcg(normalizeddiscountedcumulativegain)指标将查询的多个意图表示为信息块(informationnuggets)进行评价。

nrbp指标与α-ndcg指标类似,但在评价时额外考虑秩偏精度(rank-biasedprecision)因素,秩偏精度从用户行为的简单模型中导出。与α-ndcg指标相同,nrbp指标也对排序靠后的文档所覆盖的冗余信息块的效用进行了惩罚。

排序相关性测度(correlation)用于比较两组排序列表是否相似,以了解排序函数之间的差别有多大。常用的有pearson积差相关系数、kendall秩相关系数和spearman秩相关系数等,它们的取值范围均为[-1,1]。若两组排序完全相同,相关系数为1,若完全相反,相关系数为-1。若无相关性,相关系数接近0。相关系数越接近1,说明两组排序的相关性越强,对应排序函数的差别越小。

也就是说,在本申请实施例中,基于所述检索数据中检索结果和与所述检索结果对应的检索查询的子主题之间的相关性,对所述法律数据检索进行多样化检索评价,包括:基于所述检索数据中检索结果和与所述检索结果对应的检索查询的子主题之间的相关性,获得如下评价指标至少之一:p-ia指标、erp-ia@k指标、α-ndcg指标、nrbp指标和排序相关性测度。

在步骤s140中,基于所述检索数据的用户数据生成对应用户的检索需求,判断所述所述检索数据的检索结果是否匹配所述检索需求,以对所述法律数据检索进行用户满意度评价。

具体来说,在本申请实施例中,基于所述用户数据中的身份、地域和兴趣等信息生成用户的检索需求;接着,基于用于评价用户满意度的评价指标体系判断所述所述检索数据的检索结果是否匹配所述检索需求,以对所述法律数据检索进行用户满意度评价。

特别地,在本申请实施例中,用于评价用户满意度的评价指标体系结合webqual4.0(可用性、信息质量和交互质量)与d&m系统成功模型(信息质量、系统质量、服务质量)而构建,所述评价指标体系包括4项一级指标和14项二级指标,并且,采用层次分析法(ahp)确定各评价指标的权重。

图2图示了根据本申请实施例的用户满意度的评价指标体系的示意图。如图2所示,所述评价指标体系分为三层,分别为目标层、准则层和维度层,其中,目标层为用户满意度;准则层是在用户满意度评价体系的一级指标,主要包括可用性、交互质量、信息质量和系统质量;维度层是用户满意度评价体系的二级指标,主要包括易浏览性、易学性、易用性等14项评价指标。

可用性主要反映法律数据检索产品或系统的使用体验。结合法律数据检索的特点,所述可用性具体表现如下:(1)易浏览性,即法律数据检索导航系统清晰明确、无混淆,页面易于浏览;(2)易理解性,即法律数据检索功能的操作步骤很容易让用户学会使用;(3)易使用性,即功能操作简单,容易使用;(4)界面设计,即界面风格统一、功能布局协调,色彩美观。

互动质量的优劣直接影响到用户满意度。本方法中将交互质量分为2个维度:人机交互和用户交互。(1)人机交互,即用户可以与法律数据检索实体进行良好的互动操作。是否能够通过生成的用户画像,根据用户的身份、地域、兴趣判断用户的需求,在用户输入关键词后,是否能够准确判断用户搜索意图,检索到用户想要的内容。例如:用户输入“离婚”进行检索,法律数据检索实体能够根据其需求推荐“离婚纠纷”相关案件信息。(2)用户间交互,即法律数据检索实体能够提供用户交流的平台或工具。

信息质量反映了法律数据检索服务的内容质量。具体评价指标如下:(1)准确性,即法律数据检索实体上的司法信息准确无误,细致明了,无歧义,不会因为出现信息有误而误导用户的情况;(2)完整性,即法律数据检索实体上公开司法信息均可开放查询,能够满足用户对丰富且优质的信息资源的需求;(3)及时性,即司法信息更新速度快,能满足用户对最新信息与知识的需求;(4)权威性,即司法信息资源来源可靠,可信度高;(5)完备性,即司法信息分类科学、体系完善,全面覆盖审前、审中、审后主要节点。

系统质量是影响用户满意度的重要因素,具体包含的评价指标如下:(1)安全性:指法律数据检索实体对用户信息保密,且交易安全;(2)稳定性:系统稳定,任何时候可登入;(3)响应性:系统处理和反应速度快,用户体验度高;(4)高并发访问:平台可以支持海量用户同时在线访问。

在步骤s150中,基于聚类算法对所述检索数据中的法律数据进行分类;以每一类别的法律数据分别训练一个点击率预测模型;以训练完成的多个点击率预测模型共同对点击率进行预测,以对所述法律数据检索进行点击率预测评价。点击率的预测是根据所述检索数据中的信息对点击率进行预测,其中,某些特征对点击率预测发挥着重要作用,例如,不同性别、年龄、身份(当事人、案外人、律师、法官)的用户对不同信息的倾向有所不同,用户的检索查询与文书关键词的匹配程度也影响着法律数据的点击率。

相应地,在本申请实施例中,根据特征值的差异,采用k均值算法对所述检索数据中的法律数据进行分类,得到k个数据子集,当然,也可以采用其他数据聚类方法对所述检索数据中的法律数据进行分类,对此,并不为本申请所局限。接着,在每个数据子集上训练一个点击率预测模型,进而,以训练完成的多个点击率预测模型共同对点击率进行预测,以对所述法律数据检索进行点击率预测评价。这里,多个点击率预测模型包括所有点击率预测模型,或者,所有点击率预测模型的一部分。

特别地,在本申请实施例中,在以每一类别的法律数据分别训练一个点击率预测模型中,选择以梯度提升决策树模型(gradientboostingdecisiontree,gbdt)挖掘特征之间的非线性关系,以解决现有的逻辑回归模型预测能力受限的问题。

具体来说,gbdt是基于集成学习的建立的非线性模型,其工作原理是对于每一次迭代过程,选择在减少残差的梯度方向新建立一颗决策树。gbdt模型可以发现多种区分性的特征以及特征组合,决策树的路径可以直接作为不同模型的输入,从而减少特征处理步骤。gbdt算法的构造如图3所示意,图3中tree1、tree2为通过gbdt模块得到的两颗决策树,当输入样本后遍历两颗树,样本落到叶子节点上,每个节点对应一个维度的特征,遍历结束后可以得到该样本的所有特征,树的每条路径通过最小化均方差分割方法进行路径区分。例如,对于图的第一棵树包含3个叶节点,第二棵树包含2个叶节点,对于某一个输入样本落入叶子节点2和叶子节点1,那么可以得到特征向量。

应可以理解,在步骤s150中,聚类算法可以将特征值相近的法律数据聚集在一起,而将特征值差距较大的法律数据分开,以形成不同的数据子集,使得子集内的法律数据相似度较高,不同数据子集之间的司法信息差异较大,最终在不同的数据子集上训练出来的点击率预测模型具有各自的特性,从而可提高点击率预测的效果。同时,法律数据特征之间存在高度非线性关系,而非简单的线性关系,因此获取特征之间的非线性表示是提高点击率预测的关键,用梯度提升决策树来构建特征之间的非线性关系,将构建出的树所对应的学习模型进行累加来实现拟合。

值得一提的是,为了提高检索便利性评价、多样化检索评价、用户满意度评价和点击率预测评价的有效性,还需要将步骤s110中所采集的用户的检索数据中的异常用户识别出来,并将其对应的检索数据删除。这里,异常用户标识具有异常使用法律数据检索的用户,例如,使用爬虫爬取行为的用户,比如,某用户在法律数据检索服务平台上以“法”为关键词进行搜索,并对所有搜索结果进行逐一点击、复制页面内容,则可认为该行为系异常用户行为。也就是,在本申请实施例中,获取多个用户在法律数据检索的检索数据,包括:识别所述多个用户中的异常用户;以及,删除异常用户的检索数据。

在现有技术中,为了快速准确地检测出异常用户,常用的解决方案为:首先从网络上采集到反应用户行为的网络数据进行训练和学习,获取用户行为特征,生成分类模型;然后,基于生成的分类模型对从网络上获得的实时数据进行检测,从而识别出异常用户。其中,所采用的学习技术的性能和学习效果直接影响着用户行为检测结果的准确性,其中,协同学习技术因其在检测准确性和标记训练样本数量之间取得了较好的折中而得到广泛应用,但其要求训练样本必须是均匀和平衡的,这并不适用于从网络上获取的、具有明显非平衡性和分布复杂性的网络用户行为数据

基于此,在本申请实施例中,采用一种基于选择性协同学习的异常用户识别方法。具体来说,将选择性集成学习技术引入到协同学习过程中,提出一种选择性协同学习方法用于生成异常用户识别模型,在使用非平衡训练样本数据的同时,提升训练学习效果。

图5图示了根据本申请实施例的异常用户识别模型的训练过程的流程图。如图5所示,所述异常用户识别模型的训练过程,包括:s210,对获取的用户在所述法律数据检索的流量数据进行预处理,以获得部分标记的训练样本,其中,所述预处理过程包括根据检测特征指标对流量数据进行统计和测量以构造网络用户行为数据,使用软件工具、人工分析等方法对部分网络用户行为数据进行标记等;s220,使用多数类分布的样本处理方法对所述部分标记的训练样本进行处理,以生成多个训练样本子集,其中,使用多数类分布的样本处理方法对所述部分标记的训练样本进行处理,包括使用基于特征子空间的聚类方法获取样本分布情况等;s230,使用混合扰动技术生成多个成员分类器;s240,使用训练样本子集分别对所述成员分类器进行训练;以及,s250,选择至少一部分训练完成的成员分类器,构建集成分类器,其中,所述集成分类器为异常用户识别模型。

由此,根据本申请实施例的所述评价方法还提供了一种异常用户检测模型,如图4所示,其中,该模型包括选择性协同学习和异常用户检测两部分,其中,选择性协同学习部分,包括:训练数据预处理,即,对采集到的用户行为流量数据进行统计、测量以及标记,生成样本处理模块使用的训练样本;样本处理,即,使用基于多数类分布的easyenssenbel方法处理训练样本,生成训练样本子集;成员分类器构建,即,使用混合扰动技术生成成员分类器,供后续的协同学习和选择性集成使用;协同学习,即使用改进的协同学习方法对成员分类器进行训练,供生成集成分类器使用;以及,选择性集成,即基于准确性筛选成员分类器来构建集成分类器,用以检测网络用户异常行为;异常用户检测,包括检测数据预处理,即,对要检测的用户的流量数据进行统计测量,生成集成分类器可处理的用户行为数据;以及,异常用户识别,即,使用集成分类器对网络用户的行为数据进行分类,根据结果识别该用户是否为异常用户。

综上,基于本申请实施例的法律数据检索的评价方法被阐明,其其适于对法律数据检索进行针对性地评价,以提供法律数据检索是否满足用户需求的客观指标。特别地,用户使用所述法律数据检索,包括用户使用任何具有法律数据检索功能的实体,例如,法律数据检索引擎、包装出来的法律数据检索服务平台、具有法律数据检索功能的应用等,对此,并不为本申请所局限。

示例性装置

图6图示了根据本申请实施例的法律数据检索的评价装置的框图。

如图6所示,所述评价装置600,包括:检索数据获取单元610,用于获取多个用户使用法律数据检索的检索数据;第一评价单元620,用于基于所述检索数据的信息数量、信息质量和可靠性,对所述法律数据检索进行检索便利性评价;第二评价单元630,用于基于所述检索数据中检索结果和与所述检索结果对应的检索查询的子主题之间的相关性,对所述法律数据检索进行多样化检索评价;第三评价单元640,用于基于所述检索数据的用户数据生成对应用户的检索需求,判断所述所述检索数据的检索结果是否匹配所述检索需求,以对所述法律数据检索进行用户满意度评价;以及,第四评价单元650,用于基于聚类算法对所述检索数据中的法律数据进行分类;以每一类别的法律数据分别训练一个点击率预测模型;以训练完成的多个点击率预测模型共同对点击率进行预测,以对所述法律数据检索进行点击率预测评价。

在一个示例中,在上述法律数据检索的评价装置600中,所述检索数据获取单元610,进一步用于:识别所述多个用户中的异常用户;以及,删除异常用户的检索数据。

在一个示例中,在上述法律数据检索的评价装置600中,所述第一评价单元,进一步用于:获取部分所述检索数据的检索结果;以及,基于部分所述检索结果的查全率和查准率,获得所述检索数据的信息数量、信息质量和可靠性

在一个示例中,在上述法律数据检索的评价装置600中,所述第二评价单元630,进一步用于:基于所述检索数据中检索结果和与所述检索结果对应的检索查询的子主题之间的相关性,获得如下评价指标至少之一:p-ia指标、erp-ia@k指标、α-ndcg指标、nrbp指标和排序相关性测度。

在一个示例中,在上述法律数据检索的评价装置600中,所述第三评价单元640,进一步用于:基于用户数据中的身份、地域和兴趣,生成所述用户的检索需求

在一个示例中,在上述法律数据检索的评价装置600中,用于评价所述法律数据检索的用户满意度的评价指标体系,包括可用性、互动性、信息质量和系统质量四个一级指标,所述可行性包括易浏览性、易理解性、易使用性和界面设计四个二级指标;所述交互性包括人机交互和用户交互二个二级指标;所述信息质量包括准确性、完整性、权威型和完备性四个二级指标;所述系统质量包括高并发访问、稳定性、安全性和响应性四个二级指标。

在一个示例中,在上述法律数据检索的评价装置600中,所述第四评价单元650,进一步用于以梯度提升决策树模型挖掘特征之间的非线性关系。

在一个示例中,在上述法律数据检索的评价装置600中,进一步包括训练单元660,用于对异常用户识别模型进行训练,其中,该训练过程,包括:对获取的用户在所述法律数据检索的流量数据进行预处理,以获得部分标记的训练样本;使用多数类分布的样本处理方法对所述部分标记的训练样本进行处理,以生成多个训练样本子集;使用混合扰动技术生成多个成员分类器;使用训练样本子集分别对所述成员分类器进行训练;以及,选择至少一部分训练完成的成员分类器,构建集成分类器,其中,所述集成分类器为异常用户识别模型。

这里,本领域技术人员可以理解,上述法律数据检索的评价装置600中的各个单元和模块的具体功能和操作已经在上面参考图1至图5的法律数据检索的评价方法的描述中得到了详细介绍,并因此,将省略其重复描述。

如上所述,根据本申请实施例的法律数据检索的评价装置600可以实现在各种终端设备中,例如大屏智能设备,或者独立于大屏智能设备的计算机等。在一个示例中,根据本申请实施例的法律数据检索的评价装置600可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该法律数据检索的评价装置600可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该法律数据检索的评价装置600同样可以是该终端设备的众多硬件模块之一。

替换地,在另一示例中,该法律数据检索的评价装置600与该终端设备也可以是分立的设备,并且该法律数据检索的评价装置600可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面,参考图7来描述根据本申请实施例的电子设备。

图7图示了根据本申请实施例的电子设备的框图。

如图7所示,电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的法律数据检索的评价方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如法律数据等各种内容。

在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息,包括评价指标等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然,为了简化,图7中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的法律数据检索的评价方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的法律数据检索的评价方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1