一种在问答系统中搜索优选专家信息的方法

文档序号:6423722阅读:94来源:国知局
专利名称:一种在问答系统中搜索优选专家信息的方法
技术领域
本发明涉及一种在问答系统中搜索优选专家信息的方法。
背景技术
互联网是一个用户交流平台,借助网络社区,用户可突破时间和空间限制与其它用户进行交流,并获得帮助,基于WEB的问答系统就是这样一种广受欢迎的用户交流平台, 在这一社区中,用户可以将自己的疑难问题提交上去,等待本领域专家对问题进行解答,并通过网络将问题答案返回给用户。现有问答系统中,用户提出问题时事先并不知道谁是该问题领域的专家,因此,只能没有针对性的提出问题,或者向多人提出解答问题的请求,并且在提出问题后,也只能被动的等待答复。这样不仅浪费日渐紧缺的网络资源和人力资源, 用户也不能得到及时的专业的答复。而用户如果想比较有针对性的找到擅长于自己所提问题的专家,需要熟悉现有系统中的所有专家的背景情况,并进行人工查找,非常费时费力。

发明内容
本发明提出一种通过对web问答系统中的问答文本内容进行分析,利用分类和信息检索方法,自动将能够回答某个问题的最适合专家从专家库中搜索出来的在问答系统中搜索优选专家信息的方法。本发明的中心思想在于基于专家库中的专家背景信息构建表征专家专长的特征向量;获取用户提问的问题特征向量;构建问题-专家匹配度预测模型,并对模型进行训练;根据训练获得的模型,对专家与给定问题之间的匹配程度进行预测,并按照预测分值给出最擅长所述问题的专家。本发明是通过如下技术方案实现本发明有益效果的,提出一种在问答系统中搜索优选专家信息的方法,包括建立专家信息与专家特征向量的对应关系;获取用户提问的问题特征向量;获取匹配所述问题特征向量的所述专家特征向量;根据所述专家信息与所述专家特征向量的对应关系获取所述专家信息。“建立专家信息与专家特征向量的对应关系”具体包括保存所述专家信息和专家的擅长领域信息的对应关系;对所述擅长领域信息进行停用词去除和/或词根还原;根据上述擅长领域信息生成所述专家特征向量;建立专家信息与专家特征向量的对应关系。所述“擅长领域信息”具体包括专家的论文和/或专家的擅长领域记录和/或获得正面评价的专家答案。“获取用户提问的问题特征向量”具体包括将接收到的所述用户提问转化为文本格式的提问数据;对所述提问数据进行停用词去除、词根还原等预处理;生成与上述提问数据对应的问题特征向量。“获取匹配所述问题特征向量的所述专家特征向量”具体为构建问题-专家匹配度预测模型。“构建问题-专家匹配度预测模型”具体包括
以用户反馈信息(喜欢、评分等)作为标注,构建由所述问题特征向量、所述专家特征向量、用户反馈组成的三元组样本集合;根据不同的用户反馈信息模型,构建模型的损失函数,并训练所述专家特征向量与所述问题特征向量之间的匹配模型;基于所述匹配模型获取匹配该问题特征向量的专家特征向量。有益效果通过对专家的发表文献、问答历史信息和当前问题内容,给出合理的自动特征抽取方法,并构建专家和问题之间的匹配模型,高效、准确的在web问答系统中的海量信息中帮助用户快速找到擅长某一问题的专家,以便针对性的提问题,从而高效地获得高质量的回答。


下面根据附图和实施例对本发明作进一步详细说明。图1为本发明一种在问答系统中搜索优选专家信息的方法的流程图之一;图2为本发明一种在问答系统中搜索优选专家信息的方法的流程图之一;图3为本发明一种在问答系统中搜索优选专家信息的方法的流程图之一;图4为本发明一种在问答系统中搜索优选专家信息的方法的流程图之一。
具体实施例方式实施例1一种在问答系统中搜索优选专家信息的方法,包括如下步骤SlOl、建立专家信息与专家特征向量的对应关系。具体包括如下步骤S1011、保存专家信息和专家的擅长领域信息的对应关系。将上述擅长领域信息转化为文本格式。保存专家信息用于将专家的联系方式及相关背景展示给用户,使能用户与专家在问答系统中的沟通渠道建立。专家信息可包括专家姓名和/或专家联系方式和/或专家在问答系统中的登陆ID和/或专家在问答系统中的用户名等。专家的擅长领域信息用于表征专家擅长的领域。擅长领域信息包括专家的论文和 /或专家的擅长领域记录和/或获得正面评价的专家答案等。专家的论文是专家对某一科学问题的研究成果,能够客观地反映该专家的所研究的领域和研究的兴趣,是该专家学术背景的真实反映。擅长领域记录是专家在问答系统中注册或填写自我介绍信息时由本人的,简短而准确,能够从另一个侧面反映专家擅长的技术领域。获得正面评价的专家答案也是反映该专家专长的重要信息来源,并很可能超出该专家学术论文或者自填的擅长领域的范畴,由于采用问答中模式,所采用的词句多为不同于学术论文的非正式词语,因此,是对专家的论文、擅长领域记录的有效补充。通过以上三个方面的信息来源,可以形成对该专家较为全面的擅长领域信息。S1012、对上述擅长领域信息进行停用词去除、词根还原等预处理。可以有效降低上述擅长领域信息中的噪声。S1013、根据上述擅长领域信息生成专家特征向量。
经过预处理的擅长领域信息为文本片段,将文本片段看作一系列无序词条的集合,给每个词条加一个权值,并将文本片段映射成特征向量ζ e Rn,将上述特征向量定义为专家特征向量。其中,η为词条个数,即字典长度,每一维上的元素Zi为第i个词条在当前擅长领域信息中的权值。词条的权值计算方法采用tfidf函数,进一步说明如下
权利要求
1.一种在问答系统中搜索优选专家信息的方法,其特征在于,包括 建立专家信息与专家特征向量的对应关系;获取用户提问的问题特征向量;获取匹配所述问题特征向量的所述专家特征向量;根据所述专家信息与所述专家特征向量的对应关系获取所述专家信息。
2.如权利要求1所述的方法,其特征在于,“建立专家信息与专家特征向量的对应关系”具体包括保存所述专家信息和专家的擅长领域信息的对应关系; 对所述擅长领域信息进行停用词去除和/或词根还原; 根据上述擅长领域信息生成所述专家特征向量; 建立专家信息与专家特征向量的对应关系。
3.如权利要求2所述的方法,其特征在于,所述“擅长领域信息”具体包括专家的论文和/或专家的擅长领域记录和/或获得正面评价的专家答案。
4.如权利要求1所述的方法,其特征在于,“获取用户提问的问题特征向量”具体包括 将接收到的所述用户提问转化为文本格式的提问数据;对所述提问数据进行停用词去除、词根还原等预处理; 生成与上述提问数据对应的问题特征向量。
5.如权利要求1所述的方法,其特征在于,“获取匹配所述问题特征向量的所述专家特征向量”具体为构建问题-专家匹配度预测模型。
6.如权利要求5所述的方法,其特征在于,“构建问题-专家匹配度预测模型”具体包括以用户反馈信息(喜欢、评分等)作为标注,构建由所述问题特征向量、所述专家特征向量、用户反馈组成的三元组样本集合;根据不同的用户反馈信息模型,构建模型的损失函数,并训练所述专家特征向量与所述问题特征向量之间的匹配模型;基于所述匹配模型获取匹配该问题特征向量的专家特征向量。
全文摘要
本发明提出一种在问答系统中搜索优选专家信息的方法,包括基于专家库中的信息建立表征每个专家专长的特征向量;获取用户提问的问题特征向量;获取匹配所述问题特征向量的所述专家特征向量;根据所述专家信息与所述专家特征向量的对应关系获取所述专家信息。本发明提出通过对web问答系统中的问答文本内容进行分析,利用分类和信息检索方法,自动将能够回答某个问题的最适合的专家从专家库中搜索出来。
文档编号G06F17/30GK102184225SQ201110117900
公开日2011年9月14日 申请日期2011年5月9日 优先权日2011年5月9日
发明者何芳连 申请人:北京奥米时代生物技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1