基于疑问词扩展的信息检索方法

文档序号：6544181阅读：437来源：国知局

基于疑问词扩展的信息检索方法
【专利摘要】本发明涉及一种信息检索方法，尤其是涉及一种基于疑问词扩展的软件信息检索方法。包括：统计步骤：对问答网站已有的问题答案对进行分类，然后提取各类型答案对的特征，再利用机器学习得出各类型答案对间的区分性特征；分析步骤：利用自然语言对检索问题进行处理以得到疑问词，再将检索向量与区分性特征合并组成新的检索向量；检索步骤：利用检索向量在软件知识库中进行检索。因此，本发明具有如下优点：1.能够利用问答中疑问词和答案之间的联系提高软件信息检索精度；2.能够利用问答中疑问词和答案之间的联系来对检索结果进行过滤和重排序，加快用户筛选速率。
【专利说明】基于疑问词扩展的信息检索方法
【技术领域】
[0001]本发明涉及一种信息检索方法，尤其是涉及一种基于疑问词扩展的软件信息检索方法。
【背景技术】
[0002]软件知识库是用于软件知识管理的一种特殊的数据库，其存储了和软件相关的代码、文档，以及问答等信息，以便于有关软件知识的采集、整理以及提取。
[0003]检索是软件知识库提供的一项重要的功能。针对用户输入的一个查询语句，检索系统进行提取查询词并进行相似度匹配，将检索结果排序以后返回给用户。
[0004]目前的软件信息检索工具主要采用关键词匹配，词频统计(TF-1DF)等技术，这些简单的关键词组合忽略了人们提问时的潜在语义信息，而且人们很难通过简单的关键词组合来准确定义自己的搜索意图，导致人们经常花大量的时间对结果列表进行人工辨识来寻找理想的答案。

【发明内容】

[0005]本发明主要是解决现有技术所存在的检索效率低，检索结果与检索意图不匹配的问题，提供了一种基于疑问词扩展的软件信息检索方法。该方法在检索时综合考虑了代码特征、链接特征，以及不同疑问词提问类别的文本特征等，在对软件问答网站的问题答案对进行学习的基础上进行检索，使系统能够返回更高准确度的回答，优化用户的检索体验。
[0006]本发明的上述技术问题主要是通过下述技术方案得以解决的:
[0007]一种基于疑问词扩展的信息检索方法，其特征在于，包括:
[0008]统计步骤:对问答网站已有的问题答案对进行分类，然后提取各类型答案对的特征，再利用机器学习得出各类型答案对间的区分性特征；
[0009]分析步骤:利用自然语言对检索问题进行处理以得到疑问词，再将检索向量与统计步骤中得到的区分性特征合并组成新的检索向量；
[0010]检索步骤:利用分析步骤中得到的检索向量在软件知识库中进行检索，得到候选结果列表；
[0011]优化的，上述的一种基于疑问词扩展的信息检索方法，所述统计步骤进一步包括以下子步骤:
[0012]步骤2.1:利用爬虫程序抓取真实问答网站的问题答案对；
[0013]步骤2.2:将步骤2.1中所抓取的答案对进行词性标注，然后根据词性标注得到的疑问词将问题答案对进行分类；
[0014]步骤2.3:通过机器学习提取步骤2.2中同一类别答案对的各个答案特征；
[0015]步骤2.4:通过主要成分分析从步骤2.3得到答案特征中提取能区别不同类别答案对的答案特征作为该类别答案对的区分性特征，将区分特征以外的答案特征作为非区分性特征。[0016]优化的，上述的一种基于疑问词扩展的信息检索方法，步骤2.3中所述的答案特征是文本特征、代码特征，以及链接特征中的一种或几种的组合。
[0017]优化的，上述的一种基于疑问词扩展的信息检索方法，所述分析步骤进一步包括以下子步骤:
[0018]步骤4.1:通过对检索问题的词性标注分析，取得用户检索问题的疑问词；
[0019]步骤4.2:查找在统计步骤中得到的与步骤4.1中的疑问词相对应的区分性特征；
[0020]步骤4.3:去除检索问题中的停用词和词根，将得到的词向量与步骤2中得到的区分性特征合并组成新的检索向量；
[0021]优化的，上述的一种基于疑问词扩展的软件信息检索方法，所述检索步骤中在得到候选结果列表后，还包括对候选结果进行过滤和重排序的步骤，该步骤进一步包括以下子步骤:
[0022]步骤5.1:用检索向量在软件知识库中进行检索，得到候选结果列表；
[0023]步骤5.2:分析候选结果列表中的每个备选答案特征，并将备选答案特征与非区分性特征进行模式匹配，按照匹配度排序，并返回最终结果。
[0024]因此，本发明具有如下优点:1.能够利用问答中疑问词和答案之间的联系提高软件信息检索精度；2.能够利用问答中疑问词和答案之间的联系来对检索结果进行过滤和重排序，加快用户筛选速率。
【专利附图】

【附图说明】
[0025]附图1是实施例1的统计步骤流程图。
[0026]附图2是实施例1的分析步骤流程图。
【具体实施方式】
[0027]实施例1:
[0028]在统计步骤之前,先在特定于编程的问答网站stackoverflow上爬取了所有的问题答案对，随机选取了部分问题答案对作为统计对象。
[0029]首先对根据问题答案对中问题的词性标注进行分类，根据问题的疑问词分为how, where, why, what, which等类别，经分析发现who, when的问题在本领域不存在,所以不考虑who, when类别。
[0030]再将将答案中的文本看成由一个个词组成，对这些词作词根化处理，并提取文本的词性特征。将答案中的代码看成由一句句的代码语句组成的代码片段，判断答案中是否存在代码，若存在，则考虑是否有判断语句，循环语句，函数调用语句等特征。此外，还考虑答案中是否存在链接，答案文本长度等特征。对每一种类别问题的答案，我们将其作为正样本，其他类别问题的答案作为负样本。通过主要成分分析提取能区别该类别与其他类别答案的特征作为区分特征，将区分特征以外的答案特征作为非区分特征。
[0031]其中对文本使用了如下特征:
[0032]Wl……Wn:每一个特征都代表答案里每一个词根化后的单词。每个特征都有个表示词频的值。[0033]Pl……Pm:每一个特征都代码一个POS特性。每个特征都有个关于答案里出现该POS标签的次数的值。
[0034]VNl……VNk:答案中的动词+名词结构
[0035]NVl......NVx:答案中的名词+动词结构
[0036]对于代码使用如下特征:
[0037]
【权利要求】
1.一种基于疑问词扩展的信息检索方法，其特征在于，包括: 统计步骤:对问答网站已有的问题答案对进行分类，然后提取各类型答案对的特征，再利用机器学习得出各类型答案对间的区分性特征；分析步骤:利用自然语言对检索问题进行处理以得到疑问词，再将检索向量与统计步骤中得到的区分性特征合并组成新的检索向量；检索步骤:利用分析步骤中得到的检索向量在软件知识库中进行检索，得到候选结果列表。
2.根据权利要求1所述的一种基于疑问词扩展的信息检索方法，其特征在于，所述统计步骤进一步包括以下子步骤: 步骤2.1:利用爬虫程序抓取真实问答网站的问题答案对；步骤2.2:将步骤2.1中所抓取的答案对进行词性标注，然后根据词性标注得到的疑问词将问题答案对进行分类；步骤2.3:通过机器学习提取步骤2.2中同一类别答案对的各个答案特征；步骤2.4:通过主要成分分析从步骤2.3得到答案特征中提取能区别不同类别答案对的答案特征作为该类别答案对的区分性特征，将区分特征以外的答案特征作为非区分性特征。
3.根据权利要求2所述的一种基于疑问词扩展的信息检索方法，其特征在于，步骤2.3中所述的答案特征是文本特征、代码特征，以及链接特征中的一种或几种的组合。
4.根据权利要求1所述的一种基于疑问词扩展的信息检索方法，其特征在于，所述分析步骤进一步包括以下子步骤: 步骤4.1:通过对检索问题的词性标注分析，取得用户检索问题的疑问词；步骤4.2:查找在统计步骤中得到的与步骤4.1中的疑问词相对应的区分性特征；步骤4.3:去除检索问题中的停用词和词根，将得到的词向量与步骤2中得到的区分性特征合并组成新的检索向量。
5.根据权利要求1所述的一种基于疑问词扩展的软件信息检索方法，其特征在于，所述检索步骤中在得到候选结果列表后，还包括对候选结果进行过滤和重排序的步骤，该步骤进一步包括以下子步骤: 步骤5.1:用检索向量在软件知识库中进行检索，得到候选结果列表；步骤5.2:分析候选结果列表中的每个备选答案特征，并将备选答案特征与非区分性特征进行模式匹配，按照匹配度排序，并返回最终结果。
【文档编号】G06F17/27GK103902733SQ201410156424
【公开日】2014年7月2日申请日期:2014年4月18日优先权日:2014年4月18日
【发明者】邹艳珍, 张灵箫申请人:北京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邹艳珍;张灵箫
技术所有人：北京大学
我是此专利的发明人

上一篇：一种优化游戏运行环境的方法和装置制造方法
上一篇：基于图模型的软件项目语义信息表示及检索方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。