一种文本检索方法和装置制造方法

文档序号:6540994阅读:154来源:国知局
一种文本检索方法和装置制造方法
【专利摘要】本发明实施例提供一种文本检索方法和装置,其中一种文本检索方法,包括:获取用户输入的原始文本;从原始文本中获取检索词;依据用户的检索需求,对检索词进行过滤,得到关键词;对关键词进行组合,并依据组合后的关键词对文本数据库中的文本进行检索,得到至少一个检索文本;对检索文本以相关性倒序显示,并在检索文本中突显关键词,相关性用于原始文本和检索文本具有关联关系的程度。由于关键词是依据用户的检索需求对检索词进行过滤,所以关键词为无效词的几率降低,并且相比于直接从原始文本得到的检索词更符合检索需求,进而应用组合后的关键词检索得到的检索文本也比较符合检索需求,提高检索的准确度。
【专利说明】一种文本检索方法和装置
【技术领域】
[0001]本发明涉及文本挖掘【技术领域】,特别涉及一种文本检索方法和装置。
【背景技术】
[0002]文本检索顾名思义就是从文本抽取出有价值的信息,将有价值的信息在电子设备的显示屏上显示给用户。目前文本检索原理是对文本分词后直接进行匹配搜索,通用的两种文本检索方式是:为用户提供分类浏览的查询方式或基于关键词的全文检索方式。
[0003]上述两种检索方式都是通过对用户输入的文本分词后得到关键词匹配,但是这种单纯的文本分词方式得到的关键词包括无效词,其中所述无效词为在多数文本中出现且会导致检索结果增大的词语。例如用户输入的文本为:一种基于图像识别方法的图像匹配装置,在经过分词后得到的关键词包括:一种、基于、图像识别、方法、图像匹配和装置,而一种、基于、方法和装置在很多文本中都会出现,这样在采用or组合关键词进行检索时,会使得检索结果增多,并且有部分检索结果与用户想要的结果不同。
[0004]从上述技术方案可以看出,现有文本分词不能充分理解用户的检索需求,因此在对文本分词时提取出的关键词可能是无效词,且不是无效词的关键词也可能不符合用户的检索需求,进而在基于这些关键词的全文模糊检索时会使得检索结果中存在不符合检索需求的文本,且检索准确度降低。

【发明内容】

[0005]本发明所要解决的技术问题是提供一种文本检索方法和装置,用以依据用户的检索需求得到关键词,从而使得检索结果比较符合检索需求。技术方案如下:
[0006]本发明实施例提供了一种文本检索方法,包括:
[0007]获取用户输入的原始文本;
[0008]从所述原始文本中获取检索词,所述检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本;
[0009]依据用户的检索需求,对所述检索词进行过滤,得到关键词;
[0010]对所述关键词进行组合,并依据组合后的关键词对所述文本数据库中的文本进行检索,得到至少一个检索文本;
[0011]对所述检索文本以相关性倒序显示,并在所述检索文本中突显所述关键词,所述相关性用于所述原始文本和所述检索文本具有关联关系的程度。
[0012]优选地,从所述原始文本中获取检索词,包括:
[0013]使用中文分词方法对所述原始文本进行分词,得到一级检索词;
[0014]依据词语特性,采用加权公式Wi=AX Freqi+B X Lengthi+CX Posi+D X Addi计算所述一级检索词的权重,所述词语特性包括词频Freq1、词长Length1、词性Posi和位置Addi,Wi为一级检索词i在文本中的权重,A、B、C、D为比例系数,用于表示各个词语特性在加权公式中的比重;[0015]提取所述权重在预设权重范围内的所述一级检索词,所提取出的所述一级检索词为所述检索词。
[0016]优选地,从所述原始文本中获取检索词之后,依据用户的检索需求,对所述检索词进行过滤,得到关键词之前,所述方法还包括:
[0017]对所述检索词进行词义扩展,得到的扩展词记为检索词,所述词义扩展包括:同义词扩展、等同词扩展、上位词扩展和下位词扩展中的至少一种扩展方式。
[0018]优选地,依据用户的检索需求,对所述检索词进行过滤,得到关键词,包括:
[0019]将所述检索词在词语展示界面中显示,以由用户在所述词语展示界面中对所述检索词进行操作,操作后的所述检索词以及用户在所述词语展示界面中增加的词语为所述关键词,所述操作包括修改和/或删除;
[0020]或者将所述检索词和词库中记录的词语进行匹配,匹配成功的所述检索词为关键词,所述词库中记录的词语为用户手动更新的词语。
[0021]优选地,对所述关键词进行组合,包括:
[0022]任意选取η个关键词进行逻辑与运算,得到第一组合词语,第一组合词语的个数 ,其中m为关键词总数,η等于0.7m ;
[0023]对所述第一组合词语进行逻辑或运算,得到第二组合词语,所述第二组合词语为组合后的所述关键词,用于对文本数据库中的其他文本进行检索。
[0024]本发明实施例还提供一种文本检索装置,包括:
[0025]第一获取单元,用于获取用户输入的原始文本;
[0026]第二获取单元,用于从所述原始文本中获取检索词,所述检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本;
[0027]过滤单元,用于依据用户的检索需求,对所述检索词进行过滤,得到关键词;
[0028]组合单元,用于对所述关键词进行组合;
[0029]检索单元,用于依据组合后的关键词对所述文本数据库中的文本进行检索,得到至少一个检索文本;
[0030]显示单元,用于对所述检索文本以相关性倒序显示,并在所述检索文本中突显所述关键词,所述相关性用于所述原始文本和所述检索文本具有关联关系的程度。
[0031]优选地,所述第二获取单元包括:
[0032]分词子单元,用于使用中文分词装置对所述原始文本进行分词,得到一级检索词;
[0033]加权计算子单元,用于依据词语特性,采用加权公式Wi=AXFreqi+BXLengthi+CXPosi+DXAddi计算所述一级检索词的权重,所述词语特性包括词频Freq1、词长Length1、词性Posi和位置Addi,Wi为一级检索词i在文本中的权重,A、B、C、D为比例系数,用于表示各个词语特性在加权公式中的比重;
[0034]提取子单元,用于提取所述权重在预设权重范围内的所述一级检索词,所提取出的所述一级检索词为所述检索词。
[0035]优选地,所述装置还包括:
[0036]扩展单元,用于对所述检索词进行词义扩展,得到的扩展词记为检索词,所述词义扩展包括:同义词扩展、等同词扩展、上位词扩展和下位词扩展中的至少一种扩展方式。[0037]优选地,所述过滤单元依据用户的检索需求,对所述检索词进行过滤,得到关键词,包括:
[0038]将所述检索词在词语展示界面中显示,以由用户在所述词语展示界面中对所述检索词进行操作,操作后的所述检索词以及用户在所述词语展示界面中增加的词语为所述关键词,所述操作包括修改和/或删除;
[0039]或者将所述检索词和词库中记录的词语进行匹配,匹配成功的所述检索词为关键词,所述词库中记录的词语为用户手动更新的词语。
[0040]优选地,所述组合单元对所述关键词进行组合,包括:
[0041]任意选取η个关键词进行逻辑与运算,得到第一组合词语,第一组合词语的个数为Cm,其中m为关键词总数,η等于0.7m。
[0042]对所述第一组合词语进行逻辑或运算,得到第二组合词语,所述第二组合词语为组合后的所述关键词,用于对文本数据库中的其他文本进行检索。
[0043]与现有技术相比,本发明包括以下优点:
[0044]通过以上技术方案,在从用户输入的原始文本中获取检索词后,依据用户的检索需求对检索词进行过滤,得到关键词;然后对关键词进行组合,依据组合后的关键词对文本数据库中的文本进行检索。由于关键词是依据用户的检索需求对检索词进行过滤,所以关键词为无效词的几率降低,并且相比于直接从原始文本得到的检索词更符合检索需求,进而应用组合后的关键词检索得到的检索文本也比较符合检索需求,提高检索的准确度。
【专利附图】

【附图说明】
[0045]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0046]图1是本发明实施例提供的文本检索方法的一种流程图;
[0047]图2是本发明实施例提供的电子设备的一种示意图;
[0048]图3是图1中获取检索词的流程图;
[0049]图4是本发明实施例提供的词语展示界面的示意图;
[0050]图5是本发明实施例基于图1提供的文本检索方法的另一种流程图;
[0051]图6是本发明实施例提供的文本检索装置的一种结构示意图;
[0052]图7是本发明实施例基于图6提供的文本检索装置的另一种结构示意图。
【具体实施方式】
[0053]在现有基于关键词的文本检索时,直接采用对原始文本分词后得到的关键词进行检索,如在对原始文本“一种基于图像识别方法的图像匹配装置”进行分词后,得到的关键词包括:“一种、基于、图像识别、方法、图像匹配和装置”,而“一种、基于、方法和装置”明显为无效词,其对检索起到的作用很小,因此在基于这些关键词检索时,检索到文本中会有多数不符合用户的检索需求,降低检索准确度。
[0054]为此,本发明实施例提供的文本检索方法在分词后,会依据用户的检索需求对检索词进行过滤得到关键词,这样在基于组合后的关键词检索文本时,得到的检索文本更能符合用户的检索需求,提高检索准确度。
[0055]为了本领域技术人员更好地理解本发明,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0056]请参阅图1,其示出了本发明实施例提供的一种文本检索方法的流程图,可以包括以下步骤:
[0057]101:获取用户输入的原始文本。
[0058]在本发明实施例中,文本检索的目的是用于从文本数据库中检索出与原始文本相类似的文本,因此,为了检索类似于原始文本的文本需要优先获取原始文本,然后从原始文本中进一步获取检索词。
[0059]其中,原始文本可以由用户手动输入,也可以通过其他方式输入,如语音输入。其实现方式可以参阅图2所示,在图2中为实施本发明的电子设备100可以配置一个输入设备200,当用户点击输入设备200上的输入按钮201后,输入设备200发送输入获取指令至电子设备100。电子设备100的显示屏上会显示一输入界面,输入界面上显示“正在语音输入”,同时用户对准输入设备200上的话筒202语音输入原始文本。当用户松开输入按钮201后,输入设备200发送输入结束指令至电子设备100,此时电子设备100开启语音识别功能,在输入栏中显示语音输入的原始文本。
[0060]由于电子设备100在进行语音识别时,其识别结果可能不同于用户语音输入的原始文本,用户还需要再次对准话筒202语音输入原始文本,直至在输入栏中显示出原始文本。
[0061]102:从原始文本中获取检索词,检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本。
[0062]在本发明的一些示例中,获取检索词的方式可以是通过现有中文分词技术,对原始文本进行文本分段、文本断句以及文本分词等操作在原始文本中提取出检索词。
[0063]在发明的另一些示例中,获取检索词的方式还可以是:在采用现有中文分词技术得到词语后,对词语进行加权计算,然后选取某些权重的词语为检索词,其过程可以参阅图3所示,其示出了本发明实施例从原始文本中获取检索词的一种可行方式,包括以下步骤:
[0064]1021:使用中文分词方法对原始文本进行分词,得到一级检索词。
[0065]其中,中文分词方法可以为文本分段、文本断句以及文本分词等方式,通过对原始文本进行文本分段、文本断句以及文本分词等操作得到一级检索词,如对于原始文本“应增加农业补贴,直接补贴占农民收入只有3%左右”,通过文本分段可以得到“应增加农业补贴”和“直接补贴占农民收入只有3%左右”,然后还可以对分段进行文本分词,得到一级检索词“增加、农业、补贴、直接、农民收入、3%”。
[0066]1022:依据词语特性,米用加权公式 Wi=AXFreqi+BXLengthi+CXPosi+DXAddi计算一级检索词的权重。
[0067]其中,词语特性包括词频Freq1、词长Length1、词性Posi和位置Addi这四个特性因子。在计算权重之前首先对这四个词语特性进行量化,这四个词语特性的量化计算分别采用如下方式:[0068]词频Freqi因子的量化计算公式为
【权利要求】
1.一种文本检索方法,其特征在于,包括: 获取用户输入的原始文本; 从所述原始文本中获取检索词,所述检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本; 依据用户的检索需求,对所述检索词进行过滤,得到关键词; 对所述关键词进行组合,并依据组合后的关键词对所述文本数据库中的文本进行检索,得到至少一个检索文本; 对所述检索文本以相关性倒序显示,并在所述检索文本中突显所述关键词,所述相关性用于所述原始文本和所述检索文本具有关联关系的程度。
2.根据权利要求1所述的方法,其特征在于,从所述原始文本中获取检索词,包括: 使用中文分词方法对所述原始文本进行分词,得到一级检索词; 依据词语特性,采用加权公式Wi=AXFreqi+BXLengthi+CXPosi+DXAddi计算所述一级检索词的权重,所述词语特性包括词频Freq1、词长Length1、词性Posi和位置Addi,Wi为一级检索词i在文本中的权重,A、B、C、D为比例系数,用于表示各个词语特性在加权公式中的比重; 提取所述权重在预设权重范围内的所述一级检索词,所提取出的所述一级检索词为所述检索词。
3.根据权利要求1所述的方法,其特征在于,从所述原始文本中获取检索词之后,依据用户的检索需求,对所述检索词进行过滤,`得到关键词之前,所述方法还包括:` 对所述检索词进行词义扩展,得到的扩展词记为检索词,所述词义扩展包括:同义词扩展、等同词扩展、上位词扩展和下位词扩展中的至少一种扩展方式。
4.根据权利要求1所述的方法,其特征在于,依据用户的检索需求,对所述检索词进行过滤,得到关键词,包括: 将所述检索词在词语展示界面中显示,以由用户在所述词语展示界面中对所述检索词进行操作,操作后的所述检索词以及用户在所述词语展示界面中增加的词语为所述关键词,所述操作包括修改和/或删除; 或者将所述检索词和词库中记录的词语进行匹配,匹配成功的所述检索词为关键词,所述词库中记录的词语为用户手动更新的词语。
5.根据权利要求1所述的方法,其特征在于,对所述关键词进行组合,包括: 任意选取η个关键词进行逻辑与运算,得到第一组合词语,第一组合词语的个数力Cm,其中m为关键词总数,η等于0.7m ; 对所述第一组合词语进行逻辑或运算,得到第二组合词语,所述第二组合词语为组合后的所述关键词,用于对文本数据库中的其他文本进行检索。
6.一种文本检索装置,其特征在于,包括: 第一获取单元,用于获取用户输入的原始文本; 第二获取单元,用于从所述原始文本中获取检索词,所述检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本; 过滤单元,用于依据用户的检索需求,对所述检索词进行过滤,得到关键词;组合单元,用于对所述关键词进行组合; 检索单元,用于依据组合后的关键词对所述文本数据库中的文本进行检索,得到至少一个检索文本; 显示单元,用于对所述检索文本以相关性倒序显示,并在所述检索文本中突显所述关键词,所述相关性用于所述原始文本和所述检索文本具有关联关系的程度。
7.根据权利要求6所述的装置,其特征在于,所述第二获取单元包括: 分词子单元,用于使用中文分词装置对所述原始文本进行分词,得到一级检索词; 加权计算子单元,用于依据词语特性,采用加权公式Wi=AX Freqi+B X Lengthi+CX Posi+DXAddi计算所述一级检索词的权重,所述词语特性包括词频Freq1、词长Length1、词性Posi和位置Addi,Wi为一级检索词i在文本中的权重,A、B、C、D为比例系数,用于表示各个词语特性在加权公式中的比重; 提取子单元,用于提取所述权重在预设权重范围内的所述一级检索词,所提取出的所述一级检索词为所述检索词。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括: 扩展单元,用于对所述检索词进行词义扩展,得到的扩展词记为检索词,所述词义扩展包括:同义词扩展、等同词扩展、上位词扩展和下位词扩展中的至少一种扩展方式。
9.根据权利要求6所述的装置,其特征在于,所述过滤单元依据用户的检索需求,对所述检索词进行过滤,得到关键词,包括: 将所述检索词在词语展示界面中显示,以由用户在所述词语展示界面中对所述检索词进行操作,操作后的所述检索词以及用户在所述词语展示界面中增加的词语为所述关键词,所述操作包括修改和/或删除; 或者将所述检索词和词库中记录的词语进行匹配,匹配成功的所述检索词为关键词,所述词库中记录的词语为用户手动更新的词语。
10.根据权利要求6所述的装置,其特征在于,所述组合单元对所述关键词进行组合,包括: 任意选取η个关键词进行逻辑与运算,得到第一组合词语,第一组合词语的个数为C,,,,其中m为关键词总数,η等于0.7m ; 对所述第一组合词语进行逻辑或运算,得到第二组合词语,所述第二组合词语为组合后的所述关键词,用于对文本数据库中的其他文本进行检索。
【文档编号】G06F17/30GK103886063SQ201410101286
【公开日】2014年6月25日 申请日期:2014年3月18日 优先权日:2014年3月18日
【发明者】杨芳, 盛兴, 李蔚君, 彭珍, 赵鹏, 贾辉辉 申请人:国家电网公司, 国家电网公司信息通信分公司, 保定市大为计算机软件开发有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1