一种抽取核心词的方法及装置制造方法

文档序号:6508941阅读:181来源:国知局
一种抽取核心词的方法及装置制造方法
【专利摘要】本发明实施例公开了一种抽取核心词的方法及装置,能够实现从用户输入的查询词中抽取出较为准确的核心词,从而达到提高查询准确率的目的,包括:采用预置的分词方式对查询词进行切分,得到组成所述查询词的分词;将所述查询词的分词分别与核心词词库和非核心词词库中的词语进行匹配;若所述查询词的分词中存在与所述核心词词库匹配的分词和/或与所述非核心词词库匹配的分词,且存在未知分词,则:将与所述核心词词库匹配的分词确定为所述查询词的核心词;以及,获取满足预置的核心词长度标准的未知分词或拼接未知分词得到的分词作为所述查询词的核心词,所述未知分词是指与所述核心词词库和所述非核心词词库中的词语均不匹配的分词。
【专利说明】—种抽取核心词的方法及装置

【技术领域】
[0001]本发明涉及词语处理领域,特别涉及一种抽取核心词的方法及装置。

【背景技术】
[0002]在电子地图查询应用中,根据用户输入的查询词进行Ρ0Ι查询时,通常的做法是,首先对用户输入的查询词进行分词,再将各分词分别与Ρ0Ι数据库进行匹配,得到多个查询结果,将查询结果中出现频次最高的查询结果作为本次查询的查询结果。但是,该种查询方式会存在以下技术缺陷:由于对查询词进行切分会得到多个分词,但是有些分词并不是该查询词的核心词(核心词即为指能准确表达查询词含义的最小完整词语单位),如果根据这些非核心词查询得到的查询结果出现的频次最高,则将频次最高的查询结果作为查询结果可能并不是用户实际需要的结果,从而导致查询结果不准确或者错误。例如,用户输入的查询词“北京同仁堂中医医院”,切分得到的分词为“北京”、“同仁堂”、“中医医院”,根据这三个分词进行查询之后,发现“北京同仁堂药店”出现的频次最高,此时将“北京同仁堂药店”作为查询结果输出,但是用户实际要查的是一家中医医院而并不是药店。


【发明内容】

[0003]有鉴于此,本发明实施例的主要目的在于提供一种用于抽取核心词的方法及装置,能够实现从用户输入的查询词中抽取出较为准确的核心词,从而达到提高查询准确率的目的。
[0004]在本发明实施例的第一方面中,提供了一种抽取核心词的方法,该方法可以包括:
[0005]采用预置的分词方式对查询词进行切分,得到组成所述查询词的分词;
[0006]将所述查询词的分词分别与预置的核心词词库和非核心词词库中的词语进行匹配;
[0007]若所述查询词的分词中存在与所述核心词词库匹配的分词和/或与所述非核心词词库匹配的分词,且存在未知分词,则:
[0008]将与所述核心词词库匹配的分词确定为所述查询词的核心词;以及,
[0009]将满足预置的核心词长度标准的未知分词或拼接未知分词得到的分词作为所述查询词的核心词,所述未知分词是指与所述核心词词库和所述非核心词词库中的词语均不匹配的分词。
[0010]在本发明实施例的第二方面中,提供了一种抽取核心词的装置,该装置可以包括:
[0011]分词单元,用于采用预置的分词方式对查询词进行切分,得到组成所述查询词的分词;
[0012]分词匹配单元,用于将所述查询词的分词分别与预置的核心词词库和非核心词词库中的词语进行匹配;
[0013]第一核心词抽取单元,用于若所述查询词的分词中存在与所述核心词词库匹配的分词和/或与所述非核心词词库匹配的分词,且存在未知分词,则:将与所述核心词词库匹配的分词确定为所述查询词的核心词;以及,将满足预置的核心词长度标准的未知分词或拼接未知分词得到的分词作为所述查询词的核心词,所述未知分词是指与所述核心词词库和所述非核心词词库中的词语均不匹配的分词。
[0014]可见本发明具有如下有益效果:
[0015]现有技术根据查询词的分词进行查询,并将频次最高的查询结果作为最终的查询结果,与现有技术相比,本发明提出了抽取查询词的核心词的方法,并以该抽取到的核心词进行查询,由于核心词是能够准确表达查询词含义的最小完整词语单位,即能够准确的表达用户的查询意图,因此根据查询词对应的核心词进行查询所得到的查询结果较为准确,从而达到提高查询准确率的目的。在抽取核心词时,首先采用预置的分词方式对查询词进行分词得到组成查询词的分词,又将查询词的分词分别与预置的核心词词库和非核心词词库中的词语进行匹配,由于核心词词库中存储的是已知准确的核心词,因此,若查询词的分词中存在与核心词词库匹配的分词,则可以将与核心词词库匹配的分词作为查询词的核心词,由于非核心词词库中存储的是已经经过验证为不是核心词的词语,因此,与核心词词库和非核心词词库中的词语均不匹配的未知分词则是与核心词词库匹配的词语外,最有可能为核心词的词语,因此,再将满足预置的核心词长度标准的未知分词或拼接未知分词得到的分词作为所述查询词的核心词,可以提高抽取到准确核心词的概率,从而以该抽取到的准确的核心词进行查询,得到的查询结果更准确,从而提高查询的准确率。

【专利附图】

【附图说明】
[0016]图1是本发明实施例提供的抽取核心词的方法的流程图之一;
[0017]图2是本发明实施例提供的抽取核心词的方法的流程图之二 ;
[0018]图3是本发明实施例提供的抽取核心词的装置的结构示意图之一。
[0019]图4是本发明实施例提供的抽取核心词的装置的结构示意图之二 ;
[0020]图5是本发明实施例提供的抽取核心词的装置的结构示意图之三;
[0021]图6是本发明实施例提供的抽取核心词的装置的结构示意图之四;
[0022]图7是本发明实施例提供的抽取核心词的装置的结构示意图之五。

【具体实施方式】
[0023]为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本发明实施例作进一步详细的说明。
[0024]参见图1,为本发明实施例提供的一种抽取核心词的方法的流程图,该方法可以应用于地图搜索、周边搜索等任意需要输入查询词进行查询的应用场景,该方法可以预先配置用于保存已知核心词的核心词词库、及用于保存已知非核心词的非核心词词库,包括:
[0025]S110、采用预置的分词方式对查询词进行切分,得到组成所述查询词的分词;
[0026]其中,预置的分词方式可以包括基本分词、混合分词方式等分词方式。在本发明中并不进行限制。为了使本发明实施例更加易于理解,下面对混合分词方式及基本分词进行简单介绍:
[0027]基本分词方式是将查询词与包含基本汉语单位的基本词库进行匹配,按照匹配的词语进行切分得到各个分词,其中,基本词库可以包含能够成词的基本汉语单位,也有可能是单字。例如,“中国移动网上营业厅”按照基本分词方式切分获得的分词是:“中国”、“移动”、“网上”、“营业厅”。
[0028]混合分词方式是将查询词与包含基本汉语单位的基本词库进行匹配,按照匹配的词语进行切分得到各个基本分词,再将各个基本分词的各种组合与包含联合词语的扩展词库进行匹配,按照匹配的词语进行切分得到最终的各个分词,其中扩展词库可以包含基本词库中能够联合成词的词语组合。例如,“中国移动网上营业厅”按照混合分词方式切分获得的分词是:“中国移动”、“网上”、“营业厅”。与基本分词方式比较,混合分词方式进行分词可以获得个数较少的分词,且每个分词包含的信息较为详细。考虑这一因素,本发明实施例中将混合分词方式作为首选预置的分词方式可以为优选方式。
[0029]S120、将所述查询词的分词分别与核心词词库和非核心词词库中的词语进行匹配;
[0030]S130、若所述查询词的分词中存在与所述核心词词库匹配的分词和/或与所述非核心词词库匹配的分词,且存在未知分词,则:
[0031]将与所述核心词词库匹配的分词确定为所述查询词的核心词;以及,将满足预置的核心词长度标准的未知分词或拼接未知分词得到的分词作为所述查询词的核心词,所述未知分词是指与所述核心词词库和所述非核心词词库中的词语均不匹配的分词。
[0032]需要说明的是,一个查询词可以只有一个核心词,也可以有多个核心词。
[0033]具体地,例如,将预置的满足核心词长度标准的未知分词或拼接未知分词得到的分词作为所述查询词的核心词,可以通过以下方式实现:
[0034]若存在连续的未知分词,则可以将连续的未知分词拼接成一个分词,将长度在预置的第二长度范围(第二长度范围可以是4?12个字节,即2?6个汉字)内的拼接得到的分词确定为所述查询词的核心词;
[0035]若存在非连续的未知分词,则将长度在预置的第二长度范围内的非连续的未知分词确定为所述查询词的核心词。
[0036]需要说明的是,连续的未知分词指的是至少有两个在查询词所处位置相邻的分词均为未知分词,非连续的未知分词指的是在查询词中与该未知分词相邻的前一分词和后一分词均不是未知分词。
[0037]如:查询词为“中国民生银行望京自助ATM机”,对该查询词进行切分得到分词分别为:“中国”、“民生”、“银行”、“自助”、“ATM机”,其中“中国”、“银行”为与非核心词词库匹配的分词,“民生”、“自助”、“ATM机”为未知分词,则按照前述方式判断可知,与“民生”相邻的前一分词“中国”和后一分词“银行”均为非未知词,因此确定“民生”为一个非连续未知分词,且其长度在预置的第二长度范围内,确认该“民生”为前述查询词的核心词;而自助”、“ATM机”为相邻的且连续的两个未知分词,因此将该自助”、“ATM机”拼接成一个分词“自助ATM机”,判断该拼接得到的分词的长度在第二长度范围内,因此将“自助ATM机”确定为前述查询词的核心词。
[0038]应用本发明实施例提供的抽取核心词的方法,由于设置的核心词词库中存储的是已知准确的核心词,非核心词词库中存储的是已知的非核心词,因此,本发明实施例中,将与核心词词库匹配的分词作为查询词的核心词的准确率较高,而未知分词由于并不是非核心词词库中的词语,因此其在很大的概率上可能为核心词。因此前述图1所示的方法流程的步骤130中,对未知分词是否为核心词作进一步的判断。图1所示方法至少可以在以下三种情况下抽取到准确的核心词:
[0039]情况1、组成查询词的分词中仅存在与核心词词库匹配的分词和未知分词,这种情况,本发明实施例提供的解决方案是:将与核心词词库匹配的分词确定为核心词,并提取出满足核心词长度标准的未知分词或拼接未知分词得到的分词作为核心词;
[0040]情况2、组成查询词的分词中仅存在与非核心词词库匹配的分词和未知分词,这种情况,本发明实施例提供的解决方案是:提取出满足核心词长度标准的未知分词或拼接未知分词得到的分词作为核心词;
[0041]情况3、组成查询词的分词中存在与核心词词库匹配的分词、且存在与非核心词词库匹配的分词、且存在未知分词,这种情况,本发明实施例提供的解决方案是:将与核心词词库匹配的分词确定为核心词、以及提取出满足核心词长度标准的未知分词或拼接未知分词得到的分词作为核心词。
[0042]可见,应用本发明实施例可以抽取到准确的核心词,进而相应提高查询的准确率。
[0043]例如,可以在地图搜索、周边查询等任意需要输入查询词进行查询的应用场景中应用本发明实施例,如果所述查询词存在核心词,则还可以以所述查询词的核心词为关键词,查询与所述查询词对应的兴趣点(如目的地地址等),从而提高查询的准确率。
[0044]另外,除上述三种情况外,在实际应用中还存在其他的一些情况,包括:
[0045]情况4、组成查询词的分词均与非核心词词库匹配,对于这种情况,本发明实施例提供的解决方案是:查询所述查询词的分词中为行政区域名称的分词;判断是行政区域名称的分词相邻的后一个分词是否为行政区域名称;若否,则将该为行政区域名称的分词与其相邻的后一个分词拼接成一个分词;将所述查询词的其他分词和拼接得到的分词作为所述查询词的新分词,针对查询词的新分词,重新执行前述S120。
[0046]情况5、组成查询词的分词均为未知分词,对于这种情况,本发明实施例提供的解决方案是:判断所述查询词的长度是否在预置的第一长度范围(第二长度范围可以是4?12个字节,即2?6个汉字)内,若是,则将所述查询词确定为所述查询词的核心词。
[0047]情况6、组成查询词的分词均与核心词词库匹配,对于这种情况,本发明实施例提供的解决方案是:将与核心词词库的分词作为查询词的核心词。
[0048]情况7、组成查询词的分词一部分与核心词词库匹配而另一部分分词与非核心词词库匹配,对于这种情况,本发明实施例提供的解决方案与前述对情况6的解决方案一致,在此不再赘述。
[0049]为进一步的使本领域技术人员能够清楚的理解本发明技术方案,下面以一详细的流程图对本发明技术方案进行详细的描述,请参见图2,该方法包括:
[0050]S210、采用预置的分词方式对查询词进行切分,得到组成所述查询词的分词;
[0051]S220、将所述查询词的分词分别与核心词词库和非核心词词库中的词语进行匹配;
[0052]其中,核心词词库及非核心词词库可以预先通过软件或人工整理海量词语获得。本发明实施例中的核心词词库中存储的核心词满足以下特征:核心词由省市区名称和非省市区名称拼接而成构成一个实体名,如“中国银行”、“海口电器”、“北京大学”、“中国移动”等。在整理核心词词库时,可以将省市区名称作为核心词的一部分,先利用软件自动将省市区名称后拼接上其他名词,再通过人工筛选得到准确的已知核心词。该实施例中的非核心词词库可以包括高频词库、地点类型词库、或行政区域名称词库。其中:
[0053]高频词库可以预先通过如下实现方式获得:针对每个城市,对该城市对应的Ρ0Ι数据库中的所有Ρ0Ι的名称进行分词,统计出所有分词的频率,将频率大于预设频率阀值的分词作为高频词,并将高频词添加到预置的高频词库中,将高频词以格式(keyword,adcode, citycode,频率)存储至高频词库中,其中,keyword即为高频词、adcode为行政区域代码、citycode为行政区域对应的电话号码区号。如对北京市对应的Ρ0Ι数据库进行分析,得到“办事处”为高频词,则将该高频词存储至高频词库中的格式为:办事处+北京市+010+频率。对上海市对应的Ρ0Ι数据库进行分析,得到“办事处”为高频词,则将该高频词存储至高频词库中的格式为:办事处+上海+021+频率。
[0054]地点类型词库可以预先通过人工整理获得,地点类型词库包括的词语可以为“餐饮”、“酒店”、“旅馆”、“银行”、“停车场”、“商场”、“超市”等;
[0055]行政区域名称词库可以预先通过人工整理获得,行政区域名称词库包括的行政区域名称可以为省、市、区、乡镇、村、道路等名称。
[0056]优选地,为便于快速、直观的获知分词与核心词词库、非核心词词库的匹配情况,在将分词与核心词库和非核心词库进行匹配的过程中,如果某分词与核心词词库或者非核心词词库中的词语匹配,则可以将该分词标记为与其匹配的核心词词库或非核心词词库对应的标识,如果某分词与核心词词库及非核心词词库中的词语均不匹配,则可以将该分词标记为未知,从而在匹配后可以根据该标记快速的查询到匹配结果。如:将与核心词词库匹配的分词标记为4,与行政区域名称词库匹配的分词标记为3,与地点类型词库匹配的分词标记为2,以及与高频词库匹配的分词标记为1,其他情况标记为0。将Ρ0Ι “海口电器有限公司”进行切分后得到分词为“海口”、“电器”、“有限公司”,将分词与前述核心词词库、高频词库、地点类型词库、行政区域名称词库进行匹配后,根据匹配情况进行标记,结果为海口
(3)、电器(2)、有限公司(2)。
[0057]优选地,在建立前述核心词词库和非核心词词库时,为避免同一个分词可能同时可以划定到多个词库中的情况,本发明实施例预先设置四个词库的优先级,如:核心词词库>行政区域名称词库 > 地点类型词库 > 高频词库。当判断某一分词可以划定到多个词库中时,则将该分词存储至优先级较高的词库中,如“商场”既是类型词也是高频词,则将“商场”添加到优先级较高的地点类型词库中。
[0058]S230、若所述查询词的分词中存在与所述核心词词库匹配的分词和/或与所述非核心词词库匹配的分词,且存在未知分词,则:
[0059]S230.1、若存在连续的未知分词,则将连续的未知分词拼接成一个分词,并判断该拼接得到的分词的长度是否在预置的第二长度范围内;
[0060]S230.2、若是,则将拼接得到的分词确定为所述查询词的核心词,若否则确定该拼接得到的分词不是查询词的核心词;
[0061]S230.3、若存在非连续的未知分词,则判断所述非连续的未知分词的长度是否在预置的第二长度范围内;
[0062]S230.4、若是,则将所述非连续的未知分词确定为所述查询词的核心词,若否则确定所述非连续未知分词不是所述查询词的核心词;
[0063]S230.5、将与所述核心词词库匹配的分词确定为所述查询词的核心词;
[0064]S240、若所述查询词的分词均为未知分词,则:
[0065]S240.1、判断所述查询词的长度是否在预置的第一长度范围内;
[0066]S240.2、若是,则将所述查询词确定为所述查询词的核心词。若否则确定所述查询词不存在核心词;或者,以预置的其他分词方式对查询词进行重新分词,重复执行前述S220 ;
[0067]例如,查询词“天安门”均不与核心词词库和非核心词词库中的词语匹配,其长度在预置的第一长度范围(如,2?6个汉字)以内,则可以将该查询词“天安门”本身确定为核心词。
[0068]S250、若所述查询词的分词均不与所述核心词词库中词语匹配,但均与所述非核心词词库中的词语匹配,则:
[0069]S250.1、查询所述查询词的分词中为行政区域名称的分词;
[0070]例如,可以查询与行政区域名称词库中的词语匹配的分词。
[0071]S250.2、判断是行政区域名称的分词相邻的后一个分词是否为行政区域名称;
[0072]S250.3、若否,则将该为行政区域名称的分词与其相邻的后一个分词拼接成一个分词,若是则不作处理;
[0073]例如,查询词“海口电器有限公司”经过切分后获得的分词为:海口、电器、有限公司,若分词均不与所述核心词词库中词语匹配,但均与所述非核心词词库中的词语匹配,则可以查询到分词中为行政区域名称的分词“海口”,由于“海口”相邻的后一个分词是“电器”不属于行政区域名称,因此,可以将“海口 ”与“电器”拼接成一个分词“海口电器”,
[0074]S250.4、将所述查询词的其他分词和拼接得到的分词作为所述查询词的新分词,针对查询词的新分词,重新执行前述S220。
[0075]需要说明的是,上述S250.4中所述的查询词的其他分词指的是在切分获得分词中除了该行政区域名称的分词及其相邻的后一个分词之外的其他分词。
[0076]S260、若所述查询词的分词均与核心词词库中词语匹配,或者查询词的分词一部分与核心词词库匹配而另一部分分词与非核心词词库匹配,则:
[0077]S260.1、将与核心词词库中词语匹配的分词作为所述查询词的核心词。
[0078]本发明人发现,实际应用中如果查询词的分词均不与所述核心词词库和非核心词词库中的词语匹配,则当该查询词在一定长度范围内时,可以确定该查询词本身就是核心词;当查询词的分词均与核心词词库中词语匹配,或者,查询词的一部分分词与核心词词库中词语匹配而另一部分分词与非核心词词库中词语匹配时,则与核心词词库中词语匹配的分词就是查询词的核心词;本发明人还发现行政区域名称与其相邻的后一个非行政区域名称的分词的拼接为核心词的概率较高,因此,该实施例在查询词的分词均不与所述核心词词库中词语匹配,但均与所述非核心词词库中的词语匹配的情况下,将为行政区域名称的分词与其相邻的后一个分词拼接成一个分词,将查询词的其他分词和拼接得到的分词作为所述查询词的新分词,针对查询词的新分词,重新执行所述将所述查询词的分词分别与核心词词库和非核心词词库中的词语进行匹配的步骤,从而提高了提取出准确的核心词的概率。
[0079]另外,在应用本发明上述实施例未抽取到核心词的情况下,还可以切换至下一预置的分词方式,重新应用本发明实施例进行核心词的抽取,从而增加抽取到核心词的概率。如预置的分词方式包括基本分词方式和混合分词方式,优选地,先采取混合分词方式对查询词进行切分,并对切分得到的分词进行核心词抽取。在抽取不到核心词时,在采取预置的基本分词方式重新对查询词进行分词,并进行后续的核心词抽取流程。
[0080]参见图3,为本发明实施例提供的一种抽取核心词的装置的结构示意图,该装置可以配置于地图搜索、提示输入信息等任意需要按核心词查询的相关设备。如图所示,该装置可以包括:
[0081]分词单元310,用于采用预置的分词方式对查询词进行切分,得到组成所述查询词的分词;
[0082]分词匹配单元320,用于将所述查询词的分词分别与预置的核心词词库和非核心词词库中的词语进行匹配;
[0083]第一核心词抽取单元330,用于若所述查询词的分词中存在与所述核心词词库匹配的分词和/或与所述非核心词词库匹配的分词,且存在未知分词,则:将与所述核心词词库匹配的分词确定为所述查询词的核心词;以及,将满足预置的核心词长度标准的未知分词或拼接未知分词得到的分词作为所述查询词的核心词,所述未知分词是指与所述核心词词库和所述非核心词词库中的词语均不匹配的分词。
[0084]第一核心词抽取单元330,将满足预置的核心词长度标准的未知分词或拼接未知分词得到的分词作为所述查询词的核心词,具体用于:若存在连续的未知分词,则将长度在预置的第二长度范围内的拼接得到的分词确定为所述查询词的核心词;若存在非连续的未知分词,则将长度在预置的第二长度范围内的非连续的未知分词确定为所述查询词的核心
ο
[0085]应用本发明实施例提供的抽取核心词的装置,由于设置的核心词词库中存储的是已知准确的核心词,非核心词词库中存储的是已知的非核心词,因此,本发明实施例中,将与核心词词库匹配的分词作为查询词的核心词的准确率较高,而未知分词由于并不是非核心词词库中的词语,因此其在很大的概率上可能为核心词。因此,图3所示装置中的第一核心词抽取单元330对未知分词是否为核心词作进一步的判断。因此,应用本发明实施例提供的装置,可以抽取到准确的核心词,进而相应提高查询的准确率。
[0086]优选地,针对查询词的分词均不与所述核心词词库中词语匹配,但均与所述非核心词词库中的词语匹配的情况,本发明实施例所述的装置,还可以包括第一分词重组单元340,如图4所示。
[0087]第一分词重组单元340,用于若所述查询词的分词均不与所述核心词词库中词语匹配,但均与所述非核心词词库中的词语匹配,则:查询所述查询词的分词中为行政区域名称的分词;判断是行政区域名称的分词相邻的后一个分词是否为行政区域名称;若否,则将该为行政区域名称的分词与其相邻的后一个分词拼接成一个分词;将所述查询词的其他分词和拼接得到的分词作为所述查询词的新分词,针对查询词的新分词,触发分词匹配单元 320。
[0088]优选地,针对查询词的分词均为未知分词,本发明实施例前述图3或图4的装置还可以包括第二核心词抽取单元350,如图5所示为图3所示的装置中还包括第二核心词抽取单元350:
[0089]第二核心词抽取单元350,用于若所述查询词的分词均为未知分词,则:判断所述查询词的长度是否在预置的第一长度范围内,若是则将所述查询词确定为所述查询词的核心词。
[0090]优选地,本发明实施例前述图3、图4或图5所示的装置,还可以包括第三核心词抽取单元360,如图6所示为图3所示的装置中还包括第三核心词抽取单元360:
[0091]第三核心词抽取单元360,用于若所述查询词的分词均与核心词词库中词语匹配,或者查询词的一部分分词与核心词词库中词语匹配而另一部分分词与非核心词词库中词语匹配,则:将与核心词词库中词语匹配的分词作为所述查询词的核心词。
[0092]在地图搜索、周边查询等任意需要输入查询词进行查询的应用场景中均可应用本发明技术方案。本发明实施例中的前述装置还可以包括查询单元370,如图7为所述图4所示的装置中还包括第二核心词抽取单元350和查询单元370:
[0093]查询单元370,用于若所述查询词存在核心词,以所述查询词的核心词为关键词,查询与所述查询词对应的兴趣点。
[0094]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0095]以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
【权利要求】
1.一种抽取核心词的方法,其特征在于,包括: 采用预置的分词方式对查询词进行切分,得到组成所述查询词的分词; 将所述查询词的分词分别与预置的核心词词库和非核心词词库中的词语进行匹配;若所述查询词的分词中存在与所述核心词词库匹配的分词和/或与所述非核心词词库匹配的分词,且存在未知分词,则: 将与所述核心词词库匹配的分词确定为所述查询词的核心词;以及, 将满足预置的核心词长度标准的未知分词或拼接未知分词得到的分词作为所述查询词的核心词,所述未知分词是指与所述核心词词库和所述非核心词词库中的词语均不匹配的分词。
2.根据权利要求1所述的方法,其特征在于,若所述查询词的分词均与所述非核心词词库中的词语匹配,则所述方法还包括: 查询所述查询词的分词中为行政区域名称的分词; 判断是行政区域名称的分词相邻的后一个分词是否为行政区域名称; 若否,则将该为行政区域名称的分词与其相邻的后一个分词拼接成一个分词; 将所述查询词的其他分词和拼接得到的分词作为所述查询词的新分词,针对查询词的新分词,重新执行所述将所述查询词的分词分别与核心词词库和非核心词词库中的词语进行匹配的步骤。
3.根据权利要求1所述的方法,其特征在于,若所述查询词的分词均为未知分词,则所述方法还包括: 判断所述查询词的长度是否在预置的第一长度范围内,若是,则将所述查询词确定为所述查询词的核心词。
4.根据权利要求1?3任一项所述的方法,其特征在于,所述将预置的满足核心词长度标准的未知分词或拼接未知分词得到的分词作为所述查询词的核心词,具体包括: 若存在连续的未知分词,则将连续的未知分词拼接成一个分词,将长度在预置的第二长度范围内的拼接得到的分词确定为所述查询词的核心词; 若存在非连续的未知分词,则将长度在预置的第二长度范围内的非连续的未知分词确定为所述查询词的核心词。
5.根据权利要求1?3任一项所述的方法,其特征在于,若所述查询词存在核心词,所述方法还包括: 以所述查询词的核心词为关键词,查询与所述查询词对应的兴趣点。
6.一种抽取核心词的装置,其特征在于,包括: 分词单元,用于采用预置的分词方式对查询词进行切分,得到组成所述查询词的分词; 分词匹配单元,用于将所述查询词的分词分别与预置的核心词词库和非核心词词库中的词语进行匹配; 第一核心词抽取单元,用于若所述查询词的分词中存在与所述核心词词库匹配的分词和/或与所述非核心词词库匹配的分词,且存在未知分词,则:将与所述核心词词库匹配的分词确定为所述查询词的核心词;以及,将满足预置的核心词长度标准的未知分词或拼接未知分词得到的分词作为所述查询词的核心词,所述未知分词是指与所述核心词词库和所述非核心词词库中的词语均不匹配的分词。
7.根据权利要求6所述的装置,其特征在于,还包括: 第一分词重组单元,用于若所述查询词的分词均不与所述核心词词库中词语匹配,但均与所述非核心词词库中的词语匹配,则:查询所述查询词的分词中为行政区域名称的分词;判断是行政区域名称的分词相邻的后一个分词是否为行政区域名称;若否,则将该为行政区域名称的分词与其相邻的后一个分词拼接成一个分词;将所述查询词的其他分词和拼接得到的分词作为所述查询词的新分词,针对查询词的新分词,触发分词匹配单元。
8.根据权利要求6所述的装置,其特征在于,还包括: 第二核心词抽取单元,用于若所述查询词的分词均为未知分词,则:判断所述查询词的长度是否在预置的第一长度范围内,若是则将所述查询词确定为所述查询词的核心词。
9.根据权利要求6?8任一项所述的装置,其特征在于,所述第一核心词抽取单元将满足预置的核心词长度标准的未知分词或拼接未知分词得到的分词作为所述查询词的核心词,具体用于:若存在连续的未知分词,则将长度在预置的第二长度范围内的拼接得到的分词确定为所述查询词的核心词;若存在非连续的未知分词,则将长度在预置的第二长度范围内的非连续的未知分词确定为所述查询词的核心词。
10.根据权利要求6?8任一项所述的装置,其特征在于,还包括: 查询单元,用于若所述查询词存在核心词,以所述查询词的核心词为关键词,查询与所述查询词对应的兴趣点。
【文档编号】G06F17/30GK104424177SQ201310376577
【公开日】2015年3月18日 申请日期:2013年8月26日 优先权日:2013年8月26日
【发明者】彭松 申请人:高德软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1