检测关键词推广程度的方法和装置与流程

文档序号:11155115阅读:529来源:国知局
检测关键词推广程度的方法和装置与制造工艺

本申请涉及计算机领域,具体而言,涉及一种检测关键词推广程度的方法和装置。



背景技术:

现今社会中,品牌主需要关注网络上的舆情是否与品牌主的品牌、产品定位一致,在现有技术中,可以通过在系统中嵌入爬虫的应用程序来爬取舆情内容中的部分内容,但是无法自动衡量爬取到的舆情内容,并与自身产品内容进行匹配分析,导致品牌主无法获知品牌在传播的过程中是否出现了品牌传播途中品牌所实际希望传达的消息和消费者认知的差异性。若出现了品牌所实际希望传达的消息和消费者认知的差异性,则该差异性的出现会导致品牌传播效率和质量的下降,不利于品牌主品牌的推广。

针对上述的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请实施例提供了一种检测关键词推广程度的方法和装置,以至少解决现有技术中无法自动对待检测关键词的推广程度进行评估的技术问题。

根据本申请实施例的一个方面,提供了一种检测关键词推广程度的方法,该方法包括:爬取包括待检测关键词的多个网络文本;对爬取到的所述多个网络文本进行处理,得到多个关联词;将每个所述关联词与预设关键词进行匹配,得到所述预设关键词的匹配关联词和所述匹配关联词的数量,其中,所述匹配关联词为所述多个关联词中的词,所述预设关键词为与所述待检测关键词相关联的关键词;以及计算所述匹配关联词的数量和所述预设关键词数量的目标比值,其中,所述目标比值用于表征所述待检测关键词的推广程度。

进一步地,所述预设关键词为多个,将每个所述关联词与预设关键词进行匹配,得到所述预设关键词的匹配关联词和所述匹配关联词的数量包括:计算关联词Ai与预设关键词Cj的相似度Bij,其中,i取1至n,n为所述关联词的数量,j依次取1至m,m为所述预设关键词的数量;获取相似度B11至相似度Bnm中大于预设相似度的数量;以及根据获取到的所述相似度B11至所述相似度Bnm中大于预设相似度数量确定 所述匹配关联词的数量。

进一步地,根据获取到的所述相似度B11至所述相似度Bnm中大于预设相似度数量确定所述匹配关联词的数量包括:判断获取到的相似度B11至相似度B1m中大于所述预设相似度的数量是否大于或者等于1;在判断出获取到的所述相似度B11至所述相似度B1m中大于所述预设相似度的数量大于或者等于1情况下,预设参数的数量由初始值开始累计增加预设数量,直至判断获取到的相似度Bn1至相似度Bnm中大于所述预设相似度的数量是否大于或者等于1;以及确定在判断出所述相似度Bn1至相似度Bnm中大于所述预设相似度的数量是否大于或者等于1后的所述预设参数的取值作为所述匹配关联词的数量。

进一步地,对爬取到的所述多个网络文本进行处理,得到多个关联词包括:基于文本语义对所述多个网络文本进行分词,得到多个分词词组,其中,不同的所述分词词组中所包含的网络文本的文本语义不同;依次判断每个所述分词词组中的网络文本是否包含目标词汇;以及删除目标分词词组中的所述目标词汇,得到所述多个关联词,其中,所述目标分词词组为判断出的网络文本包含所述目标词汇的所述分词词组。

进一步地,依次判断每个所述分词词组中的网络文本是否包含目标词汇包括:将每个所述分词词组中的网络文本与目标词库进行对比,其中,所述目标词库为用于存储所述目标词汇的词库;以及当对比出所述分词词组的网络文本中包含与所述目标词汇相同的词汇时,确定在所述分词词组中的网络文本中包含所述目标词汇。

根据本申请实施例的另一方面,还提供了一种检测关键词推广程度的装置,该装置包括:爬取单元,用于爬取包括待检测关键词的多个网络文本;处理单元,用于对爬取到的所述多个网络文本进行处理,得到多个关联词;匹配单元,用于将每个所述关联词与预设关键词进行匹配,得到所述预设关键词的匹配关联词和所述匹配关联词的数量,其中,所述匹配关联词为所述多个关联词中的词,所述预设关键词为与所述待检测关键词相关联的关键词;以及计算单元,用于计算所述匹配关联词的数量和所述预设关键词数量的目标比值,其中,所述目标比值用于表征所述待检测关键词的推广程度。

进一步地,所述预设关键词为多个,所述匹配单元包括:计算模块,用于计算关联词Ai与预设关键词Cj的相似度Bij,其中,i取1至n,n为所述关联词的数量,j依次取1至m,m为所述预设关键词的数量;获取模块,用于获取相似度B11至相似度Bnm中大于预设相似度的数量;以及确定模块,用于根据获取到的所述相似度B11至所述相似度Bnm中大于预设相似度数量确定所述匹配关联词的数量。

进一步地,所述获取模块包括:判断子模块,用于判断获取到的相似度B11至相似度B1m中大于所述预设相似度的数量是否大于或者等于1;增加子模块,用于在判断出获取到的所述相似度B11至所述相似度B1m中大于所述预设相似度的数量大于或者等于1情况下,预设参数的数量由初始值开始累计增加预设数量,直至判断获取到的相似度Bn1至相似度Bnm中大于所述预设相似度的数量是否大于或者等于1;以及第一确定子模块,用于确定在判断出所述相似度Bn1至相似度Bnm中大于所述预设相似度的数量是否大于或者等于1后的所述预设参数的取值作为所述匹配关联词的数量。

进一步地,所述处理单元包括:分词模块,用于基于文本语义对所述多个网络文本进行分词,得到多个分词词组,其中,不同的所述分词词组中所包含的网络文本的文本语义不同;判断模块,用于依次判断每个所述分词词组中的网络文本是否包含目标词汇;以及删除模块,用于删除目标分词词组中的所述目标词汇,得到所述多个关联词,其中,所述目标分词词组为判断出的网络文本包含所述目标词汇的所述分词词组。

进一步地,所述判断模块包括:对比子模块,用于将每个所述分词词组中的网络文本与目标词库进行对比,其中,所述目标词库为用于存储所述目标词汇的词库;以及第二确定子模块,用于当对比出所述分词词组的网络文本中包含与所述目标词汇相同的词汇时,确定在所述分词词组中的网络文本中包含所述目标词汇。

在本申请实施例中,采用爬取包括待检测关键词的多个网络文本;对爬取到的所述多个网络文本进行处理,得到多个关联词;将每个所述关联词与预设关键词进行匹配,得到所述预设关键词的匹配关联词和所述匹配关联词的数量,其中,所述匹配关联词为所述多个关联词中的词,所述预设关键词为与所述待检测关键词相关联的关键词;计算所述匹配关联词的数量和所述预设关键词数量的目标比值,其中,所述目标比值用于表征所述待检测关键词的推广程度的方式。通过爬虫在目标信息库中爬取待检测关键词的多个网络文本,并根据获取到的网络文本进行提炼出多个关联词,并将该关联词与预设关键词进行匹配,得到匹配关联词,以及匹配关联词的数量,进而根据该数量和预设关键词数量计算待检测关键词的推广程度的比值,相对于现有技术中仅爬取网络文本,而无法自动对爬取到的关联词进行匹配分析,达到了自动检测待检测关键词推广程度的目的,从而实现了无需人工分析,通过自动匹配分析即可获取待检测关键词的推广程度的技术效果,进而解决了现有技术中无法自动对待检测关键词的推广程度进行评估的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的一种检测关键词推广程度的方法的流程图;以及

图2是根据本申请实施例的一种检测关键词推广程度的装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例,提供了一种检测关键词推广程度的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种检测关键词推广程度的方法的流程图,如图1所示,该方法包括如下步骤S102至步骤S108:

步骤S102,爬取包括待检测关键词的多个网络文本。

具体地,通过爬虫系统在社交媒体和搜索引擎等信息库中获取包括待检测关键词的多个网络文本。在本申请实施例中,待检测关键词为品牌词或者产品词等词汇,例如,“雀巢”、“兰蔻”和“耐克”等品牌词汇。

步骤S104,对爬取到的多个网络文本进行处理,得到多个关联词。

具体地,通过爬虫系统获取到的多个网络文本中,包含大量的冗余成分,因此,需对多个网络文本进行处理,处理得到高度聚合的待检测关键词的相关词汇,即多个关联词。

步骤S106,将每个关联词与预设关键词进行匹配,得到预设关键词的匹配关联词和匹配关联词的数量,其中,匹配关联词为多个关联词中的词,预设关键词为与待检测关键词相关联的关键词。

具体地,预设关键词为用户预先设置与待检测关键词相关联的关键词。例如,待检测关键词为“兰蔻”,则预设关键词可以为“美白”、“保湿”、“提亮肤色”和“改善肤质”等词汇,其中,预设关键词的数量至少为一。

步骤S108,计算匹配关联词的数量和预设关键词数量的目标比值,其中,目标比值用于表征待检测关键词的推广程度。

具体地,通过计算匹配关联词的数量和预设关键词的数量的比值,即可计算得到该待检测关键词的推广程度,以便品牌主确定网络中的舆情是否与该品牌在市场中的定位一致。

本申请提供的检测关键词推广程度的方法,通过爬虫在目标信息库中爬取待检测关键词的多个网络文本,并根据获取到的网络文本进行提炼出多个关联词,并将该关联词与预设关键词进行匹配,得到匹配关联词,以及匹配关联词的数量,进而根据该数量和预设关键词数量计算待检测关键词的推广程度的比值,相对于现有技术中仅爬取网络文本,而无法自动对爬取到的关联词进行匹配分析,达到了自动检测待检测关键词推广程度的目的,从而实现了无需人工分析,通过自动匹配分析即可获取待检测关键词的推广程度的技术效果,进而解决了现有技术中无法自动对待检测关键词的推广程度进行评估的技术问题。

预设关键词为多个,将每个关联词与预设关键词进行匹配,得到预设关键词的匹配关联词和匹配关联词的数量包括如下步骤S1061至步骤S1065:

步骤S1061,计算关联词Ai与预设关键词Cj的相似度Bij,其中,i取1至n,n为关联词的数量,j依次取1至m,m为预设关键词的数量。

步骤S1063,获取相似度B11至相似度Bnm中大于预设相似度的数量。

步骤S1065,根据获取到的相似度B11至相似度Bnm中大于预设相似度数量确定匹配关联词的数量。

具体地,在本申请实施例中,通过计算计算关联词Ai与预设关键词Cj的相似度 Bij,来确定匹配关联词的数量。其中,用户可根据实际需要选取预设相似度的数值。

假设,关联词的数量n的值取3,预设关键词的数量m的值取2,则计算出的关联词A1与预设关键词C1至C2的相似度Bij分别为B11和B12;计算出的关联词A2与预设关键词C1至C2的相似度Bij分别为B21和B22;计算出的关联词A3与预设关键词C1至C2的相似度Bij分别为B31和B32。

判断B11和B12中大于预设相似度的数量a,B21和B22中大于预设相似度的数量b,以及B31和B32中大于预设相似度的数量c,进而根据判断出的a,b和c的值确定匹配关联词的数量。

可选地,根据获取到的相似度B11至相似度Bnm中大于预设相似度数量确定匹配关联词的数量包括如下步骤S1至步骤S5:

步骤S1,判断获取到的相似度B11至相似度B1m中大于预设相似度的数量是否大于或者等于1。

步骤S3,在判断出获取到的相似度B11至相似度B1m中大于预设相似度的数量大于或者等于1情况下,预设参数的数量由初始值开始累计增加预设数量,直至判断获取到的相似度Bn1至相似度Bnm中大于预设相似度的数量是否大于或者等于1。

步骤S5,确定在判断出相似度Bn1至相似度Bnm中大于预设相似度的数量是否大于或者等于1后的预设参数的取值作为匹配关联词的数量。

具体地,在本申请实施例中,计算关联词A1与预设关键词Cj的相似度Bij,得到多个相似度B11至相似度B1m,若计算得到的多个相似度B11至相似度B1m中大于预设相似度的数量大于或者等于1,则确定该关联词A1为与预设关键词匹配的匹配关联词,此时,预设参数由初始值开始累计增加预设数量。例如,预设参数的初始值为0,当判断出计算得到的多个相似度B11至相似度B1m中大于预设相似度的数量大于或者等于1的情况下,预设参数进行加1运算,得到加1运算后的预设参数,预设参数即为1。

继续计算关联词A2与预设关键词Cj的相似度Bij,得到多个相似度B21至相似度B2m,若计算得到的多个相似度B21至相似度B2m中大于预设相似度的数量大于或者等于1,则确定该关联词A2为与预设关键词匹配的匹配关联词,此时,预设参数在1的基础上继续累计增加1,得到预设参数的数值为2。若计算得到的多个相似度B21至相似度B2m中大于预设相似度的数量等于0,则表明该关联词A2并非是预设关键词的匹配关联词,预设参数不进行任何操作。

同样地,对关联词A3至An分别进行上述操作,直到判断最后一个关联词An与预设关键词Cj的相似度Bn1至相似度Bnm中大于预设相似度的数量是否大于或者等于1,并得到判断出相似度Bn1至相似度Bnm中大于预设相似度的数量是否大于或者等于1后的预设参数的取值,并将该预设参数的数值作为匹配关联词的数量。

在对爬取到的多个网络文本进行处理,得到多个关联词,并将多个关联词与预设关键词进行匹配得到匹配关联词和匹配关联词的数量之后,计算匹配关键词的数量与预设关键词的数量的目标比值,并根据计算出的比值确定该待检测关键词的推广程度。其中,若计算出的目标比值越大,则表明该待检测关键词的推广程度越大,并且还表明该待检测关键词在网络中的舆情与自身品牌的定位一致。

可选地,对爬取到的多个网络文本进行处理,得到多个关联词包括如下步骤S1041至步骤S1045:

步骤S1041,基于文本语义对多个网络文本进行分词,得到多个分词词组,其中,不同的分词词组中所包含的网络文本的文本语义不同。

步骤S1043,依次判断每个分词词组中的网络文本是否包含目标词汇。

步骤S1045,删除目标分词词组中的目标词汇,得到多个关联词,其中,目标分词词组为判断出的网络文本包含目标词汇的分词词组。

具体地,通过爬虫系统获取到的多个网络文本包含大量的冗余成分,因此,首先按照中文语义对多个网络文本进行分词,得到聚合的多个分词词组。其中,在分词的过程中,若一个分词词组中包含相同的网络文本,则将相同的网络文本合并得到一个网络文本。

多得到的聚合的分词词组进行进一步提炼,提炼出高度聚合的待检测关键词的关联词汇,即多个关联词。其中,通过删除目标分词词组中网络文本包含的目标词汇,得到高度聚合的多个关联词。目标分词组为系统判断出的网络文本包含目标词汇的分词词组。在本申请实施例中,目标词汇为日常用语和通用语气词等日常生活中较为常见的词汇,例如,“他(她)们都说”、“大家的评价”和“非常好”等等通用词汇。

可选地,依次判断每个分词词组中的网络文本是否包含目标词汇包括如下步骤S7至步骤S9:

步骤S7,将每个分词词组中的网络文本与目标词库进行对比,其中,目标词库为用于存储目标词汇的词库。

步骤S9,当对比出分词词组的网络文本中包含与目标词汇相同的词汇时,确定在 分词词组中的网络文本中包含目标词汇。

具体地,用户可预先将包含目标词汇的词库存储于数据库中,然后分别将每个分词词组中的网络文本与目标词库进行对比。若对比出分词词组中的某一网络文本包含与目标词汇相同的词汇时,则确定该分词词组中的网络文本中包含目标词汇。其中,用户可对目标词库中的目标词汇进行更新,以便提炼出聚合程度较高的关联词。

需要说明的是,在本申请实施例中,对爬取到的多个网络文本进行处理的方法并不限于本申请中所描述的方法,还可以采用其他的方法来对多个网络文本进行处理,得到高度聚合的关联词。

本申请实施例还提供了一种检测关键词推广程度的装置,该装置主要用于执行本申请实施例上述内容所提供的检测关键词推广程度的方法,以下对本申请实施例送提供的检测关键词推广程度的装置做具体介绍。

图2是根据本申请实施例的一种检测关键词推广程度的装置示意图,如图2所示,该检测关键词推广程度的装置示意图主要包括爬取单元10、处理单元20、匹配单元30和计算单元40,其中:

爬取单元10,用于爬取包括待检测关键词的多个网络文本。

具体地,通过爬取单元在社交媒体和搜索引擎等信息库中获取包括待检测关键词的多个网络文本。在本申请实施例中,待检测关键词为品牌词或者产品词等词汇,例如,“雀巢”、“兰蔻”和“耐克”等品牌词汇。

处理单元20,用于对爬取到的多个网络文本进行处理,得到多个关联词。

具体地,通过爬虫系统获取到的多个网络文本中,包含大量的冗余成分,因此,通过处理单元需对多个网络文本进行处理,处理得到高度聚合的待检测关键词的相关词汇,即多个关联词。

匹配单元30,用于将每个关联词与预设关键词进行匹配,得到预设关键词的匹配关联词和匹配关联词的数量,其中,匹配关联词为多个关联词中的词,预设关键词为与待检测关键词相关联的关键词。

具体地,通过匹配单元将每个关联词与预设关键词进行匹配得到多个关联词,其中,预设关键词为用户预先设置与待检测关键词相关联的关键词。例如,待检测关键词为“兰蔻”,则预设关键词可以为“美白”、“保湿”、“提亮肤色”和“改善肤质”等词汇,其中,预设关键词的数量至少为一。

计算单元40,用于计算匹配关联词的数量和预设关键词数量的目标比值,其中,目标比值用于表征待检测关键词的推广程度。

具体地,通过计算单元计算得到匹配关联词的数量和预设关键词的数量的比值,即目标比值,通过该目标比值即可确定该待检测关键词的推广程度,以便品牌主确定网络中的舆情是否与该品牌的定位一致。

本申请提供的检测关键词推广程度的装置,通过爬虫在目标信息库中爬取待检测关键词的多个网络文本,并根据获取到的网络文本进行提炼出多个关联词,并将该关联词与预设关键词进行匹配,得到匹配关联词,以及匹配关联词的数量,进而根据该数量和预设关键词数量计算待检测关键词的推广程度的比值,相对于现有技术中仅爬取网络文本,而无法自动对爬取到的关联词进行匹配分析,达到了自动检测待检测关键词推广程度的目的,从而实现了无需人工分析,通过自动匹配分析即可获取待检测关键词的推广程度的技术效果,进而解决了现有技术中无法自动对待检测关键词的推广程度进行评估的技术问题。

可选地,预设关键词为多个,匹配单元30包括:计算模块,用于计算关联词Ai与预设关键词Cj的相似度Bij,其中,i取1至n,n为关联词的数量,j依次取1至m,m为预设关键词的数量;获取模块,用于获取相似度B11至相似度Bnm中大于预设相似度的数量;确定模块,用于根据获取到的相似度B11至相似度Bnm中大于预设相似度数量确定匹配关联词的数量。

具体地,在本申请实施例中,通过计算模块计算关联词Ai与预设关键词Cj的相似度Bij,并通过获取模块获取相似度B11至相似度Bnm中大于预设相似度的数量,进而通过确定模块来确定匹配关联词的数量。其中,用户可根据实际需要选取预设相似度的数值。

假设,关联词的数量n的值取3,预设关键词的数量m的值取2,则计算出的关联词A1与预设关键词C1至C2的相似度Bij分别为B11和B12;计算出的关联词A2与预设关键词C1至C2的相似度Bij分别为B21和B22;计算出的关联词A3与预设关键词C1至C2的相似度Bij分别为B31和B32。

判断B11和B12中大于预设相似度的数量a,B21和B22中大于预设相似度的数量b,以及B31和B32中大于预设相似度的数量c,进而根据判断出的a,b和c的值确定匹配关联词的数量。

可选地,获取模块包括:判断子模块,用于判断获取到的相似度B11至相似度B1m中大于预设相似度的数量是否大于或者等于1;增加子模块,用于在判断出获取到的 相似度B11至相似度B1m中大于预设相似度的数量大于或者等于1情况下,预设参数的数量由初始值开始累计增加预设数量,直至判断获取到的相似度Bn1至相似度Bnm中大于预设相似度的数量是否大于或者等于1;第一确定子模块,用于确定在判断出相似度Bn1至相似度Bnm中大于预设相似度的数量是否大于或者等于1后的预设参数的取值作为匹配关联词的数量。

具体地,在本申请实施例中,计算关联词A1与预设关键词Cj的相似度Bij,得到多个相似度B11至相似度B1m,通过判断子模块判断获取到的相似度B11至相似度B1m中大于预设相似度的数量是否大于或者等于1。若判断出得到的多个相似度B11至相似度B1m中大于预设相似度的数量大于或者等于1,则确定该关联词A1为与预设关键词匹配的匹配关联词,此时,通过增加子模块将预设参数由初始值开始累计增加预设数量。例如,预设参数的初始值为0,当判断出计算得到的多个相似度B11至相似度B1m中大于预设相似度的数量大于或者等于1的情况下,预设参数进行加1运算,得到加1运算后的预设参数,预设参数即为1。

继续计算关联词A2与预设关键词Cj的相似度Bij,得到多个相似度B21至相似度B2m,若计算得到的多个相似度B21至相似度B2m中大于预设相似度的数量大于或者等于1,则确定该关联词A2为与预设关键词匹配的匹配关联词,此时,预设参数在1的基础上继续累计增加1,得到预设参数的数值为2。若计算得到的多个相似度B21至相似度B2m中大于预设相似度的数量等于0,则表明该关联词A2并非是预设关键词的匹配关联词,预设参数不进行任何操作。

同样地,对关联词A3至An分别进行上述操作,直到判断最后一个关联词An与预设关键词Cj的相似度Bn1至相似度Bnm中大于预设相似度的数量是否大于或者等于1,并得到判断出相似度Bn1至相似度Bnm中大于预设相似度的数量是否大于或者等于1后的预设参数的取值,通过第一确定子模块确定该预设参数的数值即为匹配关联词的数量。

在对爬取到的多个网络文本进行处理,得到多个关联词,并将多个关联词与预设关键词进行匹配得到匹配关联词和匹配关联词的数量之后,计算匹配关键词的数量与预设关键词的数量的目标比值,并根据计算出的比值确定该待检测关键词的推广程度。其中,若计算出的目标比值越大,则表明该待检测关键词的推广程度越大,并且还表明该待检测关键词在网络中的舆情与自身品牌的定位一致。

可选地,处理单元包括:分词模块,用于基于文本语义对多个网络文本进行分词,得到多个分词词组,其中,不同的分词词组中所包含的网络文本的文本语义不同;判断模块,用于依次判断每个分词词组中的网络文本是否包含目标词汇;删除模块,用 于删除目标分词词组中的目标词汇,得到多个关联词,其中,目标分词词组为判断出的网络文本包含目标词汇的分词词组。

具体地,通过爬虫系统获取到的多个网络文本包含大量的冗余成分,因此,首先通过分词模块按照中文语义对多个网络文本进行分词,得到聚合的多个分词词组。其中,在分词的过程中,若一个分词词组中包含相同的网络文本,则将相同的网络文本合并得到一个网络文本。

多得到的聚合的分词词组进行进一步提炼,提炼出高度聚合的待检测关键词的关联词汇,即多个关联词。其中,通过删除模块删除目标分词词组中网络文本包含的目标词汇,得到高度聚合的多个关联词。目标分词组为系统判断出的网络文本包含目标词汇的分词词组。在本申请实施例中,目标词汇为日常用语和通用语气词等日常生活中较为常见的词汇,例如,“他(她)们都说”、“大家的评价”和“非常好”等等通用词汇。

可选地,判断模块包括:对比子模块,用于将每个分词词组中的网络文本与目标词库进行对比,其中,目标词库为用于存储目标词汇的词库;第二确定子模块,用于当对比出分词词组的网络文本中包含与目标词汇相同的词汇时,确定在分词词组中的网络文本中包含目标词汇。

具体地,用户可预先将包含目标词汇的词库存储于数据库中,然后通过对比子模块分别将每个分词词组中的网络文本与目标词库进行对比。若对比出分词词组中的某一网络文本包含与目标词汇相同的词汇时,则通过第二确定子模块确定该分词词组中的网络文本中包含目标词汇。其中,用户可对目标词库中的目标词汇进行更新,以便提炼出聚合程度较高的关联词。

需要说明的是,在本申请实施例中,对爬取到的多个网络文本进行处理的方法并不限于本申请中所描述的方法,还可以采用其他的方法来对多个网络文本进行处理,得到高度聚合的关联词。

所述检测关键词推广程度的装置包括处理器和存储器,上述爬取单元、处理单元、匹配单元和计算单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来自动检测待检测关键词推广程度,从而实现了无需人工分析,通过自动匹配分析即可获取待检测关键词的推广程度的技术效果,进而解决了现有技术中无法自动对待检测关键词的推广程度进行评估的技术问题。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:爬取包括待检测关键词的多个网络文本;对爬取到的多个网络文本进行处理,得到多个关联词;将每个关联词与预设关键词进行匹配,得到预设关键词的匹配关联词和匹配关联词的数量,其中,匹配关联词为多个关联词中的词,预设关键词为与待检测关键词相关联的关键词;计算匹配关联词的数量和预设关键词数量的目标比值,其中,目标比值用于表征待检测关键词的推广程度。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1