一种主题概念挖掘方法、装置、设备以及存储介质与流程

文档序号:21820106发布日期:2020-08-11 21:35阅读:181来源:国知局
一种主题概念挖掘方法、装置、设备以及存储介质与流程

本申请涉及计算机技术领域中的知识图谱技术领域,尤其涉及一种主题概念挖掘方法、装置、设备以及存储介质。



背景技术:

主题概念挖掘技术能够从大量搜索日志中提取到主题概念,其中,这些主题概念可以是描述一件事物、一件事情、一个人物等主题概念。然而,目前主题概念挖掘主要是以一批种子主题概念模板为起点,匹配种子搜索信息(query)得到候选主题概念,再基于候选主题概念匹配更多的搜索信息,从而得到候选模板,之后通过人工对候选模板对应的候选主题概念进行过滤,以实现主题概念挖掘,这样导致主题概念挖掘需要花费较大的人力成本。



技术实现要素:

本申请提供了一种主题概念挖掘方法、装置、设备以及存储介质,以解决主题概念挖掘需要花费较大的人力成本的问题。

根据第一方面,提供了一种主题概念挖掘方法,包括:

基于搜索信息获取多个候选主题概念;

对多个候选主题概念进行切词,并对所述切词后的词语进行词性标注,以得到每个候选主题概率的词性序列;

基于所述词性序列,对所述多个候选主题概念进行过滤,以过滤掉所述多个候选主题概念中目标词性序列对应的主题概念,其中,所述目标词性序列的准确主题概念的占比低于或者等于第一预设阈值,或者所述目标词性序列的错误主题概念的占比高于或者等于第二预设阈值。

根据第二方面,提供了一种主题概念挖掘装置,包括:

获取模块,用于基于搜索信息获取多个候选主题概念;

切词模块,用于对多个候选主题概念进行切词,并对所述切词后的词语进行词性标注,以得到每个候选主题概率的词性序列;

过滤模块,用于基于所述词性序列,对所述多个候选主题概念进行过滤,以过滤掉所述多个候选主题概念中目标词性序列对应的主题概念,其中,所述目标词性序列的准确主题概念的占比低于或者等于第一预设阈值,或者所述目标词性序列的错误主题概念的占比高于或者等于第二预设阈值。

根据第三方面,提供了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请提供的主题概念挖掘方法。

根据第三方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请提供的主题概念挖掘方法。

根据本申请的技术方案,由于通过候选主题概念的词性序列对候选主题概念进行过滤,从而降低了主题概念挖掘所需的人力成本。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是本申请提供的本申请提供的一种主题概念挖掘方法的流程图;

图2是本申请提供的本申请提供的另一种主题概念挖掘方法的流程图;

图3是本申请提供的一种候选主题概念提取的示意图;

图4是本申请提供的一种主题概念挖掘的示意图;

图5是本申请提供的一种主题概念过滤的示意图;

图6是本申请提供的另一种主题概念挖掘的示意图;

图7是本申请提供的本申请提供一种主题概念挖掘装置的结构图;

图8是本申请提供的本申请提供另一种主题概念挖掘装置的结构图;

图9是本申请提供的本申请提供另一种主题概念挖掘装置的结构图;

图10是本申请提供的本申请提供另一种主题概念挖掘装置的结构图;

图11是用来实现本申请实施例的主题概念挖掘方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

请参见图1,图1是本申请提供的一种主题概念挖掘方法的流程图,如图1所示,包括以下步骤:

步骤s101、基于搜索信息获取多个候选主题概念。

上述基于搜索信息获取多个候选主题概念可以是,从用户输入的搜索信息(query)中提取候选主题概念,或者可以是,从用户输入的搜索信息和搜索信息对应的多媒体内容(例如:title)中提取共同的候选主题概念。

本申请中,主题概念可以表示一件或者多件事物、一件或者多件事情、一个或者多个人物等等主题概念,对此不作限定。

另外,本申请中,针对一个搜索信息可以提取一个或者多个候选主题概念,且步骤s101中的搜索信息可以是多个搜索信息。

需要说明的是,本申请中主题概念也可以称作主题概念图谱。

步骤s102、对多个候选主题概念进行切词,并对所述切词后的词语进行词性标注,以得到每个候选主题概率的词性序列。

上述切词可以是将每个候选主题概念的词语进行切分,以得到候选主题概念的多个词语,例如:将候选主题概念天津钢板租赁切词为:天津/钢板/租赁,又例如:将候选主题概念公历农历对照表切词为:公历/农历/对照表。

需要说明的是,本申请中语词可以是一个单词、多个单词组合的词语、多个文字组合的词语或者一个文字等,也就是说,本申请中语词包括的文字或者单词的数量不作限定。

上述对所述切词后的词语进行词性标注可以是,标注各词语的词性,如名词[n]、动名词[vn]、形容词[a]、动词[v]、连词[c]、方位名词[f]等。

而上述候选主题概率的词性序列可以是,用于表示候选主题概念的各词语的词性的序列。例如:候选主题概念天津钢板租赁的切词为天津/钢板/租赁,则词语序列可以表示为:n:vn,其中,[:]号可以表示词性间分隔符,当然,这里仅是举例,例如:可以采用[/]表示词性间分隔符。

步骤s103、基于所述词性序列,对所述多个候选主题概念进行过滤,以过滤掉所述多个候选主题概念中目标词性序列对应的主题概念,其中,所述目标词性序列的准确主题概念的占比低于或者等于第一预设阈值,或者所述目标词性序列的错误主题概念的占比高于或者等于第二预设阈值。

其中,上述目标词性序列可以是预先配置好的,例如:用户预先设定的,或者基于候选主题概念统计获得。例如:目标词性序列可以包括:v:v:、n:f、:c:f等等词性序列。另外,上述目标词性序列可以是一个或者多个词性序列。

本申请中,准确主题概念可以是指能够反映一个准确主题的概念,而错误主题概念可以是指不能反映一个准确主题的概念。具体的,本申请对此不作限定,例如:准确主题概念和错误主题概念也可以通过人为设置等。

上述目标词性序列对应的主题概念可以是指词性序列为上述目标词性序列的候选主题概念。

上述基于所述词性序列,对所述多个候选主题概念进行过滤,以过滤掉所述多个候选主题概念中目标词性序列对应的主题概念可以是,将上述多个候选主题概念中的目标词性序列对应的主题概念的删除。

另外,由于可以过滤掉所述多个候选主题概念中目标词性序列对应的主题概念,这样可以提高主题概念的准确率。

下面以表2对本申请中的候选主题概念过滤进行举例说明:

表2:

其中,其中[:]号为词性间分隔符,若分隔符前后无词性符号标注表示该中间词词性未识别,[n]表示[名词]、[vn]表示动名词、[a]表示形容词、[v]表示动词、[c]表示连词、[f]表示方位名词。

通过表2可以确定主题概念是否准确和词性序列具有很强的相关性。如词性序列为[动词+动词]的主题概念中准确概念占比较低,而词性序列为[名词+动名词]的主题概念中准确概念占比较高。

需要说明的是,本申请可以应用于电子设备,该电子设备可以是服务器、计算机、手机等电子设备。

本申请中,基于搜索信息获取多个候选主题概念;对多个候选主题概念进行切词,并对所述切词后的词语进行词性标注,以得到每个候选主题概率的词性序列;基于所述词性序列,对所述多个候选主题概念进行过滤,以过滤掉所述多个候选主题概念中目标词性序列对应的主题概念。由于通过候选主题概念的词性序列对候选主题概念进行过滤,从而可以降低主题概念挖掘所需的人工成本。

请参见图2,图2是本申请提供的另一种主题概念挖掘方法的流程图,如图2所示,包括以下步骤:

步骤s201、基于搜索信息获取多个候选主题概念。

作为一种可选的实施方式,所述基于搜索信息获取多个候选主题概念,包括:

对第一搜索信息进行切词,以得到第一切词结果;

对第一多媒体内容进行切词,以得到第二切词结果,其中,所述第一多媒体内容为所述第一搜索信息在搜索时命中的多媒体内容;

依据所述第一切词结果和所述第二切词结果,确定第一候选主题概念,其中,所述第一候选主题概念为词语连续在所述第一搜索信息中出现,且词语连续在所述第一多媒体内容中出现的词语内容,所述第一候选主题概念为所述多个候选主题概念中的一个。

其中,上述第一搜索信息可以是步骤201中的一个搜索信息,针对步骤201中的所有搜索信息均可以执行第一搜索信息对应的流程。

上述第一多媒体内容可以是所述第一搜索信息在搜索时命中,且被用户点击的多媒体内容,如用户点击的链接title,当然,对此不作限定,例如:还可以是命中,且优先推荐的多媒体内容。

需要说明的是,本申请中多媒体内容可以包括:视频、音频、图片、文字等中的至少一项。

上述切词可以采用n元语法(n-gram)分词技术进行切词。

上述第一候选主题概念可以是第一搜索信息和第一多媒体内容中共同出现的n-gram连续词。例如:如图3所示:先将输入的搜索信息和多媒体内容分别进行切词,再搜索信息的切词结果和多媒体内容的切词结果进行比对,从而针对图3所示的搜索信息和多媒体内容可以确定乡镇公务员报考条件和公积金贷款条件这两个候选主题概念。

需要说明的是,本申请并不限定通过n-gram分词技术进行切词,也可以采用其他切词技术进行切词。而候选主题概念也不限定为n-gram连续词,例如:可以将搜索信息中连续出现的词语内容与多媒体内容中连续出现的词语内容进行比较,以确定搜索信息和多媒体内容中共同出现的词语内容。

该实施方式中,由于候选主题概念为词语连续在所述第一搜索信息中出现,且词语连续在所述第一多媒体内容中出现的词语内容,这样可以提高候选主题概念的准确性。

可选的,上述第一候选主题概念为多个连续内容中长度最长的一个,所述连续内容是指词语连续在所述第一搜索信息中出现,且词语连续在所述第一多媒体内容中出现的词语内容。

其中,连续内容可以包括多个词语,且连续出现在搜索信息和多媒体内容中,这里的连续是指在搜索信息和多媒体内容中的出现位置连续。另外,不同连续内容可以存在或者不存在重叠的语词。

该实施方式中,可以实现针对搜索信息和多媒体内容中存在多个共同再现的连续词语内容时,可以选择长度最长的一个,从而挖掘到更细粒度的主题概念,以更加准确反映对应的主题信息。

需要说明的是,本申请中基于搜索信息获取多个候选主题概念并不限定通过上述实施方式来实现,例如:还可以仅基于搜索信息确定候选主题概念,或者可以采用候选主题概念模板从搜索信息和多媒体内容中提取出候选主题概念等。

步骤s202、对多个候选主题概念进行切词,并对所述切词后的词语进行词性标注,以得到每个候选主题概率的词性序列。

步骤s203、基于所述词性序列,对所述多个候选主题概念进行过滤,以过滤掉所述多个候选主题概念中目标词性序列对应的主题概念,其中,所述目标词性序列的准确主题概念的占比低于或者等于第一预设阈值,或者所述目标词性序列的错误主题概念的占比高于或者等于第二预设阈值。

作为一种可选的实施方式,所述基于所述词性序列,对所述多个候选主题概念进行过滤,以过滤掉所述多个候选主题概念中目标词性序列对应的主题概念之前,所述方法还包括:

对所述多个候选主题概念中的部分主题概念进行标注,得到标注结果,所述标注结果表示所述部分主题概念中每个主题概念是否准确,所述部分主题概念的词性序列包括所述多个候选主题概念的词性序列;

依据所述标注结果,统计每个词性序列的准确主题概念的占比或者错误主题概念的占比。

其中,上述部分主题概念可以是在上述多个候选主题概念中随机提取的部分主题概念。

上述标注可以是通过人工的方式进行标注,以是否为准确的主题概念。

需要说明的是,虽然不同的候选主题概念的文字不同,但一些候选主题概念的词性序列可能会相同。从而上述部分主题概念的词性序列可以包括所述多个候选主题概念的词性序列。

该实施方式中,由于提取部分候选主题概念,这样只需要对部分候选主题概念进行标注,从而降低工作量。

例如:如图4所示,从多个候选主题概念中提取部分主题概念,并进行切词和标注,之后统计每个词性序列的准确主题概念的占比或者错误主题概念的占比,并通过这些统计对上述多个候选主题概念进行过滤,以得到输出结果。

需要说明的是,本申请中确定词性序列的准确主题概念的占比或者错误主题概念的占比,并不限定通过上述方式确定。例如:预先可以获取与步骤201中的候选主题概念不同的多个主题概念,以及相应的词性序列,通过这些主题概念的准确性可以确定词性序列的准确主题概念的占比或者错误主题概念的占比。

作为一种可选的实施方式,如图2所示,所述方法还包括:

步骤204、依据目标模板,删除所述过滤的候选主题概念中目标候选主题概念,其中,在所述目标模板为错误主题概念模板的情况下,所述目标候选主题为与所述目标模板匹配的主题概念,或者,在所述目标模板为准确主题概念模板的情况下,所述目标候选主题为所述过滤的候选主题概念中未与所述目标模板匹配的主题概念。

其中,上述目标模板可以是预先配置的,如用户设置。以错误主题概念模板为例,通过图5所示的3个错误主题概念模板可以过滤掉错误的候选主题概念,保留正确的主题概念。需要说明的是,图5仅一个举例,在实际应用中被过滤的错误的候选主题概念可以远远小于图5所示的错误主题概念的比率。

而在准确主题概念模板的情况下,一样可以删除上述过滤的候选主题概念中删除的候选主题概念。

该实施方式中,由于在步骤203过滤后的候选主题概念进行再次过滤,这样可以进一步提高主题概念的准确性。

例如:如图6所示,将搜索信息和多媒体内容进行切词,并将搜索信息和多媒体内容的切词进行匹配,以确定多个候选主题概念,之后,确定各候选主题概念的词性序列,并过滤掉错误的主题概念,最后通过模板进一步进行过滤,以得到最终输出的主题概念,以得到高质量的主题概念。

本实施例中,在图1所示的实施例的基础上增加了多种可选的实施方式,且均可以降低主题概念挖掘所需的人力成本,以及达到提高主题概念准确率等有益效果。

请参见7,图7是本申请提供一种主题概念挖掘装置的结构图,如图7所示,主题概念挖掘装置700包括:

获取模块701,用于基于搜索信息获取多个候选主题概念;

切词模块702,用于对多个候选主题概念进行切词,并对所述切词后的词语进行词性标注,以得到每个候选主题概率的词性序列;

过滤模块703,用于基于所述词性序列,对所述多个候选主题概念进行过滤,以过滤掉所述多个候选主题概念中目标词性序列对应的主题概念,其中,所述目标词性序列的准确主题概念的占比低于或者等于第一预设阈值,或者所述目标词性序列的错误主题概念的占比高于或者等于第二预设阈值。

可选的,如图8所示,所述装置还包括:

标注模块704,用于对所述多个候选主题概念中的部分主题概念进行标注,得到标注结果,所述标注结果表示所述部分主题概念中每个主题概念是否准确,所述部分主题概念的词性序列包括所述多个候选主题概念的词性序列;

统计模块705,用于依据所述标注结果,统计每个词性序列的准确主题概念的占比或者错误主题概念的占比。

可选的,如图9所示,所述获取模块701包括:

第一切词单元7011,用于对第一搜索信息进行切词,以得到第一切词结果;

第二切词单元7012,用于对第一多媒体内容进行切词,以得到第二切词结果,其中,所述第一多媒体内容为所述第一搜索信息在搜索时命中的多媒体内容;

确定单元7013,用于依据所述第一切词结果和所述第二切词结果,确定第一候选主题概念,其中,所述第一候选主题概念为词语连续在所述第一搜索信息中出现,且词语连续在所述第一多媒体内容中出现的词语内容,所述第一候选主题概念为所述多个候选主题概念中的一个。

可选的,所述第一候选主题概念为多个连续内容中长度最长的一个,所述连续内容是指词语连续在所述第一搜索信息中出现,且词语连续在所述第一多媒体内容中出现的词语内容。

可选的,如图10所述装置还包括:

删除模块706,用于依据目标模板,删除所述过滤的候选主题概念中目标候选主题概念,其中,在所述目标模板为错误主题概念模板的情况下,所述目标候选主题为与所述目标模板匹配的主题概念,或者,在所述目标模板为准确主题概念模板的情况下,所述目标候选主题为所述过滤的候选主题概念中未与所述目标模板匹配的主题概念。

本实施例提供的装置能够实现本申请的方法实施例中实现的各个过程,且可以达到相同有益效果,为避免重复,这里不再赘述。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。

如图11所示,是根据本申请实施例的主题概念挖掘方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图11所示,该电子设备包括:一个或多个处理器1101、存储器1102,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图11中以一个处理器1101为例。

存储器1102即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的主题概念挖掘方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的主题概念挖掘方法。

存储器1102作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的主题概念挖掘方法对应的程序指令/模块(例如,附图7所示的获取模块701、切词模块702和过滤模块703)。处理器1101通过运行存储在存储器1102中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的主题概念挖掘方法。

存储器1102可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据主题概念挖掘方法的电子设备的使用所创建的数据等。此外,存储器1102可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1102可选包括相对于处理器1101远程设置的存储器,这些远程存储器可以通过网络连接至主题概念挖掘方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

主题概念挖掘方法的电子设备还可以包括:输入装置1103和输出装置1104。处理器1101、存储器1102、输入装置1103和输出装置1104可以通过总线或者其他方式连接,图11中以通过总线连接为例。

输入装置1103可接收输入的数字或字符信息,以及产生与主题概念挖掘方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1104可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案,由于通过候选主题概念的词性序列对候选主题概念进行过滤,从而降低了主题概念挖掘所需的人力成本。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1