一种实体词处理方法和装置与流程

文档序号:13446220阅读:201来源:国知局
一种实体词处理方法和装置与流程

本发明涉及文本处理技术领域,特别是涉及一种实体词处理方法和装置。



背景技术:

目前,在根据用户键入的搜索内容来搜索视频时,通常是利用分词模块对搜索内容进行分词,然后以各个分词作为关键词在视频库中搜索相关的视频作为搜索结果。实际应用中,用户键入的搜索内容通常包括实体词。实体词一般为固定搭配词,短语,等等。准确的,分词模块对于实体词的识别决定了视频搜索结果的准确率。为了实现分词模块对实体词的识别,通常需要会先将实体词确定出来,然后输入分词模块,以使分词模块能够准确的识别出实体词。

现有技术中,在确定实体词的时候,通常是利用训练语料训练crf模型来确定实体词。

但是,现有技术中的通过模型训练确定实体词的方法,通常需要训练大规模的训练预料,且该训练预料中每个新实体词的存在数量达到一定数量的时候,才能实现实体词的识别,然而训练预料中往往覆盖不到新实体词,即使训练预料中包含新实体词,该新实体词的数量也无法满足训练预料的要求,因此,对于新出现的实体词,就不能被确定出来,进而导致视频搜索结果的精度降低。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种实体词处理方法和装置。

依据本发明的第一方面,提供了一种实体词处理方法方法,该方法包括:

针对预设第一时间段内的多条第一日志,提取所述第一日志中的查询字段作为候选文本,得到多个候选文本;

对所述多个候选文本进行筛选,得到至少一个目标文本;

将查询字段为所述目标文本的第一日志的点击链接作为关联点击链接,得到与所述至少一个目标文本对应的至少一个关联点击链接;所述关联点击链接是用户以所述目标文本作为查询内容进行查询时所点击的链接;

针对预设第二时间段内的多条第二日志,将包含所述关联点击链接的第二日志对应的查询字段确定为所述目标文本的关联文本,得到至少一个关联文本;其中,所述预设第二时间段包括所述预设第一时间段,所述多条第二日志包括所述多条第一日志;

根据所述至少一个目标文本以及所述至少一个关联文本确定实体词。

可选的,所述对所述多个候选文本进行筛选,得到至少一个目标文本的步骤,包括:

将多个候选文本中出现次数小于预设搜索次数阈值的候选文本去除,得到至少一个第一候选文本;

对于所述至少一个第一候选文本中的每个第一候选文本进行分词处理,统计每个第一候选文本对应的分词数;

将对应的分词数不大于1的第一候选文本去除,得到至少一个第二候选文本;

利用预设的格式模板匹配每个第二候选文本,将与所述预设的格式模板不匹配的第二候选文本作为目标文本,得到至少一个目标文本。

可选的,所述根据所述至少一个目标文本以及所述至少一个关联文本确定实体词的步骤,包括:

对于所述至少一个目标文本中的每一个目标文本,执行以下处理:

对所述目标文本进行分词处理,得到对应的多个目标分词,并将所述多个目标分词中每两个相邻的目标分词组合,得到多个目标词对;

对所述目标文本对应的多个关联文本进行分词处理,得到多个关联分词;

对于所述多个目标词对中的每个目标词对,统计所述目标词对中各个目标分词在所述多个关联分词中出现的频次;

根据所述目标词对中各个目标分词的频次计算所述目标词对的熵值;

根据所述目标文本对应的多个目标词对的熵值确定实体词。

可选的,所述根据所述目标词对中各个目标分词的频次确定所述目标词对的熵值的步骤,包括:

将第一目标分词的频次除以第一目标分词的频次与第二目标分词的频次之和的值,作为第一熵参数;

将第二目标分词的频次除以第一目标分词的频次与第二目标分词的频次之和的值,作为第二熵参数;

将所述第一熵参数和所述第二熵参数代入预设的熵值计算公式中,得到目标词对的熵值。

可选的,所述根据所述目标文本对应的多个目标词对的熵值确定实体词的步骤,包括:

当目标文本对应的多个目标词对中熵值大于预设熵阈值的目标词对的个数等于1时,则将熵值大于预设熵阈值的目标词对确定为实体词;

当目标文本对应的多个目标词对中熵值大于预设熵阈值的目标词对的个数大于1时,确定熵值大于预设熵阈值的目标词对之间是否存在重叠分词;

若所述熵值大于预设熵阈值的目标词对之间存在重叠分词,则将存在重叠分词的目标词对组合为实体词;

若所述熵值大于预设熵阈值的目标词对之间不存在重叠分词,则将各个熵值大于预设熵阈值的目标词对分别确定为实体词。

依据本发明的第二方面,提供了一种实体词处理装置,该装置包括:

第一提取模块,用于针对预设第一时间段内的多条第一日志,提取所述第一日志中的查询字段作为候选文本,得到多个候选文本;

筛选模块,用于对所述多个候选文本进行筛选,得到至少一个目标文本;

第二提取模块,用于将查询字段为所述目标文本的第一日志的点击链接作为关联点击链接,得到与所述至少一个目标文本对应的至少一个关联点击链接;所述关联点击链接是用户以所述目标文本作为查询内容进行查询时所点击的链接;

第一确定模块,用于针对预设第二时间段内的多条第二日志,将包含所述关联点击链接的第二日志对应的查询字段确定为所述目标文本的关联文本,得到至少一个关联文本;其中,所述预设第二时间段包括所述预设第一时间段,所述多条第二日志包括所述多条第一日志;

第二确定模块,用于根据所述至少一个目标文本以及所述至少一个关联文本确定实体词。

可选的,所述筛选模块,包括:

第一去除子模块,用于将多个候选文本中出现次数小于预设搜索次数阈值的候选文本去除,得到至少一个第一候选文本;

统计子模块,用于对于所述至少一个第一候选文本中的每个第一候选文本进行分词处理,统计每个第一候选文本对应的分词数;

第二去除子模块,用于将对应的分词数不大于1的第一候选文本去除,得到至少一个第二候选文本;

匹配子模块,用于利用预设的格式模板匹配每个第二候选文本,将与所述预设的格式模板不匹配的第二候选文本作为目标文本,得到至少一个目标文本。

可选的,所述第二确定模块,包括:

组合子模块,用于对所述目标文本进行分词处理,得到对应的多个目标分词,并将所述多个目标分词中每两个相邻的目标分词组合,得到多个目标词对;

分词子模块,用于对所述目标文本对应的多个关联文本进行分词处理,得到多个关联分词;

统计子模块,用于对于所述多个目标词对中的每个目标词对,统计所述目标词对中各个目标分词在所述多个关联分词中出现的频次;

计算子模块,用于根据所述目标词对中各个目标分词的频次计算所述目标词对的熵值;

确定子模块,用于根据所述目标文本对应的多个目标词对的熵值确定实体词。

可选的,所述计算子模块,用于:

将第一目标分词的频次除以第一目标分词的频次与第二目标分词的频次之和的值,作为第一熵参数;

将第二目标分词的频次除以第一目标分词的频次与第二目标分词的频次之和的值,作为第二熵参数;

将所述第一熵参数和所述第二熵参数代入预设的熵值计算公式中,得到目标词对的熵值。

可选的,所述确定子模块,用于:

当目标文本对应的多个目标词对中熵值大于预设熵阈值的目标词对的个数等于1时,则将熵值大于预设熵阈值的目标词对确定为实体词;

当目标文本对应的多个目标词对中熵值大于预设熵阈值的目标词对的个数大于1时,确定熵值大于预设熵阈值的目标词对之间是否存在重叠分词;

若所述熵值大于预设熵阈值的目标词对之间存在重叠分词,则将存在重叠分词的目标词对组合为实体词;

若所述熵值大于预设熵阈值的目标词对之间不存在重叠分词,则将各个熵值大于预设熵阈值的目标词对分别确定为实体词。

针对在先技术,本发明具备如下优点:

本发明实施例提供的实体词处理方法和装置,可以将多条第一日志中的查询字段作为多个候选文本,在该多个候选文本中确定出至少一个目标文本,然后确定该至少一个目标文本对应的关联点击链接,根据该关联点击链接确定出与目标文本语义相似且搜索意图相同的关联文本,最后,根据该目标文本以及关联文本确定实体词。由于日志的查询字段中往往会包括新实体词,这样,就能够确定出新实体词,实现了新实体词的确定,进而解决了现有技术中因为无法确定出新实体词而导致分词模块对新实体词的识别率较低,进而降低视频搜索的精度的问题。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1是本发明实施例一提供的一种实体词处理方法的流程图;

图2是本发明实施例二提供的另一种实体词处理方法的流程图;

图3是本发明实施例三提供的一种实体词处理装置的框图;

图4是本发明实施例四提供的另一种实体词处理装置的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

实施例一

图1是本发明实施例一提供的一种实体词处理方法的流程图,如图1所示,该方法可以包括:

步骤101、针对预设第一时间段内的多条第一日志,提取所述第一日志中的查询字段作为候选文本,得到多个候选文本。

本发明实施例中,该预设第一时间段可以是开发人员根据实际需求选取的。优选的,该第一预设时间段可以为一天。示例的,可以将7月27日作为预设第一时间段。将7月27日内产生的点击日志作为第一日志。该第一日志的条数可以是由预设第一时间段内产生的日志条数决定的,本发明实施例对于具体数量不做限定。

以视频搜索为例,假设在7月27日,有300人通过视频平台进行视频搜索,且每个人都针对搜索结果进行了一次点击。由于一次搜索操作会产生一条搜索日志,一次点击操作会产生一条点击日志,那么7月27日内产生的日志共有600条,其中包括300条搜索日志以及对应的300条点击日志。进一步地,可以将该300条点击日志作为第一日志。在确定该600条日志中的点击日志时,可以根据日志的日志类型标签来区分。该日志类型标签可分为搜索日志标签以及点击日志标签。示例的,假设搜索日志标签表示为标签1,点击日志标签表示为标签2,那么可以将该600条日志中包含标签2的日志确定为点击日志。

优选的,点击日志中至少可以包含查询字段、点击链接以及点击标识。其中,查询字段表示用户的搜索内容,点击链接针对用户的点击对象,点击标识用于指示与该条点击日志对应的搜索日志。示例的,假设用户以“今天天气真好”作为搜索内容进行视频搜索,那么用户的搜索操作会对应产生一条搜索日志。该条搜索日志中可以包含内容为“今天天气真好”的查询字段以及搜索标识,假设该搜索标识为aa,视频平台根据用户的搜索操作,返回相应的视频1、视频2以及视频3作为搜索结果。其中,每个视频都会对应一个点击链接,假设这3个视频对应的点击链接分别为:链接1、链接2以及链接3,那么当用户点击某个视频时,生成的点击日志中就会包含该视频对应的点击链接。假设用户点击视频2进行观看,那么该点击操作生成的点击日志中可以包括内容为“今天天气真好”的查询字段、内容为“链接2”的点击链接以及点击标识aa,其中该点击标识aa与搜索日志中的搜索标识aa对应。

由于新实体词往往会包括在搜索内容中,而点击日志中的查询字段和搜索内容一致,因此,可以提取第一日志中的查询字段作为候选文本,来进行后续的实体词确定。需要说明的是,实际应用中,还可以以预设第一时间段内的多条搜索日志作为第一日志,将搜索日志的查询字段作为候选文本,本发明实施例对此不作限定。

具体的,在实现本步骤的时候,可以先获取预设的第一时间段内的多条第一日志。一般,日志都是存储在相应的服务器中,以视频搜索为例,本发明实施例可以获取视频服务器上存储的7月27日产生的点击日志作为第一日志。然后对于所述多条第一日志,提取每条第一日志的查询字段作为候选文本,得到多个候选文本。

步骤102、对所述多个候选文本进行筛选,得到至少一个目标文本。

本发明实施例中,候选文本中的部分文本可能会包含新实体词,本步骤中,可以对候选文本进行筛选,将候选文本中存在新实体词概率较小的候选文本去除,得到存在新实体词概率较大的目标文本,这样,通过将概率小的候选文本去除,可以减少后续需要处理的文本的数量,进而缩短处理时长。

步骤103、提取查询字段为所述目标文本的第一日志的点击链接作为关联点击链接,得到与所述至少一个目标文本对应的至少一个关联点击链接。

其中,该关联点击链接是用户以目标文本作为搜索内容进行搜索时所点击对象对应的链接。假设有两个目标文本,分别为目标文本1“今天天气真好”以及目标文本2“春风十里不如你”。示例的,假设查询字段为“今天天气真好”的第一日志中包含的点击链接为“链接2”,查询字段为“春风十里不如你”的第一日志中包含的点击链接为“链接3”,那么可以将“链接2”确定为目标文本1“今天天气真好”对应的关联点击链接,将“链接3”确定为目标文本2“春风十里不如你”对应的关联点击链接,得到两个关联点击链接。

步骤104、针对预设第二时间段内的多条第二日志,将包含所述关联点击链接的第二日志对应的查询字段确定为所述目标文本的关联文本,得到至少一个关联文本。

其中,该预设第二时间段可以包括预设第一时间段,该多条第二日志可以包括多条第一日志。本发明实施例中,该预设第二时间段可以是开发人员根据实际需求选取的。优选的,该预设第二时间段可以为一周。示例的,可以将7月24日至7月30日作为预设第二时间段。将7月24日至7月30日内产生的点击日志作为第二日志。该第二日志的条数可以是由预设第二时间段内产生的日志条数决定的。

实际应用中,如果某条第二日志包含关联点击链接,那么可以说明用户以该条第二日志中的查询字段进行搜索时点击的对象和以目标文本进行搜索时点击的对象相同。那么,可以认为该包含关联点击链接的第二日志的查询文本和目标文本的语义相似,搜索意图相同。假设有100条包含“链接2”的第二日志,其中有20条第二日志的查询字段为“今天天气真不错啊~”,10条第二日志的查询字段为“今天天气真好”,70条第二日志的查询字段为“今天天气好好啊”,那么可以确定目标文本1有三个关联文本,该三个关联文本分别为“今天天气真不错啊~”、“今天天气真好”以及“今天天气好好啊”。

需要说明的是,如果包含关联点击链接的第二日志对应的查询字段与目标文本的内容一致,即就是,根据第二日志并未确定出目标文本的关联文本,那么可以认为该目标文本中不存在实体词,进而可以省略后续确定实体词的步骤,节省处理成本。

步骤105、根据所述至少一个目标文本以及所述至少一个关联文本确定实体词。

由于目标文本以及关联文本的语义相似且搜索意图相同,因此可以根据目标文本以及关联文本确定实体词。示例的,假设目标文本1中包含某个新实体词,由于目前的分词模块无法识别,所以该新实体词会被分为两个或多个分词。假设该新实体词被分成了两个分词t1和t2。由于目标文本1的关联文本和目标文本1的语义相似且意图相同,那么关联文本有较高概率会包含t1以及t2这两个分词,且关联文本中通常会同时出现t1以及t2。本发明实施例中,可以统计t1以及t2在关联文本中的出现情况,进而确定实体词。

综上所述,本发明实施例一提供的实体词处理方法,可以将多条第一日志中的查询字段作为多个候选文本,在该多个候选文本中确定出至少一个目标文本,然后确定该至少一个目标文本对应的关联点击链接,根据该关联点击链接确定出与目标文本语义相似且搜索意图相同的关联文本,最后,根据该目标文本以及关联文本确定实体词。由于日志的查询字段中往往会包括新实体词,这样,就能够确定出新实体词,实现了新实体词的确定,进而解决了现有技术中因为无法确定出新实体词而导致分词模块对新实体词的识别率较低,进而降低视频搜索的精度的问题。

实施例二

图2是本发明实施例二提供的另一种实体词处理方法的流程图,如图2所示,该方法可以包括:

步骤201、针对预设第一时间段内的多条第一日志,提取所述第一日志中的查询字段作为候选文本,得到多个候选文本。

具体的,本步骤的实现方式可以参考上述步骤101,本发明实施例在此不做赘述。

步骤202、将多个候选文本中出现次数小于预设搜索次数阈值的候选文本去除,得到至少一个第一候选文本。

实际应用中,一个搜索内容被搜索的次数越大,则包含实体词的概率越大,反之,则包含实体词的概率越小。因此,本步骤中可以设置一个预设搜索次数阈值,将小于该预设搜索次数阈值的候选文本去除。其中,该预设搜索次数阈值可以根据实际实验确定出来的。示例的,可以以不同大小的预设搜索次数阈值来对候选文本进行筛选,参照最后的剩余文本的情况选择一个合适的预设搜索次数阈值。示例的,假设有300个候选文本,由于不同用户使用的搜索内容可能是相同的,因此本发明实施例的多个候选文本中会存在内容相同的文本,即就是,每个候选文本可以为多次出现。假设预设搜索次数阈值为20,那么,如果一个候选文本出现的次数小于20次则将该候选文本去除,假设该300个候选文本由文本1、文本2、文本3以及文本4组成,其中文本1出现50次,文本2出现90次,文本3出现10次,文本4出现150次,那么可以将该文本3去除,将剩余的文本1、文本2以及文本4作为第一候选文本,得到三个第一候选文本。

步骤203、对于所述至少一个第一候选文本中的每个第一候选文本进行分词处理,统计每个第一候选文本对应的分词数。

本步骤中,在对第一候选文本进行分词的时候,可以通过常用分词库,例如,常见的词典等,进行逐词遍历,将常见分词库中的所有词按照排列顺序分别在第一候选文本中遍历匹配,若匹配成功则将当前词,确定为该第一候选文本的分词,如此循环,直至常见分词库中的所有词都被匹配一遍,确定出该第一候选文本的多个分词。在完成对每个第一候选文本的分词处理之后,可以统计每个第一候选文本对应的分词的数量。

步骤204、将对应的分词数不大于1的第一候选文本去除,得到至少一个第二候选文本。

由于实体词一般为固定搭配词,短语等等,因此实体词由单个分词组成的可能性很小。本步骤中,可以将对应的分词数不大于1的第一候选文本去除。示例的,假设第一候选文本1,即就是,文本1分词之后对应的分词数为1,第一候选文本2,即就是,文本2对应的分词数为3,第一候选文本3,即就是,文本4对应的分词数为5。那么可将文本1去除,将剩余的文本2以及文本4作为第二候选文本,得到两个第二候选文本。

步骤205、利用预设的格式模板匹配每个第二候选文本,将与所述预设的格式模板不匹配的第二候选文本作为目标文本,得到至少一个目标文本。

示例的,该预设的格式模板可以为“其他名词nz+第x季/部/期”。该预设的格式模板对应的文本通常用来表示某个视频的专辑信息,并不作为实体词,比如,“快乐大本营第一季”等等。因此可将该与该模板不匹配的第二候选文本作为目标文本。示例的,假设文本2与该模板匹配,文本4与该模板不匹配,那么可以将文本2去除,将文本4作为目标文本。

步骤206、提取查询字段为所述目标文本的第一日志的点击链接作为关联点击链接,得到与所述至少一个目标文本对应的至少一个关联点击链接。

具体的,本步骤的实现方式可以参考上述步骤103,本发明实施例在此不做赘述。

步骤207、针对预设第二时间段内的多条第二日志,将包含所述关联点击链接的第二日志对应的查询字段确定为所述目标文本的关联文本,得到至少一个关联文本。

具体的,本步骤的实现方式可以参考上述步骤104,本发明实施例在此不做赘述。

步骤208、根据所述至少一个目标文本以及所述至少一个关联文本确定实体词。

可选的,本步骤中,可以对于所述至少一个目标文本中的每一个目标文本,执行以下处理:

步骤2081、对所述目标文本进行分词处理,得到对应的多个目标分词,并将所述多个目标分词中每两个相邻的目标分词组合,得到多个目标词对。

示例的,以目标文本1为例,假设对目标文本1进行分词处理之后,得到目标分词1、目标分词2、目标分词3以及目标分词4,那么通过组合可以得到目标词对1(目标分词1,目标分词2)、目标词对2(目标分词2,目标分词3)以及目标词对3(目标分词3,目标分词4)。

步骤2082、对所述目标文本对应的多个关联文本进行分词处理,得到多个关联分词。

示例的,假设该目标文本1对应的多个关联文本分别为50个关联文本1以及70个关联文本2,对该关联文本1以及关联文本2进行分词处理,得到关联文本1对应的关联分词1、关联分词2以及关联分词3;关联文本2对应的关联分词4、关联分词5以及关联分词6。其中,关联分词1、关联分词2以及关联分词3分别为50个;关联分词4、关联分词5以及关联分词6分别为70个。

步骤2083、对于所述多个目标词对中的每个目标词对,统计所述目标词对中各个目标分词在所述多个关联分词中出现的频次。

示例的,假设目标分词1对应关联分词2,由于关联分词中包括50个关联分词2,因此可以确定目标分词1的出现频次为50;假设目标分词2对应关联分词3,由于关联分词中包括50个关联分词3,因此可以确定目标分词2的出现频次为50;假设目标分词3对应关联分词5,由于关联分词中包括70个关联分词5,因此可以确定目标分词3的出现频次为70;假设目标分词4对应关联分词6,由于关联分词中包括70个关联分词6,因此可以确定目标分词4的出现频次为70。

步骤2084、根据所述目标词对中各个目标分词的频次计算所述目标词对的熵值。

通过上述步骤可知,目标词对1中的目标分词1以及目标分词2的频次分别为50和50,目标词对2中的目标分词2以及目标分词3的频次分别为50和70,目标词对3中的目标分词3以及目标分词4的频次分别为70和70。

在确定目标词对的熵值时,可通过如下步骤实现:

步骤2084a、将第一目标分词的频次除以第一目标分词的频次与第二目标分词的频次之和的值,作为第一熵参数。

示例的,该第一目标分词可以表示目标词对中的在先分词,该第二目标分词可以表示目标词对中的在后分词。以目标词对1为例,目标分词1即为第一目标分词,目标分词2即为第二目标分词,可以将目标分词1的频次除以目标分词1的频次与目标分词2的频次之和的值,作为第一熵参数。示例的,目标词对1的第一熵参数可以为:50/(50+50)=0.5。

步骤2084b、将第二目标分词的频次除以第一目标分词的频次与第二目标分词的频次之和的值,作为第二熵参数。

示例的,可以将目标分词2的频次除以目标分词1的频次与目标分词2的频次之和的值,作为第二熵参数。目标词对1的第二熵参数可以为:50/(50+50)=0.5。

步骤2084c、将所述第一熵参数和所述第二熵参数代入预设的熵值计算公式中,得到目标词对的熵值。

本步骤中,该预设的熵值计算公式可以为:

hab=-palogpa-pblogpb

其中,pa表示第一熵参数,pb表示第二熵参数。log(*)表示对数函数。hab表示由分词a以及分词b组成的目标词对的熵值。本步骤中,可以将目标词对的第一熵参数以及第二熵参数代入上述预设的熵值计算公式中,计算目标词对的熵值。本发明实施例中提供的目标词对的熵值计算方法,计算出来的熵值能够反映目标词对的两个组成分词之间的关联度,当hab越大时,表明目标词对的两个组成分词之间的关联度越高,该目标词对越有可能是实体词的组成。

步骤2085、根据所述目标文本对应的多个目标词对的熵值确定实体词。

可选的,步骤2085可以包括:

步骤2085a、当目标文本对应的多个目标词对中熵值大于预设熵阈值的目标词对的个数等于1时,则将熵值大于预设熵阈值的目标词对确定为实体词。

本步骤中,该预设熵阈值可以根据实验确定出来的,优选的,该预设熵阈值为0.6。示例的,假设目标文本对应的目标词对1、目标词对2以及目标词对3中,目标词对1的熵值为hab1=0.79,目标词对2的熵值为hab2=0.5,目标词对3的熵值为hab3=0.4,可以看出,只有目标词对1的熵值大于预设熵阈值0.6,那么,可以将目标词对1确定为实体词。

步骤2085b、当目标文本对应的多个目标词对中熵值大于预设熵阈值的目标词对的个数大于1时,确定熵值大于预设熵阈值的目标词对之间是否存在重叠分词。

示例的,假设目标文本对应的目标词对1、目标词对2以及目标词对3中,目标词对1的熵值为hab1=0.79,目标词对2的熵值为hab2=0.5,目标词对3的熵值为hab3=0.8,其中,目标词对1的熵值以及目标词对3的熵值大于预设熵阈值。此时,熵值大于预设熵阈值的目标词对的个数为2,由于2大于1,那么可进一步确定目标词对1以及目标词对3之间是否存在重叠分词。

步骤2085c、若所述熵值大于预设熵阈值的目标词对之间存在重叠分词,则将存在重叠分词的目标词对组合为实体词。

假设目标文本对应的目标词对1由分词1以及分词2组成、目标词对2由分词3及分词4组成目标词对3由分词2及分词3成,那么可以看出目标词对1以及目标词对3之间存在重叠分词,该重叠分词为分词2,此时,可以将该目标词对1以及目标词对3组合为一个实体词。在进行组合时,可以只保留一个重叠分词即可,即就是,将分词1,分词2以及分词3组合为一个实体词。

步骤2085d、若所述熵值大于预设熵阈值的目标词对之间不存在重叠分词,则将各个熵值大于预设熵阈值的目标词对分别确定为实体词。

假设目标文本对应的目标词对1由分词1以及分词2组成、目标词对2由分词2以及分词3组成目标词对3由分词3以及分词4组成,那么可以看出目标词对1以及目标词对3之间不存在重叠分词,此时可以将该目标词对1确定为一个实体词,将目标词对3确定为一个实体词。

本发明实施例中,在确定出新实体词之后,可以将新实体词传输给分词模块。具体的,可以以文本格式,将新实体词存入分词模块中,以使分词模块更新实体词库。具体的,分词模块可以加载存入的新实体词并与已有实体库进行判重、融合,形成新的实体词库。这样,利用分词模块对搜索内容进行分词的时候,分词模块就能够准确的识别出新实体词。

综上所述,本发明实施例二提供的实体词处理方法,可以将多条第一日志中的查询字段作为多个候选文本,在该多个候选文本中确定出至少一个目标文本,然后确定该至少一个目标文本对应的关联点击链接,根据该关联点击链接确定出与目标文本语义相似且搜索意图相同的关联文本,最后,根据该目标文本以及关联文本确定实体词。由于日志的查询字段中往往会包括新实体词,这样,就能够确定出新实体词,然后通过利用该新实体词更新分词模块,使得分词模块能够准确的将新实体词确定出来,进而提高视频搜索的精度;同时,本发明实施例中还会对候选文本进行筛选,将包含新实体词概率较低的候选文本去除,减少了后续文本处理的工作量。

实施例三

图3是本发明实施例三提供的一种实体词处理装置的框图,如图3所示,该装置30可以包括:

第一提取模块301,用于针对预设第一时间段内的多条第一日志,提取所述第一日志中的查询字段作为候选文本,得到多个候选文本。

筛选模块302,用于对所述多个候选文本进行筛选,得到至少一个目标文本。

第二提取模块303,用于将查询字段为所述目标文本的第一日志的点击链接作为关联点击链接,得到与所述至少一个目标文本对应的至少一个关联点击链接;所述关联点击链接是用户以所述目标文本作为查询内容进行查询时所点击的链接。

第一确定模块304,用于针对预设第二时间段内的多条第二日志,将包含所述关联点击链接的第二日志对应的查询字段确定为所述目标文本的关联文本,得到至少一个关联文本;其中,所述预设第二时间段包括所述预设第一时间段,所述多条第二日志包括所述多条第一日志。

第二确定模块305,用于根据所述至少一个目标文本以及所述至少一个关联文本确定实体词。

综上所述,本发明实施例三提供的实体词处理装置,可以通过第一提取模块将多条第一日志中的查询字段作为多个候选文本,通过筛选模块在该多个候选文本中确定出至少一个目标文本,然后通过第二提取模块确定该至少一个目标文本对应的关联点击链接,利用第一确定模块根据该关联点击链接确定出与目标文本语义相似且搜索意图相同的关联文本,最后,利用第二确定模块根据该目标文本以及关联文本确定实体词。由于日志的查询字段中往往会包括新实体词,这样,就能够确定出新实体词,实现了新实体词的确定,进而解决了现有技术中因为无法确定出新实体词而导致分词模块对新实体词的识别率较低,进而降低视频搜索的精度的问题。

实施例四

图4是本发明实施例四提供的另一种实体词处理装置的框图,如图4所示,该装置40可以包括:

第一提取模块401,用于针对预设第一时间段内的多条第一日志,提取所述第一日志中的查询字段作为候选文本,得到多个候选文本。

筛选模块402,用于对所述多个候选文本进行筛选,得到至少一个目标文本。

第二提取模块403,用于将查询字段为所述目标文本的第一日志的点击链接作为关联点击链接,得到与所述至少一个目标文本对应的至少一个关联点击链接;所述关联点击链接是用户以所述目标文本作为查询内容进行查询时所点击的链接。

第一确定模块404,用于针对预设第二时间段内的多条第二日志,将包含所述关联点击链接的第二日志对应的查询字段确定为所述目标文本的关联文本,得到至少一个关联文本;其中,所述预设第二时间段包括所述预设第一时间段,所述多条第二日志包括所述多条第一日志。

第二确定模块405,用于根据所述至少一个目标文本以及所述至少一个关联文本确定实体词。

可选的,上述筛选模块402,可以包括:

第一去除子模块4021,用于将多个候选文本中出现次数小于预设搜索次数阈值的候选文本去除,得到至少一个第一候选文本。

统计子模块4022,用于对于所述至少一个第一候选文本中的每个第一候选文本进行分词处理,统计每个第一候选文本对应的分词数。

第二去除子模块4023,用于将对应的分词数不大于1的第一候选文本去除,得到至少一个第二候选文本。

匹配子模块4024,用于利用预设的格式模板匹配每个第二候选文本,将与所述预设的格式模板不匹配的第二候选文本作为目标文本,得到至少一个目标文本。

可选的,上述第二确定模块405,可以包括:

组合子模块4051,用于对所述目标文本进行分词处理,得到对应的多个目标分词,并将所述多个目标分词中每两个相邻的目标分词组合,得到多个目标词对。

分词子模块4052,用于对所述目标文本对应的多个关联文本进行分词处理,得到多个关联分词。

统计子模块4053,用于对于所述多个目标词对中的每个目标词对,统计所述目标词对中各个目标分词在所述多个关联分词中出现的频次。

计算子模块4054,用于根据所述目标词对中各个目标分词的频次计算所述目标词对的熵值。

确定子模块4055,用于根据所述目标文本对应的多个目标词对的熵值确定实体词。

可选的,上述计算子模块4054,可以用于:

将第一目标分词的频次除以第一目标分词的频次与第二目标分词的频次之和的值,作为第一熵参数。

将第二目标分词的频次除以第一目标分词的频次与第二目标分词的频次之和的值,作为第二熵参数。

将所述第一熵参数和所述第二熵参数代入预设的熵值计算公式中,得到目标词对的熵值。

可选的,上述确定子模块4055,可以用于:

当目标文本对应的多个目标词对中熵值大于预设熵阈值的目标词对的个数等于1时,则将熵值大于预设熵阈值的目标词对确定为实体词。

当目标文本对应的多个目标词对中熵值大于预设熵阈值的目标词对的个数大于1时,确定熵值大于预设熵阈值的目标词对之间是否存在重叠分词。

若所述熵值大于预设熵阈值的目标词对之间存在重叠分词,则将存在重叠分词的目标词对组合为实体词。

若所述熵值大于预设熵阈值的目标词对之间不存在重叠分词,则将各个熵值大于预设熵阈值的目标词对分别确定为实体词。

综上所述,本发明实施例四提供的实体词处理装置,可以通过第一提取模块将多条第一日志中的查询字段作为多个候选文本,通过筛选模块在该多个候选文本中确定出至少一个目标文本,然后通过第二提取模块确定该至少一个目标文本对应的关联点击链接,利用第一确定模块根据该关联点击链接确定出与目标文本语义相似且搜索意图相同的关联文本,最后,利用第二确定模块根据该目标文本以及关联文本确定实体词。由于日志的查询字段中往往会包括新实体词,这样,就能够确定出新实体词,然后通过利用该新实体词更新分词模块,使得分词模块能够准确的将新实体词确定出来,进而提高视频搜索的精度;同时,本发明实施例中还会对候选文本进行筛选,将包含新实体词概率较低的候选文本去除,减少了后续文本处理的工作量。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1