目标搜索词生成方法及装置、电子设备、存储介质与流程

文档序号:17090431发布日期:2019-03-13 23:23阅读:245来源:国知局
目标搜索词生成方法及装置、电子设备、存储介质与流程

本申请涉及自然语言处理技术领域,尤其涉及一种目标搜索词生成方法及装置、电子设备、计算机可读存储介质。



背景技术:

传统的影视搜索引擎是根据用户输入的中文搜索词进行影片搜索,并根据用户输入的大量历史搜索词构建推荐联想词库。与此相对应的,在用户输入中文搜索词进行影片搜索时,通过所构建的推荐联想词库生成更多的推荐搜索词,丰富了用户的搜索体验。

但是在互联网电视平台的搜索引擎中,由于电视遥控器的输入操作不便,用户只能输入首字母和拼音进行影片搜索,不能直接输入中文,因此无法收集用户的中文搜索词输入,也无法通过构建中文的推荐联想词库来为用户生成更多的推荐搜索词,导致用户搜索体验不佳。

因此,现有的互联网电视平台搜索引擎中仍存在因不能获取用户的中文搜索词输入,而导致无法构建中文的推荐联想词库,无法自动生成推荐搜索词的问题。



技术实现要素:

基于上述技术问题,本申请提供一种目标搜索词生成方法及装置、电子设备、计算机可读存储介质。

其中,本申请所采用的技术方案为:

一种目标搜索词生成方法,包括:从搜索日志中获取与字母搜索序列相关的影片标题集合;根据所述影片标题集合所形成的影视搜索文本,获得词语集合;计算所述词语集合中对应于所述影片标题的词语相对所述影视搜索文本的权重,根据所述词语的权重排名获取关键词,以及计算所述词语集合中对应于所述影视搜索文本的共现短语相对所述影视搜索文本的关键程度;根据所获得共现短语的关键程度,提取含有所述关键词的共现短语中为目标搜索词。

进一步地,所述从搜索日志中获取与字母搜索序列相对应的影片标题集合,包括:获取与所述字母搜索序列相对应的搜索日志,所述搜索日志中包括对所述字母搜索序列进行历史搜索所得的影片标题;按照点击量排名对历史搜索所得的影片标题进行提取,获得所述影片标题集合。

进一步地,所述根据所述影片标题集合所形成的影视搜索文本,获得词语集合,包括:为所述影片标题集合中每一影片标题添加分隔符,由所述影片标题集合中每一影片标题和所添加的分隔符组合形成所述影视搜索文本;以所述分隔符作为标识对所述影视搜索文本进行分割,获得分割语句;对所述分割语句进行分词处理和停用词过滤,将所获得的词语组合形成所述词语集合。

进一步地,在所述从搜索日志中获取与字母搜索序列相对应的影片标题集合之前,所述方法还包括:获取影视库中各维度的影视信息;对所获取各维度的影视信息进行有效信息提取,获得基础词汇;将所述基础词汇和通用词典组合形成分词词典,所述分词词典用于为所述影视搜索文本所包含影片标题进行的分词处理提供分词依据。

进一步地,所述计算所述词语集合中对应于所述影片标题的词语相对所述影视搜索文本的权重,包括:以所述词语集合中的每一词语为节点,且以所述词语在所述影视搜索文本中的共现关系为边构建词图;将各节点的初始权重在所述词图中进行迭代传播,直至各节点的权重收敛,各节点所得权重的收敛值即为所对应词语相对所述影视搜索文本的权重。

进一步地,所述计算所述词语集合中对应于所述影视搜索文本的共现短语相对所述影视搜索文本的关键程度,包括:从所述词语集合中提取对应于所述影视搜索文本的共现短语,且计算各共现短语在所述影视搜索文本中的词频;根据所提取共现短语的总量和各共现短语的词频,计算各共现短语的互信息和左右熵,将所述互信息和所述左右熵之和作为各共现短语相对所述影视搜索文本的关键程度。

更进一步地,从所述词语集合中提取对应于所述影视搜索文本的共现短语后,计算各共现短语在文本语料库中的词频,以根据所提取共现短语的总量和各共现短语的词频,计算各共现短语的互信息和左右熵。

一种目标搜索词生成装置,包括:标题集合获取模块,用于从搜索日志中获取与字母搜索序列相关的影片标题集合;标题集合处理模块,用于根据所述影片标题集合所形成的影视搜索文本,获得词语集合;信息计算模块,用于计算所述词语集合中对应于所述影片标题的词语相对所述影视搜索文本的权重,根据所述词语的权重排名获取关键词,以及计算所述词语集合中对应于所述影视搜索文本的共现短语相对所述影视搜索文本的关键程度;目标搜索词提取模块,用于根据所获得共现短语的关键程度,提取含有所述关键词的共现短语为目标搜索词。

一种电子设备,包括处理器及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的目标搜索词生成方法。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的目标搜索词生成方法。

在上述技术方案中,互联网电视平台获取由用户所输入首字母或者拼音组成的字母搜索序列后,通过上述目标搜索词生成方法生成与字母搜索序列相适应的中文目标搜索词,互联网电视平台搜索引擎则根据所生成的中文目标搜索词进行影片搜索。

因此,通过本申请提供的方法,互联网电视平台能够将字母搜索序列转化为中文目标搜索词进行影片搜索,从而能够根据现有方法对这些中文目标搜索词构建推荐联想词库,并根据所构建的推荐联想词库来生成推荐搜索词,解决了现有互联网电视平台的搜索引擎因不能获取用户的中文搜索词输入而导致无法构建中文的推荐联想词库,无法自动生成推荐搜索词的问题。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并于说明书一起用于解释本申请的原理。

图1是根据本申请所涉及的一种实施环境的示意图;

图2是根据一示例性实施例示出的一种服务器的硬件框图;

图3是根据一示例性实施例示出的一种互联网电视平台的界面示意图;

图4是根据一示例性实施例示出的一种目标搜索词生成方法的流程图;

图5是图4对应实施例中步骤330在一个实施例的流程图;

图6是根据一示例性实施例示出的一种词图的示意图;

图7是图4对应实施例中步骤330在另一个实施例的流程图;

图8是根据一示例性实施例示出的一种目标搜索词生成装置的框图。

通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述,这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种实施环境的示意图。如图1所示,本发明的实施环境包括:用户端100和服务端200。

在本发明中,用户端100具体为智能电视设备,其用于运行互联网电视平台客户端,并提供用户交互界面,以供用户进行影片搜索、影片观看或者其他互联网电视功能。

服务端200包括若干服务器,用于存储海量数据,例如,服务端200存储有大量影片数据用以构建影视库、存储用户账号信息、存储用户的搜索日志等等。服务端200还用于从用户端100接收影片搜索请求,并根据所接收的搜索请求从影视库中进行影片搜索,并将搜索到的影片数据推送至用户端100。服务端200还可用于处理常见的与互联网电视平台相关的业务,例如进行用户账号登录、影片收藏、影片下载等。

图2是根据一示例性实施例示出的一种服务器的硬件结构框图。需要说明的是,该服务器只是一个适配于本发明的示例,不能认为是提供了对本发明的使用范围的任何限制。该服务器也不能解释为需要依赖于或者必须具有图2中示出的示例性的服务器中的一个或者多个组件。

该服务器的硬件结构可因配置或者性能的不同而产生较大的差异,如图2所示,服务端200包括:电源210、接口230、至少一存储器250、以及至少一中央处理器(cpu,centralprocessingunits)270。

其中,电源210用于为服务器上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口231、至少一串并转换接口233、至少一输入输出接口235以及至少一usb接口237等,用于与外部设备通信。

存储器250作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统251、应用程序253或者数据255等,存储方式可以是短暂存储或者永久存储。其中,操作系统251用于管理与控制服务器上的各硬件设备以及应用程序253,以实现中央处理器270对海量数据255的计算与处理,其可以是windowsservertm、macosxtm、unixtm、linuxtm、freebsdtm、freertos等。应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序,其可以包括至少一模块(图2中未示出),每个模块都可以分别包含有对服务器的一系列计算机可读指令。数据255可以是存储于磁盘中的影片数据等。

中央处理器270可以包括一个或多个以上的处理器,并设置为通过总线与存储器250通信,用于运算与处理存储器250中的海量数据255。

上面所详细描述的,适用本发明的服务器将通过中央处理器270读取存储中存储的一系列计算机可读指令的形式来完成目标搜索词的生成方法。

图3是根据一示例性实施例示出的一种互联网电视平台的界面示意图。需要说明的是,该界面示意图只是一个适配于本发明的示例,不能认为是提供了对本发明的使用范围的任何限制。

如图3所示,用户在进行影片搜索时,只能通过操控遥控器从键盘输入框20中选择需要搜索影片标题的首字母或者拼音,输入的首字母和拼音会在搜索输入框10中相应显示,用户也可以通过操控遥控器对搜索输入框10中显示的字母搜索序列进行清空或者删除。

在搜索输入框10中输入确定的字母搜索序列后,用户可通过操控遥控器来控制互联网电视平台对搜索输入框10中字母搜索序列进行影片搜索,并将搜索到相关影片的标题或者其他信息逐条展示于搜索结果展示框30中,同时,所搜索到相关影片的影片封面会在影片展示框40中进行展示。

在一种实施例中,由于同一影片标题所对应影片的数量为多个,用户选择搜索结果展示框30中的影片标题后,影片展示框40中会相应展示该影片标题所对应的多部影片,用户可在影片展示框40中选择影片进行播放。

由于用户只能通过操控遥控器输入字母搜索序列,互联网电视平台的搜索引擎将用户输入的字母搜索序列与影视库中的影片标题的首字母或者拼音进行匹配,以此来得到影片搜索结果。

或者,搜索引擎还会根据搜索的相关影片与用户输入字母搜索序列之间的匹配程度,来对这些影片进行排序,并按照所得排序将各影片标题依次展示于搜索结果展示框30,和/或将各影片封面依次展示于影片展示框40。

因此,现有的互联网电视平台无法获得用户输入的中文搜索词,也无法通过收集输入的中文搜索词来构建推荐联想词库,在用户进行影片搜索时不能为用户提供推荐搜索词,导致用户搜索体验不佳。

为了解决这一技术问题,本发明提供了一种目标搜索词生成方法,该方法能够根据用户输入的字母搜索序列生成中文的目标搜索词,从而使得互联网电视平台可以通过收集中文目标搜索词来构建推荐联想词库。本发明所提供的目标搜索词生成方法具体如下述实施例所示。

图4是根据一示例性实施例示出的一种目标搜索词生成方法的流程图。如图4所示,该方法至少包括以下步骤:

步骤310,从搜索日志中获取与字母搜索序列相关的影片标题集合。

其中,搜索日志是互联网电视平台搜索引擎响应用户所进行的历史影片搜索操作而生成的,搜索日志用于记录用户所进行历史搜索操作的相关数据。例如,搜索日志可以包括用户所输入用于进行影片搜索的字母搜索序列,还可以包括根据用户所输入字母搜索序列在影视库中进行搜索得到的影片标题,以及包括用户对所搜索影片标题的点击情况等信息,本处不进行限定。

互联网电视平台获取用户输入的字母搜索序列后,则获取与该字母搜索序列相关的搜索日志,以从所获取搜索日志中提取影片标题。其中,与用户所输入字母搜索序列相关的搜索日志应当理解为,该搜索日志所包含的字母搜索序列与当前用户所输入的字母搜索序列相同或者相关。

具体来说,在一种实施例中,所获取的搜索日志中所包含用于进行历史影片搜索的字母搜索序列与当前用户所输入的字母搜索序列相同。例如,若当前用户想要观看穿越火线(一种游戏名称)手机游戏的相关视频,所输入的字母搜索序列为“cyhxsy”,则获取以字母搜索序列“cyhxsy”进行历史搜索的搜索日志,并通过日志筛选等方式从搜索日志中提取相应的影片标题。

一般来说,影视库中所包含的影片资源是海量的,互联网电视平台的搜索引擎在根据用户输入的字母搜索序列进行历史搜索时所获得的影片标题的数量应当较多。也即是说,在从当前用户所输入字母搜索序列相同的搜索日志中提取影片标题的数量应当为多个。

但是,为了获得数量更多的、且与当前用户所输入字母搜索序列相关的影片标题,以构成更加丰富的影视搜索文本,在另一种实施例中,获取的搜索日志中所包含用户进行历史影片搜索的字母搜索序列可以与当前用户所输入字母搜索序列相关。

应当理解为,包含有与当前用户所输入字母搜索序列中部分或者全部字母的字母搜索序列,可视为与当前用户所输入的字母搜索序列相关。仍以当前用户输入的字母搜索序列为“cyhxsy”为例进行说明,“cyhxsyjs”(可理解为穿越火线手游解说)、“cyhxsjyx”(可理解为穿越火线手机游戏)、“cyhx”(可理解为穿越火线)等字母搜索序列均与字母搜索序列“cyhxsy”相关。

同理,在获得相应的搜索日志后,从搜索日志中提取影片标题,由所提取的全部影片标题构成影片标题集合。

而在另一实施例中,为了得到与用户所输入字母搜索序列匹配程度较高的影片标题集合,在从搜索日志中提取影片标题的过程中,同时获取相关影片标题的点击情况,由此可对所提取的全部影片标题按照历史点击量由高至低进行排序,并提取指定排名下的影片标题形成影片标题集合。

应当说明的是,本发明所称的影片为互联网电视平台所含有的全部影视媒资,除了包括常见的电视剧、电影、综艺节目、纪录片、动漫之外,还应当包括游戏视频、娱乐短视频、新闻、直播等互联网媒资。

步骤320,根据影片标题集合所形成的影视搜索文本,获得词语集合。

其中,影视搜索文本包括影片标题集合中的每一影片标题,在一实施例中,可通过对影视搜索文本中每一影片标题进行分词处理和停用词过滤,得到由若干词语形成词语集合。而目标搜索词就是从词语集合中提取而来,因此,影视搜索文本则为目标搜索词的生成提供了文本依据。

由于影视库中影片标题的格式并不统一,影片标题中可能包括数字、标点符号、特殊字符、多个短语等情况,例如“cf穿越火线手游【侠客解说】”、“穿越火线手游20实况!画面大升级”、“【凯凯解说】穿越火线手游刀僵尸实况”等影片标题,因此在一实施例中,可以通过为影视搜索文本中的每一影片标题添加分隔符,以根据所添加的分隔符来区分每一完整的影片标题。

分隔符可使用逗号、空格、连字符、下划线、短竖线、分号等常见的文本标点符号或者其他符号,本处并不对此进行限定。但是应当说明的是,为了降低识别错误,所添加的分隔符应当与影片标题包含的符号相区别。

由此,在为影片标题集合中每一影片标题添加分隔符后,通过这些影片标题和所添加的分隔符组合形成影视搜索文本。

以上述影片标题为例,若采用逗号作为分隔符,组合形成的影视文本标题可以为“cf穿越火线手游【侠客解说】,穿越火线手游20实况!画面大升级,【凯凯解说】穿越火线手游刀僵尸实况,”。

在对影视搜索文本进行所包含影片标题的分词处理时,则以分隔符作为标识对影视搜索文本进行分割,获得若干分割语句,再对每一分割语句进行分词处理,且在对分割语句进行分词处理的同时进行停用词过滤,以得到词语集合。但应当说明的是,每一分割语句实质为影片标题集合中的每一影片标题,词语集合应当理解为对影片标题集合中每一影片标题分别进行分词处理和停用词过滤后,所得的由若干词语构成的有序文本。

而在另外的实施例中,也可以采用其他的方法来对影视搜索文本中的每一影片标题进行区分,并不仅限于上述实施例所描述的内容。例如,可以将每一影片标题在影视搜索文本中进行行列排序,不同的影片标题各自具备不同的行列数值,由此可通过行列数值来区分不同的影片标题。

在对影视搜索文本进行所包含影片标题的分词处理时,则通过从影视搜索文本中提取每一影片标题,在对所提取的每一影片标题进行分词的同时过滤停用词。在本实施例中,对每一影片标题进行停用词过滤具体可以是参照停用词表进行的,对影片标题中所识别到的停用词去除;或者是采用现有技术中的其它停用词过滤方法,本处不进行限定。

由于通用的分词词典并不能识别影片标题中的某些特定词语,例如“穿越火线”、“王者荣耀”等游戏名称,“琅琊榜”、“美国队长”等影片名称,因此,本实施例进行分词所采用的分词词典由对影视库中所有影片的各维度信息进行抽取所得的基础词汇和通用词典构成。

影视库中影片的各维度信息可以包括影片标题、演职人员、影片分类标签等信息,通过对这些信息进行有效信息抽取,所获得的基础词汇则能够包括影片标题中的特定词语。例如,对影片标题“cf穿越火线手游【侠客解说】”进行有效信息抽取后,可得到基础词汇“穿越火线”、“手游”和“侠客解说”,“穿越火线”及“侠客解说”均为特定词语。

由此可知,对影视库中影片的各维度信息进行抽取所得的基础词汇与影片标题的关联度最大,在使用分词词典对每一影片标题进行分词处理时,应当优先以对影视库中所有影片的各维度信息进行抽取所得的基础词汇进行分词,以保证精确地识别各影片标题中的特定词语,从而对影片标题进行准确分词。

在一种实施例中,对影视库中所有影片的各维度信息进行抽取,获得基础词汇具体可以包括以下步骤:

获取影视库中各维度的影视信息;

对所获取的各维度影视信息进行有效信息提取,获得基础词汇。

其中,影视库存储有各影片对应的标题、演职人员、分类标签等不同维度的影视信息,通过对这些影视信息进行获取,由此获得进行基础词汇提取的文本基础。

对所获取的影视信息进行有效信息提取是基于一定规则进行的。对各影片标题来说,可将标题含有的季、部、集、剧等剧集信息过滤,例如对“神盾局特工第三季”过滤可得“神盾局特工”;可将影片标题按特殊字符、数字进行拆分,例如对“黑客帝国2:重装上阵”拆分可得“黑客帝国”、“重装上阵”;可将影片标题按照“之”字进行拆分,例如对“琅琊榜之风起长林”拆分可得“琅琊榜”、“风起长林”;过滤影片标题中的属性信息,例如对“美国队长(国语)”过滤可得“美国队长”,对“3d画皮2”过滤可得“画皮”。

对演职人员进行有效信息的提取可以包括:提取中文有效信息,例如对“休·莱昂suelyon”提取可得“休莱昂”;对无效外文名进行过滤,例如可直接将日文名“カメレオ”过滤。

对于各影片所包含的无效或者过长的分类标签可直接去除,例如某影片的标签为“越军为防解放军在自家门口埋地雷”,直接删去即可。

因此,本实施例通过一定规则对影视库中所有影片的各维度信息进行抽取,所获得的基础词汇中包含了某些特定词汇,在使用分词词典进行分词处理时可以有效识别影片标题中的特定词语。

步骤330,计算词语集合中对应于影片标题的词语相对影视搜索文本的权重,根据词语的权重排名获取关键词,以及计算词语集合中对应于影视搜索文本的共现短语相对影视搜索文本的关键程度。

其中,为了得到与用户所输入字母搜索序列相关度较高的目标搜索词,需要根据词语集合提取影视搜索文本的关键词,以及根据词语集合提取影视搜索文本中重要的共现短语。共现短语应当理解为,以一定频率共现于影视搜索文本中的词语或者固定词语组合,在本实施例中,可选用固定词语组合为共现短语。

提取影视搜索文本的关键词需要计算词语集合中每一词语相对影视搜索文本的权重,该权重则反映了对应词语在影视搜索文本中的重要程度。在得到词语集合中每一词语的权重后,可根据所得权重由高至低地对词语进行排名,并选取指定排名所对应的一个或者多个词语为关键词。例如,在与字母搜索序列“cyhxsy”相对应的影视搜索文本中,假设词语“穿越火线”的权重最高,则可则提取“穿越火线”为关键词。

由此,根据词语集合中的词语的权重排名来获取关键词,能够使得所提取的关键词能够很好地表达当前用户所输入字母搜索序列的核心搜索目的。计算词语集合中每一词语相对影视搜索文本的权重可以采用文本关键词提取算法进行,例如textrank算法、rake算法等,但rake算法一般用于英文文本的关键词提取,本实施例选用textrank算法。

具体地,如图5所示,计算词语集合中对应于影片标题的词语相对影视搜索文本的权重可以包括以下步骤:

步骤331,以词语集合中的每一词语为节点,且以词语集合中词语在影视搜索文本中的共现关系为边构建词图。

其中,在构建词图时,将词语集合中的每一词语作为独立的节点,如果任意两节点所对应词语在影视搜索文本中共现,则将具有共现关系的两节点相连接,以构成词图中节点之间的边。举例来说,假设词语集合中包含a、b、c、d、e这5个词语,且ab、ae、ad、bc、be、ce、de之间均存在共现关系,则所构建的词图如图6所示。因此,所构建的词图由节点集合和边集合组成。

步骤332,将各节点的初始权重在词图中进行迭代传播,直至各节点的权重收敛。

其中,各节点的初始权重为预设值,例如可设为1,在进行节点的权重计算时,则将该初始权重在词图中进行迭代传播,直至词图中任意一节点权重的误差小于预设的误差阈值,则视为各节点的权重趋于稳定值,此时为各节点的权重收敛。

由此,各节点所得权重的收敛值即为所对应词语相对所述影视搜索文本的权重。

将每一节点的初始权重在词图中进行迭代传播的公式如下:

其中,vi、vj和vk分别表示词图中任意的节点,ws(vi)表示节点vi的权重,ws(vj)表示节点vj的权重;wji表示节点vi和vj之间边的权重,wjk表示节点vj和节点vk之间边的权重;对于给定的节点vi,in(vi)表示指向该节点的节点集合,out(vj)表示节点vi指向的节点集合;d为阻尼系数,取值范围为0到1,代表从词图中某一特定节点指向其他任意节点的概率,一般取值为0.85。

而提取影视搜索文本中重要的共现短语则需要计算词语集合中共现短语在影视搜索文本中的关键程度,关键程度越高的共现短语在影视搜索文本中的共现的概率也越大,由此也最有可能与用户的搜索目的相匹配。

具体地,如图7所示,计算词语集合中共现短语在影视搜索文本中的关键程度可以包括以下步骤:

步骤335,从词语集合中提取对应于影视搜索文本的共现短语,计算各共现短语在影视搜索文本中的词频。

词语集合中的共现短语可以包括在影视搜索文本中进行一阶共现、二阶共现以及三阶共现的词语或者词组,其中,一阶共现短语为单个词语,如“穿越火线”,二阶共现短语就是“穿越火线→手游”这样的延续,三阶共现就是“穿越火线→手游→系列”这样的延续。

需要说明的是,在获得词语集合的前提下,应当以影视搜索文本为基础从词语集合中提取共现短语,并在提取共现短语的同时,统计各共现短语在影视搜索文本中共现的次数,即为共现短语的词频。

步骤336,根据所提取共现短语的总量和各共现短语的词频,计算各共现短语的互信息和左右熵,将所得互信息和左右熵之和作为各共现短语相对影视搜索文本的关键程度。

其中,互信息体现了两个词语之间的相互依赖程度,互信息的计算公式如下:

其中,x和y代表两个不同的词语,p(x,y)表示词语x和y在影视搜索文本中共同出现的概率,例如,词语x和y一共出现了2次,而所提取的二阶共现短语有191个,则p(x,y)=2/191;p(x)则表示词语x在影视搜索文本中出现的概率,例如,词语x一共出现了31次,而所提取的一阶词语一共为1032个,则p(x)=31/1032。

互信息越高,则表明词语x和y共现的概率越大;反之,互信息值越低,词语x和y之间的相关性越低,则词语x和y之间以短语边界形式共现的可能性越大。

左右熵是指多字词表达的左边界和右边界的熵,以左熵为例,对一个共现短语左边所有可能的词以及词频,计算信息熵,然后求和。左熵越大,则代表该共现短语左边能搭配的词语更丰富,该共现短语的重要性越高。

左熵的计算公式如下:

其中,w表示任一共现短语,a表示出现在共现短语w左边的词语,a表示在共现短语w出现过的词语集合;p(aw|w)表示在共现短语w出现的前提下aw词语组合出现的概率为p(aw)/p(w),p(aw)表示aw词语组合出现的概率,p(w)表示共现短语出现的概率。

同理,右熵越大,则代表该共现短语右边能搭配的词语越丰富。右熵的计算公式如下:

其中,b表示共现短语w右边出现的词语,b表示在共现短语w右边出现过的词语集合;p(wb|w)表示在共现短语w出现的前提下bw词语组合出现的概率为p(aw)/p(w),p(aw)表示aw词语组合出现的概率,p(w)表示共现短语出现的概率。

因此,共现短语相对影视搜索文本的重要性与互信息和左右熵相关,本实施例选取互信息和左右熵之和所得的值作为各共现短语相对影视搜索文本的关键程度。

而在另一实施例中,由于影视搜索文本的篇幅长度有限,从影视搜索文本中统计出来的词频不能很好地反映共现短语在整个中文语言中的重要性,因此,可使用中文文本语料库进行各共现短语词频的统计,然后按照步骤336所描述的方法计算各共现短语的互信息和左右熵,并将互信息和左右熵之和作为各共现短语相对影视搜索文本的关键程度。

需要说明的是,中文文本语料库可选择中文自然语言处理开放平台提供的训练测试语料库、搜狗文本分类语料库等常见的语料库,本处并不对中文文本语料库的具体类型进行限制。

步骤340,根据所获得共现短语的关键程度,提取含有关键词的共现短语为目标搜索词。

如前所述,所提取的一个或者多个关键词能够很好地表达当前用户所输入字母搜索序列的核心搜索目的,而关键程度越高的共现短语最有可能与用户的搜索目的相匹配,因此在一实施例中,先从所提取的共现短语中选择含有关键词的共现短语,然后从所选择的共现短语中提取关键程度最高的一个共现短语作为目标搜索词,以使得所提取的目标搜索词最能与用户的搜索目的相匹配。

而在另一实施例中,在从所提取的共现短语中选择含有关键词的共现短语之后,可对提取的共现短语按照关键程度由高至低西进行排名,提取指定排名所对应的共现短语作为目标搜索词。

也即是说,对应于步骤330中所提取的其中一个关键词,本实施例可从含有该关键词的共现短语中提取关键程度较高的至少一个共现短语作为与该关键词相应的目标搜索词。

因此,通过本实施例提供的方法,互联网电视平台可根据用户输入的字母搜索序列生成一个或者多个目标搜索词,并且所生成的目标搜索词能够与用户的搜索目的相匹配。在获取目标搜索词后,互联网电视平台搜索引擎则使用目标搜索词来代替用户输入的字母搜索序列进行影片搜索。

由此,互联网电视平台可以通过对所生成目标搜索词的收集,来构建中文的推荐联想词库。当推荐联想词库构建完成后,则可以通过该词库为用户生成更多的搜索推荐词,从而增加用户的搜索体验。

图8是根据一示例性实施例示出的一种目标搜索词生成装置,该装置包括标题集合获取模块410、标题集合处理模块420、信息计算模块430和目标搜索词提取模块440。

其中,标题集合获取模块410用于从搜索日志中获取与字母搜索序列相关的影片标题集合。

标题集合处理模块420用于根据影片标题集合所形成的影视搜索文本中,获得词语集合。

信息计算模块430用于计算所述词语集合中对应于所述影片标题的词语相对所述影视搜索文本的权重,根据所述词语的权重排名获取关键词,以及计算所述词语集合中对应于所述影视搜索文本的共现短语相对所述影视搜索文本的关键程度。

目标搜索词提取模块440用于根据所获得共现短语的关键程度,提取含有所述关键词的共现短语为目标搜索词。

在一示例性实施例中,标题集合获取模块410具体包括搜索日志获取单元和影片标题提取单元。

搜索日志获取单元用于获取与字母搜索序列相对应的搜索日志,搜索日志中包括对字母搜索序列进行历史搜索所得的影片标题。

影片标题提取单元用于按照点击量排名对历史搜索所得的影片标题进行提取,获得影片标题集合。

在一示例性实施例中,标题集合处理模块420具体包括文本获取单元、文本分割单元和分词处理单元。

文本获取单元用于为影片标题集合中每一影片标题添加分隔符,由影片标题集合中每一影片标题和所添加的分隔符组合形成影视搜索文本。

文本分割单元用于以分隔符作为标识对影视搜索文本进行分割,获得分割语句。

分词处理单元用于对分割语句进行分词处理和停用词过滤,将所获得的词语组合形成词语集合。

在一示例性实施例中,目标搜索词生成装置还包括影视信息获取模块、有效信息提取模块和分词词典构成模块。

影视信息获取模块用于获取影视库中各维度的影视信息。

有效信息提取模块用于对所获取各维度的影视信息进行有效信息提取,获得基础词汇。

分词词典构成模块用于将基础词汇和通用词典组合形成分词词典,分词词典用于为影视搜索文本进行的分词处理提供分词依据。

在一示例性实施例中,信息计算模块430具体包括用于计算词语集合中对应于影片标题的词语相对影视搜索文本的权重的词图构建单元和权重迭代单元。

词图构建单元用于以词语集合中的每一词语为节点,且以词语在影视搜索文本中的共现关系为边构建词图。

权重迭代单元用于将各节点的初始权重在所述词图中进行迭代传播,直至各节点的权重收敛,各节点所得权重的收敛值即为所对应词语相对影视搜索文本的权重。

在一示例性实施例中,信息计算模块430具体还包括用于计算词语集合中对应于影视搜索文本的共现短语相对影视搜索文本的关键程度的短语提取单元和关键信息计算单元。

短语提取单元用于从词语集合中提取对应于所述影视搜索文本的共现短语,且计算各共现短语在影视搜索文本或者文本语料库中的词频。

关键信息计算单元用于根据所提取共现短语的总量和各共现短语的词频,计算各共现短语的互信息和左右熵,将互信息和所述左右熵之和作为各共现短语相对影视搜索文本的关键程度。

需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。

在一个示例性实施例中,一种通信设备,包括:

处理器;及

存储器,其中,存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时实现上述各实施例中的目标搜索词生成方法。

在一示例性实施例中,一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例中的目标搜索词生成方法。

上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1