一种热词确定方法及装置与流程

文档序号:11950229阅读:179来源:国知局
一种热词确定方法及装置与流程
本申请涉及计算机
技术领域
,尤其涉及一种热词确定方法及装置。
背景技术
:随着网络技术的不断发展,人们通过网络获取信息已经成为生活中不可获取的一部分,如,人们可通过网络获取视频信息。目前,用户在通过网络获取视频信息时,通常都是通过在网站的搜索栏输入所需的视频信息的关键词的方式来查找自己所需的视频信息,后续,服务器通常是将该关键词与视频信息的标题进行匹配搜索,并把搜索结果按照预设的排列方法(如,按照点击量由高到低排列)进行排列,并将排列后的搜索结果返回给用户。另外,有些第三方网站不仅为用户提供视频信息,还可以由用户将自己的视频信息上传到该第三方网站上,并通过该第三方网站提供给其他用户,但是,提供视频的用户为了能够让自己上传的视频信息被其他用户所看到,通常利用服务器的关键词匹配原则(即,将关键词与视频信息的标题进行匹配),在视频信息的标题中添加多个与视频内容本身无关但是被用户使用次数很多的关键词(在本申请中,将被用户使用次数很多的关键词定义为热词,并且将在标题中添加多个与视频内容本身无关但是被用户使用次数很多的关键词的视频信息作为作弊视频信息),这样,服务器在用户输入这些热词后,就会匹配到这些添加多个热词的视频信息,并把这些视频信息提供给用户,由于热词是会被用户经常拿来当做关键词的,因此,这也使得添加多个热词的视频信息会被经常提供给用户,而且也有可能使得添加多个热词的视频信息的点击量会逐渐增加,后续,服务器在把搜索结果按照预设的排列方法(如,按照点击量由高到低排列)进行排列时,就会把该添加多个热词的视频信息排在前面提供给用户,而用户真正所需的视频信息会排在后面。为了有效的查找出这种在视频信息的标题中添加多个与视频内容本身无关但是被用户使用次数很多的关键词的视频信息,通常会先确定哪些词语为热词,并根据确定出的热词对各视频信息进行筛选。在现有技术中,确定哪些词语为热词是由人工通过主观经验去判断哪些词是热词。显然,在现有技术中,确定哪些词语为热词过于依赖人工的经验,主观性很强。技术实现要素:本申请实施例提供一种热词确定方法及装置,用以解决现有技术在确定哪些词语为热词时过于依赖人工的经验,主观性很强的问题。本申请实施例提供的一种热词确定方法,包括:获取热词对应的先验概率、非热词对应的先验概率以及待确定的词语;根据所述热词对应的先验概率确定所述待确定的词语对应的热词判断概率,并根据所述非热词对应的先验概率确定所述待确定的词语对应的非热词判断概率;根据所述待确定的词语对应热词判断概率以及所述待确定的词语对应的非热词判断概率,确定所述待确定的词语是否为热词。本申请实施例提供的一种热词确定装置,包括:获取模块,用于获取热词对应的先验概率、非热词对应的先验概率以及待确定的各词语;判断概率确定模块,用于根据所述热词对应的先验概率确定所述待确定的词语对应的热词判断概率,并根据所述非热词对应的先验概率确定所述待确定的词语对应的非热词判断概率;热词确定模块,用于根据所述待确定的词语对应热词判断概率以及所述待确定的词语对应的非热词判断概率,确定所述待确定的词语是否为热词。本申请实施例提供一种热词确定方法及装置,该方法获取热词对应的先验概率、非热词对应的先验概率以及待确定的词语,根据该热词对应的先验概率确定该待确定的词语对应的热词判断概率,并根据该非热词对应的先验概率确定该待确定的词语对应的非热词判断概率,根据该待确定的词语对应热词判断概率以及该待确定的词语对应的非热词判断概率,确定该待确定的词语是否为热词。通过上述方法,在确定哪些词语是热词时,不用再依赖于人的主观经验去判断,而是通过客观的方式去判断哪些词语是热词,有效的降低了人为确定哪些词语是热词的主观性。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的热词确定方法的过程示意图;图2为本申请实施例提供的热词确定装置的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。图1为本申请实施例提供的热词确定过程,具体包括以下步骤:S101:获取热词对应的先验概率、非热词对应的先验概率以及待确定的词语。在实际应用中,为了有效的查找出在视频信息的标题中添加多个与视频内容本身无关但是被用户使用次数很多的关键词的视频信息,通常会先确定哪些词语为热词,并根据确定出的热词对各视频信息进行筛选。进一步的,在确定哪些词语为热词时,首先需要获取待确定的词语,在本申请中,具体可以从各用户历史搜索记录中获取搜索词,将该搜索词确定为待确定的词语,而获取待确定的词语可以由服务器完成的,也可以由其他能够进行数据处理的设备完成的。另外,由于在确定哪些词语为热词时,本申请所使用的确定方法是通过贝叶斯公式来完成的,因此,在本申请中,服务器在获取待确定的词语之前,需要先确定热词对应的先验概率(也就是,在以往的历史数据中,出现热词的概率)以及非热词对应的先验概率(也就是,在以往的历史数据中,出现非热词的概率),具体的,获取各视频信息的标题,对各视频信息的标题进行分词,确定各分词中包含的热词的数量以及非热词的数量,根据该热词的数量以及非热词的数量,确定热词对应的先验概率以及非热词对应的先验概率,后续,服务器不仅仅要获取待确定的词语,还需要获取热词对应的先验概率以及非热词对应的先验概率。进一步的,由于在确定分词后的各分词中包含的热词的数量时,需要知道分词后哪些分词是热词,因此,在本申请中,可在获取各视频信息的标题之前,就预先对各视频信息的标题进行确认,确认视频信息是否为作弊视频信息,如果是,则将作弊视频信息的标题标注为作弊视频信息,如果否,则将作弊视频信息的标题标注为非作弊视频信息(即,不是作弊视频信息),后续,当服务器获取已经被标注过的各视频信息的标题后,直接对各视频信息的标题进行分词,在统计分词后的各分词中热词的数量时,可将切分作弊视频信息的标题所得到的各分词均作为热词,并且,在确定分词后的各分词中非热词的数量时,可将切分非作弊视频信息的标题所得到的各分词均作为非热词,当然,上述是本申请提供的一种实施方式,也可以通过其他实施方式来确定分词后哪些分词是热词,哪些是非热词,如,可根据人工来确定哪些是热词,哪些是非热词。另外,本申请还提供一种对各视频信息的标题进行分词的方式,具体的,可按照词语的词性,对各视频信息的标题进行分词,从而得到各分词。进一步的,由于对于词语而言,只能用个数来衡量词语的多少,也就是说,是离散的,因此,在确定热词对应的先验概率以及非热词对应的先验概率时,可用统计的方式来确定热词对应的先验概率以及非热词对应的先验概率,具体的,确定分词后的各分词的总数量,将该热词的数量与确定出的分词后的各分词的总数量的比值,作为热词对应的先验概率,将该非热词的数量与确定出的分词后的各分词的总数量的比值,作为非热词对应的先验概率。在此需要说明的是,在本申请中,词语一共只分为两类,一类是热词,另一类则是非热词(也即,不是热词)。例如,假设服务器获取的已经被标注过的各视频信息的标题如表1所示:视频信息的标题是否是作弊视频最具魅力的创业模式马云陈安之杜云生李嘉诚是新款VIB橡皮艇信光冲锋舟钓鱼船否天天向上快乐大本营何炅谢娜湖南卫视是马云演说否快乐大本营马云演说否表1服务器按照词语的词性对上述表1中的标题进行分词,并按照步骤S101中的确定哪些词语是热词的方式确定出热词包含“最具魅力的、创业模式、马云、陈安之、杜云生、李嘉诚、天天向上、快乐大本营、何炅、谢娜、湖南卫视”,确定出非热词包含“新款、VIB、橡皮艇、信光、冲锋舟、钓鱼船、马云、演说、快乐大本营、马云、演说”。确定分词后的各分词的总数量为22个,确定分词后的各分词中包含的热词的数量为11个,并将确定出的分词后的各分词中包含的热词的数量与确定出的分词后的各分词的总数量的比值0.5,作为热词对应的先验概率;确定分词后的各分词中包含的非热词的数量11,并将确定出的分词后的各分词中包含的非热词的数量与确定出的分词后的各分词的总数量的比值0.5,作为非热词对应的先验概率。后续,服务器可获取热词对应的先验概率0.5、非热词对应的先验概率0.5以及待确定的词语“马云”(为了方便阐述本申请的发明思路,该例子中只获取一个待确定的词语,在实际应用中,是需要对许多的词语进行确定的)。S102:根据所述热词对应的先验概率确定所述待确定的词语对应的热词判断概率,并根据所述非热词对应的先验概率确定所述待确定的词语对应的非热词判断概率。S103:根据所述待确定的词语对应热词判断概率以及所述待确定的词语对应的非热词判断概率,确定所述待确定的词语是否为热词。由于针对任一待确定的词语可能是热词,也有可能是非热词,因此,在本申请中,可用热词判断概率来表示待确定的词语是热词的可能性大小,热词判断概率越大,则说明待确定的词语是热词的可能性越大,反之,则说明待确定的词语是热词的可能性越小,与此同时,用非热词判断概率来表示待确定的词语是非热词的可能性大小,非热词判断概率越大,则说明待确定的词语是非热词的可能性越大,反之,则说明待确定的词语是非热词的可能性越小。进一步的,由于在确定任一待确定的词语对应的热词判断概率以及对应的非热词概率时,该待确定的词语是给定的,也就是说,在给定待确定的词语的情况下,该待确定的词语是热词的可能性大小(也即,热词判断概率)是符合条件概率的定义,因此,在本申请中,确定热词判断概率以及非热词判断概率可通过贝叶斯公式来确定,具体的,统计分词后的各分词中的热词中出现待确定的词语的次数,确定该次数与分词后的各分词中热词的数量的比值,将该比值与该热词对应的先验概率的乘积作为该待确定的词语对应的热词判断概率。并且,统计分词后的各分词中的非热词中出现待确定的词语的次数,确定该次数与分词后的各分词中非热词的数量的比值,将该比值与该非热词对应的先验概率的乘积作为该待确定的词语对应的非热词判断概率。进一步的,由于热词判断概率表示的是待确定的词语是热词的可能性大小,而非热词判断概率表示的是待确定的词语是非热词的可能性大小,因此,在本申请中,在确定出待确定的词语对应的热词判断概率以及非热词判断概率后,可比较根据待确定的词语对应热词判断概率与待确定的词语对应的非热词判断概率的大小,若根据待确定的词语对应热词判断概率大于等于待确定的词语对应的非热词判断概率,确定该待确定的词语为热词,若根据待确定的词语对应热词判断概率小于待确定的词语对应的非热词判断概率,确定该待确定的词语为非热词。另外,在此需要说明的是,由于在确定出热词判断概率以及非热词判断概率后,是需要对热词判断概率以及非热词判断概率进行比较大小的,又由于在贝叶斯公式中,在确定该比值与该热词对应的先验概率的乘积以及该比值与该非热词对应的先验概率的乘积后,都需要除以相同的数值,因此,在本申请中,不用在确定出该比值与该热词对应的先验概率的乘积后,将该乘积与数值的比值作为热词判断概率,而是直接将该比值与该热词对应的先验概率的乘积作为待确定的词语对应的热词判断概率即可,同理,也直接将该比值与该非热词对应的先验概率的乘积作为待确定的词语对应的非热词判断概率即可。延续上例,服务器在获取热词对应的先验概率0.5、非热词对应的先验概率0.5以及待确定的词语“马云”后,统计分词后的各分词中的热词中出现待确定的词语的次数,即1次,确定该次数(即,1次)与分词后的各分词中热词的数量(即,11个)的比值为0.09,将该比值(即,0.09)与该热词对应的先验概率(即,0.5)的乘积作为该待确定的词语对应的热词判断概率,即,0.045。统计分词后的各分词中的非热词中出现待确定的词语的次数,即2次,确定该次数(即,2次)与分词后的各分词中非热词的数量(即,11个)的比值为0.18,将该比值(即,0.18)与该非热词对应的先验概率(即,0.5)的乘积作为该待确定的词语对应的非热词判断概率,即,0.09。服务器在确定出“马云”(待确定的词语)对应的热词判断概率以及非热词判断概率后,确定“马云”(待确定的词语)对应热词判断概率大于“马云”(待确定的词语)对应的非热词判断概率,因此,将“马云”确定为热词。通过上述方法,在确定哪些词语是热词时,不用再依赖于人的主观经验去判断,而是通过客观的方式去判断哪些词语是热词,有效的降低了人为确定哪些词语是热词的主观性。以上为本申请实施例提供的热词确定方法,基于同样的思路,本申请实施例还提供一种热词确定装置。如图2所示,本申请实施例提供的一种热词确定装置包括:获取模块201,用于获取热词对应的先验概率、非热词对应的先验概率以及待确定的各词语;判断概率确定模块202,用于根据所述热词对应的先验概率确定所述待确定的词语对应的热词判断概率,并根据所述非热词对应的先验概率确定所述待确定的词语对应的非热词判断概率;热词确定模块203,用于根据所述待确定的词语对应热词判断概率以及所述待确定的词语对应的非热词判断概率,确定所述待确定的词语是否为热词。所述装置还包括:先验概率确定模块204,用于所述获取模块201获取热词对应的先验概率、非热词对应的先验概率以及待确定的词语之前,获取各视频信息的标题,对各所述视频信息的标题进行分词,确定各分词中包含的热词的数量以及非热词的数量,根据所述热词的数量以及非热词的数量,确定热词对应的先验概率以及非热词对应的先验概率。所述先验概率确定模块204具体用于,按照词性,对各所述视频信息的标题进行分词。所述先验概率确定模块204具体用于,确定分词后的各分词的总数量,将所述热词的数量与确定出的分词后的各分词的总数量的比值,作为热词对应的先验概率,将所述非热词的数量与确定出的分词后的各分词的总数量的比值,作为非热词对应的先验概率。所述判断概率确定模块202具体用于,统计分词后的各分词中的热词中出现待确定的词语的次数,确定所述次数与分词后的各分词中热词的数量的比值,将所述比值与所述热词对应的先验概率的乘积作为该待确定的词语对应的热词判断概率。所述判断概率确定模块202具体用于,统计分词后的各分词中的非热词中出现待确定的词语的次数,确定所述次数与分词后的各分词中非热词的数量的比值,将所述比值与所述非热词对应的先验概率的乘积作为该待确定的词语对应的非热词判断概率。所述热词确定模块203具体用于,比较根据所述待确定的词语对应热词判断概率与所述待确定的词语对应的非热词判断概率的大小,若根据所述待确定的词语对应热词判断概率大于等于所述待确定的词语对应的非热词判断概率,确定所述待确定的词语为热词,若根据所述待确定的词语对应热词判断概率小于所述待确定的词语对应的非热词判断概率,确定所述待确定的词语为非热词。在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1