时效需求识别方法及装置的制造方法_3

文档序号:9375820阅读:来源:国知局
,表明该表达特征对没有时效需求的历史事件和时效事件的区分性不强,说明其对时效需求的反映能力较差,于是将其作为不能反映时效需求的表达特征,需要将其过滤掉。
[0080]进一步,为了丰富所提取到的表达特征,以便提高对时效需求识别的准确度,在上述方法中,还可以根据用户的历史搜索行为数据,对上述表达特征进行补充。例如,可以将用户的历史搜索行为数据与上述时效站点报道的时效事件相结合,一起作为输入数据,从中提取更为丰富的表达特征。或者,也可以单独根据用户的历史搜索行为数据提取表达特征,将所提取的表达特征加入基于时效站点报道的时效事件所提取的表达特征,从而形成更为丰富的表达特征。这里用户的历史搜索行为数据是指用户在历史搜索过程中使用搜索词进行搜索的行为数据,主要是指搜索词的搜索频次在某一时间点突然增长或在某一时间段持续增长的频次变化信息。
[0081]基于上述提取表达特征的各实施方式,可知,表达特征可以包括从时效事件中提取的标题特征和从时效事件形成的事件簇中提取的事件簇特征。基于此,步骤102的一种【具体实施方式】包括:
[0082]判断所述搜索词是否属于标题特征或事件簇特征;
[0083]若判断结果为搜索词属于标题特征或事件簇特征,确定搜索词具有时效需求;
[0084]若判断结果为搜索词不属于标题特征且不属于事件簇特征,确定搜索词不具有时效需求。
[0085]进一步,上述判断搜索词是否属于标题特征或事件簇特征,包括:
[0086]判断标题特征中是否存在与搜索词的相似度大于预设相似度门限的标题特征;
[0087]若判断结果为存在,确定搜索词属于标题特征;
[0088]若判断结果为不存在,根据搜索词和事件簇特征,获得搜索词对应的事件簇概率,判断事件簇概率是否大于预设的概率门限;
[0089]若判断结果为是,确定搜索词属于所述事件簇特征;
[0090]若判断结果为否,确定搜索词不属于标题特征且不属于事件簇特征。
[0091 ] 值得说明的是,上述相似度大于预设相似度门限包括相同的情况。其中,相似度算法可以采用但不限于:编辑距离、Jaccard相似系数、余弦夹角等。
[0092]进一步,基于上述提取表达特征的实施方式可知,上述事件簇特征包括事件簇特征对应的事件簇的核心词和核心词的共现词。基于此,上述根据搜索词和事件簇特征,获得搜索词对应的事件簇概率的实施过程包括:
[0093]对搜索词进行分词处理,以获得搜索词中的分词;在分词过程中,还可以进行标记词性、识别实体类型等可选处理;
[0094]获取核心词属于搜索词中的分词的事件簇特征作为待用事件簇特征;即通过判断用户输入的搜索词中的分词是否包含事件簇特征中的核心词,来确定该搜索词是否可能属于某个或多个事件簇;如果判断结果为是,则意味着该搜索词可能输入核心词包含在该搜索词中的分词中的事件簇特征(即待用事件簇特征)对应的事件簇;反之,则不属于;
[0095]对搜索词中的分词在搜索词中的重要度和搜索词中的分词在待用事件簇特征中匹配到的词语的权值进行加权处理,以获得搜索词属于待用事件簇特征的概率;其中,该概率越大,说明该搜索词属于待用事件簇特征的概率越大,有时效需求的概率越大;对搜索词中的分词在搜索词中的重要度可以理解为该分词占了该搜索词的全部信息的比例;
[0096]获取搜索词属于待用事件簇特征的概率中的最大概率作为搜索词对应的事件簇概率。若存在多个待用事件簇特征,则从中选择最大概率作为搜索词的事件簇概率。
[0097]进一步,若未能采用本实施例提供的时效需求识别方法识别出具有时效需求,则可以进一步采用现有技术存在的其它方式,例如基于用户搜索行为数据这一后验知识进行进一步识别。
[0098]值得说明的是,本实施例提供的时效需求识别方法可以应用于各种搜索场景,例如可以用于图片搜索场景中,或者也可以用于文本搜索场景中。根据搜索场景的不同,用户输入的搜索词的实现形式也有所不同,因此本实施例并不限定用户输入的搜索词的形式,其可以是文本、音频、视频、图片等中的至少一种或其组合。
[0099]综上可知,本实施例基于预先提取的能够反映时效需求的表达特征,判断用户输入的搜索词是否具有时效需求。预先从时效站点报道的时效事件中提取的能够反映时效需求的表达特征属于先验知识,本实施例充分利用时效需求识别的先验知识,不依赖于用户使用搜索词的检索行为数据等后验知识,可以更及时地识别出时效需求,提高了识别时效需求的效率。
[0100]需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
[0101]在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0102]图4为本发明一实施例提供的时效需求识别装置的结构示意图。如图4所示,该装置包括:接收模块41和识别模块42。
[0103]接收模块41,用于接收用户输入的搜索词。
[0104]识别模块42,用于根据预先从时效站点报道的时效事件中提取出的能够反映时效需求的表达特征,识别接收模块41接收的搜索词是否具有时效需求。
[0105]在一可选实施方式中,上述表达特征包括:从时效事件中提取的标题特征和从时效事件形成的事件簇中提取的事件簇特征。则识别模块42具体可用于:
[0106]判断搜索词是否属于标题特征或事件簇特征;
[0107]若判断结果为搜索词属于标题特征或事件簇特征,确定搜索词具有时效需求;
[0108]若判断结果为搜索词不属于标题特征且不属于事件簇特征,确定搜索词不具有时效需求。
[0109]进一步,识别模块42在判断搜索词是否属于标题特征或事件簇特征时,具体用于:
[0110]判断标题特征中是否存在与搜索词的相似度大于预设相似度门限的标题特征;
[0111]若判断结果为存在,确定搜索词属于标题特征;
[0112]若判断结果为不存在,根据搜索词和事件簇特征,获得搜索词对应的事件簇概率,判断事件簇概率是否大于预设的概率门限;
[0113]若判断结果为是,确定搜索词属于事件簇特征;
[0114]若判断结果为否,确定搜索词不属于标题特征且不属于事件簇特征。
[0115]更进一步,上述事件簇特征包括事件簇特征对应的事件簇的核心词和核心词的共现词。基于此,识别模块42在根据搜索词和事件簇特征,获得搜索词对应的事件簇概率时,具体用于:
[0116]对搜索词进行分词处理,以获得搜索词中的分词;
[0117]获取核心词属于搜索词中的分词的事件簇特征作为待用事件簇特征;
[0118]对搜索词中的分词在搜索词中的重要度和搜索词中的分词在待用事件簇特征中匹配到的词语的权值进行加权处理,以获得搜索词属于待用事件簇特征的概率;
[0119]获取搜索词属于待用事件簇特征的概率中的最大概率作为搜索词对应的事件簇概率。
[0120]进一步,如图5所示,该装置还包括:获取模块51、提取模块52和存储模块53。
[0121]获取模块51,用于在识别模块52使用表达特征对用户输入的搜索词进行时效需求识别之前,获取时效站点。
[0122]提取模块52,用于从获取模块51获取的时效站点报道的时效事件中,提取能够反映时效需求的表达特征;
[0123]存储模块53,用于存储提取模块52提取的表达特征。
[0124]在一可选实施方式中,获取模块51具体可用于:
[0125]获取在距当前指定时间段内报道过新的时效事件的站点作为初始站点,指定时间段是指与当前相距指定时间间隔的时间段;
[0126]统计初始站点的点击展现率、引用率及报道及时度中的至少一个;
[0127]根据初始站点的点击展现率、引用率以及报道及时度中的至少一个,从初始站点中选择站点作为时效站点,直到时效站点对时效事件的覆盖率位于预设覆盖率范围内。
[0128]上述距当前指定时间段内中的指定时间段可以是半年、一个月或两周等,则距当前指定时间段内可以是距当前半年内、距当前一个月内或距当前两周内等等。即在获取时效站点之前,首先获取在距当前半年、一个月或两周内等报道过新的时效事件的站点作为初始站点。
[0129]上述初始站点的点击展现率可以通过初始站点
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1