时效需求识别方法及装置的制造方法_2

文档序号:9375820阅读:来源:国知局
及时度中的任一标准来衡量,也可以同时采用任意两个来衡量,最为优选的同时采用三个标准进行衡量。
[0041]在上述步骤2013中,其中,若时效站点的数量过少,则对时效事件的覆盖不足,若时效站点的数量过多,对时效事件的覆盖情况会改善,但是误召回会增多。于是,本实施例设定覆盖率范围。基于该覆盖率范围保证选择的时效站点不会过少也不会过多,以便于同时获得高准确与高召回率。另外,预先设定选择阈值,该选择阈值与点击展现率、引用率以及报道及时度中的至少一个相对应。则上述步骤2013具体为:
[0042]根据初始站点的点击展现率、引用率以及报道及时度中的至少一个,从初始站点中选择点击展现率、引用率以及报道及时度中的至少一个满足选择阈值的站点作为时效站点;计算时效站点对时效事件的覆盖率,若计算出的覆盖率位于预设的覆盖率范围内,则结束操作;若覆盖率未位于覆盖率范围内,则调整上述选择阈值,并继续根据初始站点的点击展现率、引用率以及报道及时度中的至少一个,从初始站点中选择点击展现率、引用率以及报道及时度中的至少一个满足调整后的选择阈值的站点作为时效站点,直到时效站点对时效事件的覆盖率位于预设覆盖率范围内。
[0043]下面对选择阈值与上述选择时效站点依据的标准之间的对应关系进行举例说明。例如,若上述选择时效站点依据的标准是点击展现率,则选择阈值为点击展现率对应的阈值,例如可以选择点击展现率大于该阈值的初始站点作为时效站点;若上述选择时效站点依据的标准是引用率,则选择阈值为引用率对应的阈值,例如可以选择引用率大于该阈值的初始站点作为时效站点;若上述选择时效站点依据的标准是点击展现率、引用率和报道及时度,则选择阈值可以包括点击展现率对应的阈值、引用率对应的阈值以及报道及时度对应的阈值,则可以选择点击展现率、引用率和报道及时度分别大于相应阈值的初始站点作为时效站点;或者,该选择阈值也可以是对应于点击展现率、引用率和报道及时度三者的加权平均的阈值,则可以对点击展现率、引用率和报道及时度进行加权平均,选择加权平均结果大于该阈值的初始站点作为时效站点。
[0044]上述时效站点对时效事件的覆盖率可以采用以下方式来获得:
[0045]选定过去一段时间,简称为历史时间段,确定该历史时间段内产生的时效事件,对于这些时效事件,统计所有时效站点报道过的时效事件的数量,将该数量与该历史时间段内产生的时效事件的总数相比,将结果作为时效站点对时效事件的覆盖率。
[0046]其中,不同站点对同一时效事件的报道角度和重点会有所不同。即使同一报道角度,表达的形式也会有变化。例如,2015年5月27日关于黄晓明和AngelaBaby注册结婚的事件,相关报道的标题有“黄晓明Angelababy27日下午领证”、“黄晓明Angelababy领证”、“黄晓明晒结婚证与babylO月结婚”、“黄晓明和Baby青岛领证”、“黄晓明Baby领证啦!黄教主终抱得美人归”、“黄晓明Baby领证完婚”等。
[0047]这些报道的表达形式不同,但是都出现了 “黄晓明”、“Baby/Angelababy”、“领证/结婚证/注册结婚/完婚”等词语。这些词语及其组合形式,表达了时效事件/热门人物的核心内容。在上述那些词语及其组合形式中,一些词语可以从时效事件的标题中提取,称之为标题特征,一些词可以对时效事件形成的事件簇进行时效需求挖掘获取,称之为事件簇特征。事件簇特征一般包括能够反映时效事件的核心词和该核心词的共现词。例如,上述例子中,“黄晓明”、“Baby/Angelababy”、“结婚/领证”等属于核心词;上述例子中的“青岛”、“民政局”、“27日”等属于“黄晓明Baby结婚”这个事件簇中的共现词。
[0048]其中,无论是标题特征还是事件簇特征都可以用来识别用户的query是否有时效需求,因此统称为能够反映时效需求的表达特征。也就是说,时效需求的表达特征是指那些在当前或特定时间范围内,表征时效需求的表达形式,其语言形式包括句子、短语、n-gram、词语共现对等。
[0049]基于上述分析,上述步骤202的一种实现方式具体包括:
[0050]从时效事件的标题中提取能够反映时效需求的标题特征;
[0051]对时效事件形成的事件簇进行时效需求挖掘,以获得能够反映时效需求的事件簇特征。
[0052]进一步,上述从时效事件的标题中提取能够反映时效需求的标题特征的实施方式包括:
[0053]将每个时效事件的标题作为输入;
[0054]设置标题的初始权值;
[0055]对标题分词、标记词性、识别实体类型,去除其中的停用词等处理,以获得标题特征;
[0056]对标题特征中的分词进行频次统计;
[0057]如果标题特征中属于设定词类以及设定实体类型的分词的频次低于一定阈值,则将该标题特征的权值调低;其余标题特征的权值不变;
[0058]经过上述处理可以获得标题特征以及标题特征的权值;
[0059]存储上述标题特征以及标题特征的权值。
[0060]进一步,上述对时效事件形成的事件簇进行时效需求挖掘,以获得能够反映时效需求的事件簇特征的实施方式包括:
[0061]对时效事件进行分词,以获得时效事件中的分词;
[0062]根据时效事件中的分词对时效事件进行聚类,以获得至少一个事件簇;
[0063]对至少一个事件簇中的每个事件簇,统计该事件簇内的分词的频次和文档频次;
[0064]根据该事件簇内的分词的频次和文档频次,从该事件簇内的分词中选择事件簇的核心词和核心词的共现词以构成事件簇对应的事件簇特征。
[0065]在上述实施方式中,对时效事件进行聚类可以采用以下方式:
[0066]采用KNN或层次聚类等方法对时效事件进行聚类;或者统计时效事件中的高频分词的频次和文档频次,过滤停用词后,选取频次和文档频次大于一定阈值的分词作为聚类的种子词,将包含相同种子词的时效事件聚为一类,即事件簇。
[0067]值得说明的,在上述实施方式中,除了输出核心词以及共现词之外,还可以输出核心词以及共现词的权值,以便于后续时效需求识别过程使用。本实施例并不限定权值的实现方式,例如可以将各分词(包括核心词和共现词)的频次、文档频次或者频次和文档频次的组合作为分词的权值,或者也可以对频次和/或文档频次进行加权处理作为分词的权值,或者,也可以人工设定核心词和共现词的权值,等等。值得说明的是,核心词的权值理论上要大于共现词的权值。
[0068]除上述方式之外,还可以采用共现对挖掘的思路来获取事件簇特征中的共现对。该思路的具体实现如下:
[0069]对时效事件进行分词,以获得时效事件中的分词;
[0070]以单个句子为单位,计算每个句子包含的分词的重要度;
[0071]统计上述分词的共现对的频次和文档频次(DF,即散布的文档数),并计算共现对的点互信息(PMI);
[0072]对每个共现对,将单个句子内该共现对包含的词语的重要度进行累加作为共现对在该句子内的重要度,则将共现对在所有句子内的重要度的最大值作为该共现对的重要度;
[0073]过滤频次、文档频次、点互信息、重要度低于一定阈值的共现对;
[0074]结合频次、文档频次、点互信息,对共现对的重要度进行调整,作为共现对的最终权值,输出该共现对及其权值。
[0075]另外,还可以采用基于模板挖掘的思路来获取事件簇特征中的共现对。该思路的具体实现如下:
[0076]从表达时效信息的新闻文本或者已知具有时效需求的query集合,以人工总结或自动方式获取表达时效性事件的模版,例如“ *发生* * “ *地震”、“ *事件”。基于这些模版对时效站点报道的时效事件进行匹配,得到表达时效事件/热门话题的词语,并根据频次、文档频次进行筛选,从而获得核心词和共现词。
[0077]进一步,在获得表征特征之后,例如在采用上述各种实施方式获得表达特征之后,还可以对表征特征进行过滤,去除表达特征中不能反映时效需求的表达特征。
[0078]在一种实施方式中,是预先设定非时效词典,该非时效词典中存储一些不能反映时效需求的词语。基于此,可以依据预设的非时效词典识别出表达特征中不能反映时效需求的表达特征,去除表达特征中不能反映时效需求的表达特征。
[0079]在另一种实施方式中,可以依据没有时效需求的历史事件识别出表达特征中不能反映时效需求的表达特征,去除表达特征中不能反映时效需求的表达特征。基于没有时效需求的历史事件识别不能反映时效需求的表达特征的过程可以是:统计表达特征在历史事件中和上述时效事件中的匹配结果数并计算熵值,若该熵值大于一定阈值
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1