带权重的文章标识方法和装置的制造方法

文档序号:9826244阅读:381来源:国知局
带权重的文章标识方法和装置的制造方法
【技术领域】
[0001]本发明涉及计算机技术领域,具体而言,涉及一种带权重的文章标识方法和装置。
【背景技术】
[0002]在互联网领域中,对于互联网中存在的文章,由于其文章往往包括较多内容不适合直接记录或使用,通常取文章的标题来代表整篇文章,因为标题通常具有文章的简要内容。
[0003]上述方案的缺陷在于:由于文章中的内容重要程度不同,而文章内容的重要程度无法在标题中反映出来,如何需要按文章重要程度分析问题时,则文章标题无法使用。

【发明内容】

[0004]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的带权重的文章标识方法和装置。
[0005]依据本发明的一种带权重的文章标识方法,包括:对文章对应的标题进行分词得到多个词;计算所述多个词的权重值;所述多个词的权重值反应所述多个词在所述文章中的重要程度;根据所述多个词的权重值,扩展所述文章对应的标题中所述多个词中至少一个词的数量,使所述多个词的数量与所述多个词的权重值相对应;以扩展后的标题对所述文章进行标识。
[0006]可选地,前述的方法,计算所述多个词的权重值,具体包括:统计所述多个词在所述文章中的词频,根据所述多个词在所述文章中的词频,计算所述多个词的权重值。
[0007]可选地,前述的方法,在根据所述多个词的权重值,扩展所述文章对应的标题中所述多个词中至少一个词的数量之前,还包括:对所述多个词的权重值进行调整,使得所述多个词的权重值均为预设值的整数倍。
[0008]可选地,前述的方法,在对所述多个词的权重值进行调整,使得所述多个词的权重值均为预设值的整数倍之前,还包括:根据所述多个词的权重值中的最小值设置所述预设值。
[0009]可选地,前述的方法,以扩展后的标题对所述文章进行标识,具体包括:取所述扩展后的标题的最小哈希值对所述文章进行标识。
[0010]依据本发明的一种带权重的文章标识装置,包括:分词模块,用于对文章对应的标题进行分词得到多个词;权重值计算模块,用于计算所述多个词的权重值;所述多个词的权重值反应所述多个词在所述文章中的重要程度;扩展模块,用于根据所述多个词的权重值,扩展所述文章对应的标题中所述多个词中至少一个词的数量,使所述多个词的数量与所述多个词的权重值相对应;标识模块,用于以扩展后的标题对所述文章进行标识。
[0011]可选地,前述的装置,所述权重值计算模块统计所述多个词在所述文章中的词频,根据所述多个词在所述文章中的词频,计算所述多个词的权重值。
[0012]可选地,前述的装置,还包括:权值调整模块,用于对所述多个词的权重值进行调整,使得所述多个词的权重值均为预设值的整数倍。
[0013]可选地,前述的装置,还包括:设置模块,用于根据所述多个词的权重值中的最小值设置所述预设值。
[0014]可选地,前述的装置,所述标识模块取所述扩展后的标题的最小哈希值对所述文章进行标识。
[0015]根据以上技术方案,本发明的带权重的文章标识方法和装置至少具有以下优点:
[0016]在本发明的技术方案中,根据文章标题中各个词的重要程度为各个词计算了权重值,并根据权重值大小对文章标题中相应的词进行了扩展,扩展后的标题中权重值较大的词占比增大,这相当于扩展后的标题也能体现文章多个词的重要程度,所以在需要根据文章多个词的重要程度分析问题时,可以使用扩展后的标题替代文章进行使用。
[0017]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0018]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0019]图1示出了根据本发明的一个实施例的带权重的文章标识方法的流程图;
[0020]图2示出了根据本发明的一个实施例的带权重的文章标识装置的框图;
[0021]图3示出了根据本发明的一个实施例的带权重的文章标识装置的框图。
【具体实施方式】
[0022]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0023]如图1所示,本发明的一个实施例中一种带权重的文章标识方法,包括:
[0024]步骤110,对文章对应的标题进行分词得到多个词。例如,对应某个新闻的标题《明星新片尺度大》,对其分词得到多个词为:明星、新片、尺度、大。
[0025]步骤120,计算多个词的权重值;多个词的权重值反应多个词在文章中的重要程度。在本实施例中,对于计算权重值的方式不进行限制,例如,假设某个词与当前的热点事件匹配,则赋予该词较高的权重值。
[0026]步骤130,据多个词的权重值,扩展文章对应的标题中多个词中至少一个词的数量,使多个词的数量与多个词的权重值相对应。在本实施例中,例如,对于标题《明星新片尺度大》,明星的权重值为0.2、新片的权重值为0.1,则扩展的标题可以是《明星明星新片尺度大》;可见,扩展后的标题中,重要的词占比较大,所以扩展后的标题中可以体现出新闻中哪些词的重要程度较大。
[0027]步骤140,以扩展后的标题对文章进行标识。在本实施例中,扩展后的标题中权重高的词重复的次数多,权重低的词重复次数少,其能体现文章的多个词的重要程度,所以在需要根据文章多个词的重要程度分析问题时,可以使用扩展后的标题替代文章进行使用。
[0028]本发明的另一实施例中提供了一种带权重的文章标识方法,相比于前述的实施例,本实施例的带权重的文章标识方法,步骤120,具体包括:
[0029]统计多个词在文章中的词频,根据多个词在文章中的词频,计算多个词的权重值。在本实施例中,越重要的词在文章中出现的频率就越高,所以根据词频可以判断多个词的权重。
[0030]本发明的另一实施例中提供了一种带权重的文章标识方法,相比于前述的实施例,本实施例的带权重的文章标识方法,在步骤130之前,还包括:
[0031]对多个词的权重值进行调整,使得多个词的权重值均为预设值的整数倍。在本实施例中,由于标题中词的个数只能够按整数进行增加,所以需要对多个词的权重值进行调整,使得多个词的权重值的比值不至过于复杂,导致标题中扩展了大量的词,从而影响了标题的简要性。
[0032]本发明的另一实施例中提供了一种带权重的文章标识方法,相比于前述的实施例,本实施例的带权重的文章标识方法,在步骤130之前,还包括:
[0033]根据多个词的权重值中的最小值设置预设值。在本实施例中,将多个词的权重值中的最小值设置预设值,使得标题中的至少一个词只出现一次,从而可以保证标题的长度不至过长。
[0034]本发明的另一实施例中提供了一种带权重的文章标识方法,相比于前述的实施例,本实施例的带权重的文章标识方法,步骤140,具体包括:
[0035]取扩展后的标题的最小哈希值对文章进行标识。根据本实施例的技术方案,例如对于一篇文章《明星新片尺度大职场御姐范儿就得这么穿》,如果直接用标题的最小哈希值标识文章,则该值可能与《欧美风服饰搭配晋级职场御姐范儿》这些文章对应的值相近,但两篇文章的重点并不相同;本实施例中,可以根据权重比如(tfidf,词频)算出“明星”的权重比较高,比如这篇文章中“明星”的权重为0.4,“新片”的权重为0.2,其他词的权重为0.1,那么将标题扩展为《明星明星明星明星新片新片尺度大职场御姐范儿就得这么穿》,再计算最小哈希值,则得到的值能够反映多个词的不同重要程度。
[0036]如图2所示,本发明的一个实施例中一种带权重的文章标识装置,包括:
[0037]分词模块210,用于对文章对应的标题进行分词得到多个词。例如,对应某个新闻的标题《明星新片尺度大》,对其分词得到多个词为:明星、新片、尺度、大。
[0038]权重值计算模块220,用于计算多个词的权重值;多个词的权重值反应多个词在文章中的重要程度。在本实施例中,对于计算权重值的方式不进行限制,例如,假设某个词与当前的热点事件匹配,则赋予该词较高的权重值。
[0039]扩展模块230,用于根据多个词的权重值,扩展文章对应的标题中多个词中至少一个词的数量,使多个词的数量与多个词的权重值相对应。在本实施例中,例如,对于标题《明星新片尺度大》,明星的权重值为0.2、新片的权重值为0.1,则扩展的标题可以是《明星明星新片尺度大》;可见,扩展后的标题中,重要的词占比较大,所以扩展后的标题中可以体现出新闻中哪些词的重要程度较大。
[0040]标识模块240,用于以扩展后的标题对文章进行标识。在本实施例中,扩展后的标题中权重高的词重复的次数多,权重低的词重复次
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1