一种搜索财经文章的方法、装置及服务器的制造方法

文档序号:9646632阅读:254来源:国知局
一种搜索财经文章的方法、装置及服务器的制造方法
【技术领域】
[0001] 本发明涉及互联网通信领域,具体而言,涉及一种搜索财经文章的方法、装置及服 务器。
【背景技术】
[0002] 互联网中每天发布大量的财经资讯及股评篇章等财经文章,用户可以通过浏览器 客户端来搜索自己需要的财经文章,浏览器客户端根据用户提供的关键词来搜索财经文 早。
[0003]当前,浏览器后台一般都通过爬虫事先爬取财经站点的财经文章,并存储爬取到 的财经文章。当用户通过浏览器客户端搜索财经文章时,浏览器客户端根据用户提供的关 键词,从事先爬取并存储的财经文章中搜索与该关键词匹配的财经文章,将搜索到的财经 文章显示给用户。
[0004] 由于财经文章可以分为多种类型,如直播类型和非直播类型,对于股评篇章还可 以分为看空类型和看多类型等。不同类型的财经文章对读者的参考价值不同,上述搜索方 式并没有对财经文章的类型进行区分,笼统地将搜索到的财经文章显示给用户,导致财经 文章显示杂乱,参考性低。

【发明内容】

[0005] 有鉴于此,本发明实施例的目的在于提供一种搜索财经文章的方法、装置及服务 器,为财经文章信息分配了类型标签,并根据类型标签进行了分类排序,提高了搜索的财经 文章的参考性。
[0006] 第一方面,本发明实施例提供了一种搜索财经文章的方法,所述方法包括:
[0007] 根据浏览器客户端发送的关键词,从预先创建的财经文库中获取与所述关键词匹 配的财经文章信息;
[0008] 根据所述财经文章信息,生成所述财经文章信息对应的索引摘要及为所述财经文 章信息分配类型标签;
[0009] 根据所述财经文章信息对应的类型标签,对所述财经文章信息对应的索引摘要进 行分类排序,得到所述关键词对应的搜索结果。
[0010] 结合第一方面,本发明实施例提供了上述第一方面的第一种可能的实现方式,其 中,所述根据所述财经文章信息,为所述财经文章信息分配类型标签,包括:
[0011] 从所述财经文章信息中获取文章标题及文章正文;
[0012] 对所述文章标题及文章正文进行文本分析,确定所述财经文章信息所属的类型;
[0013] 根据确定的所述类型,为所述财经文章信息分配类型标签。
[0014] 结合第一方面的第一种可能的实现方式,本发明实施例提供了上述第一方面的第 二种可能的实现方式,其中,所述对所述文章标题及文章正文进行文本分析,确定所述财经 文章信息所属的类型,包括:
[0015] 对所述文章标题及文章正文的结构特征进行分析,确定所述财经文章信息是否属 于直播类型;和/或,
[0016] 对所述文章标题及文章正文进行文本分析,若分析出所述文章标题及文章正文中 包含股票信息,则根据所述股票信息确定所述财经文章信息所属的股票类型;和/或,
[0017] 对所述文章标题及文章正文进行文本分析,若分析出所述文章标题及文章正文中 包含情感描述信息,则根据所述情感描述信息确定所述财经文章信息所属的情感类型。
[0018] 结合第一方面,本发明实施例提供了上述第一方面的第三种可能的实现方式,其 中,所述根据所述财经文章信息,生成所述财经文章信息对应的索引摘要,包括:
[0019] 从所述财经文章信息中获取文章标题、作者信息及发布时间;
[0020] 根据所述文章标题、作者信息及发布时间,生成所述财经文章信息对应的摘要信 息;
[0021] 生成所述摘要信息与所述财经文章信息之间的跳转链接;
[0022] 根据所述摘要信息与所述跳转链接,生成所述财经文章信息对应的索引摘要。
[0023] 结合第一方面,本发明实施例提供了上述第一方面的第四种可能的实现方式,其 中,所述根据所述财经文章信息对应的类型标签,对所述财经文章信息对应的索引摘要进 行分类排序,包括:
[0024] 根据所述财经文章信息,计算所述财经文章信息的文章特征值;
[0025] 根据所述财经文章信息对应的类型标签,对所述财经文章信息进行分类;
[0026] 根据分类得到的每类财经文章信息的文章特征值,分别对每类财经文章信息对应 的索引摘要进行排序。
[0027] 结合第一方面的第四种可能的实现方式,本发明实施例提供了上述第一方面的第 五种可能的实现方式,其中,所述根据所述财经文章信息,计算所述财经文章信息的文章特 征值,包括:
[0028] 根据所述财经文章信息,计算所述财经文章信息的时效特征值、主题特征值、权威 特征值和相关特征值;
[0029] 对所述时效特征值、所述主题特征值、所述权威特征值和所述相关特征值进行归 一化处理,得到所述财经文章信息的文章特征值。
[0030] 结合第一方面,本发明实施例提供了上述第一方面的第六种可能的实现方式,其 中,所述根据浏览器客户端发送的关键词,从预先创建的财经文库中获取与所述关键词匹 配的财经文章信息之前,还包括:
[0031] 实时抓取预设财经链接对应的财经网页;
[0032] 对抓取的所述财经网页进行内容抽取,得到所述财经网页的结构化信息,所述结 构化信息包括发布时间、文章正文、作者信息、阅读次数及评论次数;
[0033] 从所述财经网页的结构化信息中过滤掉外站链接对应的部分信息;
[0034] 将过滤剩余的结构化信息作为所述财经网页的财经文章信息,将所述财经网页的 财经文章信息存储在财经文库中。
[0035] 结合第一方面,本发明实施例提供了上述第一方面的第七种可能的实现方式,其 中,当所述关键词包括股票信息时,所述方法还包括:
[0036] 根据所述股票信息,获取所述股票信息对应的行业文章列表;
[0037] 生成所述行业文章列表中每个行业文章对应的索引摘要;
[0038] 计算所述行业文章列表中每个行业文章的文章特征值,根据所述每个行业文章的 文章特征值,对所述每个行业文章对应的索引摘要进行排序;
[0039] 将排序后的所述每个行业文章对应的索引摘要与分类排序后的所述财经文章信 息对应的索引摘要进行合并排序,得到所述关键词对应的搜索结果。
[0040] 结合第一方面,本发明实施例提供了上述第一方面的第八种可能的实现方式,其 中,所述得到所述关键词对应的搜索结果之后,还包括:
[0041] 将所述关键词对应的搜索结果及预设的展示规则发送给所述浏览器客户端,以使 所述浏览器客户端根据所述预设的展示规则分类显示所述搜索结果。
[0042] 第二方面,本发明实施例提供了一种搜索财经文章的装置,所述装置包括:
[0043] 获取模块,用于根据浏览器客户端发送的关键词,从预先创建的财经文库中获取 与所述关键词匹配的财经文章信息;
[0044] 生成模块,用于根据所述财经文章信息,生成所述财经文章信息对应的索引摘要 及为所述财经文章信息分配类型标签;
[0045] 排序模块,用于根据所述财经文章信息对应的类型标签,对所述财经文章信息对 应的索引摘要进行分类排序,得到所述关键词对应的搜索结果。
[0046] 结合第二方面,本发明实施例提供了上述第二方面的第一种可能的实现方式,其 中,所述生成模块包括:
[0047] 第一获取单元,用于从所述财经文章信息中获取文章标题及文章正文;
[0048] 确定单元,用于对所述文章标题及文章正文进行文本分析,确定所述财经文章信 息所属的类型;
[0049] 分配单元,用于根据确定的所述类型,为所述财经文章信息分配类型标签。
[0050] 结合第二方面的第一种可能的实现方式,本发明实施例提供了上述第二方面的第 二种可能的实现方式,其中,所述确定单元包括:
[0051] 第一确定子单元,用于对所述文章标题及文章正文的结构特征进行分析,确定所 述财经文章信息是否属于直播类型;和/或,
[0052] 第二确定子单元,用于对所述文章标题及文章正文进行文本分析,若分析出所述 文章标题及文章正文中包含股票信息,则根据所述股票信息确定所述财经文章信息所属的 股票类型;和/或,
[0053] 第三确定子单元,用于对所述文章标题及文章正文进行文本分析,若分析出所述 文章标题及文章正文中包含情感描述信息,则根据所述情感描述信息确定所述财经文章信 息所属的情感类型。
[0054] 结合第二方面,本发明实施例提供了上述第二方面的第三种可能的实现方式,其 中,所述生成模块包括:
[0055] 第二获取单元,用于从所述财经文章信息中获取文章标题、作者信息及发布时 间;
[0056] 第一生成单元,用于根据所述文章标题、作者信息及发布时间,生成所述财经文章 信息对应的摘要信息;
[0057] 第二生成单元,用于生成所述摘要信息与所述财经文章信息之间的跳转链接;
[0058]第三生成单元,用于根据所述摘要信息与所述跳转链接,生成所述财经文章信息 对应的索引摘要。
[0059]结合第二方面,本发明实施例提供了上述第二方面的第四种可能的实现方式,其 中,所述排序模块包括:
[0060]计算单元,用于根据所述财经文章信息,计算所述财经文章信息的文章特征值;
[0061]分类单元,用于根据所述财经文章信息对应的类型标签,对所述财经文章信息进 行分类;
[0062]排序单元,用于根据分类得到的每类财经文章信息的文章特征值,分别对每类财 经文章信息对应的索引摘要进行排序。
[0063]结合第二方面的第四种可能的实现方式,本发明实施例提供了上述第二方面的第 五种可能的实现方式,其中,所述计算单元包括:
[0064]计算子单元,用于根据所述财经文章信息,计算所述财经文章信息的时效特征值、 主题特征值、权威特征值和相关特征值;
[0065]归一化子单元,用于对
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1