一种网络贴文标引系统及标引方法

文档序号:6384187阅读:337来源:国知局
专利名称:一种网络贴文标引系统及标引方法
技术领域
本发明涉及一种对网络贴文进行自动标引的系统,同时也涉及该系统实现网络贴文标引的方法,属于网页信息采集技术领域。
背景技术
通过计算机对目标文本进行自动分析,根据词在目标文本中出现的特点,选择一部分词作为标引词,把目标文本转化成二次文献。这种过程称为自动标引(automaticindexing)。目前,现有自动标引技术采用了多种技术方法实现,总体上可分为统计分析方法、语言分析方法、人工智能方法和混合方法。其中,绝大部分方法是基于抽词思想实现的,同时标引范围往往仅限于目标文本本身。在申请号为201010168526. 2的中国专利申请中,公开了一种基于知识网络的文本标弓I系统及其方法。该文本标弓I系统包括单文本特征提取单元、多文本词关系提取单元、知识树生成单元、知识树应用单元以及知识库存储单元。对于输入文本标引系统的文本,首先进行分词,获取文本中的文本特征词;根据文本特征词所对应的知识树的节点位置,推演出该文本对应的类别词;在类别词的基础上,通过判别式模型对类别词的合法性进行判定,由此提炼出可靠的类别词词集,再通过可靠的类别词词集对文本特征词词集进行重新定位,形成可靠的文本特征词词集。该技术方案可以使内容词提取、类别标注和短语的提取一体化,因此提取的效果能够互相促进;各个词的语义通过知识网络的节点得以表现,从而减少歧义的发生。另外,在专利号为ZL 200910061711.9的中国发明专利中,提供了一种引文自动标引方法,包括以下步骤步骤1,对提交文档进行切割得到文本块,对文本块提取特征词句串或信息指纹;然后将特征词句串或信息指纹提交给检索引擎;步骤2,对于被提交的特征词句串或信息指纹,当检索引擎返回与特征词句串或信息指纹相应的搜索结果时,记录搜索结果作为相应文本块的引文出处,并记录文本块在文档中的终止位置,记录文本块的引文出处与终止位置的关联关系;步骤3,结合提交文档中已有引用标引和搜索结果去除重复的引文出处后,按照在提交文档中的位置前后关系对所有引文出处排序后进行标引。该发明克服了现有手工方法效率十分低下的弱点,提高了标引速度和准确性。

发明内容
本发明所要解决的技术问题在于提供一种网络贴文标引系统及标引方法。该技术方案充分利用网络贴文的背景信息,扩充标引范围,使得自动标引更加准确。为实现上述的发明目的,本发明采用下述的技术方案—种网络贴文标引系统,包括贴文提供模块、背景信息提取模块、背景分析引擎、文本标引模块和标引融合模块;其中,所述贴文提供模块连接背景信息提取模块,所述背景信息提取模块一方面连接所述背景分析引擎,另一方面连接所述文本标引模块;
所述背景分析引擎和所述文本标引模块分别与所述标引融合模块连接;所述背景信息提取模块用于分离网络贴文的背景信息和贴文内容,分别提供给所述背景分析引擎和所述文本标引模块进行标引,所述背景分析引擎和所述文本标引模块的标引结果送入所述标引融合模块中进行融合,作为网络贴文的最终标引结果。其中较优地,所述背景分析引擎中进一步包括URL背景库。一种网络贴文标引方法,基于上述的网络贴文标引系统实现,包括如下步骤对于待标引的网络贴文,首先将所述网络贴文的背景信息和贴文内容进行分离,分别提供给背景分析引擎和文本标引模块进行标引;将所述背景分析引擎和所述文本标引模块的标引结果进行融合,作为所述网络贴文的最终标引结果。其中较优地,在所述背景分析引擎中,针对贴文内容中出现的URL地址,首先在URL背景库中进行查询;如果在所述URL背景库中存在该URL地址,导出对应的标引结果后返回,如果在所述URL背景库中不存在该URL地址,打开该URL地址并萃取URL地址对应网页的主题和正文,对主题和正文进行文本标引,然后将标引结果及相应的URL地址存储至所述URL背景库。其中较优地,所述背景信息包括但不限于网络贴文的发帖人ID、发帖时间、所处网络空间、所处地理空间以及贴文内容中的URL地址。本发明融合文本标引模块的标引结果和背景分析弓I擎的标引结果,对网络贴文的标引不再仅仅依据贴文内容本身,而是通过对网络贴文其他背景信息的标引得到其隐含的语义,使得相应的标弓I结果更加全面准确。


图1是本发明所提供的网络贴文标引系统的整体结构图;图2显示了网络贴文背景信息的具体种类;图3是背景分析引擎针对贴文内容中的URL地址进行标引的流程示意图。
具体实施例方式本发明所提供的网络贴文标引系统的技术特点在于通过对网络贴文背景信息的进一步检测准确标引网络贴文,以解决现有技术中网络贴文中背后隐藏信息不能检测的问题。为此,如图1所示,本发明所提供的网络贴文标引系统包括贴文提供模块、背景信息提取模块、背景分析引擎、文本标引模块和标引融合模块。其中,贴文提供模块连接背景信息提取模块,用于向背景信息提取模块提供待标引的网络贴文。背景信息提取模块用于分离网络贴文的背景信息和贴文内容,分别提供给背景分析引擎和文本标引模块。该背景信息提取模块一方面连接背景分析引擎,另一方面连接文本标引模块。背景分析引擎和文本标引模块分别与标引融合模块连接,其中背景分析引擎中进一步包括URL背景库,用于实现对背景信息的标引,文本标引模块用于实现对贴文内容的标引,两方面的标引结果送入标引融合模块中进行融合,作为该网络贴文的最终标引结果。在本发明中,网络贴文作为网络贴文标引系统的系统输入,包含文本形式的贴文内容、发帖人ID、发帖时间、所处网络空间、所处地理空间以及贴文内容中的URL (统一资源定位符)地址等信息。如图2所示,发帖人ID、发帖时间、所处网络空间、所处地理空间以及贴文内容中的URL地址等属性信息作为网络贴文的背景信息,是背景分析引擎进一步分析的基础。而文本形式的贴文内容是文本标弓I模块进行分析的基础。背景提取模块将网络贴文中的背景信息提取出来,作为背景分析引擎的输入。其中,贴文内容中的URL地址是背景分析引擎进一步读取分析的关键对象。背景分析引擎通过对上述背景信息进行进一步读取分析,对网络贴文进行背景标引。文本标引模块主要对网络贴文中的纯文本内容进行文本标引。该文本标引模块可以采用计算机自然语言处理领域的成熟算法,以软件或者固件方式实现,在此就不详细说明了。图3显示了背景分析引擎针对贴文内容中的URL地址进行标引的基本流程。背景分析引擎针对贴文内容中出现的URL地址(即任务URL),首先在URL背景库中进行查询。如果在URL背景库中存在该URL地址,直接导出对应的标引结果后返回。如果在URL背景库中不存在该URL地址,打开该URL地址并萃取URL地址对应网页的主题和正文,由文本标弓I模块对主题和正文进行文本标弓I,然后将标弓I结果及相应的URL地址存储至URL背景库,返回。在上述步骤中,对网页主题和正文的萃取可以采用信息抽取领域的成熟技术实现,例如中国发明专利ZL 200810066432. 7所介绍的互联网网页清洗方法等,在此就不具体说明了。标引融合模块通过融合文本标引模块的标引结果和背景分析引擎的标引结果,作为网络贴文的最终标引结果。这样,对网络贴文的标引不再仅仅依据贴文内容本身,而是通过对网络贴文其他背景信息的标引得到其隐含的语义,使得相应的标引结果更加全面准确。以上对本发明所提供的网络贴文标引系统及标引方法进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。
权利要求
1.一种网络贴文标引系统,其特征在于 所述网络贴文标引系统包括贴文提供模块、背景信息提取模块、背景分析引擎、文本标引模块和标引融合模块;其中, 所述贴文提供模块连接背景信息提取模块,所述背景信息提取模块一方面连接所述背景分析引擎,另一方面连接所述文本标引模块; 所述背景分析引擎和所述文本标引模块分别与所述标引融合模块连接; 所述背景信息提取模块用于分离网络贴文的背景信息和贴文内容,分别提供给所述背景分析引擎和所述文本标引模块进行标引,所述背景分析引擎和所述文本标引模块的标引结果送入所述标引融合模块中进行融合,作为网络贴文的最终标引结果。
2.如权利要求1所述的网络贴文标引系统,其特征在于 所述背景分析引擎中进一步包括URL背景库。
3.—种网络贴文标引方法,基于权利要求1或2所述的网络贴文标引系统实现,其特征在于 对于待标引的网络贴文,首先将所述网络贴文的背景信息和贴文内容进行分离,分别提供给背景分析引擎和文本标引模块进行标引; 将所述背景分析引擎和所述文本标引模块的标引结果进行融合,作为所述网络贴文的最终标引结果。
4.如权利要求3所述的网络贴文标引方法,其特征在于 在所述背景分析引擎中,针对贴文内容中出现的URL地址,首先在URL背景库中进行查询; 如果在所述URL背景库中存在该URL地址,导出对应的标引结果后返回,如果在所述URL背景库中不存在该URL地址,打开该URL地址并萃取URL地址对应网页的主题和正文,对主题和正文进行文本标引,然后将标引结果及相应的URL地址存储至所述URL背景库。
5.如权利要求3所述的网络贴文标引方法,其特征在于 所述背景信息包括但不限于网络贴文的发帖人ID、发帖时间、所处网络空间、所处地理空间以及贴文内容中的URL地址。
全文摘要
本发明公开了一种网络贴文标引系统及标引方法。该系统包括贴文提供模块、背景信息提取模块、背景分析引擎、文本标引模块和标引融合模块;其中,背景信息提取模块用于分离网络贴文的背景信息和贴文内容,分别提供给背景分析引擎和文本标引模块进行标引,背景分析引擎和文本标引模块的标引结果送入标引融合模块中进行融合,作为网络贴文的最终标引结果。本发明融合文本标引模块的标引结果和背景分析引擎的标引结果,对网络贴文的标引不再仅仅依据贴文内容本身,而是通过对网络贴文其他背景信息的标引得到其隐含的语义,使得相应的标引结果更加全面准确。
文档编号G06F17/30GK103064892SQ20121054067
公开日2013年4月24日 申请日期2012年12月13日 优先权日2012年12月13日
发明者宋传宝, 王树强, 张作职 申请人:北京海量融通软件技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1