用于概括文档的方法

文档序号:8548085阅读:318来源:国知局
用于概括文档的方法
【专利说明】用于概括文档的方法
【背景技术】
[0001] 随着信息技术W及诸如因特网和内联网的网络的发展,越来越多的信息在线存 在。海量的在线信息可能使想要找到他可能感兴趣的某物的用户不知所措。因此,已经付 出更多的注意来过滤掉不必要的信息并且仅接收所需要的信息。对于该样的目的有用的一 种方法是提供文档的概括或者概括文档,使得用户可W被允许预览概括并且决定获得并阅 读全文档是否值得。
【附图说明】
[0002] 附图图示了本公开的各种方面的各种示例。应理解,在图中的图示的元素边界(例 如,框、框的组或者其他形状)表示所述边界的一个示例。应理解,在某些示例中,一个元素 可W被设计为多个元素,或者多个元素可W被设计为一个元素。在某些示例中,被示出为另 一元素的内部部件的元素可W被实现为外部部件,并且反之亦然。
[0003] 图1是根据本公开的示例的可W概括文档的系统的框图; 图2是根据本公开的示例的概括文档的方法的处理流程图; 图3是根据本公开的示例的概括文档的方法的更详细的处理流程图; 图4是示出了根据本公开的示例的、存储用于概括文档的代码的非瞬时计算机可读介 质的框图。
【具体实施方式】
[0004] 自动概括长期W来是用于自然语言处理的重要任务。文档的良好概括应该是简明 并且准确的,换言之,应该能够捕获源文档的重要信息。直至今日,已经提出了各种种类的 方法。大致地,存在用于概括生成的两种方法;提取和抽象(油Straction)。提取方法关注 从单个文档或多个文档选择句子,而抽象方法通过采用释义的各种技术生成新的句子。
[0005] 如在本公开中使用的那样,"文档"是指自由的、未组织的或半组织的文本的任何 主体。所述文本可W包括文档在其一般意义上的全部内容,诸如书、文章、论文等等,或者传 统文档的一部分,诸如摘要、段落、句子或者例如标题的短语。理想地,"文档"描述相干的话 题。因此,贯穿本公开,术语"文档"被广泛使用W表示文本数据的单元,其包括文档的仅一 部分,诸如区段或者段落。另外,"文档"可W包含根据图像或其他图形生成的文本,W及从 音频或视频格式恢复的文本。文档一般可W包括多个句子。类似地,贯穿本公开,词语"术 语"被广泛使用W表示在话题上设及文档或者文档集合的词语或者词语的分组。
[0006] 在下文中,参考附图详细地描述了根据本公开的某些示例。
[0007] 参考图1,图1是根据本公开的示例的可W概括文档的系统的框图。系统一般地由 参考标号100表示。本领域普通技术人员将理解,在图1中示出的功能块和设备可W包括 包含电路的硬件元件、包含被存储在有形的计算机可读介质上的计算机代码的软件元件或 者硬件和软件元件两者的组合。附加地,系统100的功能块和设备仅仅是可W被实现在示 例中的功能块和设备的一个示例。本领域普通技术人员基于针对特定电子设备的设计考虑 将能够容易地定义具体的功能块。
[000引系统100可W包括服务器102,W及一个或多个客户端计算机104,通过网络106 通信。如在图1中图示的那样,服务器102可W包括一个或多个处理器108,其可W通过总 线110连接到显示器112、键盘114、一个或多个输入设备116W及诸如打印机118的输出 设备。输入设备116可W包括诸如鼠标或触摸屏的设备。处理器108可W包括单个核、多 个核,或者在云计算架构中的核的群集。服务器102还可W通过总线110连接到网络接口 卡(NIC) 120。NIC120可W将服务器102连接到网络106。
[0009] 服务器102可化围过网络106和输入设备116访问各种文档。例如,用户可化围过 输入设备116输入针对其将生成概括的(一个或多个)文档。或者,服务器102可W通过使 用比如Google的某些捜索引擎从因特网捜索多个文档。服务器102还具有对概念库130的 访问。概念库130可W是但不限于某些公众可用的概念库,诸如W化ipedia、Bai化Baike、 B油elNet等等。用户还可W定义他自己的概念库。在W下描述中,W化ipedia将被用作用 于说明的示例。然而,本领域技术人员将理解,W化ipedia仅充当示例,并且本发明在该点 上不被限制。应注意,W化ipedia包含多于3. 5亿人工编辑的概念,并且W化ipedia的概念 被表示为在Wikipedia中的文章页面。
[0010] 网络106可W是局域网(LAN)、广域网(WAN)或者另一网络配置。网络106可W包 括路由器、交换机、调制解调器或者被用于互连的任何其他种类的接口设备。网络106可W 连接到若干客户端计算机104。通过网络106,若干客户端计算机104可W连接到服务器 102。可W如服务器102那样类似地组织客户端计算机104。
[0011] 服务器102可W具有通过总线110可操作地禪合到处理器108的其他单元。该些 单元可W包括有形的机器可读存储介质,诸如记忆装置122。记忆装置122可W包括硬盘 驱动器、只读存储器(ROM)、随机访问存储器(RAM)、RAM驱动器、闪式驱动器、光驱、高速缓 存存储器等等的任何组合。记忆装置122可W包括概念检测单元124、关联性计算单元126 W及图构造单元128。概念检测单元124可W检测在文档的句子中的(一个或多个)概念。 在句子中的概念被限定为呈现所述句子的某些语义的词语和短语。概念检测单元124可W 检测在文档的每一个句子中的概念。关联性计算单元126可W根据在句子中检测到的概念 计算在该些句子之间的关联性测量。图构造单元128可W基于所计算的关联性测量构造概 念意识(concept-aware)的图,其中在所述概念意识图中的节点表示在所述文档中的句子, 并且在两个节点之间的边表示在该两个句子之间的关联性测量。
[0012] 虽然在图1中未示出,但是记忆装置122还可W包括某些其他单元,诸如预处理单 元、分级(ranking)单元W及概括生成单元。预处理单元可W对目标文档执行某个预处理。 例如,所述预处理可W包括从句子移除非法字符,例如在英文文章中的中文字符可能被视 为非法字符并且应该被移除。预处理还可W包括从句子移除比如感叹词(interjection)的 词语,因为该些词语通常不对句子的含义有贡献。当然,可W存在某些其他类型的预处理, 本文将不详细描述。分级单元可W对由图构造单元128构造的概念意识图运行分级方法, 并且对每个句子给出得分(即,分级)。句子的得分越高,所述句子就越重要。W该种方式, 在文档中的所有句子可W根据它们的得分被排序。分级方法的示例可W包括但不限于HITS 等级、Google的化geRank和manifol化ank。在由分级单元对每个句子评分之后,可W W根 据它们的等级的次序选择句子。概括生成单元可W选择最高等级(top ranking)的句子作 为针对文档的概括。根据本公开的示例,当选择句子时,可w将该句子与已经选择的句子比 较W检查该句子是否太接近或类似于已经选择的句子中的一个。如果它们太相似,则该句 子将不被选择到概括中(即,选择不相似但是重要的那些句子)。所生成的概括可W被显示 在显示器112上用于由用户查看,或者被发送到打印机118W被打印。
[0013] 现在参考图2,图2图示了根据本公开的示例的概括文档的方法的处理流程图。 方法一般地由参考标号200表示。在框201处,针对在文档中的每个句子检测(一个或多 个)概念。根据本公开的示例,基于预定义的概念库来检测在句子中的概念,所述预定义的 概念库包
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1