用于概括文档的方法

文档序号：8548085阅读：318来源：国知局

用于概括文档的方法
【专利说明】用于概括文档的方法
【背景技术】
[0001] 随着信息技术W及诸如因特网和内联网的网络的发展，越来越多的信息在线存在。海量的在线信息可能使想要找到他可能感兴趣的某物的用户不知所措。因此，已经付出更多的注意来过滤掉不必要的信息并且仅接收所需要的信息。对于该样的目的有用的一种方法是提供文档的概括或者概括文档，使得用户可W被允许预览概括并且决定获得并阅读全文档是否值得。
【附图说明】
[0002] 附图图示了本公开的各种方面的各种示例。应理解，在图中的图示的元素边界(例如，框、框的组或者其他形状）表示所述边界的一个示例。应理解，在某些示例中，一个元素可W被设计为多个元素，或者多个元素可W被设计为一个元素。在某些示例中，被示出为另一元素的内部部件的元素可W被实现为外部部件，并且反之亦然。
[0003] 图1是根据本公开的示例的可W概括文档的系统的框图；图2是根据本公开的示例的概括文档的方法的处理流程图；图3是根据本公开的示例的概括文档的方法的更详细的处理流程图；图4是示出了根据本公开的示例的、存储用于概括文档的代码的非瞬时计算机可读介质的框图。
【具体实施方式】
[0004] 自动概括长期W来是用于自然语言处理的重要任务。文档的良好概括应该是简明并且准确的，换言之，应该能够捕获源文档的重要信息。直至今日，已经提出了各种种类的方法。大致地，存在用于概括生成的两种方法；提取和抽象（油Straction)。提取方法关注从单个文档或多个文档选择句子，而抽象方法通过采用释义的各种技术生成新的句子。
[0005] 如在本公开中使用的那样，"文档"是指自由的、未组织的或半组织的文本的任何主体。所述文本可W包括文档在其一般意义上的全部内容，诸如书、文章、论文等等，或者传统文档的一部分，诸如摘要、段落、句子或者例如标题的短语。理想地，"文档"描述相干的话题。因此，贯穿本公开，术语"文档"被广泛使用W表示文本数据的单元，其包括文档的仅一部分，诸如区段或者段落。另外，"文档"可W包含根据图像或其他图形生成的文本，W及从音频或视频格式恢复的文本。文档一般可W包括多个句子。类似地，贯穿本公开，词语"术语"被广泛使用W表示在话题上设及文档或者文档集合的词语或者词语的分组。
[0006] 在下文中，参考附图详细地描述了根据本公开的某些示例。
[0007] 参考图1，图1是根据本公开的示例的可W概括文档的系统的框图。系统一般地由参考标号100表示。本领域普通技术人员将理解，在图1中示出的功能块和设备可W包括包含电路的硬件元件、包含被存储在有形的计算机可读介质上的计算机代码的软件元件或者硬件和软件元件两者的组合。附加地，系统100的功能块和设备仅仅是可W被实现在示例中的功能块和设备的一个示例。本领域普通技术人员基于针对特定电子设备的设计考虑将能够容易地定义具体的功能块。
[000引系统100可W包括服务器102,W及一个或多个客户端计算机104,通过网络106 通信。如在图1中图示的那样，服务器102可W包括一个或多个处理器108,其可W通过总线110连接到显示器112、键盘114、一个或多个输入设备116W及诸如打印机118的输出设备。输入设备116可W包括诸如鼠标或触摸屏的设备。处理器108可W包括单个核、多个核，或者在云计算架构中的核的群集。服务器102还可W通过总线110连接到网络接口卡（NIC) 120。NIC120可W将服务器102连接到网络106。
[0009] 服务器102可化围过网络106和输入设备116访问各种文档。例如，用户可化围过输入设备116输入针对其将生成概括的(一个或多个）文档。或者，服务器102可W通过使用比如Google的某些捜索引擎从因特网捜索多个文档。服务器102还具有对概念库130的访问。概念库130可W是但不限于某些公众可用的概念库，诸如W化ipedia、Bai化Baike、 B油elNet等等。用户还可W定义他自己的概念库。在W下描述中，W化ipedia将被用作用于说明的示例。然而，本领域技术人员将理解，W化ipedia仅充当示例，并且本发明在该点上不被限制。应注意，W化ipedia包含多于3. 5亿人工编辑的概念，并且W化ipedia的概念被表示为在Wikipedia中的文章页面。
[0010] 网络106可W是局域网（LAN)、广域网（WAN)或者另一网络配置。网络106可W包括路由器、交换机、调制解调器或者被用于互连的任何其他种类的接口设备。网络106可W 连接到若干客户端计算机104。通过网络106,若干客户端计算机104可W连接到服务器 102。可W如服务器102那样类似地组织客户端计算机104。
[0011] 服务器102可W具有通过总线110可操作地禪合到处理器108的其他单元。该些单元可W包括有形的机器可读存储介质，诸如记忆装置122。记忆装置122可W包括硬盘驱动器、只读存储器（ROM)、随机访问存储器（RAM)、RAM驱动器、闪式驱动器、光驱、高速缓存存储器等等的任何组合。记忆装置122可W包括概念检测单元124、关联性计算单元126 W及图构造单元128。概念检测单元124可W检测在文档的句子中的（一个或多个）概念。在句子中的概念被限定为呈现所述句子的某些语义的词语和短语。概念检测单元124可W 检测在文档的每一个句子中的概念。关联性计算单元126可W根据在句子中检测到的概念计算在该些句子之间的关联性测量。图构造单元128可W基于所计算的关联性测量构造概念意识（concept-aware)的图，其中在所述概念意识图中的节点表示在所述文档中的句子，并且在两个节点之间的边表示在该两个句子之间的关联性测量。
[0012] 虽然在图1中未示出，但是记忆装置122还可W包括某些其他单元，诸如预处理单元、分级（ranking)单元W及概括生成单元。预处理单元可W对目标文档执行某个预处理。例如，所述预处理可W包括从句子移除非法字符，例如在英文文章中的中文字符可能被视为非法字符并且应该被移除。预处理还可W包括从句子移除比如感叹词（interjection)的词语，因为该些词语通常不对句子的含义有贡献。当然，可W存在某些其他类型的预处理，本文将不详细描述。分级单元可W对由图构造单元128构造的概念意识图运行分级方法，并且对每个句子给出得分（即，分级)。句子的得分越高，所述句子就越重要。W该种方式，在文档中的所有句子可W根据它们的得分被排序。分级方法的示例可W包括但不限于HITS 等级、Google的化geRank和manifol化ank。在由分级单元对每个句子评分之后，可W W根据它们的等级的次序选择句子。概括生成单元可W选择最高等级（top ranking)的句子作为针对文档的概括。根据本公开的示例，当选择句子时，可w将该句子与已经选择的句子比较W检查该句子是否太接近或类似于已经选择的句子中的一个。如果它们太相似，则该句子将不被选择到概括中（即，选择不相似但是重要的那些句子)。所生成的概括可W被显示在显示器112上用于由用户查看，或者被发送到打印机118W被打印。
[0013] 现在参考图2,图2图示了根据本公开的示例的概括文档的方法的处理流程图。方法一般地由参考标号200表示。在框201处，针对在文档中的每个句子检测（一个或多个）概念。根据本公开的示例，基于预定义的概念库来检测在句子中的概念，所述预定义的概念库包

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：L.王;王荀;王敏;张彤;白斌;
技术所有人：惠普发展公司，有限责任合伙企业;
我是此专利的发明人

上一篇：提供组织的内容的制作方法
上一篇：在对话交互系统中推断搜索输入中的用户意图的方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。