内容提取方法、内容提取装置和用于内容提取的系统的制作方法

文档序号:9579304阅读:216来源:国知局
内容提取方法、内容提取装置和用于内容提取的系统的制作方法
【技术领域】
[0001]本公开涉及文本处理领域,更具体地,涉及文本处理领域中的内容提取方法、内容提取装置和用于内容提取的系统。
【背景技术】
[0002]用户通常在他们通过文档显示设备介绍文档时使用输入动作(例如用户手势)来让他们被其它用户理解。文档显示设备可以是屏幕中的文档窗口、触摸面板或投影仪的投影。例如,可以通过在屏幕中移动鼠标、对触摸面板执行触摸或滑动操作、或者在投影上使用用户手势,来直接对正被显示的文档进行一些动作。在用户手势用于提取文档中的内容以介绍该文档的情况下,帮助系统通常被提出,其使得能够接收用户手势并将用户的选择定位在文档显示设备上。
[0003]例如,在旅游机构中,职员通常使用文档显示设备来向顾客解释不同的旅游计划。文档显示设备被设计为接收具有关于旅游计划的内容的输入文档和用户手势,并输出由用户手势点击或选择的内各。
[0004]提出了多种方法来根据用户手势选择文档中的文本区域,这些方法将文档中的文本的坐标与用户手势的坐标进行比较以确定用户手势选择了哪个文本并然后输出所确定的文本。例如,在相关技术中,记录用户手势的位置,并选择与用户手势距离最小的文本作为输出。
[0005]然而,这样的方法根据坐标距离的信息可能仅仅获得文本的一些分段,并通常可能不输出用户想要指向的有意义的内容。
[0006]此外,由于这样的方法仅仅使用坐标距离的信息,因此靠近用户手势的所有单词(文本)可能被获得,因为这些单词可能具有小于预定阈值的到用户手势的距离。因此,所选择的单词通常不是用户实际想要选择的,从而导致根据用户手势获得的内容不准确。例如,如果用户想要选择文档的第一行中的第一个单词,那么,当用户使用手势在该第一个单词下方划过时,通常可能同时选择第一行中的该第一个单词以及第二行中的第一个和/或第二个单词,因为所有这些所选择的单词可能具有到手势的最小距离。再例如,如果用户想要选择第一行和第二行以对它们进行比较,那么用户将指向这些行中的每一个单词,这对于用户而言是非常单调乏味且浪费时间的。如果用户仅仅在边上指向第一行和第二行,那么第一行和第二行中靠近手势的单词可能被选择而不是整个行。
[0007]因此,存在当用户想要从文档提取内容时改进准确性的需要。

【发明内容】

[0008]本公开内容公开了内容提取方法、内容提取装置和用于内容提取的系统,其能够在改进内容提取的准确性同时还向用户提供有意义的内容。
[0009]根据本发明的一个方面,提供了一种内容提取方法,包括:提取输入文档中的多个主题内容区域,其中每个主题内容区域由输入文档中的关于同一主题的一个或多个元素组成;对于至少一部分主题内容区域中的每个主题内容区域,确定该主题内容区域的结构类型,其中所述结构类型通过该主题内容区域中包含的元素确定;对于所述至少一部分主题内容区域中的每个主题内容区域,根据该主题内容区域的结构类型识别该主题内容区域中的兴趣内容,其中该主题内容区域中的兴趣内容指示该主题内容区域中最可能被用户注意的至少一个元素;以及根据用户输入动作和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容,提取响应于用户输入动作的主题内容区域。
[0010]根据本发明的另一方面,提供了一种内容提取装置,包括:区域提取单元,被配置为提取输入文档中的多个主题内容区域,其中每个主题内容区域由输入文档中的关于同一主题的一个或多个元素组成;确定单元,被配置为对于至少一部分主题内容区域中的每个主题内容区域,确定该主题内容区域的结构类型,其中所述结构类型通过该主题内容区域中包含的元素确定;识别单元,被配置为对于所述至少一部分主题内容区域中的每个主题内容区域,根据该主题内容区域的结构类型识别该主题内容区域中的兴趣内容,其中该主题内容区域中的兴趣内容指示该主题内容区域中最可能被用户注意的至少一个元素;以及内容提取单元,被配置为根据用户输入动作和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容,提取响应于用户输入动作的主题内容区域。
[0011]根据本发明的再一方面,提供了一种用于内容提取的系统,包括:文档获取装置,被配置为获取输入文档;以及如上所述的内容提取装置。
[0012]根据上述技术方案,由于每个主题内容区域包括关于同一主题的元素,因此由用户输入动作选择的主题内容区域可以向用户提供有意义的内容。此外,由于响应于用户输入动作提取的内容是一个主题内容区域中的所有内容,并且是基于用户输入动作与兴趣内容之间的关系、而不是基于用户输入动作和分别分离的单词之间的坐标距离,因此,所提取的内容可以更准确并向用户提供他想要选择的内容。借助于主题内容区域和兴趣内容,内容提取的准确性可以提高,同时可以向用户提供有意义的内容。
[0013]从参照附图的以下描述中,本发明的其它特性特征和优点将变得清晰。
【附图说明】
[0014]并入说明书并且构成说明书的一部分的附图图示了本发明的实施例,并且与描述一起用于说明本发明的原理。
[0015]图1是示出能够实施本发明的实施例的计算机系统的示例性硬件配置的框图。
[0016]图2示出了根据本发明的实施例的内容提取方法的流程图。
[0017]图3示出了根据本发明的实施例的提取主题内容区域的处理的流程图。
[0018]图4A — 4D示出了分别具有单信息强调型、比较强调型、群信息强调型和对应强调型的主题内容区域的一些例子。
[0019]图5示出了根据本发明的实施例的确定主题内容区域的结构类型的处理的流程图。
[0020]图6示出了给出分别用于单信息强调型、比较强调型、群信息强调型和对应强调型的提示词和焦点词的一些例子的表格。
[0021]图7示出了根据本发明的实施例的识别输入文档中的提示词的处理的流程图。
[0022]图8A示出了历史文档中的与不同结构类型有关的单词和/或短语的一些例子。
[0023]图SB示出了与不同结构类型有关的历史提示词信息的一些例子。
[0024]图9示出了根据本发明的实施例的识别输入文档中的提示词的处理的另一流程图。
[0025]图1OA和1B示出了用于更好解释图9中的处理的一些例子。
[0026]图11示出了计算用户输入动作和兴趣内容之间的距离的例子的示图。
[0027]图12示出了根据本发明的实施例的基于用户输入动作的速度提取内容的处理的流程图。
[0028]图13示出了根据本发明的实施例的内容提取装置的结构框图。
[0029]图14示出了根据本发明的实施例的内容提取装置的另一结构框图。
[0030]图15示出了根据本发明的实施例的用于内容提取的系统的结构框图。
【具体实施方式】
[0031 ] 以下将参照附图详细描述本发明的实施例。
[0032]请注意,类似的参考数字和字母指的是图中的类似的项目,因而一旦在一幅图中定义了一个项目,就不需要在之后的图中讨论了。
[0033]在本公开中,术语“第一”和“第二”等仅用于区分要素或步骤,但是不意图表示时间次序、优选性或重要性。
[0034]图1是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。
[0035]如图1中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口 1140、可移动非易失性存储器接口 1150、用户输入接口 1160、网络接口 1170、视频接口 1190和输出外围接口1195ο
[0036]系统存储器1130包括R0M(只读存储器)1131和RAM(随机存取存储器)1132。B1S(基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM 1132中。
[0037]诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。
[0038]诸如软盘驱动器1151和⑶-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口 1150。例如,软盘1152可以被插入到软盘驱动器1151中,以及⑶(光盘)1156可以被插入到⑶-ROM驱动器1155中。
[0039]诸如鼠标1161和键盘1162之类的输入设备被连接到用户输入接口 1160。
[0040]计算机1110可以通过网络接口 1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口 1170可以连接到调制解调器(调制器一解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机
1180ο
[0041]远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185ο
[0042]视频接口 1190连接到监视器1191。
[0043]输出外围接口 1195连接到打印机1196和扬声器1197。
[0044]图1所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。
[0045]图1所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为装置中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。
[0046]现在,参考图2,将描述根据本发明的实施例的内容提取方法200。
[0047]内容提取方法200从输入文档提取分别包括关于同一主题的元素的主题内容区域。关于所提取的主题内容区域中的至少一部分主题内容区域中的每一个,内容提取方法200确定该主题内容区域的结构类型,然后通过使用该结构类型识别该主题内容区域中的一个或多个兴趣内容。基于用户输入动作和兴趣内容之间的关系,内容提取方法200可以确定用户想要选择哪个主题内容区域,并提取该主题内容区域以用于例如显示、编辑、存储等。因为主题内容区域由于所包括的关于同一主题的元素而具有有意义的内容,并且用户输入动作和兴趣内容之间的关系被使用,因此可以更准确地提取用户想要选择的内容,并可以以有意义的方式将该内容提供给用户。下面,将描述内容提取方法200的细节。
[0048]在步骤S210中,提取输入文档中的多个主题内容区域,其中每个主题内容区域由输入文档中的关于同一主题的一个或多个元素组成。这里,每个元素可以选自包括单词、短语、句子、段落、图片和表格中的至少一个的组。
[0049]具体而言,主题内容区域包括用户想要例如强调、高亮显示、选择、谈论等的内容,其可以表达能够被人们理解的完整含义。例如,如果一些句子与富士山有关,那么可以构成主题内容区域的完整信息可以包括富士山的位置、高度和历史。如果一些句子与旅游计划相关,那么完整信息可以包括旅游的旅游方法、时间、距离、成本和食物。
[0050]一个主题内容区域是用户可能想要在例如进行介绍或进行拷贝以填表时选择或高亮显示的输入文档(或显示文档)中的主题内容的区域。主题内容区域可以包括用户想要一次预览的内容,并且可以尽可能得小。主题内容区域不需要是文档中的连续的物理区域。主题内容区域可以是逻辑意义上的区域,其可以由物理上存在的元素构成,物理上存在的元素包括文档中的单词、短语、句子、段落、图片和/或表格。构成的元素可能形成文档中的连续的物理区域,也可能形成文档的不同部分中的分离的物理区域。不管同一主题内容区域中的元素位于文档中的什么地方,这些元素关于同一主题。例如,这些元素可以描述同一关键词(例如“富士山”),或者可以指示应该被关注的重要信息(例如“地震”),或者可以提供关于同一活动的多条比较信息(例如,当选择哪个房屋更适合购买时的信息),或者可以针对关于同一图片或表格的信息。
[0051]根据本发明的实施例,文档中的主题内容区域可以由用户预先定义,从而当文档被使用或显示时,可以自动提取预先定义的主题内容区域。
[0052]例如,在用户进行介绍之前,用户可能选择一些要高亮显示的关键词。当用户进行介绍时,用户可以在这些关键词附近使用手势以使这些关键词被高亮显示。以银行中的使用情
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1