文档片段内容提取方法、装置和系统的制作方法

文档序号:6633943阅读:168来源:国知局
文档片段内容提取方法、装置和系统的制作方法
【专利摘要】一种文档片段内容提取方法、装置和系统,该方法包括:步骤S101,基于HTML标准将文档片段与HTML中的显示标签相映射;步骤S102,对文档片段设置ID属性,对HTML中所有文档内容片段进行标注,所述ID属性用于唯一地标识该片段;步骤S103,建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档;步骤S104,在HTML页面定义文档的片段被点击时,浏览器脚本被触发,根据被点击的片段的ID属性搜索上述HTML页面定义文档以获取片段的内容。本发明实现了通过点击方式提取指定文档片段的内容,将所选取的内容进行拷贝、粘贴等操作。
【专利说明】文档片段内容提取方法、装置和系统

【技术领域】
[0001] 本发明涉及文本交互技术,更具体地,涉及一种文档片段内容提取方法、装置和系 统。

【背景技术】
[0002] 读者在阅读文档和书籍的过程中,会存在与他人沟通和分享的想法,快速内容复 制和提取能帮助读者从文档中选择完整的语义片段来进行阅读分享,例如分享到第三方社 交平台。使用手机、平板电脑等触屏设备进行分享更为广泛。在其他一些必要的场合,还有 对文档中的句子、句段、短语、关键词的鼠标悬停或者打开页面时的高亮显示的操作需求, 也需要能快速准确定位到所需文档片断。当前基于HTML页面的信息内容提取并复制操作 基本都采用手指滑动选取的方式,滑动选取的过程需要选取起始点和终点。由于部分触屏 设备的屏幕分辨率很高,字体也较小,造成手指选取文字的起点和终点的过程非常繁琐,且 技术实现交互控制很复杂。
[0003] 当前互联网页面多采用HTML创建,结构化的描述了文档内容在页面中的显示格 式,例如标题、段落和列表等等,也可以在一定程度上描述文档的外观和语义。但缺乏对文 档内容本身原有逻辑结构的标记信息,如文档块、段落、句子等文档逻辑结构标记。因此对 于基于HTML的页面,无法实现页面中文档内容的基于文档内容逻辑结构进行指定的内容 提取和进一步操作。
[0004] 随着手机和平板应用的普及,大部分阅读系统也采用了HTML技术作为文档的展 现形式,利用互联网的优势,将各种内容片段关联起来是提高阅读体验的重要渠道。


【发明内容】

[0005] 基于现有技术中存在的问题,本发明提出一种文档片段内容提取方法、装置和系 统。该方法在HTML标准的基础上,提出了一种文档内容片段(如文档块、标题、段落、句子) 标注方法,形成本发明中的标记语言规范,且通过系统可以自动将页面中文档内容按照标 记规范进行内容整理,生成带有交互功能的HTML页面定义文档。进而能够实现任意文档逻 辑结构片段的自动选择高亮和内容提取。
[0006] 本发明的文档片段内容提取方法,包括:步骤S101,基于HTML标准将文档内容的 片段与HTML中的显示标签相映射;步骤S102,对文档的片段设置ID属性,用所述ID属性 对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段;步骤S103,建立 实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交 互功能的HTML页面定义文档;步骤S104,文档的片段被点击时,浏览器脚本被触发,根据被 点击的片段的ID属性搜索所述HTML页面定义文档以获取片段的内容。
[0007] 本发明还提出一种文档片段内容提取装置,包括:映射模块:其设置所述文档的 片段的逻辑结构,并将所述逻辑结构与HTML中的显示标签相映射,其中文档中的片段的逻 辑结构包括:块、标题、段落、句子、短语、关键词和图片,所述块用于标识文档中的层次结 构;标注模块,其对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行 标注,所述ID属性用于唯一地标识该片段;文档交互和生成模块,其建立实现设备屏幕点 击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页 面定义文档;提取模块,其在浏览器脚本被触发后,首先确定意图提取的片段类型,然后根 据该片段类型对应的ID属性搜索所述HTML页面定义文档,获取所述ID属性标识的片段的 内容。
[0008] 本发明还提出一种文档片段内容提取系统,包括:映射模块:其基于HTML标准将 文档内容的片段与HTML中的显示标签相映射;标注模块,其对文档的片段设置ID属性,用 所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段;文 档交互和生成模块,其建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面 时关联该脚本,成为带有交互功能的HTML页面定义文档;请求模块,其在文档的片段被点 击时,浏览器脚本被触发,浏览器脚本提取点击片段的ID属性,基于所述ID属性向内容服 务器发送一个请求;内容服务器,其根据该ID属性查询对应的标签内容,并返回该文档内 容;提取模块,其接收内容服务器返回对应该ID属性的数据内容,从而实现文档片段内容 的提取。
[0009] 本发明将文档的内容分解片段与HTML映射模型相结合,并在生成HTML页面时关 联该脚本,成为带有交互功能的HTML页面定义文档。
[0010] 进一步,与现有技术相比,1)由于HTML文档仅能实现文档的显示方案,无法对应 文档内容的逻辑结构,不能直接表达文档内容的逻辑结构关系和内容片段类型(标题、段 落,句子,短语词等),所以本发明在HTML文档中实现了将自然文档的内容逻辑结构复原的 标注手段,并实现了HTML显示形态到原始文档片段及逻辑结构的映射。从而解决了HTML 中文档片段的内容完整性标注的问题。2)内容的选择不再依赖于手指和鼠标的滑动,极大 提1?内容选择和复制的效率。
[0011] 进一步,本发明提出的技术方案还提供三种应用形式:1)向公共社交平台分享内 容片段及评论。内容的提取不再通过手指滑动选择,而是由屏幕(包括触摸屏)点击事件, 自动完成内容的提取,如:段落、句子、图片等。2)通过内容服务器,可以随时验证用户的访 问和数据提取权限,并可以根据用户访问的文档片段进行相关的操作,如:相关内容检索, 片段评论等功能。

【专利附图】

【附图说明】
[0012] 图1为本发明方法的一个实施方式的流程图;
[0013] 图2为本发明方法的又一个实施方式的流程图;
[0014] 图3为本发明的标注后的文档的内容数据结构图;
[0015] 图4为文档页面显示图效果图;
[0016] 图5为桌面WEB浏览器控台调试输出的内容选择情况的示例;
[0017] 图6为本发明方法的又一个实施方式的流程图;
[0018] 图7为本发明方法的又一个实施方式的流程图;
[0019] 图8为本发明装置的结构模块图;
[0020] 图9为本发明系统的结构模块图。

【具体实施方式】
[0021] 本发明的目的是为了实现:基于屏幕点击(含触屏)实现文档片段内容的快速提 取,从而可以进一步进行复制到其他应用中。本发明是基于在HTML规范基础之上映射文档 内容逻辑结构关系来实现对文档内容结构及其有效内容的范围标注,以及可选地,通过内 容服务器来实现关于文档片段的内容片段的相关功能服务。
[0022] 第一实施方式(单一文档片段类型)
[0023] 图1显示了本发明的方法的流程图。
[0024] 在步骤S101,基于HTML标准将文档内容的片段与HTML中的显示标签相映射。
[0025] 例如,当设定文档的片段为一段落时,可以设定如下映射关系:
[0026]

【权利要求】
1. 一种文档片段内容提取方法,其特征在于,包括: 步骤S101,基于HTML标准将文档内容的片段与HTML中的显示标签相映射; 步骤S102,对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行 标注,所述ID属性用于唯一地标识该片段; 步骤S103,建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联 该脚本,生成带有交互功能的HTML页面定义文档; 步骤S104, HTML页面定义文档的片段被点击时,浏览器脚本被触发,根据被点击的片 段的ID属性搜索所述HTML页面定义文档以获取片段的内容。
2. -种文档片段内容提取方法,其特征在于,包括: 步骤S101,设置所述文档的片段的逻辑结构,并将所述逻辑结构与HTML中的显示标签 相映射,其中文档中的片段的逻辑结构包括:块、标题、段落、句子、短语、关键词和图片,所 述块用于标识文档中的层次结构; 步骤S102,对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行 标注,所述ID属性用于唯一地标识该片段; 步骤S103,建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联 该脚本,生成带有交互功能的HTML页面定义文档; 步骤S104,浏览器脚本被触发后,首先确定待提取的片段类型,然后根据该片段类型对 应的ID属性搜索所述HTML页面定义文档,获取所述ID属性标识的片段的内容。
3. -种文档片段内容提取方法,其特征在于,包括: 步骤S101,基于HTML标准将文档内容的片段与HTML中的显示标签相映射; 步骤S102,对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行 标注,所述ID属性用于唯一地标识该片段; 步骤S103,建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联 该脚本,生成带有交互功能的HTML页面定义文档; 步骤S104, HTML页面定义文档的片段被点击时,浏览器脚本被触发,浏览器脚本提取 点击片段的ID属性,基于所述ID属性向内容服务器发送一个请求; 步骤S105,浏览器脚本接收内容服务器返回的对应该ID属性的数据内容,从而实现文 档片段内容的提取。
4. 一种文档片段内容提取方法,其特征在于,包括: 步骤S101,设置所述文档的片段的逻辑结构,并将所述逻辑结构与HTML中的显示标签 相映射,其中文档中的片段的逻辑结构包括:块、标题、段落、句子、短语、关键词和图片,所 述块用于标识文档中的层次结构; 步骤S102中,对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进 行标注,所述ID属性用于唯一地标识该片段; 步骤S603,建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联 该脚本,生成带有交互功能的HTML页面定义文档; 步骤S104中,浏览器脚本被触发后,首先确定待提取的片段类型,然后提取点击片段 的ID属性,基于所述ID属性向内容服务器发送一个请求; 步骤S605,浏览器脚本接收内容服务器返回的对应该ID属性的数据内容,从而实现文 档片段内容的提取。
5. 根据权利要求1-4中任一项所述的文档片段内容提取方法,其特征在于,所述片段 为段落、图片、标题或句子,所述ID属性为超出HTML标签属性集之外的文档逻辑结构属性, 所述ID属性包括:片段名称、片段类型和片段序列号。
6. 根据权利要求2或4所述的文档片段内容提取方法,其特征在于,在步骤104中,通 过在所述HTML定义文档上弹出包括多种片段类型的菜单来确定待提取的片段类型。
7. 根据权利要求2或4所述的文档片段内容提取方法,其特征在于,在步骤S104中,在 内容服务器端,内容服务器根据该ID属性查询对应的标签内容,并返回该文档片段内容。
8. 根据权利要求1-4中任一项所述的文档片段内容提取方法,其特征在于,还包括:通 过设备中的API接口将提取的内容复制到设备剪贴板,或者,通过社交网络平台提供的SDK 开发接口,将提取的内容片段发送至社交网络分享平台。
9. 根据权利要求1-4中任一项所述的文档片段内容提取方法,其特征在于,还包括:按 照出版物的结构目录将所述HTML页面定义文档打包生成ePub电子阅读格式。
10. -种文档片段内容提取装置,其特征在于,包括: 映射模块:其基于HTML标准将文档内容的片段与HTML中的显示标签相映射; 标注模块,其对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进 行标注,所述ID属性用于唯一地标识该片段; 文档交互和生成模块,其建立实现设备屏幕点击事件触发的浏览器脚本,并在生成 HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档; 提取模块,其在文档片段被点击时触发所述浏览器脚本,根据被点击的片段的ID属性 搜索所述HTML页面定义文档以获取片段的内容。
11. 一种文档片段内容提取装置,其特征在于,包括: 映射模块:其设置所述文档的片段的逻辑结构,并将所述逻辑结构与HTML中的显示标 签相映射,其中文档中的片段的逻辑结构包括:块、标题、段落、句子、短语、关键词和图片, 所述块用于标识文档中的层次结构; 标注模块,其对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进 行标注,所述ID属性用于唯一地标识该片段; 文档交互和生成模块,其建立实现设备屏幕点击事件触发的浏览器脚本,并在生成 HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档; 提取模块,其在浏览器脚本被触发后,首先确定待提取的片段类型,然后根据该片段类 型对应的ID属性搜索所述HTML页面定义文档,获取所述ID属性标识的片段的内容。
12. -种文档片段内容提取系统,其特征在于,包括: 映射模块:其基于HTML标准将文档内容的片段与HTML中的显示标签相映射; 标注模块,其对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进 行标注,所述ID属性用于唯一地标识该片段; 文档交互和生成模块,其建立实现设备屏幕点击事件触发的浏览器脚本,并在生成 HTML页面时关联该脚本,成为带有交互功能的HTML页面定义文档; 请求模块,其在文档的片段被点击时,浏览器脚本被触发,浏览器脚本提取点击片段的 ID属性,基于所述ID属性向内容服务器发送一个请求; 内容服务器,其根据该ID属性查询对应的标签内容,并返回该文档内容; 提取模块,其接收内容服务器返回对应该ID属性的数据内容,从而实现文档片段内容 的提取。
13. -种文档片段内容提取系统,其特征在于,包括: 映射模块:设置所述文档的片段的逻辑结构,并将所述逻辑结构与HTML中的显示标签 相映射,其中文档中的片段的逻辑结构包括:块、标题、段落、句子、短语、关键词和图片,所 述块用于标识文档中的层次结构; 标注模块,其对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进 行标注,所述ID属性用于唯一地标识该片段; 文档交互和生成模块,其建立实现设备屏幕点击事件触发的浏览器脚本,并在生成 HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档; 请求模块,其在文档的片段被点击时,触发浏览器脚本,确定待提取的片段类型,根据 该片段类型对应的ID属性向内容服务器发送一个请求; 内容服务器,其根据该ID属性递归遍历该ID属性对应的片段下所有子片段,并将子片 段的显示文本内容拼接起来,得到所选择片段的内容,并返回该内容; 提取模块,其接收内容服务器返回对应该ID属性的内容,从而实现文档片段内容的提 取。
14. 根据权利要求10-13中任一项所述的文档片段内容提取装置或系统,其特征在于, 所述片段为段落、图片、标题或句子,所述ID属性为超出HTML标签属性集之外的文档逻辑 结构属性,所述ID属性包括:片段名称、片段类型和片段序列号。
15. 根据权利要求11或13所述的文档片段内容提取装置或系统,其特征在于,所述提 取模块被配置为通过在所述HTML定义文档上弹出包括多种片段类型的菜单来确定待提取 的片段类型。
16. 根据权利要求10-13中任一项所述的文档片段内容提取装置或系统,其特征在于, 还包括:分享模块,其通过设备中的API接口将提取的内容复制到设备剪贴板,或者,通过 社交网络平台提供的SDK开发接口,将提取的内容片段发送至社交网络分享平台。
17. 根据权利要求10-13中任一项所述的文档片段内容提取装置或系统,其特征在于, 还包括:ePub电子书生成模块,其按照出版物的结构目录将所述HTML页面定义文档打包生 成ePub电子阅读格式。
【文档编号】G06F3/0488GK104317949SQ201410638232
【公开日】2015年1月28日 申请日期:2014年11月6日 优先权日:2014年11月6日
【发明者】张达辉, 罗秀春 申请人:北京德塔普博软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1