一种基于用户计算机终端的桌面信息采集系统及采集方法

文档序号:6363950阅读:197来源:国知局
专利名称:一种基于用户计算机终端的桌面信息采集系统及采集方法
技术领域
本发明涉及一种基于用户计算机终端的桌面信息采集系统及采集方法。
背景技术
随着信息化应用的不断扩展和互联网服务的不断普及,用户通过个人计算机终端所能接触和处理的信息内容也越来越丰富。从本地文档到互联网网页,从文字到图片乃至多媒体资源,海量而又庞杂的信息内容给用户对自己所感兴趣内容进行收集、保存、展现和再利用带来了很多困难。当前,用户通过个人计算机终端对自己感兴趣的信息内容进行收集的方式主要包括I、直接保存整个网页页面;2、直接拷贝整个文档文件;3、复制文档、网页或其它数字内容载体中的内容(包括文字片段、图、表、超链接等)并保存到某个电子文档或电子文件中;4、通过屏幕截图工具对信息内容进行截取并保存为图片。上述这些常用的用户个人计算机终端桌面信息采集方式都存在着一些问题。对于第I种和第2种采集方式,用户需要保存整个内容的全文信息,而用户感兴趣的往往只是其中的某一部分内容甚至只是某些文字片段。这样保存下来的全文信息会带来过多的信息干扰,无法体现直接有效地信息内容;对于第3种方式,虽然用户可以选择自己感兴趣的内容进行保存,但无法直接保存内容来源信息,用户无法通过已保存内容去追溯原文从而获得更多信息,而如果要对内容来源信息进行保存,则在操作会比较复杂耗时;对于第4种方式,将内容截取为图片进行保存,则在后续的内容利用(如文字拷贝、检索等)等方面带来很多不便,同时也存在着第3种方式的不足。

发明内容
本发明需要解决的技术问题就在于克服现有技术的缺陷,提供一种基于用户计算机终端的桌面信息采集系统及采集方法,它能够很好地实现用户在浏览网页或文档过程中方便快捷地对自己所感兴趣的信息进行采集,并对采集内容提供统一存储格式和文件。本发明对用户进行个人知识收藏、管理和利用提供很好地帮助。为解决上述问题,本发明采用如下技术方案本发明提供了一种基于用户计算机终端的桌面信息采集系统,所述桌面信息采集系统由鼠标右键内各摘抄功能采单、内各摘抄ネ旲块、内各存储ネ旲块、以及保存在本地目录中的XML文件四部分构成,其中鼠标右键内容摘抄功能菜单提供用户执行内容摘抄功能的菜单项; 内容摘抄模块负责对选取内容及其来源信息进行读取;内容存储模块将内容摘抄模块所读取到的内容和来源信息存储到本地XML文件中;最終得到一个记录了该用户全部摘抄信息的XML文件,方便用户检索、查看和更好地利用自己的摘抄信息。鼠标右键内容摘抄功能菜单为用户提供了执行内容摘抄功能的菜单项,当用户在网页或文档中用鼠标选中的内容,包括文字片段、图片、表格、超链接,点击鼠标右键,在弹出的右键菜单中找到“内容摘抄”菜单项,通过点击该菜单项,就可以执行内容摘抄方法。鼠标右键内容摘抄功能菜单针对网页内容和Microsoft Office文档内容采用不同的实现方式(I)对于网页内容摘抄,右键功能项是通过设置Windows注册表,为IE浏览器右键菜单添加ー个跟内容摘抄相关的菜单项,使用户可以对选中内容执行摘抄动作,该菜单项是通过访问Windows注册 表进行添加;(2)对于Microsoft Off ice文档内容摘抄,右键功能项是通过vba脚本语言,在 Microsoft Office文档中增加右键菜单项,该菜单项与(I)中所述的右键菜单项实现相同效果。针对不同的内容载体类型,内容摘抄模块分为网页内容摘抄子模块、MicrosoftOffice文档内容摘抄子模块ニ个部分,针对不同的内容载体类型,提供了相应的内容摘抄功能。网页内容摘抄子模块,具体实现方式包括(i)设置ー个用户本地的HTML文件,此文件定义了从网页上接收摘抄请求的javascript方法,该javascript方法能够读取到正在浏览网页中的相关内容,包括用户在页面中用鼠标选中的内容,包括文字片段、图片、表格、超链接、该网页标题以及该网页URL地址,同时通过该javascript方法还可以取得当前系统时间信息;(ii)用户通过鼠标右键内容摘抄功能菜单,可以执行⑴中所述的javascript方法,将需要的内容进行读取,然后通过该方法将这些内容提交给内容存储模块;对Microsoft Office文档内容摘抄子模块,具体实现方式包括(i)定义vba脚本语言方法,该vba脚本语言方法能够取得Microsoft Office文档中用鼠标选中的内容,包括文字片段、图片、表格、超链接,同时读取该内容所在文档的标题和文件路径,并将取得的内容发送到下述(ii)中定义的HTML文件;(ii)设置ー个用户本地的HTML文件,此文件定义了接收(i)中vba脚本所发送内容的javascript方法,同时通过该javascript方法还可以取得当前系统时间信息;(iii)用户通过I中所描述的鼠标右键内容摘抄功能菜单,可以执行⑴中所述的vba脚本语言方法,将需要的内容进行读取,读取完毕后,将触发(ii)中所述的javascript方法,接收vba脚本所发送内容,并读取当前系统时间信息,最后通过该javascript方法将这些内容提交给内容存储模块。内容存储模块接收内容摘抄模块发送过来的全部内容信息,并将这些信息根据固定的格式写入ー个XML文件中,写入完毕后,对该文件进行保存,该XML文件用于保存该用户所有的摘抄信息;内容存储模块包括两个子模块XML文件创建子模块和XML文件写入子模块;(I)XML文件创建子模块用户在第一次使用内容摘抄功能时,本子模块为会用户创建ー个新的XML文件,该XML文件的文件名和存储路径由系统进行预定义; (2) XML文件写入子模块XML文件创建完成后或该XML已经存在的情况下,XML文件写入子模块将接收到的全部内容信息以固定格式写入该XML文件中,写入完毕后,保存该XML文件;本方法使如下格式写入XML文件
权利要求
1.一种基于用户计算机终端的桌面信息采集系统,其特征在于,所述桌面信息采集系统由鼠标右键内容摘抄功能菜单、内容摘抄模块、内容存储模块、以及保存在本地目录中的XML文件四部分构成,其中 鼠标右键内容摘抄功能菜单提供用户执行内容摘抄功能的菜单项; 内容摘抄模块负责对选取内容及其来源信息进行读取; 内容存储模块将内容摘抄模块所读取到的内容和来源信息存储到本地XML文件中; 最终得到一个记录了该用户全部摘抄信息的XML文件,方便用户检索、查看和更好地利用自己的摘抄信息。
2.如权利要求I所述的基于用户计算机终端的桌面信息采集系统,其特征在于,鼠标右键内容摘抄功能菜单为用户提供了执行内容摘抄功能的菜单项,当用户在网页或文档中用鼠标选中的内容,包括文字片段、图片、表格、超链接,点击鼠标右键,在弹出的右键菜单中找到“内容摘抄”菜单项,通过点击该菜单项,就可以执行内容摘抄方法。
3.如权利要求2所述的基于用户计算机终端的桌面信息采集系统,其特征在于,鼠标右键内容摘抄功能菜单针对网页内容和Microsoft Office文档内容采用不同的实现方式 (1)对于网页内容摘抄,右键功能项是通过设置Windows注册表,为IE浏览器右键菜单添加一个跟内容摘抄相关的菜单项,使用户可以对选中内容执行摘抄动作,该菜单项是通过访问Windows注册表进行添加; (2)对于MicrosoftOff ice文档内容摘抄,右键功能项是通过vba脚本语言,在Microsoft Office文档中增加右键菜单项,该菜单项与(I)中所述的右键菜单项实现相同效果。
4.如权利要求3所述的基于用户计算机终端的桌面信息采集系统,其特征在于 针对不同的内容载体类型,内容摘抄模块分为网页内容摘抄子模块、Mi crosof tOffice文档内容摘抄子模块二个部分,针对不同的内容载体类型,提供了相应的内容摘抄功能。
5.如权利要求4所述的基于用户计算机终端的桌面信息采集系统,其特征在于 网页内容摘抄子模块,具体实现方式包括 (i)设置一个用户本地的HTML文件,此文件定义了从网页上接收摘抄请求的javascript方法,该javascript方法能够读取到正在浏览网页中的相关内容,包括用户在页面中用鼠标选中的内容,包括文字片段、图片、表格、超链接、该网页标题以及该网页URL地址,同时通过该javascript方法还可以取得当前系统时间信息; (ii)用户通过鼠标右键内容摘抄功能菜单,可以执行Q)中所述的javascript方法,将需要的内容进行读取,然后通过该方法将这些内容提交给内容存储模块。
6.如权利要求4所述的基于用户计算机终端的桌面信息采集系统,其特征在于 对Microsoft Office文档内容摘抄子模块,具体实现方式包括 (i)定义vba脚本语言方法,该vba脚本语言方法能够取得MicrosoftOffice文档中用鼠标选中的内容,包括文字片段、图片、表格、超链接,同时读取该内容所在文档的标题和文件路径,并将取得的内容发送到下述(ii)中定义的HTML文件; (ii)设置一个用户本地的HTML文件,此文件定义了接收(i)中vba脚本所发送内容的javascript方法,同时通过该javascript方法还可以取得当前系统时间信息; (iii)用户通过I中所描述的鼠标右键内容摘抄功能菜单,可以执行⑴中所述的vba脚本语言方法,将需要的内容进行读取,读取完毕后,将触发(ii)中所述的javascript方法,接收vba脚本所发送内容,并读取当前系统时间信息,最后通过该javascript方法将这些内容提交给内容存储模块。
7.如权利要求1-6之任一所述的基于用户计算机终端的桌面信息采集系统,其特征在于 内容存储模块接收内容摘抄模块发送过来的全部内容信息,并将这些信息根据固定的 格式写入一个XML文件中,写入完毕后,对该文件进行保存,该XML文件用于保存该用户所有的摘抄信息; 内容存储模块包括两个子模块=XML文件创建子模块和XML文件写入子模块; (1)XML文件创建子模块用户在第一次使用内容摘抄功能时,本子模块为会用户创建一个新的XML文件,该XML文件的文件名和存储路径由系统进行预定义; (2)XML文件写入子模块XML文件创建完成后或该XML已经存在的情况下,XML文件写入子模块将接收到的全部内容信息以固定格式写入该XML文件中,写入完毕后,保存该XML文件; 本方法使如下格式写入XML文件 <Digest id=""><url> </url> 〈title〉</title> <content> </content> 〈/Digest〉 上述〈DigestX/Digest〉之间表示一篇摘抄内容,其中 (i)id表示该摘抄内容的辨识代码,通过对执行摘抄动作时读取的系统时间进行编码自动生成一串数字;因此,该id还可以记录摘抄时间,用户在查看该摘抄内容时,通过id可以转换成时间格式进行显示; (ii)<url></url>之间写入该摘抄内容所在网页的URL地址或者该摘抄内容所在文档的文件路径和文件名称; (iii)〈title>〈/title>之间写入该摘抄内容所在网页标题和网站名称或者该摘抄内容所在文档标题; (iv)〈contentX/content〉之间写入具体摘抄内容; 更多地摘抄内容则重复〈DigestX/Digest〉格式要求,按id号在XML文件中顺序往下与。
8.如权利要求7所述的基于用户计算机终端的桌面信息采集系统,其特征在于 通过内容存储模块,得到了一个记录了该用户全部摘抄内容的XML文件,这个文件的文件名和保存路径是由系统进行预定义,保存用户摘抄内容的XML文件,用户可以使用这个XML文件对摘抄内容进行查看、管理、检索、共享和更多的利用服务。
9.一种基于用户计算机终端的桌面信息采集方法,其特征在于,所述方法包括下列步骤 1)、用户在计算机终端进行网页或文档阅读时,发现其感兴趣的内容信息(包括文字片段、图片、表格、超链接)后,用鼠标选中该内容; 2)、用户对选中的内容执行内容摘抄操作; 3)、用户执行内容摘抄操作后,触发内容摘抄功能,该功能分为两部分 (1)执行对用户选中内容的读取,该功能将用户从网页、文档中选中的文字片段、图片、表格、超链接等信息进行读取; (2)执行对内容来源信息的读取,该功能将用户选中的内容来源信息进行读取; 4)、接收内容信息,将已读取完毕的用户摘抄内容信息,包括内容来源信息发送给内容存储模块,内容存储模块接收这些内容信息,触发内容存储功能; 触发内容存储功能时,需要对是否已存在保存该用户摘抄内容的XML文件进行判断,如果不存在这个XML文件,则触发XML文件创建功能,即根据预定义的文件名和文件路径创建一个新的XML文件; 5)、执行XML文件写入,将接收到内容信息按照固定格式写入指定文件名和文件路径的XML文件中,该XML文件用于保存该用户所有的摘抄内容信息; 6)、保存XML文件,内容信息写入XML文件完毕后,执行保存操作,完成该XML文件的保存,用户可以通过支持XML标准的程序来读取这个XML文件并进行内容查看、管理和检索等操作。
10.如权利要求9所述的基于用户计算机终端的桌面信息采集方法,其特征在于,内容来源信息的读取步骤, (i)针对网页内容,内容来源信息包括内容来源的网站、内容所在的页面标题、URL地址以及内容摘抄时间。
( )针对文档内容,内容来源信息包括内容来源的文件名、存储路径标题、所在文档页码数以及内容摘抄时间。
全文摘要
本发明公开了一种基于用户计算机终端的桌面信息采集系统及采集方法,由鼠标右键内容摘抄功能菜单、内容摘抄模块、内容存储模块、以及保存在本地目录中的XML文件构成,鼠标右键内容摘抄功能菜单提供用户执行内容摘抄功能的菜单项;内容摘抄模块负责对选取内容及其来源信息进行读取;内容存储模块将内容摘抄模块所读取到的内容和来源信息存储到本地XML文件中;方便用户检索、查看和更好地利用自己的摘抄信息。本发明能够很好地实现用户在浏览网页或文档过程中方便快捷地对自己所感兴趣的信息进行采集,并对采集内容提供统一存储格式和文件。本发明对用户进行个人知识收藏、管理和利用提供很好地帮助。
文档编号G06F17/30GK102651016SQ201210089860
公开日2012年8月29日 申请日期2012年3月30日 优先权日2012年3月30日
发明者尹科 申请人:北京英富森信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1