基于文本片断的计算机汉字知识库采集系统的制作方法

文档序号:6572378阅读:193来源:国知局
专利名称:基于文本片断的计算机汉字知识库采集系统的制作方法
技术领域
本发明涉及计算机信息采集系统,特别涉及基于文本片断的计算机汉字 知识库采集系统。
背景技术
我们的生活和工作中产生了大量的汉字信息,并已经转换成计算机能认 识的格式,存储在计算机硬盘上。为了方便利用这些计算机汉字信息,人们 建立了知识库,存储在计算机硬盘上。构建这些在计算机硬盘上的知识库一
般有两种方式 一种是建立精确的知识描述,如"玫瑰是红色的",由人手通 过键盘和鼠标来输入这些描述,典型的例子是专家系统;另一种是建立文本 的存储和关键字搜索体系,关键字间的关联以及关键字与文本之间的关联则 隐含了知识,借助用户的少量帮助,系统可以自动对散布在各处的文本进行 存档、归类和提取关键字,典型的例子包括Expert System的COGITO, Connotate的Information Agents,等等,而Google,百度等搜索引擎也提供 了部分的类似功能,但知识库和关键字的精确度则低了许多。
第一种方式虽然能建立准确的知识库,但需要大量的人力来输入和验 证,因此知识库进展缓慢。第二种方式能在短时间建立起知识库,但知识库 质量不高,搜索结果还是需要最终用户来筛选。由于企业信息化产生了大量 文本,企业投入了大量资金和精力建立了庞大的文本库,使得第二种方式应 用极为广泛。当文本库增长到一定程度,关键字搜索的弊端就开始显示出来。 因为搜索返回的结果太多,真正的知识被隐藏在成千上万的文本之中,致使 最终用户的筛选工作非常困难。

发明内容
本发明所要解决的技术问题有两个首先,计算机汉字信息转换录入知 识库的人工要少,最好在人们正常收集汉字信息的基础上不增加人力,而且 不需要专门学习,即技术上要解决与现有的用户生成和收集计算机汉字信息 同步的问题;其次,用户在生成和收集计算机汉字信息时所隐含的知识要保 留下来,即在技术上需要将知识与计算机汉字信息一起存储在计算机硬盘 上。
本发明的目的是通过以下技术方案实现的 一种基于文本片断的计算机汉字知识库采集系统,包括-文本片断数据库,保存至少一个文本片断记录,所述文本片断记录包括
文本片断所在文本的位置以及文本片断在文本中的位置;
讨论适配器,包括一个发送/接收单元,用于接收第三方系统的信息以及 向第三方系统发送信息,以及一个格式转换单元,将讨论数据库中的内部格
式与第三方系统的信息格式互相转换;
讨论数据库,存储经过格式转换单元转换格式后的信息;
知识数据库,用存储预先定义的连接词来定义文本片断之间的关系,以
及该关系特有的属性。
其中,所述的文本片断为文字型文本片断、图片型文本片断和/或多媒体
文本片断。
所述文字型文本片断的记录包括所述文本的位置,以及所述文本片断文 字行号的范围、字词的范围或段落的范围;所述图片型文本片断的记录包括 图片文件的位置,以及所述文本片断所表示的截图的范围坐标;所述多媒体 文本片断的记录包括该多媒体文件的位置,以及文本片断的起始和结束时 间。
在文本片断数据库中,利用网络地址URL指明文本片断所在文本的位置。所述第三方系统为外部的论坛系统、电子邮件系统或即时通讯系统。 所述内部格式有如下组成部分本讨论标题,本讨论作者,本讨论收件
人,本讨论时间,本讨论内容,本讨论针对的文本片断,对本讨论针对的文
本片断的问题或解答。
所述知识数据库的记录包括源文本片断、目标文本片断、连接词以及属
性信息,其中文本片断是文本片断数据库记录的文本片断。知识库中记载的
文本片断为该片断在文本片断库中的独特编号,无须复制该片断的全部内容。
本发明的积极进步效果在于把计算机汉字信息产生时附带的知识予以 保存,大大节省了日后检索知识库所耗费的时间,能明显提高企事业单位对 专业知识的使用,从而节省产品研发、客户服务和决策等的成本。


图l为本发明一实施例的示意图。
具体实施例方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
首先,每个文本可以分成很多片断。 一个典型的片断就是"第23行到 28行"。而在文本以及文本片断之间,存在逻辑关系。建立文本片断之间的 关系,不管这些片断是来自同一个文件还是不同的文件。例如,"文本A的 第二个片断""解释""文本K的第12个片断"。每个关系包括:源文本片断, 目的文本片断、连接词以及该关系所具有的属性。
本发明用线索化的讨论来建立这些连接。线索化的讨论可以是在论坛、 电子邮件、即时通讯等第三方系统中进行。
系统预先定义一些连接词,例如,"证明","符合"。 一个用户可以选取 他所关心的文本片断,通过键盘、鼠标,或者手机输入,作为讨论主题来发 起线索化的讨论。其他用户同样通过键盘、鼠标或手机输入对该主题的回复,就构成了一个"线索"。回复中可以随意选取其他文本片断,并加上预定义 的连接词。例如, 一个用户可以对"研发项目计划"的"预算"部分提出疑 问,而另一位用户可以回复,指出该预算"符合""公司年度预算"的"研 发部门"部分。用户之间这个发问和回复过程所建立的文本片断之间的连接, 会被保存到知识库中。
根据上述原理,本发明提供一种基于文本片断的计算机汉字知识库采集 系统,包括有
文本片断数据库100,保存至少一个文本片断记录,所述文本片断记录 包括文本片断所在文本的位置以及文本片断在文本中的位置,利用网络地址
URL指明文本片断所在文本的位置,或者其它可以指明该文本位置的索引。 文本片断数据库100不保存该文本或该文本片断的实际内容。
其中,所述的文本片断可以是文字型文本片断、图片型文本片断和/或多 媒体文本片断。
对于文字型文本片断,记录中包括所述文本的位置,以及所述文本片断 文字行号的范围、字词的范围或段落的范围,例如,100行到123行,字100 到234,或第4段,范围也可以用搜索标记来表示,例如,某文本片断的开 头是"信息技术"在文中的第三次出现。文字型文本包含的图片和表格就是 用搜索标记表示的,例如,第3张图片,或第10个表格。
对于图片型文本片断,记录包括图片文件的位置,以及所述文本片断所 表示的截图的范围坐标,例如,图片本身的大小是400x300, 一个图片片断 就是包含在该图片的一个小窗口,相对于图片,左上角的坐标为(120, 30), 右下角的坐标为(200, 200),所以该片断用(120, 30, 200, 200)表示。
而对于多媒体文本片断,记录则包括该多媒体文件的位置,以及文本片 断的起始和结束时间,例如, 一个DVD电影的第12分20秒到15分11秒, 就用(12:20, 15:11)来表示。
以及,讨论适配器200,包括发送/接收单元,用于接收第三方系统600 的信息以及向第三方系统600发送信息;格式转换单元,将讨论数据库中的内部格式与第三方系统600的信息格式互相转换。所述第三方系统600为外 部的论坛系统、电子邮件系统或即时通讯系统。
线索化讨论可以有不同的格式。例如,用户可以在论坛中发帖,通过电 子邮件讨论,还能通过及时通讯来交流。这些讨论用统一内部格式形成数据 库存储在服务器硬盘上。
内部格式有如下组成部分本讨论标题,本讨论作者,本讨论收件人, 本讨论时间,本讨论内容,本讨论针对的文本片断,对本讨论针对的文本片 断的问题或解答。
格式转换单元把这些不同的讨论格式转换成内部格式,以便存在讨论数 据库300的硬盘上。例如,电子邮件的主题、作者、收件人、时间、内容、 附件,被转换为内部数据的标题、作者、收件人、时间、内容、文本片断(由 附件转换而来)、针对文本片断的问题或解答(由解析内容和附件得到)。格 式转换的过程可使用现有技术完成。
发送/接收单元,从上述的各种第三方系统获取信息,传给该格式转换单 元进行转换,以及将从讨论数据库中取出的数据并发送到论坛、电子邮件和 及时通讯中去,在发送之前,数据格式已经被所述格式转换单元转换成相应 的第三方系统的信息格式。
讨论数据库300用于存储经过格式转换单元转换格式后的信息;
为了存储文本片断的关系,本系统还设有知识数据库400,用存储预先 定义的连接词来定义文本片断之间的关系,以及该关系特有的属性。每条记 录包括原文本片断、目标文本片断、连接词以及属性信息,其中文本片断是 讨论数据库记录的文本片断。知识库中记载的文本片断为该片断在文本片断 库中的独特编号,无须复制该片断的全部内容。如表l所示源文本片断目标文本片断连 接词属性
"项目计划"的"预算""2007年公司预算"的"研发预 算""符合""数值上低 于,,
"常见网络问题"的"第 12条""万路公司用户手册"的"第200 页""解决方 法是"
表1
上述第一条记录中,原文本片断是"项目计划"这个文本中的片断——
"预算",而目标文本片断是"2007年公司预算"这个文本中的片断——"研 发预算",这两个片断之间的逻辑关系通过预先设定的连接词"符合"表达, 而这个关系具有特定的属性,即项目计划的预算是"数值上低于"2007年公 司预算中的研发预算。
如图1所示,本系统可以设定在一个系统服务器500上,客户端700通 过计算机网络访问和使用本系统。客户端700运行用户界面程序,可以是包 括键盘、鼠标和显示器的计算机,或者移动电脑终端,以及手机。用户可以 用客户端选择文本和片断,参与线索化的讨论。客户端700通过计算机网络 与运行文本片断库、讨论数据库、讨论适配器和知识库的系统服务器500通 讯。
本系统使用过程中还需要其它用于支持本系统运行的部分,如用户登录 系统等用户界面,存取和操作数据库信息的程序等,这些部分可以采用现有 技术。
下面以表l中第二条记录为例,说明使用通过本系统的过程。 用户甲登陆到系统并选择"常见网络问题",在其使用的第一客户端显 示该文本,并让甲选择文本片断。甲选择该文本的第12条,写下求助的话, "谁能解决这个问题?",通过其使用的第一客户端在论坛发表,并且生成 一个新的线索化讨论的记录,包含该文本片断和用户的问题等,存储在讨论 数据库300和文本片断库100中,然后通过讨论适配器200把该讨论发到论坛上。
用户乙登陆到论坛见到该讨论,选择"万路公司用户手册",其所使用
的第二客户端显示该文本,并让乙选择文本片断。乙选择该文本的第200页。 在第二客户端显示所有的连接词。乙选择"解决方法是",并写下"这样做
就可以了,我也碰到过这个问题",更新该线索化讨论的记录,包含乙选择 的文本片断、连接词和乙的回复,存储在讨论数据库300和文本片断库100 中,然后通过讨论适配器200把该讨论发到论坛上。
用户乙所推荐的连接,即"常见网络问题"的"第12条","解决方法 是","万路公司用户手册"的"第200页",同时也被存入知识数据库400 之中。
权利要求
1、 一种基于文本片断的计算机汉字知识库采集系统,其特征在于,该系统包括文本片断数据库,保存至少一个文本片断记录,所述文本片断记录包括文本片断所在文本的位置以及文本片断在文本中的位置;讨论适配器,包括一个发送/接收单元,用于接收第三方系统的信息以及向第三方系统发送信息,以及一个格式转换单元,将讨论数据库中的内部格式与第三方系统的信息格式互相转换;讨论数据库,存储经过格式转换单元转换格式后的信息;知识数据库,用存储预先定义的连接词来定义文本片断之间的关系,以及该关系特有的属性。
2、 根据权利要求1所述的基于文本片断的计算机汉字知识库采集系统, 其特征在于,所述的文本片断为文字型文本片断、图片型文本片断和/或多媒 体文本片断。
3、 根据权利要求2所述的基于文本片断的计算机汉字知识库采集系统, 其特征在于,所述文字型文本片断的记录包括所述文本的位置,以及所述文 本片断文字行号的范围、字词的范围或段落的范围;所述图片型文本片断的 记录包括图片文件的位置,以及所述文本片断所表示的截图的范围坐标;所 述多媒体文本片断的记录包括该多媒体文件的位置,以及文本片断的起始和 结束时间。
4、 根据权利要求1所述的基于文本片断的计算机汉字知识库采集系统, 其特征在于,在文本片断数据库中,利用网络地址URL指明文本片断所在 文本的位置。
5、 根据1-4任一权利要求所述的基于文本片断的计算机汉字知识库采 集系统,其特征在于,所述第三方系统为外部的论坛系统、电子邮件系统或即时通讯系统。
6、 根据权利要求5所述的基于文本片断的计算机汉字知识库采集系统,其特征在于,所述内部格式有如下组成部分本讨论标题,本讨论作者,本 讨论收件人,本讨论时间,本讨论内容,本讨论针对的文本片断,对本讨论 针对的文本片断的问题或解答。
7、 根据权利要求6所述的基于文本片断的计算机汉字知识库采集系统, 其特征在于,所述知识数据库的记录包括源文本片断、目标文本片断、连接 词以及属性信息,其中文本片断是文本片断数据库记录的文本片断。知识库 中记载的文本片断为该片断在文本片断库中的独特编号,无须复制该片断的 全部内容。
全文摘要
本发明公开了一种基于文本片断的计算机汉字知识库采集系统,包括文本片断数据库,保存文本片断记录,包括文本片断所在文本的位置以及文本片断在文本中的位置;讨论适配器,包括发送/接收单元,用于接收第三方系统的信息以及向第三方系统发送信息,以及格式转换单元,将讨论数据库中的内部格式与第三方系统的信息格式互相转换;讨论数据库,存储经过格式转换后的信息;知识数据库,用存储预先定义的连接词来定义文本片断之间的关系,以及该关系特有的属性。本发明把计算机汉字信息产生时附带的知识予以保存,大大节省了日后检索知识库所耗费的时间,能明显提高企事业单位对专业知识的使用,从而节省产品研发、客户服务和决策等的成本。
文档编号G06F17/30GK101286148SQ20071003941
公开日2008年10月15日 申请日期2007年4月12日 优先权日2007年4月12日
发明者胜 朱 申请人:上海思阔雅软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1